JP2006221569A

JP2006221569A - 文書処理システム、文書処理方法、プログラムおよび記憶媒体

Info

Publication number: JP2006221569A
Application number: JP2005036863A
Authority: JP
Inventors: Tomomi Takada; 智美高田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2005-02-14
Filing date: 2005-02-14
Publication date: 2006-08-24

Abstract

【課題】見開きのように１枚の論理ページと見なされる複数枚の物理ページからなる１枚のページに対しても、当該ページ中に含まれるマルチメディアデータに関連するメタデータを高い精度で抽出することができる文書処理システムを提供する。
【解決手段】互いに隣り合う２枚の物理ページを１枚の論理ページとするページ単位でのページ画像が入力され、入力されたページ画像のマルチメディアデータ領域とテキストデータ領域のそれぞれに関するレイアウトが解析される（Ｓ２０１）。次いで、レイアウトの解析結果に基づいた物理ページを対象とする解析および論理ページを対象とする解析とにより、入力されたページ画像の論理構造が解析される（Ｓ２０２）。そして、入力されたページ画像の論理構造と物理ページ構成および論理ページ構成とに基づいてページ画像に含まれるマルチメディアデータに関するメタデータが抽出される（Ｓ２０３）。
【選択図】図２

Description

本発明は、画像、音声などのマルチメディアデータおよびテキストデータが混在する文書から、マルチメディアデータに関するメタデータを抽出するための文書処理システム、文書処理方法、プログラムおよび記憶媒体に関する。

電子文書の普及に伴い、電子文書を有効活用したいという要求が高まりつつある。この電子文書の有効活用例について図１８を参照しながら説明する。図１８は電子文書の再利用サイクルの一例を模式的に示す図である。

一般に、図１８に示すように、作成された電子文書は、所望の目的を達成するために利用され、その利用後、パーソナルコンピュータ、ワークステーションなどの情報処理装置内のデータベースなどに蓄積、保管される。データベースに保管された電子文書は、文書の作成コストの削減を図るために、再利用される。例えばデータベースに保管された電子文書を再利用して新たな文書などを作成する際には、データベースの検索が行われ、この検索によって所望の電子文書が抽出される。そして、抽出された電子文書に対して編集または加工が施され、新たな文書が作成される。また、同様に、印刷文書をデータベースに蓄積し、その内容を再利用したいという要求がある。

印刷文書や電子文書を効率的に再利用するためには、データベースに蓄積されている大量の文書の中から所望の文書または情報を探し出すための検索技術が重要である。文書の中には、文字情報だけでなく、図、表、写真などの画像情報および音声情報などが含まれ場合もあり、画像情報および音声情報などは、特に利用頻度が高い情報であると考えられる。文字情報の検索を行う場合には、検索後を入力し、入力された検索語と文字情報のマッチングを行うことによって所望の文字情報を探し出すことができる。これに対し、画像情報の場合、それ自体が文字情報を持たないため、画像情報などに対して検索のためのメタデータを付加し、付加されたメタデータを用いて画像情報の検索が行われる。

このようなメタデータを画像情報に付加する方法として、画像を含む文書を画像領域と文字領域とにそれぞれ分割し、文字領域中から画像の内容を記述したテキストを抽出し、抽出したテキストと画像情報とを関連付ける方法がある（例えば特許文献１を参照）。この方法の場合、画像の内容を記述したテキストとして、文字領域から、キャプションと、キャプションに含まれる画像番号語を含むテキストとが抽出され、このテキストと、キャプションと最も距離が近い画像とが関連付けられる。また、例えば、文字領域から、画像が存在する方向や位置を示す語（画像指示語）を含むテキストが抽出され、画像指示語によって示された方向や位置、距離などからテキストと画像とが関連付けられる。また、例えば、同ページ内での画像と文字領域の空間的な距離が求められ、画像に対して最も近い距離に位置するテキストが抽出され、このテキストと画像との関連付けが行われる。

この方法は、主に、領域間の画素単位の距離によって、テキストと画像とを関連付けているが、空間的な距離のみで、テキストと画像との関連性を判断することはできない。例えば、複数の段組の文書で、画像に関連するテキストが画像とは異なる段に存在し、また、複数ページの文書において異なるページに画像とテキストが存在する場合などは、両者の間の空間的な距離が近くないので、上記方法によっては、画像と当該画像に関連するテキストとを関連付けることはできない。また、タイトルや見出しなどは、画像との空間的距離が近くなくても、画像との関連性が比較的高いと思われる。

また、上記方法においては、画像に関する語（画像番号語や画像指示語）によって、テキストと画像とが関連付けられているが、画像に関する語が、他の内容を説明するために、引用されていることもあり、当該語を含むテキストと画像との関連性を判断することはできない。よって、正確な関連付けを行うためには、文書を構成する要素の論理的な意味や関係、論理的な距離等、論理構造を解釈する必要がある。

文書画像を解析し、その論理構造を抽出し、構造化する技術としては、例えば、印刷文書をスキャンして得られた文書のページ画像から、テキスト、画像、セパレータなどの領域とそのレイアウト構造を抽出し、さらにテキスト領域からタイトル、ヘッダ、本文などの論理オブジェクトを抽出し、ページ内の論理オブジェクトに対して読み順や他の論理オブジェクトとの関係を決定し、ページ単位での論理構造を抽出する方法がある（例えば特許文献２を参照）。この方法においては、文書の論理構造を抽出するのみで、文書に含まれる画像領域に注目してテキスト領域との関係付けなどは行われていない。
特開平１１−０２５１１３号公報特開平１１−２５００４１号公報

上述した、メタデータを画像情報に付加する方法、文書画像を解析し、その論理構造を抽出し、構造化する方法のいずれの方法においても、ページを、文書の物理的な構成によるページ（物理ページ）として扱うのか、内容を単位とするページ（論理ページ）として扱うのかが明示されていない。

通常、文書を読み込む場合には、後に利用し易いように、実際には複数のページであっても、１つの内容をできるだけ１枚のページ画像として読み込むことが多い。例えば、雑誌や図面などを含む資料においては、向かい合った左右の２ページに１つの内容を記載する見開きがあり、これは物理的には２ページ、論理的には１ページとみなすことができるが、読み込んだ後に内容が理解され易いように、見開きである論理的なページを１枚のページ画像として読み込むことが多い。このような場合に、従来の方法のより、読み込まれたページ画像に対する解析処理を行うと、正しく解析することができないことがある。

１枚の論理ページとしてみなすことができる向かい合った左右の２枚の物理ページが１枚のページ画像として読み込まれた場合の画像例および１枚の物理ページが１枚のページ画像として読み込まれた場合の画像例について図１９および図２０を参照しながら説明する。図１９は１枚の論理ページとしてみなすことができる向かい合った左右の２枚の物理ページが１枚のページ画像として読み込まれた場合の画像例を示す図、図２０は１枚の物理ページが１枚のページ画像として読み込まれた場合の画像例を示す図である。

スキャナなどの入力機器によって、１枚の論理ページとしてみなすことができる向かい合った左右の２枚の物理ページを１枚のページ画像として読み込むと、例えば図１９に示すような１枚のページ画像３００が得られる。このページ画像３００には、左右の物理ページにそれぞれ対応するページのヘッダ３０１，３０２と、本文を構成する文字領域３０３〜３１０と、画像３１１，３１２と左右の物理ページにそれぞれ対応するフッタ３１３，３１４とが含まれる。各ヘッダ３０１，３０２には、文書のタイトルやロゴなどが表現されている。文字領域３０３，３０４は本文の章や節等の名前を示す小見出しであり、文字領域３０５〜３０９は本文の内容が記述されている段落である。文字領域３１０は、画像３１１に対するキャプションを示し、当該領域には、画像の番号や画像名が記述されている。フッタ３１３，３１４には、ページ番号が記述されている。ここで、図中の点線３１５は、左右の物理ページの境界位置を示す。

１枚の物理ページを１枚のページ画像として読み込むと、例えば図２０に示すような１枚のページ画像４００が得られる。画像４００には、ページのヘッダ４０１と、本文を構成する文字領域４０２〜４０４と、画像４０５、４０６と、ページのフッタ４０７とが含まれる。文字領域４０２は文書のタイトルを示し、文字領域４０３，４０４は、それぞれ本文の内容が記述されている段落を示す。フッタ４０７には、本例では、ページ番号が記述されている。

上述したメタデータを画像情報に付加する方法を用いて、図１９に示すような１枚のページ画像に対して、画像を検索するためのテキストを抽出する処理を行う場合、上記方法は空間的な距離によってテキストと画像との関連付けを行うので、検索に必要なテキストを抽出することができず、画像とテキストの関連付けを正しく行うことができない。

例えば、図１９の文字領域３０５（段落）に記述されている「上の図…」や、図２０の文字領域４０３（段落）に記述されている「右の図…」という言語表現は、論理的なページ上での画像に対する方向を指示していると考えられるため、図１９および図２０のように論理的な１ページが1枚のページ画像として読み込まれている場合には、ページ画像に対する物理ページ構成には関係なく、論理ページすなわちページ画像上の空間的な配置によって、画像と語を正しく対応付けることができる。

しかしながら、物理ページ上での位置関係を指示する言語表現が用いられている場合には、複数の物理ページからなるページ画像に対して、ページ画像単位でこれらの語に対する処理を行うと、間違ったページを処理対象とする可能性がある。例えば、図２０に示すページ画像は、１枚の論理ページとして見なされた１枚の物理ページから構成されているので、文字領域４０４に記述されている「次ページ…」は、図２０のページ画像の次に読み込まれたページ画像（図示せず）を指すことになり、問題はない。これに対し、図１９に示すページ画像は１枚の論理ページとして見なされた２枚の物理ページから構成されているので、文字領域３０６に記述されている「次ページ…」とは、次に読み込まれたページ画像ではなく、同じページ画像の左半分の部分を指すことになる。すなわち、間違ったページが処理対象とされることになる。

また、文書画像を解析し、その論理構造を抽出し、構造化する方法を用いて、図１９に示すようなページ画像に対して、解析処理を行うと、正しく論理構造を抽出できないことがある。

上記方法においては、抽出した論理オブジェクトに対して読み順が付与される。例えば図１９に示すようなページ画像に対して、段組規則などを適応して段落部分の読み順を判定すると、実際には、各文字領域に対する読み順が３０５→３０６→３０７→３０４→３０８→３０９という順番であるにも関わらず、文字領域３０５（段落）の次の領域が文字領域３０７（段落）になり、また文字領域３０６（段落）の次が文字領域３０９（段落）になるなど、正しい読み順を判定することができない。これは、ページ画像を解析対象としているためである。

本発明の目的は、見開きのように１枚の論理ページと見なされる複数枚の物理ページからなる１枚のページに対しても、当該ページ中に含まれるマルチメディアデータに関連するメタデータを高い精度で抽出することができる文書処理システム、文書処理方法、プログラムおよび記憶媒体を提供することにある。

本発明は、上記目的を達成するため、マルチメディアデータおよびテキストが混在する文書を、複数枚の物理ページを１枚の論理ページとみなすページ単位で入力する文書入力手段と、前記文書入力手段を介して前記ページ単位で入力されたページ毎に、マルチメディアデータ領域とテキストデータ領域とをそれぞれ抽出し、抽出された領域のそれぞれに関するレイアウトを解析するレイアウト解析手段と、前記入力されたページ毎に抽出された領域のそれぞれに関するレイアウトの解析結果に基づいて、物理ページを対象とする解析と論理ページを対象とする解析とをそれぞれ行い、入力されたページのそれぞれに対する論理構造を解析する論理構造解析手段と、前記入力されたページ毎に、その論理構造と、その物理ページ構成および論理ページ構成とに基づいて、ページに含まれるマルチメディアデータに関するメタデータを抽出するメタデータ抽出手段と、前記入力されたページ毎に、ページに含まれるマルチメディアデータと該マルチメディアデータに関するメタデータとを関連付けて格納する格納手段とを備えることを特徴とする文書処理システムを提供する。

本発明は、上記目的を達成するため、マルチメディアデータおよびテキストデータが混在する文書をページ単位で入力する文書入力手段と、前記文書入力手段を介して入力されるページ毎に、複数枚の物理ページから構成される１枚の論理ページであるか、１枚の物理ページから構成される１枚のページであるかを表すページ属性を付与するページ属性付与手段と、前記入力されたページ毎に、マルチメディアデータ領域とテキスト領域とをそれぞれ抽出し、抽出された領域のそれぞれに関するレイアウトを解析するレイアウト解析手段と、前記入力されたページ毎に、付与されたページ属性に応じた論理構造解析処理を行う論理構造解析手段と、前記入力されたページ毎に、その論理構造と、その物理ページ構成および論理ページ構成とに基づいて、ページに含まれるマルチメディアデータに関するメタデータを抽出するメタデータ抽出手段と、前記入力されたページ毎に、マルチメディアデータと該マルチメディアデータに関するメタデータとを関連付けて格納する格納手段とを備えることを特徴とする文書処理システムを提供する。

本発明は、上記目的を達成するため、マルチメディアデータおよびテキストデータが混在する文書をページ単位で入力する文書入力手段と、前記文書入力手段を介して入力されたページ毎に、マルチメディアデータ領域とテキスト領域とをそれぞれ抽出し、抽出された領域のそれぞれに関するレイアウトを解析するレイアウト解析手段と、前記入力されたページ毎に、その解析されたレイアウトに基づいて、複数枚の物理ページから構成される１枚の論理ページであるか、１枚の物理ページから構成される１枚のページであるかを判別する判別手段と、前記入力されたページ毎に、複数枚の物理ページから構成される１枚の論理ページであるか１枚の物理ページから構成される１枚のページであるかに応じて対応する論理構造解析処理を行う論理構造解析手段と、前記入力されたページ毎に、その論理構造と、その物理ページ構成および論理ページ構成とに基づいて、ページに含まれるマルチメディアデータに関するメタデータを抽出するメタデータ抽出手段と、前記入力されたページ毎に、ページに含まれるマルチメディアデータと該マルチメディアデータに関するメタデータとを関連付けて格納する格納手段とを備えることを特徴とする文書処理システムを提供する。

また、本発明は、上記目的を達成するため、上記文書処理システムのそれぞれに対応する、文書処理方法、プログラムおよび記憶媒体を提供する。

本発明によれば、見開きのように１枚の論理ページと見なされる複数枚の物理ページからなる１枚のページに対しても、当該ページ中に含まれるマルチメディアデータに関するメタデータを高い精度で抽出することができる。

以下、本発明の実施の形態について図面を参照しながら説明する。

（第１の実施の形態）
図１は本発明の第１の実施の形態に係る文書処理システムが構築されるコンピュータなどの情報処理装置の基本構成を示すブロック図である。

文書処理システムは、図１に示すような構成を有する情報処理装置により構築される。この情報処理装置は、ＲＯＭ１０２および外部記憶装置１０６に格納されているプログラムをＲＡＭ１０３上に読み出して実行することによってシステム制御および各種処理を実行するＣＰＵ１０１を備える。ＣＰＵ１０１には、システムバス１０５を介して、ＲＯＭ１０２、ＲＡＭ１０３、キーボード１０４、外部記憶装置１０６、表示器１０７、ＮＣＵ（Network Control Unit）１０８、およびスキャナ１０９が接続される。

キーボード１０４は、アルファベットキー、ひらがなキー、カタカナキー、句点などの文字記号入力キー、および、カーソル移動を指示するカーソル移動キーなどのような各種の機能キーを有するキーボードであり、ユーザによる各種入力操作環境を提供する。なお、マウスのようなポインティングデバイスを含むこともできる。また、キーボード104に代えて、ユーザからの各種入力操作環境を提供するものであれば、タッチパネル、スタイラスペンなどを使用することもできる。

外部記憶装置１０６は、各種アプリケーションおよび各種データなどを記憶するためのハードディスク装置からなる。また、ハードディスク装置に代えて、フロッピー（登録商標）ディスク、光ディスク、磁気ディスク、光磁気ディスク、磁気テープ、不揮発性のメモリカードなどの記憶媒体と、記憶媒体を駆動して記憶媒体へ情報を記録するドライブから構成される他の記憶装置を用いることもできる。

表示器１０７は、ＣＲＴ、液晶表示装置などのディスプレイから構成され、各種入力操作の状態および処理結果などをユーザに対して表示する。

ＮＣＵ１０８は、ＬＡＮ（Local Area Network）などのネットワークを介して、ネットワーク上のコンピュータ（図示せず）などの他の装置と通信を行うための通信デバイスであり、他の装置と通信してプログラムやデータを共有することが可能である。また、ＮＣＵ１０８は、ＲＳ２３２Ｃ、ＵＳＢ、ＩＥＥＥ１３９４、Ｐ１２８４、ＳＣＳＩ、モデム、Ethernet（登録商標）などの有線通信手段、Bluetooth、赤外線通信、IEEE802.11bなどの無線通信手段などで構成することができ、その通信手段の種類は問われない。

スキャナ１０９は、画像を読み取るためのイメージスキャナであり、セットされた紙原稿を１枚ずつ光学的に読み取り、読み取られた画像をデジタル画像データに変換して出力する。スキャナ１０９から出力された画像データは、外部記憶装置１０６やＲＡＭ１０３などに格納される。本実施の形態においては、スキャナ１０９を画像入力手段として用いているが、ＮＣＵ１０８によって接続されたネットワークスキャナ、コピー装置などを画像入力手段と用いることも可能である。また、スキャナ１０９、ネットワークスキャナ、コピー装置などの画像入力手段により入力された画像データを、外部記憶装置１０６やＲＡＭ１０３ではなく、ＮＣＵ１０８に接続されたサーバやコピー装置などの他の装置の記憶装置に格納するようにしてもよい。

上記構成を有する情報処理装置において、ＲＯＭ１０２または外部記憶装置１０６には、文書処理システムを構築するためのプログラムが格納されており、当該プログラムを実行することによって、情報処理装置上には、文書処理システムが構築されることになる。

文書処理システムを構築するためのプログラムは、文書登録処理のためのプログラムを含み、当該プログラムにより後述の図２〜図５に示すフローチャートの手順が実行される。

次に、本実施の形態における文書登録処理について図２〜図５を参照しながら説明する。図２は図１の情報処理装置上に構築される文書処理システムにおける文書登録処理の手順を示すフローチャート、図３は図２のステップＳ２０１の文書入力処理の詳細な手順を示すフローチャート、図４は図２のステップＳ２０２の論理構造解析処理の詳細な手順を示すフローチャート、図５は図２のステップＳ２０３の検索用メタデータ抽出処理の詳細な手順を示すフローチャートである。各図のフローチャートにより示す手順は、ＣＰＵ１０１により、上記文書処理システムを構築するためのプログラムに従って実行されるものである。

文書を登録する際には、図２に示すように、ＣＰＵ１０１は、まずステップＳ２０１において、文書入力処理を行う。この文書入力処理は、画像および文字列が混在した１ページまたは複数ページの紙文書を入力し、次の論理構造抽出処理のために、入力された文書画像を解析する。

詳細には、図３に示すように、ＣＰＵ１０１は、ステップＳ３０１において、文書毎に、複数枚の物理ページを１枚の論理ページとみなすページ単位で入力するか、１枚の物理ページを１枚のページとするページ単位で入力するかを表すページ属性を決定する。具体的には、文書毎に、入力するページ単位のページ画像を、２枚の物理ページから構成されている見開きの１枚のページ画像とするか１枚の物理ページから構成される見開きでない１枚のページ画像とするかを示すページ属性が決定される。このページ属性を決定する方法としては、例えば、キーボード１０４などを用いてユーザにより文書毎にページ属性を入力する方法、文書毎のページ属性をシステムに対して予め設定しておき、これを取得する方法などがあるが、これらの方法に限定されることはなく、他の方法でもかまわない。また、本実施の形態においては、文書を入力する前に、そのページ属性を決定する構成が採用されているが、文書を入力した後にそのページ属性を決定するようにしてもよい。

次いで、ＣＰＵ１０１は、ステップＳ３０２において、スキャナ１０９やネットワークに接続されたコピー機などの画像入力手段が画像および文字列が混在した紙原稿から読み取ったページ単位の画像を設定されたページ属性に対応するページ画像に変換して入力する。例えば、ページ属性として、複数枚の物理ページを１枚の論理ページとみなすページ単位で入力することが設定されている場合、互いに隣り合う２枚の物理ページを１枚の論理ページとするページ画像が入力される。以降、本実施の形態においては、互いに隣り合う２枚の物理ページを１枚の論理ページとするページ画像が入力された場合を説明する。上記画像入力手段から入力される画像としては、２値画像、カラー画像などがあり、これらの画像は、画像入力手段において、ノイズ除去処理や傾き補正処理が施されているものである。また、画像が入力された後に、これらの画像に対してノイズ除去処理や傾き補正処理を行うようにしてもよい。

次いで、ＣＰＵ１０１は、ステップＳ３０３において、入力された各ページ画像について領域分割を行い、文字、図、表、写真などの画像を内包する矩形領域を、その矩形の種類とサイズ、ページ内での位置座標などの物理的な情報とともに抽出する。抽出された矩形領域は、文字領域と画像領域とに区分される。文字領域については、縦書き・横書きなどの文字列の読み方向と文字サイズが検出され、それに基づいて文字列行と文字が抽出される。ここでは、文字列の方向が同じで、文字サイズと文字間値と行間値がほぼ均一である領域が１つの文字領域として抽出されるものとする。また、文字領域内の行方向の配置（字下げ、センタリング、揃えなど）を検出し、それに基づいて文字領域を行方向に分割することによって、さらに、行方向の配置が同じ領域を１つの文字領域としてもよい。画像領域については、写真、表、枠や線などが検出され、それらに基づいて画像領域が抽出される。入力された文書画像がカラー画像などの多値の画像である場合は、当該画像を２値画像に変換することによって、同様に領域分割処理を行うことができる。このステップでの領域分割方法としては、例えば特開平６−９６２７５号公報に記載されている方法などを利用することができるが、この方法に限定されるものではなく、文字領域、画像領域を抽出することが可能な方法であればよい。抽出された文字領域、画像領域に関する情報は、ＲＡＭ１０３または外部記憶装置１０６に格納される。

次いで、ＣＰＵ１０１は、ステップＳ３０４において、抽出された全ての文字領域に対して文字認識処理を行う。

例えば図１９に示す見開きのページ画像に対して領域抽出処理が行われた場合、各領域３０１〜３１２が抽出される。ここで、各領域３０１，３０２は、本文を構成する領域３０３〜３１２とは空間的に離れているため、それぞれ独立した文字または画像領域として抽出される。各領域３０３〜３１０は、それぞれ、文字領域であるが、文字列の方向が同じで、文字サイズと文字間値・行間値がほぼ均一であり、さらに行方向の配置（字下げ、センタリング、揃えなど）が同じである１つの文字領域として抽出される。領域３０４はと各領域３０７，３０８は、それぞれの文字サイズが異なり、また、領域３０４と領域３０７の間の距離、領域３０４と領域３０８の間の距離がそれぞれ離れていることから、本実施の形態においては、領域３０４は、領域３０７，３０８とは別の文字領域として抽出されている。各領域３１１，３１２は、画像領域であり、図として識別されている。また、図中の境界線３１５は、後述する処理で識別される物理ページの分割位置を示す。

上記領域抽出結果は一例であり、画像と文字の領域が抽出することができれば、他の領域抽出結果であってよい。例えば、領域３０４と領域３０８が1つの文字領域として抽出されてもよい。

例えば図６に示す物理ページと論理ページが同じ２ページの見開きでないページ画像に対して領域抽出処理が行われた場合、各領域１５０１〜１５１２が抽出される。ここで、各領域１５０１，１５０２はヘッダであり、各領域１５０３〜１５１０とは空間的に離れているため、独立した文字または画像領域として抽出される。各領域１５０３〜１５０７は、それぞれ、文字列の方向が同じで、文字サイズと文字間値および行間値がほぼ均一であり、さらに行方向の配置（字下げ、センタリング、揃えなど）が同じである文字領域として抽出される。各領域１５０３〜１５０７は、それぞれ、本文を構成する文字領域である。ここで、文字領域１５０３はタイトルを表す領域、領域１５０４は見出しを表す領域である。各領域１５０５〜１５０７は、それぞれ独立した、段落を表す領域として抽出される。各領域１５０８〜１５１０は画像領域であり、図として識別される。

上記領域抽出結果は一例であり、画像と文字の領域が抽出することができれば、他の領域抽出結果であってよい。例えば、領域１５０４と領域１５０５が1つの文字領域として抽出されていてもよいし、画像領域については図や写真などの画像の種類が抽出されていなくてもよい。

このように、実際には、図６に示すように、２ページの論理ページからなるページ画像が含まれる可能性もあるが、このようなページ画像も、図１９に示すページ画像と同様に見開きのページとして扱うこととする。

図７はある文書におけるページ画像や各ページ画像から抽出された領域についての各種物理的な情報の一例を示す。この文書例においては、ページ画像に対して、ページサイズや読み込み時の解像度、電子化されたページ画像データの格納位置などの物理的な情報が付与されている。また、抽出された各矩形領域に対して、文字領域、画像領域などの領域種別、矩形領域のサイズ、ページ内での位置座標などの物理的な情報が付与されている。さらに、文字領域については、縦書き・横書きなどの文字列の方向と文字サイズ、文字認識した結果である文字列が付与され、画像領域については、写真、表などの画像種別と、画像データの格納先が付与されている。例えば、ページ画像１は、幅２９０ｍｍ、高さ２１０ｍｍで、処理解像度が３００ｄｐｉであることを示しており、領域４は、Ｘ座標２０ｍｍ、Ｙ座標５０ｍｍの位置にある、幅５０ｍｍ、高さ１２．５ｍｍの文字領域であり、文字列「1. 製品構成」が文字サイズ１０ポイントで横方向に記述されていることを示している。

上記矩形領域の物理的な情報は、これに限定されるものではなく、次のステップＳ３０５において、レイアウト抽出を行うことができれば、他の情報が抽出されてもよい。例えば、図７の例においては、矩形領域のサイズと位置座標情報が抽出されているが、これに代えて、矩形領域の左上の位置座標と右下の位置座標を抽出するようにしてもよい。

次に、図３に戻り、ＣＰＵ１０１は、ステップＳ３０５において、レイアウト抽出処理を行い、矩形領域の物理的な情報に従って、文書の各ページ画像における各矩形領域の空間的な関係を抽出する。例えば、ページ画像内の２つの領域に対する空間的な関係として、互いの領域が存在する上下左右の方向、２つの領域が重なる、接する、含まれるなどの状態、２つの領域の大小関係などを、各矩形領域の位置座標やサイズを用いて演算し、各矩形領域の空間的な関係を求める。また、２つの領域が接していない場合には、隣接する各領域間のページ画像全体における距離の比較から、遠いまたは近いなどを判定する。また、文字領域については、ページ画像内の他の文字領域との位置を比較することによって、行方向の配置を抽出するようにしてもよい。

以上の解析結果は、ページ画像毎に木構造やネットワーク構造で表現することができる。ここで挙げた各矩形領域間の関係およびその表現方法は一例であり、他の関係が抽出されてもよいし、また解析結果を他の方法で表現してもよい。例えば、レイアウトとして、各矩形領域のページ画像全体に対する相対的な位置やサイズなどを抽出してもよい。

図８はあるページ画像における各領域の空間的な関係を抽出した結果の一例を示す。本例においては、ページ画像内の２つの領域に対する空間的な関係として、互いの領域が存在する上下左右の方向、２つの領域が重なる、接する、含まれるなどの状態、さらに、２つの領域が接していない場合には、隣接する２つの領域間の相対的な距離が、ネットワーク構造で表現されている。例えば、領域１と領域２の空間的な関係は、領域５が領域４の下にあり、接していないが、近い距離にあることを示している。

次いで、ＣＰＵ１０１は、ステップＳ３０６において、上記ステップＳ３０２で読み取られた文書の各ページ画像を物理ページ単位に分割し、各物理ページのサイズなどの情報を抽出する。そして、ＣＰＵ１０１は、ステップＳ３０７において、上記ステップＳ３０２で読み取られた文書の各ページ画像について、上記ステップＳ３０３の領域分割結果とステップＳ３０５のレイアウト抽出結果の補正を行う。領域分割結果に対する補正は、物理ページが異なることによる誤りが発生することを考慮して、ページ画像の中心付近に位置する領域について、上記ステップＳ３０３の領域分割の結果得られた領域の統合や分割を行う。例えば、同一の領域が、文書の編集上、物理ページの分割位置で分離され、または線があるなどして、ステップＳ３０３において別の領域として抽出される場合があるため、物理ページの分割位置付近の領域を他の領域に含まれる領域と識別することができる場合は、それぞれの領域が１つの領域に統合される。

また、各ページ画像における物理ページを対象としたレイアウト抽出処理が行われ、ステップＳ３０５のレイアウト抽出結果に、物理ページに対するレイアウト情報が追加される。物理ページ上でのレイアウト情報として、本実施の形態においては、各領域の位置とサイズから、各領域が分割された各物理ページのどちら側に属するか、または両方に属しているかなどの情報が追加される。補正方法や補正する情報は、上記に限定されているものではない。また、図６に示すようなページ画像が含まれている場合、物理ページの分割位置でレイアウト構成が明確に別れていると考えられるため、そのようなページ画像に対しては、実際には、本ステップＳ３０７の補正処理を行う必要がないと考えられる。

次いで、ＣＰＵ１０１は、ステップＳ３０８において、上記ステップＳ３０２で入力された文書画像とステップＳ３０１で決定された文書のページ属性とを関連付けて外部記憶装置１０６内のＤＢ（データベース）に格納する処理を行う。

図９は文書画像と文書画像のページ属性とを関連付けてＤＢへ格納する際のデータ構造の一例を示す。本例においては、各文書画像に対して、物理ページ構成を示す文書画像のページ属性、読み込まれたページ画像数、各ページ画像の各種情報へリンクするページ画像リストが付与されている。ここで、例えば文書画像１に対しては、文書画像のページ属性として「物理ページが２ページ（見開き）」などが付与されているが、格納される情報や格納方法はこれに限定されるものではない。

上述した図３に示す文書入力処理の詳細手順は一例であり、処理順序や処理の内容、処理結果はこれに限定されるものでない。また、本実施の形態においては、図、表、写真などの画像とテキストが混在した文書から、その画像およびその画像に関連するメタデータを抽出する場合の例について説明したが、文書に含まれるマルチメディアデータは、図、表、写真などの画像に限定されることはなく、動画や音声などの他のマルチメディアデータであってもよい。また、本実施の形態における文書入力処理においては、一例として、スキャナ１０９などの画像入力手段を用いて読み取られた紙文書の画像データを対象として説明したが、紙文書だけでなく、ワードプロセッサなどの編集ソフトウエアで作成した文書や、ＨＴＭＬなどで記述された文書、ＰＤＦなどのような形式の電子文書を処理対象とすることが可能である。ただし、電子文書の場合は、図３のステップＳ３０１の入力処理においてフォーマット変換などの処理が必要となる。また、電子文書を文字コードで保持している文書の場合は、図３のステップＳ３０３の文字認識処理は不要となる。

このようにして文書入力処理が終了すると、ＣＰＵ１０１は、図２に示すステップＳ２０２において、各領域に関する各種情報、レイアウト抽出結果、および文字領域に含まれる文字列の特徴などに基づいて、論理構造解析規則に従った解析を行い、文書の論理構造を抽出する。ここで、論理構造とは、抽出された領域やページに対して、論理的な意味属性を抽出して付与したもの、およびそれらの論理的な関係を推定して構造化したものである。論理構造解析規則には、前述の論理ページを処理対象とする規則と物理ページを処理対象とする規則がある。

詳細には、図４に示すように、ＣＰＵ１０１は、まずステップＳ４０１において、物理ページを対象とする規則に従って、見開きを構成する物理ページそれぞれに対して解析を行い、物理ページとの関係が深い領域の意味属性を抽出する。例えば、物理ページ内の最上部や最下部にあり他の領域とのレイアウト上の関連性が見出せない（距離が離れている、配置や特徴に関する共通性および規則性が少ないなど）領域、または文書内の他のページと同位置に同じ内容の領域が存在する場合、当該領域は、ヘッダやフッタの領域とみなすことができる。さらに、ヘッダやフッタに対して、文字列のパターンからページ番号を推定することができる。ここで挙げた意味属性および解析規則は一例であり、意味属性と解析規則には、様々なものがある。

次いで、ＣＰＵ１０１は、ステップＳ４０２において、論理ページに対する意味属性を推定する処理を行う。例えば、文書の先頭にあり、他のページに比べて空白が多く、文書内の他の文字と比較して特徴的な文字領域が存在するページは、当該文書における表紙ページと推定することができる。ページの意味属性は、文書内で特徴的なページに対して推定が可能なものであり、全てのページについて意味属性を付与することができるとは限らない。また、１つのページに対して唯一の意味属性を決定することができない場合は、複数の意味属性が付与されるようにしてもよく、その可能性の強さを示す数値などが付与されてもよい。

次いで、ＣＰＵ１０１は、ステップＳ４０３において、論理ページを対象とする規則に従って論理ページ単位で解析を行い、文書を構成する領域の意味属性を抽出する。例えば、文書内の他の文字領域と配置や文字についての共通性および規則性が低く、文字が特徴的である文字領域が、ヘッダを除いた文書の上部にあれば、当該領域はタイトル、それ以外の位置に出現すれば、当該領域は見出しであると推定することができる。また、写真、図、表の領域に対して最も近接した文字領域は、キャプションとして推定することができる。また、その他の文字領域は、本文の段落と推定することができる。線状の非文字領域については、配置からセパレータなどと推定することができる。ここで挙げた意味属性および解析規則は一例である。

上記ステップＳ４０１〜ステップＳ４０３において抽出される領域の意味属性は、文書内で特徴がある領域に対して推定可能なものであり、全ての領域について意味属性が推定することができるとは限らない。また、１つの領域に対して唯一の意味属性を決定することができない場合は、複数の意味属性が付与されてもよく、その可能性の強さを示す数値などが付与されてもよい。

次いで、ＣＰＵ１０１は、ステップＳ４０４において、見開きを構成している物理ページの読み順を決定する。物理ページの読み順は、文書の主な文字領域の読み方向から判定可能な組方向または上記ステップＳ４０１で推定されたページ番号を解釈することによって判別することができる。これは、物理ページの読み順を判別する方法の一例であり、これに限定されるものではない。

次いで、ＣＰＵ１０１は、ステップＳ４０５において、見開きの各物理ページに対する論理構造解析処理を行い、見出しや段落などの本文を構成する領域に対して、組方向や領域の種類、物理ページでの位置関係などから、物理ページにおける読み順と論理的な関係などを決定する。例えば、日本語で横組のページにおいては、文字領域に対して、同段の上から下へ、左から右の段へと読み順が付与される。また、キャプション領域は、その領域に最も近い画像領域と強い関係を有し、段落領域は、隣接する画像領域と参照関係を有する可能性がある。また、例えば、見出しや段落の配置、見出し文字列のパターン（行頭の数字、記号など）などを解釈することによって、階層関係を決定することができる。

次いで、ＣＰＵ１０１は、ステップＳ４０６において、見開きである論理ページに対する論理構造解析処理を行う。例えば、見出しや段落などの本文を構成する領域に対して、ステップＳ４０４で判別された物理ページの読み順、各領域の論理ページでの位置関係、ステップＳ４０５の結果などに基づいて、論理ページにおける読み順と論理的な関係などを決定する。図６に示すような見開きではないページ画像が含まれていた場合も、同様の処理が行われる。

このように、上記ステップＳ４０５およびステップＳ４０６においては、例えば、本文を構成する各領域の読み順、各領域に対する階層関係および参照関係などの論理的な関係などが推定され、論理構造が解析される。領域の読み順や論理的な関係は、唯一のものとして決定することができるとは限らないため、可能性がある数パターンをその可能性の高さを示す数値などとともに抽出するようにしてもよい。また、領域間の関係には、その関係の強さを示す数値などを付与してもよい。論理構造として抽出される内容は、必ずしも読み順やここで挙げた関係に限るものではない。

また、上記ステップＳ４０５とステップＳ４０６の結果に基づいて、文書内の前ページの領域との読み順や関係などが決定される。

また、文書の種類に応じてステップＳ４０５およびステップＳ４０６の解析方法を変えることにより、文書に応じた論理構造解析を行うようにしてもよい。例えば、論文や報告書などのように、画像が内容の記述に沿って配置されている文書の場合は、画像も含めて領域に読み順を付与することによって、読み順に従って画像領域と文字領域を強い参照関係で結ぶことができる。また、雑誌などのように、レイアウトの都合で、ページの上や下に複数の画像が固めて配置されている文書の場合は、内容の記述と画像の配置が必ずしも対応していないので、画像に読み順を付与することはできず、ある程度広い範囲で文字領域と画像領域を参照関係付ける必要がある。

次いで、ＣＰＵ１０１は、ステップＳ４０７において、文書内の全てのページ画像に対して上記処理が終了したか否かを判定し、文書内の全てのページ画像に対して上記終了が終了していなければ、ＣＰＵ１０１は、上記ステップＳ４０１に戻り、未処理のページ画像に対して処理を行う。これに対し、文書内の全てのページ画像に対して上記終了が終了すると、ＣＰＵ１０１は、本処理を終了する。

ここで、図４に示す手順は、本実施の形態における論理構造解析処理の一例であり、処理の順や処理内容は、これに限定されるものではない。例えば、論理構造として抽出する内容は、ページや領域の意味属性でなくてもよいし、読み順や参照・階層関係以外の関係を抽出してもよい。また、例えば、各物理ページと各論理ページに対する読み順や参照関係を決定した後で、文書全体に対して階層関係を抽出してもよい。

図１０は図４のフローチャートに従って文書の論理構造を解析した結果の一例を示しており、その解析結果は、抽出されたページと領域の意味属性、およびそれらの読み順や論理的関係などを表す。この論理構造の解析結果は、検索用メタデータ抽出規則を適応することができるものであれば、どのような形式、内容でもよい。

図１０に示す各ページ画像１，２，…は、読み込まれた文書の各ページ画像に関する論理情報であり、解析された論理ページに対する意味属性などを表す。また、図１０に示す各領域１，２，…は、ページ画像３から抽出された領域に関する論理情報であり、それぞれには、解析された領域に対する意味属性と、物理ページに対する位置が、物理ページの読み順に従って付与されている。ここで、図中のページや領域をつなぐ実線の矢印がページや領域の読み順を示す。また、矢印のない点線は包含関係を示し、点線の矢印は階層関係で、矢印の始点から終点に向かって上位（親）から下位（子）への階層であることを示す。太線は、見出し／キャプション／段落などの文字領域と、写真や図、表などの画像領域の参照関係を示す。例えば、ページ画像３には、領域１、領域２、…が含まれており、その中の意味属性が「見出し」の領域４の下の階層に、意味属性が「段落」の領域５、意味属性が「図」の領域６、…がそれぞれ存在する。また、意味属性が「図」の領域６とは、領域４、領域５、領域７、領域８、領域９、領域１１が参照関係で結ばれている。また、ページ画像３内の文字領域は、領域３、領域４、領域５、領域８、…の順に読み順が付与されていることを示す。

次に、図２に戻り、ＣＰＵ１０１は、ステップＳ２０３において、検索用メタデータ抽出処理を行う。ここでは、検索用メタデータ抽出規則を用いて、上記ステップＳ２０２で抽出された論理構造に従い、論理ページおよび物理ページの文字領域から写真、図、表などの画像に関連する検索用メタデータが抽出される。

詳細には、図５に示すように、ＣＰＵ１０１は、まずステップＳ５０１において、文書の論理構造解析結果から、検索対象となる領域を抽出する。ここでは、写真、図、表などの画像領域が検索対象とされる。また、画像領域以外の領域を検索対象として抽出してもよい。

次いで、ＣＰＵ１０１は、ステップＳ５０２において、メタデータの抽出対象となる領域を取得する。ここでは、画像領域と参照関係によって結ばれている文字領域およびその文字領域と階層関係によって結ばれている見出し領域が取得される。また、他の領域をメタデータの抽出対象として取得してもよい。

次いで、ＣＰＵ１０１は、ステップＳ５０３において、上記ステップＳ５０１で検索対象として抽出された全ての領域に対して、領域検索用メタデータ抽出規則に従って検索用メタデータを抽出する。ここでは、上記ステップＳ５０２で取得された文字領域の文字列の中から、画像領域について説明している文字列が取り出される。例えば、意味属性が「キャプション」である文字領域の文字列から、画像番号（「図１」など）と画像名（「システム構成図」など）が取り出され、キャプションの画像名が検索用メタデータとされる。また、意味属性が「段落」である文字領域から抽出した画像番号を含む文が、検索用メタデータとされる。

また、検索用メタデータ抽出規則には、文書の論理ページ構成や物理ページ構成を利用するものがある。例えば、「上（の）表」などのような画像の方向を示す語と画像を示す語を含む文が、検索用メタデータとして抽出され、その語が示す画像の方向と上記ステップＳ３０４で抽出された論理ページ内での各領域の空間的な関係とが照合されて、画像とメタデータとの関連付けが行われる。

ここで、図６に示すような見開きではないページ画像が含まれていた場合、画像とは別の物理ページの文字領域が参照関係によって結ばれている可能性もあるが、そのような場合でも、このような語は論理ページでの位置関係を示すために用いられていると考えられるため、間違って関連付けされることはないと考えられる。図６の「次（の）ページの図」のようなページの位置を示す語と画像を示す語を含む文（１５０６）が検索用メタデータとして抽出され、その語が示す物理ページの位置とページ画像の物理ページ構成とが照合されて、画像とメタデータとの関連付けが行われる。

以上は、検索用メタデータの例であり、これ以外に、様々なメタデータが考えられる。また、メタデータ抽出時に、メタデータとして抽出された理由を示す情報を出力してもよいし、抽出対象となった領域の意味属性や領域の位置関係等に従って、画像とメタデータの関係の強さを示す数値を出力してもよい。また、ここでは、文字領域に含まれる文字列を検索用メタデータとして抽出するが、文字列以外の情報を検索用メタデータとして抽出してもよい。

図５のフローチャートは検索用メタデータ抽出処理の一例を示すものであり、その処理の順や処理内容は、これに限定されるものではない。

次に、図２に戻り、ＣＰＵ１０１は、ステップＳ２０４において、上記ステップＳ２０３で抽出された領域（画像）と検索用メタデータとを関連付けてＤＢに格納する処理を行う。

図１１は抽出された画像と検索用メタデータとを関連付けてＤＢへ格納する際のデータ構造の一例を示す。図１１においては、ページ画像１に含まれる各画像に対して、それぞれ写真、図、表などの画像種別、画像データの格納位置またはファイル名、文書から抽出されたテキストなどがメタデータとして付与されていることが示されている。ここでは、例えば、画像Ａに対しては、画像種別として「写真」、ファイル名として「image000001.jpg」が付与され、画像について説明しているテキストとして文字列「写真１：○×◇」が、抽出対象となった領域の属性「キャプション」と、画像とテキストの関係の強さを示す値「３」とともに付与されている。格納される検索用メタデータや格納方法はこれに限定されるものではない。

次に、抽出されたメタデータを利用して、文書に含まれる画像を検索する場合の動作について詳細に説明する。

本実施の形態においては、図１１に示すような画像に関連付けられているメタデータを利用して検索が行われる。検索時には、ユーザにより検索キーワードやキーワードのリストなどの検索条件が入力され、入力された検索条件と各画像に関連付けられたメタデータとが対比され、該検索条件と適合するメタデータが付与されている画像が、見出されて検索結果として表示される。また、検索時に、検索条件と見出された各画像のメタデータとの類似度を計算し、この類似度に応じて検索条件に対応する画像を抽出するようにしてもよい。この類似度とは、ユーザにより入力された検索条件が、各画像に付与されたメタデータとの関係を示す表現としてどの程度適切であるかを示すものである。検索方法としては、その種類が問われることはなく、各種の検索方法が用いられる。

図１２は検索条件入力および検索結果表示が表示される検索画面の一例を示す。これは、パーソナルコンピュータなどの情報処理装置において、ウィンドウシステムを利用した場合の画面の例である。ここで、例えば、携帯電話、ＰＤＡなどの携帯端末などからネットワークを介して本文書処理システムにアクセスし、検索を行う場合には、携帯端末の画面サイズに応じた表示の形態で検索画面を表示するようにことが望ましい。

検索画面においては、図１２に示すように、タイトルバー１２１、複数のボタン１２２，１２３、検索条件入力欄１２４、ＯＫボタン１２５、検索結果一覧表示欄１２６、終了ボタン１２７が表示される。タイトルバー１２１は、このウィンドウのタイトル表示と、例えば移動や大きさの変更などの全体の操作とを行う部分である。

ボタン１２２，１２３は、このウィンドウに関する機能を提供するボタンで、ヘルプの表示やこのウィンドウを閉じる操作などを指示するためのものである。実際には、これ以外の機能を指示するためのボタンなどが表示される。

検索条件入力欄１２４は、画像を検索するための検索条件を入力するための領域であり、複数のキーワードやフレーズなどを空などで区切って入力して、論理演算ＡＮＤとＯＲのいずれかを指定することが可能である。また、図、表、写真などの画像の種別を空白などで区切って複数入力することにより、これらのＯＲを検索の条件として指定することが可能である。本画面例においては、画像の種別として、図または表が指定されている。

また、コンボボックスやリストなどで候補を表示し、表示された候補の中からユーザが所望の候補を選択するようにしてもよい。

また、入力したキーワードやキーフレーズに対して、キャプション、画像番号によるテキスト、見出しなどの検索対象とするテキストの種別や、検索対象とする重要度の範囲を指定することによって、検索の精度をユーザが指定することができるようにしてもよい。例えば、重要度３のテキストのみを検索対象とすれば、検索漏れはあるがノイズの少ない検索結果を得ることができる。ここで挙げた検索条件として設定する項目以外の項目を設定することも可能である。

ＯＫボタン１２５は、検索条件として、現在検索条件入力欄１２４に設定された内容を最終的に確定するためのボタンであり、ＯＫボタン１２５を押下されると、現在検索条件入力欄１２４に設定された内容が確定されて、検索処理が開始される。

検索結果一覧表示欄１２６は、検索結果の一覧を表示する領域であり、検索条件入力欄１２４において設定された検索条件に基づいて、各画像に関連つけられたメタデータを用いて画像を検索した結果の一覧を表示する。ここで、検索結果としては、検索条件に適合した画像のサムネイルの一覧が表示される。本例においては、画像のサムネイルのみが表示されているが、検索条件と各画像のメタデータとの類似度、画像が含まれている文書名など画像に関連する情報、または検索される根拠となるメタデータなどの各種情報を、画像のサムネイルと対応付け可能に表示するようにしてもよい。

終了ボタン１２７は、この画面を閉じる操作を指示するためのボタンである。

ここでは、検索条件の入力と検索結果の表示を同一の画面上で行う検索画面例を示したが、検索条件の入力と検索結果の表示とをそれぞれ別々の画面上で行うようにしてもよい。

上記検索画面に表示された検索結果の一覧が得られると、ユーザは、検索結果の一覧から、所望の画像のサムネイルを指定して選択する。画像のサムネイルが選択されると、選択された画像のサムネイルに対応するオリジナル画像の格納場所が表示され、または選択された画像のサムネイルに対応するオリジナル画像が直接呼び出されて表示される。このようにして、ユーザが所望するオリジナル画像を得ると、ユーザは得られたオリジナル画像をワープロなどの編集ソフトウエアを用いて編集、加工し、また、オリジナル画像を別の文書に挿入するなどの操作を行う。これにより、オリジナル画像の再利用を図ることが可能になる。これは、再利用方法の一例であり、これに限定されるものではない。

また、上記メタデータを利用することによって、文書および文書中のマルチメディアデータを蓄積する際に、これらを効率的に分類、整理、管理することができるようになる。例えば、メタデータとして付与されている語を分析して、関連するカテゴリなどを基準にして画像を分類することができる。分類するカテゴリなどはユーザにより与えられるものでもよい。また、画像を、クラスタリングなどの統計的手法によって自動的に分類するようにしてもよい。また、分類時に、カテゴリと各画像のメタデータの類似度などを求め、この類似度を分類に利用するようにしてもよい。

以上より、本実施の形態によれば、見開きのように１枚の論理ページと見なされる複数枚の物理ページからなる１枚のページに対しても、当該ページ中に含まれるマルチメディアデータに関連するメタデータを高い精度で抽出することができる。

また、抽出されたメタデータを利用することによって、マルチメディアデータをユーザの要求に応じて精度良く容易に検索することが可能になる。その結果、文書中のマルチメディアデータを効率的に再利用することができる。

また、抽出されたメタデータを利用することによって、文書および文書中のマルチメディアデータをＤＢへ蓄積する際に、マルチメディアに対する分類、整理、管理を効率的に行うことが可能になる。

（第２の実施の形態）
次に、本発明の第２の実施の形態について図１３〜図１６を参照しながら説明する。図１３は本発明の第２の実施の形態に係る文書処理システムにおける文書入力処理の詳細な手順を示すフローチャート、図１４は第２の実施の形態に係る文書処理システムにおける論理構造解析処理の詳細な手順を示すフローチャート、図１５は第２の実施の形態における文書画像と文書画像のページ属性とを関連付けてＤＢへ格納する際のデータ構造の一例を示す図、図１６は図１４のフローチャートに従って文書の論理構造を解析した結果の一例を示す図である。

本実施の形態は、上記第１の実施の形態と同じ構成を有し、その構成についての説明は省略する。また、本実施の形態の文書登録においては、上記第１の実施の形態と同様に、文書入力処理、論理構造解析処理、検索用メタデータ抽出処理、およびＤＢ登録処理が順に実行されるが、本実施の形態の文書入力処理および論理構造解析処理は、上記第１の実施の形態と異なるものである。よって、ここでは、文書入力処理および論理構造解析処理について説明する。

本実施の形態の文書入力処理においては、画像入力手段を介して文書を入力する際に、各ページに対して、見開きか否かなどの論理ページと物理ページの関連性についてのページ属性がユーザにより指定され、指定されたページ属性が対応するページに付与される。

具体的には、図１３に示すように、ＣＰＵ１０１は、まずステップＳ１３０１において、スキャナ１０９やネットワークに接続されたコピー機などの画像入力手段を用いて、画像および文字列が混在した紙文書のページ毎に読み取られたページ画像を入力する。

次いで、ＣＰＵ１０１は、ステップＳ１３０２において、文書の各ページ画像が、２枚の物理ページから構成される見開きのページ画像か、１枚の物理ページから構成される見開きでないページ画像かを示すページ属性を、ページ画像毎に付与する処理を行う。本実施の形態においては、キーボード１０４などを用いてユーザによりページ画像毎のページ属性が指示される方法、または読み込み時のページ画像を、その画像の向きによって、横長なら２枚の物理ページから構成される見開きページのページ画像、縦長なら１枚の物理ページがからなる見開きでないページ画像であると自動的に判定する方法が用いられる。また、ユーザによりページ画像毎のページ属性を指示する場合、例えば、各ページ画像をスキャンする前にページ画像毎にそのページ属性を指定するようにしてもよいし、ページ画像をスキャンする度に指定するのではなく、文書の全ページの入力前後に一括して各ページ画像に対してページ属性を指定するようにしてもよい。

次いで、ＣＰＵ１０１は、ステップＳ１３０３において、上記ステップＳ１３０１で入力されたページ画像と上記ステップＳ１３０２で付与されたページ画像のページ属性とを関連付けてＤＢに格納する。

ここでは、例えば図１５に示すように、各ページ画像に対して、物理ページ構成を示しているページ画像のページ属性、ページ画像データの格納位置またはファイル名が付与されている。例えばページ画像１に対しては、そのページ属性として、「物理ページが２ページ（見開き）」、ファイル名として「doc000001.jpg」が付与されている。

次いで、ＣＰＵ１０１は、ステップＳ１３０４において、文書の全てのページの入力が終了したか否かを判定する。ここで、全てのページの入力が終了していないと判定された場合、ＣＰＵ１０１は、上記ステップＳ１３０１に戻り、次のページの入力処理を行う。

これに対し、全てのページの入力が終了したと判定された場合、ＣＰＵ１０１は、ステップＳ１３０５において、上記ステップＳ１３０１で読み取られた文書の各ページ画像について領域分割を行い、文字、図、表、写真などの画像を内包する矩形領域を、その矩形の種類とサイズ、ページ内での位置座標などの物理的な情報とともに抽出する。このステップＳ１３０５の処理内容を、第１の実施の形態で説明したステップＳ３０３の処理内容と同じである。

次いで、ＣＰＵ１０１は、ステップＳ１３０６において、各ページ画像について向きの判別を行い、ページ画像が正方向でなければ、ページ画像を回転させて正方向になるように修正する。このページ画像の向きの判別と修正の方法としては、例えば特開平８−２１２２９８号公報や特開平８−２９３０００号公報などに示されるように、上記ステップＳ１３０５で抽出された文字を利用する方法がある。また、この方法に限定されるものではなく、ページ画像の向きの判別と修正が可能であれば、どのような方法でもかまわない。そして、回転させたページ画像に対して領域分割が行われ、上記ステップＳ１３０５で抽出された領域分割結果の補正が行われる。

次いで、ＣＰＵ１０１は、ステップＳ１３０７において、全ての文字領域に対して文字認識処理を行う。上記ステップＳ１３０５からステップＳ１３０７までのそれぞれの処理結果は、全て、ＲＡＭ１０３や外部記憶装置１０６に格納される。

次いで、ＣＰＵ１０１は、ステップＳ１３０８において、ステップＳ１３０１で入力されたページ画像のページ属性に基づいて当該ページ画像が２枚の物理ページから構成されている見開きのページ画像であるか、１枚の物理ページからなる見開きでないページ画像であるかを判定する。ここで、ページ画像が２枚の物理ページから構成されている見開きのページ画像である場合、ＣＰＵ１０１は、ステップＳ１３０９において、各ページ画像を物理ページ単位に分割し、各物理ページのサイズ等の情報を抽出する。このステップＳ１３０９の処理内容は、上記第１の実施の形態におけるステップＳ３０６の処理内容と同じである。そして、ＣＰＵ１０１は、ステップＳ１３１０において、１枚のページ画像が２枚の物理ページで構成されている場合に、ステップＳ１３０２の領域分割結果に対する補正を行う。この補正は、上記第１の実施の形態におけるステップＳ３０７で行われる補正と同じである。

次いで、ＣＰＵ１０１は、ステップＳ１３１１において、１枚のページ画像における各物理ページを対象としたレイアウト抽出処理を行い、矩形領域の物理的な情報に従って、ページ画像とそれを構成する各物理ページにおける各矩形領域の空間的な関係を抽出する。このステップＳ１３１１での処理内容は、上記第１の実施の形態におけるステップＳ３０５での処理内容と同じである。

次いで、ＣＰＵ１０１は、ステップＳ１３１３において、全てのページ画像に対する処理が終了したか否かを判定し、全てのページ画像に対する処理が終了していない場合、上記ステップＳ１３０８に戻り、次のページ画像に対する処理を行う。

上記ステップＳ１３０８においてページ画像が見開きでないページ画像であると判定された場合、ＣＰＵ１０１は、ステップＳ１３１２において、１枚のページ画像における物理ページを対象としたレイアウト抽出処理を行い、矩形領域の物理的な情報に従って、ページ画像とそれを構成する物理ページにおける各矩形領域の空間的な関係を抽出する。そして、ＣＰＵ１０１は、上記ステップＳ１３１３に進む。

このようにして文書入力処理が終了すると、論理構造解析処理が行われる。すなわち、ＣＰＵ１０１は、各領域に関する各種情報、レイアウト抽出結果、および文字領域に含まれる文字列の特徴などに基づいて、論理構造解析規則に従った解析を行い、文書の論理構造を抽出する。

詳細には、図１４に示すように、ＣＰＵ１０１は、まずステップＳ１４０１において、ページ画像が２枚の物理ページから構成される見開きのページ画像であるか、見開きでないページ画像であるかを判定する。ページ画像が２枚の物理ページから構成される見開きのページ画像である場合、ＣＰＵ１０１は、ステップＳ１４０２において、見開きを構成する各物理ページを対象とする規則に従って物理ページ単位で解析を行い、物理ページとの関係が深い領域の意味属性を抽出する。ページ画像が見開きでないページ画像である場合、ＣＰＵ１０１は、ステップＳ１４０３において、１枚の物理ページを対象とする規則に従って物理ページ単位で解析を行い、物理ページとの関係が深い領域の意味属性を抽出する。ステップＳ１４０２の処理内容は、上記第１の実施の形態のステップＳ４０１の処理内容と同じものである。

次いで、ＣＰＵ１０１は、ステップＳ１４０４において、論理ページに対する意味属性を推定する。このステップＳ１４０４の処理内容は、上記第１の実施の形態のステップＳ４０２の処理内容と同じものである。そして、ＣＰＵ１０１は、ステップＳ１４０５において、論理ページを対象とする規則に従って論理ページ単位で解析を行い、文書を構成する領域の意味属性を抽出する。このステップＳ１４０５の処理内容は、上記第１の実施の形態のステップＳ４０３の処理内容と同じものである。

次いで、ＣＰＵ１０１は、ステップＳ１４０６において、ページ画像の物理ページ構成についての判定を行い、ページ画像が２枚の物理ページから構成される場合すなわちページ画像が見開きのページ画像である場合、ステップＳ１４０７〜ステップＳ１４０９へ進み、ページ画像が１枚の物理ページから構成される場合は、ステップＳ１４１０へ進む。ここで、ステップＳ１４０７〜ステップＳ１４０９は、上記第１の実施の形態のステップＳ４０４〜ステップＳ４０６に相当するものであり、その説明は省略する。これに対して、ステップＳ１４１０においては、物理ページと論理ページが共通であるページ画像に対する解析が行われる。例えば、見出しや段落などの本文を構成する領域に対して、読み順と論理的な関係などが決定される。この結果に基づいて、文書内の前ページの領域との読み順や関係なども決定される。

次いで、ＣＰＵ１０１は、ステップＳ１４１１において、文書内の全てのページ画像に対して上記処理が終了したか否かを判定し、文書内の全てのページ画像に対して上記終了が終了していなければ、ＣＰＵ１０１は、上記ステップＳ１４０１に戻り、未処理のページ画像に対して処理を行う。これに対し、文書内の全てのページ画像に対して上記終了が終了すると、ＣＰＵ１０１は、本処理を終了する。

上述の処理により、文書の論理構造を解析した結果として、例えば図１５に示すような結果が得られる。本例において、各ページ画像１，２，…は、読み込まれた文書の各ページ画像に関する論理情報であり、それぞれには、上記ステップＳ１３０１で付与された物理ページ構成に関する情報、解析された論理ページに対する意味属性などが付与されている。また、各領域１，２，…は、ページ画像３から抽出された領域に関する論理情報であり、解析された領域に対する意味属性と、物理ページに対する位置とが、物理ページの読み順に従って付与されている。図中のページや領域をつなぐ実線の矢印は、ページや領域の読み順を示している。また、矢印のない点線は包含関係を示しており、点線の矢印は階層関係で、矢印の始点から終点に向かって上位（親）から下位（子）への階層であることを示している。太線は見出し・キャプション・段落等の文字領域と、写真や図、表等の画像領域の参照関係を示している。例えば、ページ画像３には、領域１，領域２，…が含まれており、その中の意味属性が「見出し」の領域４の下の階層に、意味属性が「段落」の領域５、意味属性が「図」の領域６，…が存在している。また、意味属性が「図」の領域６とは、領域４、領域５、領域７、領域８、領域９、領域１１が参照関係で結ばれている。また、ページ画像３内の文字領域は、領域３、領域４、領域５、領域８、…の順に読み順が付与されていることを示す。

以上より、本実施の形態によれば、上記第１の実施の形態と同様の効果を得ることができる。

（第３の実施の形態）
次に、本発明の第３の実施の形態について図１７を参照しながら説明する。図１７は本発明の第３の実施の形態に係る文書処理システムにおける文書入力処理の詳細な手順を示すフローチャートである。

本実施の形態は、上記第１の実施の形態と同じ構成を有し、その構成についての説明は省略する。また、本実施の形態の文書登録においては、上記第１の実施の形態と同様に、文書入力処理、論理構造解析処理、検索用メタデータ抽出処理、およびＤＢ登録処理が順に実行されるが、本実施の形態の文書入力処理および論理構造解析処理は、上記第１の実施の形態と異なるものである。但し、論理構造解析処理は、上記第２の実施の形態と同じものである。よって、ここでは、文書入力処理のみについて説明する。

本実施の形態の文書入力処理において、図１７に示すように、ＣＰＵ１０１は、まずステップＳ１７０１において、イメージスキャナ１０９やネットワークに接続されたコピー機などの画像入力手段が画像および文字列が混在した紙原稿から読み取ったページ単位の画像をページ画像として入力する。

次いで、ＣＰＵ１０１は、ステップＳ１７０２において、上記ステップＳ１７０１で入力された読み取られた文書の各ページ画像について領域分割を行い、文字、図、表、写真等の画像を内包する矩形領域を、その矩形の種類とサイズ、ページ内での位置座標等の物理的な情報とともに抽出する。

次いで、ＣＰＵ１０１は、ステップＳ１７０３において、各ページ画像について向きの判別を行い、ページ画像が正方向でなければ、ページ画像を回転させて正方向になるように修正する。続いて、ＣＰＵ１０１は、ステップＳ１７０４において、全ての文字領域に対して文字認識処理を行う。そして、ＣＰＵ１０１は、ステップＳ１７０５において、レイアウト抽出処理を行い、矩形領域の物理的な情報に従って、文書の各ページ画像における各矩形領域の空間的な関係を抽出する。

次いで、ＣＰＵ１０１は、ステップＳ１７０６において、ステップＳ１７０３で正方向に修正されたページ画像の縦横比率やステップＳ１７０５で抽出された領域のレイアウトなどに基づいて、文書の各ページ画像の物理ページ構成を識別し、ページ画像が２枚の物理ページから構成される見開きのページ画像であるか、１枚の物理ページから構成される見開きでないページ画像であるかを判別する。例えば、文書に横長のページ画像と縦長のページ画像が混在している場合は、横長のページ画像が物理ページ２ページである可能性があり、ページ画像の最上部・最下部にヘッダやページ番号と思われる左右（上下）対称の領域が存在するかなどによって、物理ページ構成を識別することができる。物理ページ構成の判別方法は、上記方法に限定されるものではない。

上記ステップＳ１７０６において１枚のページ画像が２枚の物理ページで構成されていると判定された場合、ＣＰＵ１０１は、ステップＳ１７０７において、ページ画像を物理ページ単位に分割し、各物理ページのサイズなどの情報を抽出する。続いて、ＣＰＵ１０１は、ステップＳ１７０８において、上記ステップＳ１７０２の領域分割結果とステップＳ１７０５のレイアウト抽出結果に対する補正を行う。

次いで、ＣＰＵ１０１は、ステップＳ１７０９において、全てのページ画像に対して物理ページ構成の判別が終了したか否かを判定する。未処理のページ画像がある場合、ＣＰＵ１０１は、上記ステップＳ１７０６に戻る。これに対し、全てのページ画像に対して物理ページ構成の判別が終了した場合、ＣＰＵ１０１は本処理を終了する。

また、本発明は、複数の機器（例えばホストコンピュータ、インタフェース機器、リーダ、プリンタなど）から構成されるシステムに適応しても、単一の機器からなる装置（例えば、複写機、ファクシミリ装置など）に適応してもよい。

なお、本発明の目的は、前述した実施形態の機能を実現するソフトウエアのプログラムコードを記録した記憶媒体（または記録媒体）を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることはいうまでもない。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。

また、プログラムコードを供給するための記憶媒体としては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＤＶＤ−ＲＷ、ＤＶＤ＋ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ等を用いることができる。または、プログラムコードを、ネットワークを介してダウンロードしてもよい。

また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム（ＯＳ）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。

さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。

本発明の第１の実施の形態に係る文書処理システムが構築されるコンピュータなどの情報処理装置の基本構成を示すブロック図である。図１の情報処理装置上に構築される文書処理システムにおける文書登録処理の手順を示すフローチャートである。図２のステップＳ２０１の文書入力処理の詳細な手順を示すフローチャートである。図２のステップＳ２０２の論理構造解析処理の詳細な手順を示すフローチャートである。図２のステップＳ２０３の検索用メタデータ抽出処理の詳細な手順を示すフローチャートである。物理ページと論理ページが同じ２ページの見開きでないページ画像の一例を示す図である。ある文書におけるページ画像や各ページ画像から抽出された領域についての各種物理的な情報の一例を示す図である。あるページ画像における各領域の空間的な関係を抽出した結果の一例を示す図である。文書画像と文書画像のページ属性とを関連付けてＤＢへ格納する際のデータ構造の一例を示す図である。図４のフローチャートに従って文書の論理構造を解析した結果の一例を示す図である。抽出された画像と検索用メタデータとを関連付けてＤＢへ格納する際のデータ構造の一例を示す図である。検索条件入力および検索結果表示が表示される検索画面の一例を示す図である。本発明の第２の実施の形態に係る文書処理システムにおける文書入力処理の詳細な手順を示すフローチャートである。第２の実施の形態に係る文書処理システムにおける論理構造解析処理の詳細な手順を示すフローチャートである。第２の実施の形態における文書画像と文書画像のページ属性とを関連付けてＤＢへ格納する際のデータ構造の一例を示す図である。図１４のフローチャートに従って文書の論理構造を解析した結果の一例を示す図である。本発明の第３の実施の形態に係る文書処理システムにおける文書入力処理の詳細な手順を示すフローチャートである。電子文書の再利用サイクルの一例を模式的に示す図である。１枚の論理ページとしてみなすことができる向かい合った左右の２枚の物理ページが１枚のページ画像として読み込まれた場合の画像例を示す図である。１枚の物理ページが１枚のページ画像として読み込まれた場合の画像例を示す図である。

符号の説明

１０１ＣＰＵ
１０２ＲＯＭ
１０３ＲＡＭ
１０４キーボード
１０６外部記憶装置
１０７表示器
１０８ＮＣＵ
１０９スキャナ

Claims

マルチメディアデータおよびテキストが混在する文書を、複数枚の物理ページを１枚の論理ページとみなすページ単位で入力する文書入力手段と、
前記文書入力手段を介して入力されたページ毎に、マルチメディアデータ領域とテキストデータ領域とをそれぞれ抽出し、抽出された領域のそれぞれに関するレイアウトを解析するレイアウト解析手段と、
前記入力されたページ毎に抽出された領域のそれぞれに関するレイアウトの解析結果に基づいて、物理ページを対象とする解析と論理ページを対象とする解析とをそれぞれ行い、入力されたページのそれぞれに対する論理構造を解析する論理構造解析手段と、
前記入力されたページ毎に、その論理構造と、その物理ページ構成および論理ページ構成とに基づいて、ページに含まれるマルチメディアデータに関するメタデータを抽出するメタデータ抽出手段と、
前記入力されたページ毎にページに含まれるマルチメディアデータと該マルチメディアデータに関するメタデータとを関連付けて格納する格納手段と
を備えることを特徴とする文書処理システム。
前記文書入力手段は、文書毎に、複数枚の物理ページを１枚の論理ページとみなすページ単位で入力するか、１枚の物理ページを１枚のページとするページ単位で入力するかを表すページ属性を決定するページ属性決定手段を有することを特徴とする請求項１記載の文書処理システム。
マルチメディアデータおよびテキストデータが混在する文書をページ単位で入力する文書入力手段と、
前記文書入力手段を介してページ単位で入力されるページ毎に、複数枚の物理ページから構成される１枚の論理ページであるか、１枚の物理ページから構成される１枚のページであるかを表すページ属性を付与するページ属性付与手段と、
前記入力されたページ毎に、マルチメディアデータ領域とテキスト領域とをそれぞれ抽出し、抽出された領域のそれぞれに関するレイアウトを解析するレイアウト解析手段と、
前記入力されたページ毎に、付与されたページ属性に応じた論理構造解析処理を行う論理構造解析手段と、
前記入力されたページ毎に、その論理構造と、その物理ページ構成および論理ページ構成とに基づいて、ページに含まれるマルチメディアデータに関するメタデータを抽出するメタデータ抽出手段と、
前記入力されたページ毎に、ページに含まれるマルチメディアデータと該マルチメディアデータに関するメタデータとを関連付けて格納する格納手段と
を備えることを特徴とする文書処理システム。
前記ページ属性付与手段は、前記文書入力手段を介して入力されるページ毎に、ユーザにより指示されたページ属性を付与することを特徴とする請求項３記載の文書処理システム。
前記ページ属性付与手段は、前記文書入力手段を介して入力されるページ毎に、ページ属性を判別すための解析を行い、該解析結果に基づいてページ属性を付与することを特徴とする請求項３記載の文書処理システム。
前記論理構造解析手段は、複数枚の物理ページから構成される１枚の論理ページであることを表すページ属性が付与されたページに対しては、その抽出されたレイアウトに基づいて、物理ページを対象とする解析と論理ページを対象とする解析とをそれぞれ行い、その論理構造を解析することを特徴とする請求項３記載の文書処理システム。
マルチメディアデータおよびテキストデータが混在する文書をページ単位で入力する文書入力手段と、
前記文書入力手段を介して入力されたページ毎に、マルチメディアデータ領域とテキスト領域とをそれぞれ抽出し、抽出された領域のそれぞれに関するレイアウトを解析するレイアウト解析手段と、
前記入力されたページ毎に、解析されたレイアウトに基づいて、複数枚の物理ページから構成される１枚の論理ページであるか、１枚の物理ページから構成される１枚のページであるかを判別する判別手段と、
前記入力されたページ毎に、複数枚の物理ページから構成される１枚の論理ページであるか１枚の物理ページから構成される１枚のページであるかに応じて対応する論理構造解析処理を行う論理構造解析手段と、
前記入力されたページ毎に、その論理構造と、その物理ページ構成および論理ページ構成とに基づいて、ページに含まれるマルチメディアデータに関するメタデータを抽出するメタデータ抽出手段と、
前記入力されたページ毎に、ページに含まれるマルチメディアデータと該マルチメディアデータに関するメタデータとを関連付けて格納する格納手段と
を備えることを特徴とする文書処理システム。
前記論理構造解析手段は、複数枚の物理ページから構成される１枚の論理ページであるページに対しては、その抽出されたレイアウトに基づいて、物理ページを対象とする解析と論理ページを対象とする解析とをそれぞれ行い、その論理構造を解析することを特徴とする請求項７記載の文書処理システム。
マルチメディアデータおよびテキストが混在する文書を、複数枚の物理ページを１枚の論理ページとみなすページ単位で入力する文書入力工程と、
前記ページ単位で入力されたページ毎に、マルチメディアデータ領域とテキストデータ領域とをそれぞれ抽出し、抽出された領域のそれぞれに関するレイアウトを解析するレイアウト解析工程と、
前記入力されたページ毎に抽出された領域のそれぞれに関するレイアウトの解析結果に基づいて、物理ページを対象とする解析と論理ページを対象とする解析とをそれぞれ行い、入力されたページのそれぞれに対する論理構造を解析する論理構造解析工程と、
前記入力されたページ毎に、その論理構造と、その物理ページ構成および論理ページ構成とに基づいて、ページに含まれるマルチメディアデータに関するメタデータを抽出するメタデータ抽出工程と、
前記入力されたページ毎に、ページに含まれるマルチメディアデータと該マルチメディアデータに関するメタデータとを関連付けて記憶装置へ格納する格納工程と
を有することを特徴とする文書処理方法。
前記文書入力工程では、文書毎に、複数枚の物理ページを１枚の論理ページとみなすページ単位で入力するか、１枚の物理ページを１枚のページとするページ単位で入力するかを表すページ属性を決定することを特徴とする請求項１７記載の文書処理システム。
マルチメディアデータおよびテキストデータが混在する文書をページ単位で入力する文書入力工程と、
前記文書入力工程で入力されるページ毎に、複数枚の物理ページから構成される１枚の論理ページであるか、１枚の物理ページから構成される１枚のページであるかを表すページ属性を付与するページ属性付与工程と、
前記入力されたページ毎に、マルチメディアデータ領域とテキスト領域とをそれぞれ抽出し、抽出された領域のそれぞれに関するレイアウトを解析するレイアウト解析工程と、
前記入力されたページ毎に、付与されたページ属性に応じた論理構造解析処理を行う論理構造解析工程と、
前記入力されたページ毎に、その論理構造と、その物理ページ構成および論理ページ構成とに基づいて、ページに含まれるマルチメディアデータに関するメタデータを抽出するメタデータ抽出工程と、
前記入力されたページ毎に、ページ含まれるマルチメディアデータと該マルチメディアデータに関するメタデータとを関連付けて記憶装置へ格納する格納工程と
を有することを特徴とする文書処理方法。
前記ページ属性付与工程では、前記文書入力工程で入力されるページ毎に、ユーザにより指示されたページ属性を付与することを特徴とする請求項１１記載の文書処理方法。
前記ページ属性付与工程では、前記文書入力工程で入力されるページ毎に、ページ属性を判別すための解析を行い、該解析結果に基づいてページ属性を付与することを特徴とする請求項１１記載の文書処理方法。
前記論理構造解析工程では、複数枚の物理ページから構成される１枚の論理ページであることを表すページ属性が付与されたページに対しては、その抽出されたレイアウトに基づいて、物理ページを対象とする解析と論理ページを対象とする解析とをそれぞれ行い、その論理構造を解析することを特徴とする請求項１１記載の文書処理方法。
マルチメディアデータおよびテキストデータが混在する文書をページ単位で入力する文書入力工程と、
前記文書入力工程で入力されたページ毎に、マルチメディアデータ領域とテキスト領域とをそれぞれ抽出し、抽出された領域のそれぞれに関するレイアウトを解析するレイアウト解析工程と、
前記入力されたページ毎に、その解析されたレイアウトに基づいて、複数枚の物理ページから構成される１枚の論理ページであるか、１枚の物理ページから構成される１枚のページであるかを判別する判別工程と、
前記文書入力工程で入力されたページ毎に、複数枚の物理ページから構成される１枚の論理ページであるか１枚の物理ページから構成される１枚のページであるかに応じて対応する論理構造解析処理を行う論理構造解析工程と、
前記入力されたページ毎に、その論理構造と、その物理ページ構成および論理ページ構成とに基づいて、ページに含まれるマルチメディアデータに関するメタデータを抽出するメタデータ抽出工程と、
前記入力されたページ毎に、ページに含まれるマルチメディアデータと該マルチメディアデータに関するメタデータとを関連付けて記憶装置へ格納する格納工程と
を有することを特徴とする文書処理方法。
前記論理構造解析工程では、複数枚の物理ページから構成される１枚の論理ページであるページに対しては、その抽出されたレイアウトに基づいて、物理ページを対象とする解析と論理ページを対象とする解析とをそれぞれ行い、その論理構造を解析することを特徴とする請求項１５記載の文書処理方法。
マルチメディアデータおよびテキストが混在する文書を、複数枚の物理ページを１枚の論理ページとみなすページ単位で入力する文書入力モジュールと、
前記文書入力モジュールにより前記ページ単位で入力されたページ毎に、マルチメディアデータ領域とテキストデータ領域とをそれぞれ抽出し、抽出された領域のそれぞれに関するレイアウトを解析するレイアウト解析モジュールと、
前記入力されたページ毎に抽出された領域のそれぞれに関するレイアウトの解析結果に基づいて、物理ページを対象とする解析と論理ページを対象とする解析とをそれぞれ行い、入力されたページのそれぞれに対する論理構造を解析する論理構造解析モジュールと、
前記入力されたページ毎に、その論理構造と、その物理ページ構成および論理ページ構成とに基づいて、ページに含まれるマルチメディアデータに関するメタデータを抽出するメタデータ抽出モジュールと、
前記入力されたページ毎に、ページに含まれるマルチメディアデータと該マルチメディアデータに関するメタデータとを関連付けて記憶装置へ格納する格納モジュールと
を有することを特徴とするプログラム。
マルチメディアデータおよびテキストデータが混在する文書をページ単位で入力する文書入力モジュールと、
前記文書入力モジュールにより入力されるページ毎に、複数枚の物理ページから構成される１枚の論理ページであるか、１枚の物理ページから構成される１枚のページであるかを表すページ属性を付与するページ属性付与モジュールと、
前記入力されたページ毎に、マルチメディアデータ領域とテキスト領域とをそれぞれ抽出し、抽出された領域のそれぞれに関するレイアウトを解析するレイアウト解析モジュールと、
前記入力されたページ毎に、付与されたページ属性に応じた論理構造解析処理を行う論理構造解析モジュールと、
前記入力されたページ毎に、その論理構造と、その物理ページ構成および論理ページ構成とに基づいて、ページに含まれるマルチメディアデータに関するメタデータを抽出するメタデータ抽出モジュールと、
前記入力されたページ毎に、ページに含まれるマルチメディアデータと該マルチメディアデータに関するメタデータとを関連付けて記憶装置へ格納する格納モジュールと
を有することを特徴とするプログラム。
マルチメディアデータおよびテキストデータが混在する文書をページ単位で入力する文書入力モジュールと、
前記文書入力モジュールにより入力されたページ毎に、マルチメディアデータ領域とテキスト領域とをそれぞれ抽出し、抽出された領域のそれぞれに関するレイアウトを解析するレイアウト解析モジュールと、
前記入力されたページ毎に、その解析されたレイアウトに基づいて、複数枚の物理ページから構成される１枚の論理ページであるか、１枚の物理ページから構成される１枚のページであるかを判別する判別モジュールと、
前記入力されたページ毎に、複数枚の物理ページから構成される１枚の論理ページであるか１枚の物理ページから構成される１枚のページであるかに応じて対応する論理構造解析処理を行う論理構造解析モジュールと、
前記入力されたページ毎に、その論理構造と、その物理ページ構成および論理ページ構成とに基づいて、ページに含まれるマルチメディアデータに関するメタデータを抽出するメタデータ抽出モジュールと、
前記入力されたページ毎に、ページに含まれるマルチメディアデータと該マルチメディアデータに関するメタデータとを関連付けて記憶装置へ格納する格納モジュールと
を有することを特徴とするプログラム。
請求項１７ないし１９のいずれか１つのプログラムをコンピュータ読み取り可能に格納したことを特徴とする記憶媒体。