JP2006221569A - 文書処理システム、文書処理方法、プログラムおよび記憶媒体 - Google Patents

文書処理システム、文書処理方法、プログラムおよび記憶媒体 Download PDF

Info

Publication number
JP2006221569A
JP2006221569A JP2005036863A JP2005036863A JP2006221569A JP 2006221569 A JP2006221569 A JP 2006221569A JP 2005036863 A JP2005036863 A JP 2005036863A JP 2005036863 A JP2005036863 A JP 2005036863A JP 2006221569 A JP2006221569 A JP 2006221569A
Authority
JP
Japan
Prior art keywords
page
input
document
logical
physical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005036863A
Other languages
English (en)
Inventor
Tomomi Takada
智美 高田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005036863A priority Critical patent/JP2006221569A/ja
Publication of JP2006221569A publication Critical patent/JP2006221569A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】 見開きのように1枚の論理ページと見なされる複数枚の物理ページからなる1枚のページに対しても、当該ページ中に含まれるマルチメディアデータに関連するメタデータを高い精度で抽出することができる文書処理システムを提供する。
【解決手段】 互いに隣り合う2枚の物理ページを1枚の論理ページとするページ単位でのページ画像が入力され、入力されたページ画像のマルチメディアデータ領域とテキストデータ領域のそれぞれに関するレイアウトが解析される(S201)。次いで、レイアウトの解析結果に基づいた物理ページを対象とする解析および論理ページを対象とする解析とにより、入力されたページ画像の論理構造が解析される(S202)。そして、入力されたページ画像の論理構造と物理ページ構成および論理ページ構成とに基づいてページ画像に含まれるマルチメディアデータに関するメタデータが抽出される(S203)。
【選択図】 図2

Description

本発明は、画像、音声などのマルチメディアデータおよびテキストデータが混在する文書から、マルチメディアデータに関するメタデータを抽出するための文書処理システム、文書処理方法、プログラムおよび記憶媒体に関する。
電子文書の普及に伴い、電子文書を有効活用したいという要求が高まりつつある。この電子文書の有効活用例について図18を参照しながら説明する。図18は電子文書の再利用サイクルの一例を模式的に示す図である。
一般に、図18に示すように、作成された電子文書は、所望の目的を達成するために利用され、その利用後、パーソナルコンピュータ、ワークステーションなどの情報処理装置内のデータベースなどに蓄積、保管される。データベースに保管された電子文書は、文書の作成コストの削減を図るために、再利用される。例えばデータベースに保管された電子文書を再利用して新たな文書などを作成する際には、データベースの検索が行われ、この検索によって所望の電子文書が抽出される。そして、抽出された電子文書に対して編集または加工が施され、新たな文書が作成される。また、同様に、印刷文書をデータベースに蓄積し、その内容を再利用したいという要求がある。
印刷文書や電子文書を効率的に再利用するためには、データベースに蓄積されている大量の文書の中から所望の文書または情報を探し出すための検索技術が重要である。文書の中には、文字情報だけでなく、図、表、写真などの画像情報および音声情報などが含まれ場合もあり、画像情報および音声情報などは、特に利用頻度が高い情報であると考えられる。文字情報の検索を行う場合には、検索後を入力し、入力された検索語と文字情報のマッチングを行うことによって所望の文字情報を探し出すことができる。これに対し、画像情報の場合、それ自体が文字情報を持たないため、画像情報などに対して検索のためのメタデータを付加し、付加されたメタデータを用いて画像情報の検索が行われる。
このようなメタデータを画像情報に付加する方法として、画像を含む文書を画像領域と文字領域とにそれぞれ分割し、文字領域中から画像の内容を記述したテキストを抽出し、抽出したテキストと画像情報とを関連付ける方法がある(例えば特許文献1を参照)。この方法の場合、画像の内容を記述したテキストとして、文字領域から、キャプションと、キャプションに含まれる画像番号語を含むテキストとが抽出され、このテキストと、キャプションと最も距離が近い画像とが関連付けられる。また、例えば、文字領域から、画像が存在する方向や位置を示す語(画像指示語)を含むテキストが抽出され、画像指示語によって示された方向や位置、距離などからテキストと画像とが関連付けられる。また、例えば、同ページ内での画像と文字領域の空間的な距離が求められ、画像に対して最も近い距離に位置するテキストが抽出され、このテキストと画像との関連付けが行われる。
この方法は、主に、領域間の画素単位の距離によって、テキストと画像とを関連付けているが、空間的な距離のみで、テキストと画像との関連性を判断することはできない。例えば、複数の段組の文書で、画像に関連するテキストが画像とは異なる段に存在し、また、複数ページの文書において異なるページに画像とテキストが存在する場合などは、両者の間の空間的な距離が近くないので、上記方法によっては、画像と当該画像に関連するテキストとを関連付けることはできない。また、タイトルや見出しなどは、画像との空間的距離が近くなくても、画像との関連性が比較的高いと思われる。
また、上記方法においては、画像に関する語(画像番号語や画像指示語)によって、テキストと画像とが関連付けられているが、画像に関する語が、他の内容を説明するために、引用されていることもあり、当該語を含むテキストと画像との関連性を判断することはできない。よって、正確な関連付けを行うためには、文書を構成する要素の論理的な意味や関係、論理的な距離等、論理構造を解釈する必要がある。
文書画像を解析し、その論理構造を抽出し、構造化する技術としては、例えば、印刷文書をスキャンして得られた文書のページ画像から、テキスト、画像、セパレータなどの領域とそのレイアウト構造を抽出し、さらにテキスト領域からタイトル、ヘッダ、本文などの論理オブジェクトを抽出し、ページ内の論理オブジェクトに対して読み順や他の論理オブジェクトとの関係を決定し、ページ単位での論理構造を抽出する方法がある(例えば特許文献2を参照)。この方法においては、文書の論理構造を抽出するのみで、文書に含まれる画像領域に注目してテキスト領域との関係付けなどは行われていない。
特開平11−025113号公報 特開平11−250041号公報
上述した、メタデータを画像情報に付加する方法、文書画像を解析し、その論理構造を抽出し、構造化する方法のいずれの方法においても、ページを、文書の物理的な構成によるページ(物理ページ)として扱うのか、内容を単位とするページ(論理ページ)として扱うのかが明示されていない。
通常、文書を読み込む場合には、後に利用し易いように、実際には複数のページであっても、1つの内容をできるだけ1枚のページ画像として読み込むことが多い。例えば、雑誌や図面などを含む資料においては、向かい合った左右の2ページに1つの内容を記載する見開きがあり、これは物理的には2ページ、論理的には1ページとみなすことができるが、読み込んだ後に内容が理解され易いように、見開きである論理的なページを1枚のページ画像として読み込むことが多い。このような場合に、従来の方法のより、読み込まれたページ画像に対する解析処理を行うと、正しく解析することができないことがある。
1枚の論理ページとしてみなすことができる向かい合った左右の2枚の物理ページが1枚のページ画像として読み込まれた場合の画像例および1枚の物理ページが1枚のページ画像として読み込まれた場合の画像例について図19および図20を参照しながら説明する。図19は1枚の論理ページとしてみなすことができる向かい合った左右の2枚の物理ページが1枚のページ画像として読み込まれた場合の画像例を示す図、図20は1枚の物理ページが1枚のページ画像として読み込まれた場合の画像例を示す図である。
スキャナなどの入力機器によって、1枚の論理ページとしてみなすことができる向かい合った左右の2枚の物理ページを1枚のページ画像として読み込むと、例えば図19に示すような1枚のページ画像300が得られる。このページ画像300には、左右の物理ページにそれぞれ対応するページのヘッダ301,302と、本文を構成する文字領域303〜310と、画像311,312と左右の物理ページにそれぞれ対応するフッタ313,314とが含まれる。各ヘッダ301,302には、文書のタイトルやロゴなどが表現されている。文字領域303,304は本文の章や節等の名前を示す小見出しであり、文字領域305〜309は本文の内容が記述されている段落である。文字領域310は、画像311に対するキャプションを示し、当該領域には、画像の番号や画像名が記述されている。フッタ313,314には、ページ番号が記述されている。ここで、図中の点線315は、左右の物理ページの境界位置を示す。
1枚の物理ページを1枚のページ画像として読み込むと、例えば図20に示すような1枚のページ画像400が得られる。画像400には、ページのヘッダ401と、本文を構成する文字領域402〜404と、画像405、406と、ページのフッタ407とが含まれる。文字領域402は文書のタイトルを示し、文字領域403,404は、それぞれ本文の内容が記述されている段落を示す。フッタ407には、本例では、ページ番号が記述されている。
上述したメタデータを画像情報に付加する方法を用いて、図19に示すような1枚のページ画像に対して、画像を検索するためのテキストを抽出する処理を行う場合、上記方法は空間的な距離によってテキストと画像との関連付けを行うので、検索に必要なテキストを抽出することができず、画像とテキストの関連付けを正しく行うことができない。
例えば、図19の文字領域305(段落)に記述されている「上の図…」や、図20の文字領域403(段落)に記述されている「右の図…」という言語表現は、論理的なページ上での画像に対する方向を指示していると考えられるため、図19および図20のように論理的な1ページが1枚のページ画像として読み込まれている場合には、ページ画像に対する物理ページ構成には関係なく、論理ページすなわちページ画像上の空間的な配置によって、画像と語を正しく対応付けることができる。
しかしながら、物理ページ上での位置関係を指示する言語表現が用いられている場合には、複数の物理ページからなるページ画像に対して、ページ画像単位でこれらの語に対する処理を行うと、間違ったページを処理対象とする可能性がある。例えば、図20に示すページ画像は、1枚の論理ページとして見なされた1枚の物理ページから構成されているので、文字領域404に記述されている「次ページ…」は、図20のページ画像の次に読み込まれたページ画像(図示せず)を指すことになり、問題はない。これに対し、図19に示すページ画像は1枚の論理ページとして見なされた2枚の物理ページから構成されているので、文字領域306に記述されている「次ページ…」とは、次に読み込まれたページ画像ではなく、同じページ画像の左半分の部分を指すことになる。すなわち、間違ったページが処理対象とされることになる。
また、文書画像を解析し、その論理構造を抽出し、構造化する方法を用いて、図19に示すようなページ画像に対して、解析処理を行うと、正しく論理構造を抽出できないことがある。
上記方法においては、抽出した論理オブジェクトに対して読み順が付与される。例えば図19に示すようなページ画像に対して、段組規則などを適応して段落部分の読み順を判定すると、実際には、各文字領域に対する読み順が305→306→307→304→308→309という順番であるにも関わらず、文字領域305(段落)の次の領域が文字領域307(段落)になり、また文字領域306(段落)の次が文字領域309(段落)になるなど、正しい読み順を判定することができない。これは、ページ画像を解析対象としているためである。
本発明の目的は、見開きのように1枚の論理ページと見なされる複数枚の物理ページからなる1枚のページに対しても、当該ページ中に含まれるマルチメディアデータに関連するメタデータを高い精度で抽出することができる文書処理システム、文書処理方法、プログラムおよび記憶媒体を提供することにある。
本発明は、上記目的を達成するため、マルチメディアデータおよびテキストが混在する文書を、複数枚の物理ページを1枚の論理ページとみなすページ単位で入力する文書入力手段と、前記文書入力手段を介して前記ページ単位で入力されたページ毎に、マルチメディアデータ領域とテキストデータ領域とをそれぞれ抽出し、抽出された領域のそれぞれに関するレイアウトを解析するレイアウト解析手段と、前記入力されたページ毎に抽出された領域のそれぞれに関するレイアウトの解析結果に基づいて、物理ページを対象とする解析と論理ページを対象とする解析とをそれぞれ行い、入力されたページのそれぞれに対する論理構造を解析する論理構造解析手段と、前記入力されたページ毎に、その論理構造と、その物理ページ構成および論理ページ構成とに基づいて、ページに含まれるマルチメディアデータに関するメタデータを抽出するメタデータ抽出手段と、前記入力されたページ毎に、ページに含まれるマルチメディアデータと該マルチメディアデータに関するメタデータとを関連付けて格納する格納手段とを備えることを特徴とする文書処理システムを提供する。
本発明は、上記目的を達成するため、マルチメディアデータおよびテキストデータが混在する文書をページ単位で入力する文書入力手段と、前記文書入力手段を介して入力されるページ毎に、複数枚の物理ページから構成される1枚の論理ページであるか、1枚の物理ページから構成される1枚のページであるかを表すページ属性を付与するページ属性付与手段と、前記入力されたページ毎に、マルチメディアデータ領域とテキスト領域とをそれぞれ抽出し、抽出された領域のそれぞれに関するレイアウトを解析するレイアウト解析手段と、前記入力されたページ毎に、付与されたページ属性に応じた論理構造解析処理を行う論理構造解析手段と、前記入力されたページ毎に、その論理構造と、その物理ページ構成および論理ページ構成とに基づいて、ページに含まれるマルチメディアデータに関するメタデータを抽出するメタデータ抽出手段と、前記入力されたページ毎に、マルチメディアデータと該マルチメディアデータに関するメタデータとを関連付けて格納する格納手段とを備えることを特徴とする文書処理システムを提供する。
本発明は、上記目的を達成するため、マルチメディアデータおよびテキストデータが混在する文書をページ単位で入力する文書入力手段と、前記文書入力手段を介して入力されたページ毎に、マルチメディアデータ領域とテキスト領域とをそれぞれ抽出し、抽出された領域のそれぞれに関するレイアウトを解析するレイアウト解析手段と、前記入力されたページ毎に、その解析されたレイアウトに基づいて、複数枚の物理ページから構成される1枚の論理ページであるか、1枚の物理ページから構成される1枚のページであるかを判別する判別手段と、前記入力されたページ毎に、複数枚の物理ページから構成される1枚の論理ページであるか1枚の物理ページから構成される1枚のページであるかに応じて対応する論理構造解析処理を行う論理構造解析手段と、前記入力されたページ毎に、その論理構造と、その物理ページ構成および論理ページ構成とに基づいて、ページに含まれるマルチメディアデータに関するメタデータを抽出するメタデータ抽出手段と、前記入力されたページ毎に、ページに含まれるマルチメディアデータと該マルチメディアデータに関するメタデータとを関連付けて格納する格納手段とを備えることを特徴とする文書処理システムを提供する。
また、本発明は、上記目的を達成するため、上記文書処理システムのそれぞれに対応する、文書処理方法、プログラムおよび記憶媒体を提供する。
本発明によれば、見開きのように1枚の論理ページと見なされる複数枚の物理ページからなる1枚のページに対しても、当該ページ中に含まれるマルチメディアデータに関するメタデータを高い精度で抽出することができる。
以下、本発明の実施の形態について図面を参照しながら説明する。
(第1の実施の形態)
図1は本発明の第1の実施の形態に係る文書処理システムが構築されるコンピュータなどの情報処理装置の基本構成を示すブロック図である。
文書処理システムは、図1に示すような構成を有する情報処理装置により構築される。この情報処理装置は、ROM102および外部記憶装置106に格納されているプログラムをRAM103上に読み出して実行することによってシステム制御および各種処理を実行するCPU101を備える。CPU101には、システムバス105を介して、ROM102、RAM103、キーボード104、外部記憶装置106、表示器107、NCU(Network Control Unit)108、およびスキャナ109が接続される。
キーボード104は、アルファベットキー、ひらがなキー、カタカナキー、句点などの文字記号入力キー、および、カーソル移動を指示するカーソル移動キーなどのような各種の機能キーを有するキーボードであり、ユーザによる各種入力操作環境を提供する。なお、マウスのようなポインティングデバイスを含むこともできる。また、キーボード104に代えて、ユーザからの各種入力操作環境を提供するものであれば、タッチパネル、スタイラスペンなどを使用することもできる。
外部記憶装置106は、各種アプリケーションおよび各種データなどを記憶するためのハードディスク装置からなる。また、ハードディスク装置に代えて、フロッピー(登録商標)ディスク、光ディスク、磁気ディスク、光磁気ディスク、磁気テープ、不揮発性のメモリカードなどの記憶媒体と、記憶媒体を駆動して記憶媒体へ情報を記録するドライブから構成される他の記憶装置を用いることもできる。
表示器107は、CRT、液晶表示装置などのディスプレイから構成され、各種入力操作の状態および処理結果などをユーザに対して表示する。
NCU108は、LAN(Local Area Network)などのネットワークを介して、ネットワーク上のコンピュータ(図示せず)などの他の装置と通信を行うための通信デバイスであり、他の装置と通信してプログラムやデータを共有することが可能である。また、NCU108は、RS232C、USB、IEEE1394、P1284、SCSI、モデム、Ethernet(登録商標)などの有線通信手段、Bluetooth、赤外線通信、IEEE802.11bなどの無線通信手段などで構成することができ、その通信手段の種類は問われない。
スキャナ109は、画像を読み取るためのイメージスキャナであり、セットされた紙原稿を1枚ずつ光学的に読み取り、読み取られた画像をデジタル画像データに変換して出力する。スキャナ109から出力された画像データは、外部記憶装置106やRAM103などに格納される。本実施の形態においては、スキャナ109を画像入力手段として用いているが、NCU108によって接続されたネットワークスキャナ、コピー装置などを画像入力手段と用いることも可能である。また、スキャナ109、ネットワークスキャナ、コピー装置などの画像入力手段により入力された画像データを、外部記憶装置106やRAM103ではなく、NCU108に接続されたサーバやコピー装置などの他の装置の記憶装置に格納するようにしてもよい。
上記構成を有する情報処理装置において、ROM102または外部記憶装置106には、文書処理システムを構築するためのプログラムが格納されており、当該プログラムを実行することによって、情報処理装置上には、文書処理システムが構築されることになる。
文書処理システムを構築するためのプログラムは、文書登録処理のためのプログラムを含み、当該プログラムにより後述の図2〜図5に示すフローチャートの手順が実行される。
次に、本実施の形態における文書登録処理について図2〜図5を参照しながら説明する。図2は図1の情報処理装置上に構築される文書処理システムにおける文書登録処理の手順を示すフローチャート、図3は図2のステップS201の文書入力処理の詳細な手順を示すフローチャート、図4は図2のステップS202の論理構造解析処理の詳細な手順を示すフローチャート、図5は図2のステップS203の検索用メタデータ抽出処理の詳細な手順を示すフローチャートである。各図のフローチャートにより示す手順は、CPU101により、上記文書処理システムを構築するためのプログラムに従って実行されるものである。
文書を登録する際には、図2に示すように、CPU101は、まずステップS201において、文書入力処理を行う。この文書入力処理は、画像および文字列が混在した1ページまたは複数ページの紙文書を入力し、次の論理構造抽出処理のために、入力された文書画像を解析する。
詳細には、図3に示すように、CPU101は、ステップS301において、文書毎に、複数枚の物理ページを1枚の論理ページとみなすページ単位で入力するか、1枚の物理ページを1枚のページとするページ単位で入力するかを表すページ属性を決定する。具体的には、文書毎に、入力するページ単位のページ画像を、2枚の物理ページから構成されている見開きの1枚のページ画像とするか1枚の物理ページから構成される見開きでない1枚のページ画像とするかを示すページ属性が決定される。このページ属性を決定する方法としては、例えば、キーボード104などを用いてユーザにより文書毎にページ属性を入力する方法、文書毎のページ属性をシステムに対して予め設定しておき、これを取得する方法などがあるが、これらの方法に限定されることはなく、他の方法でもかまわない。また、本実施の形態においては、文書を入力する前に、そのページ属性を決定する構成が採用されているが、文書を入力した後にそのページ属性を決定するようにしてもよい。
次いで、CPU101は、ステップS302において、スキャナ109やネットワークに接続されたコピー機などの画像入力手段が画像および文字列が混在した紙原稿から読み取ったページ単位の画像を設定されたページ属性に対応するページ画像に変換して入力する。例えば、ページ属性として、複数枚の物理ページを1枚の論理ページとみなすページ単位で入力することが設定されている場合、互いに隣り合う2枚の物理ページを1枚の論理ページとするページ画像が入力される。以降、本実施の形態においては、互いに隣り合う2枚の物理ページを1枚の論理ページとするページ画像が入力された場合を説明する。上記画像入力手段から入力される画像としては、2値画像、カラー画像などがあり、これらの画像は、画像入力手段において、ノイズ除去処理や傾き補正処理が施されているものである。また、画像が入力された後に、これらの画像に対してノイズ除去処理や傾き補正処理を行うようにしてもよい。
次いで、CPU101は、ステップS303において、入力された各ページ画像について領域分割を行い、文字、図、表、写真などの画像を内包する矩形領域を、その矩形の種類とサイズ、ページ内での位置座標などの物理的な情報とともに抽出する。抽出された矩形領域は、文字領域と画像領域とに区分される。文字領域については、縦書き・横書きなどの文字列の読み方向と文字サイズが検出され、それに基づいて文字列行と文字が抽出される。ここでは、文字列の方向が同じで、文字サイズと文字間値と行間値がほぼ均一である領域が1つの文字領域として抽出されるものとする。また、文字領域内の行方向の配置(字下げ、センタリング、揃えなど)を検出し、それに基づいて文字領域を行方向に分割することによって、さらに、行方向の配置が同じ領域を1つの文字領域としてもよい。画像領域については、写真、表、枠や線などが検出され、それらに基づいて画像領域が抽出される。入力された文書画像がカラー画像などの多値の画像である場合は、当該画像を2値画像に変換することによって、同様に領域分割処理を行うことができる。このステップでの領域分割方法としては、例えば特開平6−96275号公報に記載されている方法などを利用することができるが、この方法に限定されるものではなく、文字領域、画像領域を抽出することが可能な方法であればよい。抽出された文字領域、画像領域に関する情報は、RAM103または外部記憶装置106に格納される。
次いで、CPU101は、ステップS304において、抽出された全ての文字領域に対して文字認識処理を行う。
例えば図19に示す見開きのページ画像に対して領域抽出処理が行われた場合、各領域301〜312が抽出される。ここで、各領域301,302は、本文を構成する領域303〜312とは空間的に離れているため、それぞれ独立した文字または画像領域として抽出される。各領域303〜310は、それぞれ、文字領域であるが、文字列の方向が同じで、文字サイズと文字間値・行間値がほぼ均一であり、さらに行方向の配置(字下げ、センタリング、揃えなど)が同じである1つの文字領域として抽出される。領域304はと各領域307,308は、それぞれの文字サイズが異なり、また、領域304と領域307の間の距離、領域304と領域308の間の距離がそれぞれ離れていることから、本実施の形態においては、領域304は、領域307,308とは別の文字領域として抽出されている。各領域311,312は、画像領域であり、図として識別されている。また、図中の境界線315は、後述する処理で識別される物理ページの分割位置を示す。
上記領域抽出結果は一例であり、画像と文字の領域が抽出することができれば、他の領域抽出結果であってよい。例えば、領域304と領域308が1つの文字領域として抽出されてもよい。
例えば図6に示す物理ページと論理ページが同じ2ページの見開きでないページ画像に対して領域抽出処理が行われた場合、各領域1501〜1512が抽出される。ここで、各領域1501,1502はヘッダであり、各領域1503〜1510とは空間的に離れているため、独立した文字または画像領域として抽出される。各領域1503〜1507は、それぞれ、文字列の方向が同じで、文字サイズと文字間値および行間値がほぼ均一であり、さらに行方向の配置(字下げ、センタリング、揃えなど)が同じである文字領域として抽出される。各領域1503〜1507は、それぞれ、本文を構成する文字領域である。ここで、文字領域1503はタイトルを表す領域、領域1504は見出しを表す領域である。各領域1505〜1507は、それぞれ独立した、段落を表す領域として抽出される。各領域1508〜1510は画像領域であり、図として識別される。
上記領域抽出結果は一例であり、画像と文字の領域が抽出することができれば、他の領域抽出結果であってよい。例えば、領域1504と領域1505が1つの文字領域として抽出されていてもよいし、画像領域については図や写真などの画像の種類が抽出されていなくてもよい。
このように、実際には、図6に示すように、2ページの論理ページからなるページ画像が含まれる可能性もあるが、このようなページ画像も、図19に示すページ画像と同様に見開きのページとして扱うこととする。
図7はある文書におけるページ画像や各ページ画像から抽出された領域についての各種物理的な情報の一例を示す。この文書例においては、ページ画像に対して、ページサイズや読み込み時の解像度、電子化されたページ画像データの格納位置などの物理的な情報が付与されている。また、抽出された各矩形領域に対して、文字領域、画像領域などの領域種別、矩形領域のサイズ、ページ内での位置座標などの物理的な情報が付与されている。さらに、文字領域については、縦書き・横書きなどの文字列の方向と文字サイズ、文字認識した結果である文字列が付与され、画像領域については、写真、表などの画像種別と、画像データの格納先が付与されている。例えば、ページ画像1は、幅290mm、高さ210mmで、処理解像度が300dpiであることを示しており、領域4は、X座標20mm、Y座標50mmの位置にある、幅50mm、高さ12.5mmの文字領域であり、文字列「1. 製品構成」が文字サイズ10ポイントで横方向に記述されていることを示している。
上記矩形領域の物理的な情報は、これに限定されるものではなく、次のステップS305において、レイアウト抽出を行うことができれば、他の情報が抽出されてもよい。例えば、図7の例においては、矩形領域のサイズと位置座標情報が抽出されているが、これに代えて、矩形領域の左上の位置座標と右下の位置座標を抽出するようにしてもよい。
次に、図3に戻り、CPU101は、ステップS305において、レイアウト抽出処理を行い、矩形領域の物理的な情報に従って、文書の各ページ画像における各矩形領域の空間的な関係を抽出する。例えば、ページ画像内の2つの領域に対する空間的な関係として、互いの領域が存在する上下左右の方向、2つの領域が重なる、接する、含まれるなどの状態、2つの領域の大小関係などを、各矩形領域の位置座標やサイズを用いて演算し、各矩形領域の空間的な関係を求める。また、2つの領域が接していない場合には、隣接する各領域間のページ画像全体における距離の比較から、遠いまたは近いなどを判定する。また、文字領域については、ページ画像内の他の文字領域との位置を比較することによって、行方向の配置を抽出するようにしてもよい。
以上の解析結果は、ページ画像毎に木構造やネットワーク構造で表現することができる。ここで挙げた各矩形領域間の関係およびその表現方法は一例であり、他の関係が抽出されてもよいし、また解析結果を他の方法で表現してもよい。例えば、レイアウトとして、各矩形領域のページ画像全体に対する相対的な位置やサイズなどを抽出してもよい。
図8はあるページ画像における各領域の空間的な関係を抽出した結果の一例を示す。本例においては、ページ画像内の2つの領域に対する空間的な関係として、互いの領域が存在する上下左右の方向、2つの領域が重なる、接する、含まれるなどの状態、さらに、2つの領域が接していない場合には、隣接する2つの領域間の相対的な距離が、ネットワーク構造で表現されている。例えば、領域1と領域2の空間的な関係は、領域5が領域4の下にあり、接していないが、近い距離にあることを示している。
次いで、CPU101は、ステップS306において、上記ステップS302で読み取られた文書の各ページ画像を物理ページ単位に分割し、各物理ページのサイズなどの情報を抽出する。そして、CPU101は、ステップS307において、上記ステップS302で読み取られた文書の各ページ画像について、上記ステップS303の領域分割結果とステップS305のレイアウト抽出結果の補正を行う。領域分割結果に対する補正は、物理ページが異なることによる誤りが発生することを考慮して、ページ画像の中心付近に位置する領域について、上記ステップS303の領域分割の結果得られた領域の統合や分割を行う。例えば、同一の領域が、文書の編集上、物理ページの分割位置で分離され、または線があるなどして、ステップS303において別の領域として抽出される場合があるため、物理ページの分割位置付近の領域を他の領域に含まれる領域と識別することができる場合は、それぞれの領域が1つの領域に統合される。
また、各ページ画像における物理ページを対象としたレイアウト抽出処理が行われ、ステップS305のレイアウト抽出結果に、物理ページに対するレイアウト情報が追加される。物理ページ上でのレイアウト情報として、本実施の形態においては、各領域の位置とサイズから、各領域が分割された各物理ページのどちら側に属するか、または両方に属しているかなどの情報が追加される。補正方法や補正する情報は、上記に限定されているものではない。また、図6に示すようなページ画像が含まれている場合、物理ページの分割位置でレイアウト構成が明確に別れていると考えられるため、そのようなページ画像に対しては、実際には、本ステップS307の補正処理を行う必要がないと考えられる。
次いで、CPU101は、ステップS308において、上記ステップS302で入力された文書画像とステップS301で決定された文書のページ属性とを関連付けて外部記憶装置106内のDB(データベース)に格納する処理を行う。
図9は文書画像と文書画像のページ属性とを関連付けてDBへ格納する際のデータ構造の一例を示す。本例においては、各文書画像に対して、物理ページ構成を示す文書画像のページ属性、読み込まれたページ画像数、各ページ画像の各種情報へリンクするページ画像リストが付与されている。ここで、例えば文書画像1に対しては、文書画像のページ属性として「物理ページが2ページ(見開き)」などが付与されているが、格納される情報や格納方法はこれに限定されるものではない。
上述した図3に示す文書入力処理の詳細手順は一例であり、処理順序や処理の内容、処理結果はこれに限定されるものでない。また、本実施の形態においては、図、表、写真などの画像とテキストが混在した文書から、その画像およびその画像に関連するメタデータを抽出する場合の例について説明したが、文書に含まれるマルチメディアデータは、図、表、写真などの画像に限定されることはなく、動画や音声などの他のマルチメディアデータであってもよい。また、本実施の形態における文書入力処理においては、一例として、スキャナ109などの画像入力手段を用いて読み取られた紙文書の画像データを対象として説明したが、紙文書だけでなく、ワードプロセッサなどの編集ソフトウエアで作成した文書や、HTMLなどで記述された文書、PDFなどのような形式の電子文書を処理対象とすることが可能である。ただし、電子文書の場合は、図3のステップS301の入力処理においてフォーマット変換などの処理が必要となる。また、電子文書を文字コードで保持している文書の場合は、図3のステップS303の文字認識処理は不要となる。
このようにして文書入力処理が終了すると、CPU101は、図2に示すステップS202において、各領域に関する各種情報、レイアウト抽出結果、および文字領域に含まれる文字列の特徴などに基づいて、論理構造解析規則に従った解析を行い、文書の論理構造を抽出する。ここで、論理構造とは、抽出された領域やページに対して、論理的な意味属性を抽出して付与したもの、およびそれらの論理的な関係を推定して構造化したものである。論理構造解析規則には、前述の論理ページを処理対象とする規則と物理ページを処理対象とする規則がある。
詳細には、図4に示すように、CPU101は、まずステップS401において、物理ページを対象とする規則に従って、見開きを構成する物理ページそれぞれに対して解析を行い、物理ページとの関係が深い領域の意味属性を抽出する。例えば、物理ページ内の最上部や最下部にあり他の領域とのレイアウト上の関連性が見出せない(距離が離れている、配置や特徴に関する共通性および規則性が少ないなど)領域、または文書内の他のページと同位置に同じ内容の領域が存在する場合、当該領域は、ヘッダやフッタの領域とみなすことができる。さらに、ヘッダやフッタに対して、文字列のパターンからページ番号を推定することができる。ここで挙げた意味属性および解析規則は一例であり、意味属性と解析規則には、様々なものがある。
次いで、CPU101は、ステップS402において、論理ページに対する意味属性を推定する処理を行う。例えば、文書の先頭にあり、他のページに比べて空白が多く、文書内の他の文字と比較して特徴的な文字領域が存在するページは、当該文書における表紙ページと推定することができる。ページの意味属性は、文書内で特徴的なページに対して推定が可能なものであり、全てのページについて意味属性を付与することができるとは限らない。また、1つのページに対して唯一の意味属性を決定することができない場合は、複数の意味属性が付与されるようにしてもよく、その可能性の強さを示す数値などが付与されてもよい。
次いで、CPU101は、ステップS403において、論理ページを対象とする規則に従って論理ページ単位で解析を行い、文書を構成する領域の意味属性を抽出する。例えば、文書内の他の文字領域と配置や文字についての共通性および規則性が低く、文字が特徴的である文字領域が、ヘッダを除いた文書の上部にあれば、当該領域はタイトル、それ以外の位置に出現すれば、当該領域は見出しであると推定することができる。また、写真、図、表の領域に対して最も近接した文字領域は、キャプションとして推定することができる。また、その他の文字領域は、本文の段落と推定することができる。線状の非文字領域については、配置からセパレータなどと推定することができる。ここで挙げた意味属性および解析規則は一例である。
上記ステップS401〜ステップS403において抽出される領域の意味属性は、文書内で特徴がある領域に対して推定可能なものであり、全ての領域について意味属性が推定することができるとは限らない。また、1つの領域に対して唯一の意味属性を決定することができない場合は、複数の意味属性が付与されてもよく、その可能性の強さを示す数値などが付与されてもよい。
次いで、CPU101は、ステップS404において、見開きを構成している物理ページの読み順を決定する。物理ページの読み順は、文書の主な文字領域の読み方向から判定可能な組方向または上記ステップS401で推定されたページ番号を解釈することによって判別することができる。これは、物理ページの読み順を判別する方法の一例であり、これに限定されるものではない。
次いで、CPU101は、ステップS405において、見開きの各物理ページに対する論理構造解析処理を行い、見出しや段落などの本文を構成する領域に対して、組方向や領域の種類、物理ページでの位置関係などから、物理ページにおける読み順と論理的な関係などを決定する。例えば、日本語で横組のページにおいては、文字領域に対して、同段の上から下へ、左から右の段へと読み順が付与される。また、キャプション領域は、その領域に最も近い画像領域と強い関係を有し、段落領域は、隣接する画像領域と参照関係を有する可能性がある。また、例えば、見出しや段落の配置、見出し文字列のパターン(行頭の数字、記号など)などを解釈することによって、階層関係を決定することができる。
次いで、CPU101は、ステップS406において、見開きである論理ページに対する論理構造解析処理を行う。例えば、見出しや段落などの本文を構成する領域に対して、ステップS404で判別された物理ページの読み順、各領域の論理ページでの位置関係、ステップS405の結果などに基づいて、論理ページにおける読み順と論理的な関係などを決定する。図6に示すような見開きではないページ画像が含まれていた場合も、同様の処理が行われる。
このように、上記ステップS405およびステップS406においては、例えば、本文を構成する各領域の読み順、各領域に対する階層関係および参照関係などの論理的な関係などが推定され、論理構造が解析される。領域の読み順や論理的な関係は、唯一のものとして決定することができるとは限らないため、可能性がある数パターンをその可能性の高さを示す数値などとともに抽出するようにしてもよい。また、領域間の関係には、その関係の強さを示す数値などを付与してもよい。論理構造として抽出される内容は、必ずしも読み順やここで挙げた関係に限るものではない。
また、上記ステップS405とステップS406の結果に基づいて、文書内の前ページの領域との読み順や関係などが決定される。
また、文書の種類に応じてステップS405およびステップS406の解析方法を変えることにより、文書に応じた論理構造解析を行うようにしてもよい。例えば、論文や報告書などのように、画像が内容の記述に沿って配置されている文書の場合は、画像も含めて領域に読み順を付与することによって、読み順に従って画像領域と文字領域を強い参照関係で結ぶことができる。また、雑誌などのように、レイアウトの都合で、ページの上や下に複数の画像が固めて配置されている文書の場合は、内容の記述と画像の配置が必ずしも対応していないので、画像に読み順を付与することはできず、ある程度広い範囲で文字領域と画像領域を参照関係付ける必要がある。
次いで、CPU101は、ステップS407において、文書内の全てのページ画像に対して上記処理が終了したか否かを判定し、文書内の全てのページ画像に対して上記終了が終了していなければ、CPU101は、上記ステップS401に戻り、未処理のページ画像に対して処理を行う。これに対し、文書内の全てのページ画像に対して上記終了が終了すると、CPU101は、本処理を終了する。
ここで、図4に示す手順は、本実施の形態における論理構造解析処理の一例であり、処理の順や処理内容は、これに限定されるものではない。例えば、論理構造として抽出する内容は、ページや領域の意味属性でなくてもよいし、読み順や参照・階層関係以外の関係を抽出してもよい。また、例えば、各物理ページと各論理ページに対する読み順や参照関係を決定した後で、文書全体に対して階層関係を抽出してもよい。
図10は図4のフローチャートに従って文書の論理構造を解析した結果の一例を示しており、その解析結果は、抽出されたページと領域の意味属性、およびそれらの読み順や論理的関係などを表す。この論理構造の解析結果は、検索用メタデータ抽出規則を適応することができるものであれば、どのような形式、内容でもよい。
図10に示す各ページ画像1,2,…は、読み込まれた文書の各ページ画像に関する論理情報であり、解析された論理ページに対する意味属性などを表す。また、図10に示す各領域1,2,…は、ページ画像3から抽出された領域に関する論理情報であり、それぞれには、解析された領域に対する意味属性と、物理ページに対する位置が、物理ページの読み順に従って付与されている。ここで、図中のページや領域をつなぐ実線の矢印がページや領域の読み順を示す。また、矢印のない点線は包含関係を示し、点線の矢印は階層関係で、矢印の始点から終点に向かって上位(親)から下位(子)への階層であることを示す。太線は、見出し/キャプション/段落などの文字領域と、写真や図、表などの画像領域の参照関係を示す。例えば、ページ画像3には、領域1、領域2、…が含まれており、その中の意味属性が「見出し」の領域4の下の階層に、意味属性が「段落」の領域5、意味属性が「図」の領域6、…がそれぞれ存在する。また、意味属性が「図」の領域6とは、領域4、領域5、領域7、領域8、領域9、領域11が参照関係で結ばれている。また、ページ画像3内の文字領域は、領域3、領域4、領域5、領域8、…の順に読み順が付与されていることを示す。
次に、図2に戻り、CPU101は、ステップS203において、検索用メタデータ抽出処理を行う。ここでは、検索用メタデータ抽出規則を用いて、上記ステップS202で抽出された論理構造に従い、論理ページおよび物理ページの文字領域から写真、図、表などの画像に関連する検索用メタデータが抽出される。
詳細には、図5に示すように、CPU101は、まずステップS501において、文書の論理構造解析結果から、検索対象となる領域を抽出する。ここでは、写真、図、表などの画像領域が検索対象とされる。また、画像領域以外の領域を検索対象として抽出してもよい。
次いで、CPU101は、ステップS502において、メタデータの抽出対象となる領域を取得する。ここでは、画像領域と参照関係によって結ばれている文字領域およびその文字領域と階層関係によって結ばれている見出し領域が取得される。また、他の領域をメタデータの抽出対象として取得してもよい。
次いで、CPU101は、ステップS503において、上記ステップS501で検索対象として抽出された全ての領域に対して、領域検索用メタデータ抽出規則に従って検索用メタデータを抽出する。ここでは、上記ステップS502で取得された文字領域の文字列の中から、画像領域について説明している文字列が取り出される。例えば、意味属性が「キャプション」である文字領域の文字列から、画像番号(「図1」など)と画像名(「システム構成図」など)が取り出され、キャプションの画像名が検索用メタデータとされる。また、意味属性が「段落」である文字領域から抽出した画像番号を含む文が、検索用メタデータとされる。
また、検索用メタデータ抽出規則には、文書の論理ページ構成や物理ページ構成を利用するものがある。例えば、「上(の)表」などのような画像の方向を示す語と画像を示す語を含む文が、検索用メタデータとして抽出され、その語が示す画像の方向と上記ステップS304で抽出された論理ページ内での各領域の空間的な関係とが照合されて、画像とメタデータとの関連付けが行われる。
ここで、図6に示すような見開きではないページ画像が含まれていた場合、画像とは別の物理ページの文字領域が参照関係によって結ばれている可能性もあるが、そのような場合でも、このような語は論理ページでの位置関係を示すために用いられていると考えられるため、間違って関連付けされることはないと考えられる。図6の「次(の)ページの図」のようなページの位置を示す語と画像を示す語を含む文(1506)が検索用メタデータとして抽出され、その語が示す物理ページの位置とページ画像の物理ページ構成とが照合されて、画像とメタデータとの関連付けが行われる。
以上は、検索用メタデータの例であり、これ以外に、様々なメタデータが考えられる。また、メタデータ抽出時に、メタデータとして抽出された理由を示す情報を出力してもよいし、抽出対象となった領域の意味属性や領域の位置関係等に従って、画像とメタデータの関係の強さを示す数値を出力してもよい。また、ここでは、文字領域に含まれる文字列を検索用メタデータとして抽出するが、文字列以外の情報を検索用メタデータとして抽出してもよい。
図5のフローチャートは検索用メタデータ抽出処理の一例を示すものであり、その処理の順や処理内容は、これに限定されるものではない。
次に、図2に戻り、CPU101は、ステップS204において、上記ステップS203で抽出された領域(画像)と検索用メタデータとを関連付けてDBに格納する処理を行う。
図11は抽出された画像と検索用メタデータとを関連付けてDBへ格納する際のデータ構造の一例を示す。図11においては、ページ画像1に含まれる各画像に対して、それぞれ写真、図、表などの画像種別、画像データの格納位置またはファイル名、文書から抽出されたテキストなどがメタデータとして付与されていることが示されている。ここでは、例えば、画像Aに対しては、画像種別として「写真」、ファイル名として「image000001.jpg」が付与され、画像について説明しているテキストとして文字列「写真1:○×◇」が、抽出対象となった領域の属性「キャプション」と、画像とテキストの関係の強さを示す値「3」とともに付与されている。格納される検索用メタデータや格納方法はこれに限定されるものではない。
次に、抽出されたメタデータを利用して、文書に含まれる画像を検索する場合の動作について詳細に説明する。
本実施の形態においては、図11に示すような画像に関連付けられているメタデータを利用して検索が行われる。検索時には、ユーザにより検索キーワードやキーワードのリストなどの検索条件が入力され、入力された検索条件と各画像に関連付けられたメタデータとが対比され、該検索条件と適合するメタデータが付与されている画像が、見出されて検索結果として表示される。また、検索時に、検索条件と見出された各画像のメタデータとの類似度を計算し、この類似度に応じて検索条件に対応する画像を抽出するようにしてもよい。この類似度とは、ユーザにより入力された検索条件が、各画像に付与されたメタデータとの関係を示す表現としてどの程度適切であるかを示すものである。検索方法としては、その種類が問われることはなく、各種の検索方法が用いられる。
図12は検索条件入力および検索結果表示が表示される検索画面の一例を示す。これは、パーソナルコンピュータなどの情報処理装置において、ウィンドウシステムを利用した場合の画面の例である。ここで、例えば、携帯電話、PDAなどの携帯端末などからネットワークを介して本文書処理システムにアクセスし、検索を行う場合には、携帯端末の画面サイズに応じた表示の形態で検索画面を表示するようにことが望ましい。
検索画面においては、図12に示すように、タイトルバー121、複数のボタン122,123、検索条件入力欄124、OKボタン125、検索結果一覧表示欄126、終了ボタン127が表示される。タイトルバー121は、このウィンドウのタイトル表示と、例えば移動や大きさの変更などの全体の操作とを行う部分である。
ボタン122,123は、このウィンドウに関する機能を提供するボタンで、ヘルプの表示やこのウィンドウを閉じる操作などを指示するためのものである。実際には、これ以外の機能を指示するためのボタンなどが表示される。
検索条件入力欄124は、画像を検索するための検索条件を入力するための領域であり、複数のキーワードやフレーズなどを空などで区切って入力して、論理演算ANDとORのいずれかを指定することが可能である。また、図、表、写真などの画像の種別を空白などで区切って複数入力することにより、これらのORを検索の条件として指定することが可能である。本画面例においては、画像の種別として、図または表が指定されている。
また、コンボボックスやリストなどで候補を表示し、表示された候補の中からユーザが所望の候補を選択するようにしてもよい。
また、入力したキーワードやキーフレーズに対して、キャプション、画像番号によるテキスト、見出しなどの検索対象とするテキストの種別や、検索対象とする重要度の範囲を指定することによって、検索の精度をユーザが指定することができるようにしてもよい。例えば、重要度3のテキストのみを検索対象とすれば、検索漏れはあるがノイズの少ない検索結果を得ることができる。ここで挙げた検索条件として設定する項目以外の項目を設定することも可能である。
OKボタン125は、検索条件として、現在検索条件入力欄124に設定された内容を最終的に確定するためのボタンであり、OKボタン125を押下されると、現在検索条件入力欄124に設定された内容が確定されて、検索処理が開始される。
検索結果一覧表示欄126は、検索結果の一覧を表示する領域であり、検索条件入力欄124において設定された検索条件に基づいて、各画像に関連つけられたメタデータを用いて画像を検索した結果の一覧を表示する。ここで、検索結果としては、検索条件に適合した画像のサムネイルの一覧が表示される。本例においては、画像のサムネイルのみが表示されているが、検索条件と各画像のメタデータとの類似度、画像が含まれている文書名など画像に関連する情報、または検索される根拠となるメタデータなどの各種情報を、画像のサムネイルと対応付け可能に表示するようにしてもよい。
終了ボタン127は、この画面を閉じる操作を指示するためのボタンである。
ここでは、検索条件の入力と検索結果の表示を同一の画面上で行う検索画面例を示したが、検索条件の入力と検索結果の表示とをそれぞれ別々の画面上で行うようにしてもよい。
上記検索画面に表示された検索結果の一覧が得られると、ユーザは、検索結果の一覧から、所望の画像のサムネイルを指定して選択する。画像のサムネイルが選択されると、選択された画像のサムネイルに対応するオリジナル画像の格納場所が表示され、または選択された画像のサムネイルに対応するオリジナル画像が直接呼び出されて表示される。このようにして、ユーザが所望するオリジナル画像を得ると、ユーザは得られたオリジナル画像をワープロなどの編集ソフトウエアを用いて編集、加工し、また、オリジナル画像を別の文書に挿入するなどの操作を行う。これにより、オリジナル画像の再利用を図ることが可能になる。これは、再利用方法の一例であり、これに限定されるものではない。
また、上記メタデータを利用することによって、文書および文書中のマルチメディアデータを蓄積する際に、これらを効率的に分類、整理、管理することができるようになる。例えば、メタデータとして付与されている語を分析して、関連するカテゴリなどを基準にして画像を分類することができる。分類するカテゴリなどはユーザにより与えられるものでもよい。また、画像を、クラスタリングなどの統計的手法によって自動的に分類するようにしてもよい。また、分類時に、カテゴリと各画像のメタデータの類似度などを求め、この類似度を分類に利用するようにしてもよい。
以上より、本実施の形態によれば、見開きのように1枚の論理ページと見なされる複数枚の物理ページからなる1枚のページに対しても、当該ページ中に含まれるマルチメディアデータに関連するメタデータを高い精度で抽出することができる。
また、抽出されたメタデータを利用することによって、マルチメディアデータをユーザの要求に応じて精度良く容易に検索することが可能になる。その結果、文書中のマルチメディアデータを効率的に再利用することができる。
また、抽出されたメタデータを利用することによって、文書および文書中のマルチメディアデータをDBへ蓄積する際に、マルチメディアに対する分類、整理、管理を効率的に行うことが可能になる。
(第2の実施の形態)
次に、本発明の第2の実施の形態について図13〜図16を参照しながら説明する。図13は本発明の第2の実施の形態に係る文書処理システムにおける文書入力処理の詳細な手順を示すフローチャート、図14は第2の実施の形態に係る文書処理システムにおける論理構造解析処理の詳細な手順を示すフローチャート、図15は第2の実施の形態における文書画像と文書画像のページ属性とを関連付けてDBへ格納する際のデータ構造の一例を示す図、図16は図14のフローチャートに従って文書の論理構造を解析した結果の一例を示す図である。
本実施の形態は、上記第1の実施の形態と同じ構成を有し、その構成についての説明は省略する。また、本実施の形態の文書登録においては、上記第1の実施の形態と同様に、文書入力処理、論理構造解析処理、検索用メタデータ抽出処理、およびDB登録処理が順に実行されるが、本実施の形態の文書入力処理および論理構造解析処理は、上記第1の実施の形態と異なるものである。よって、ここでは、文書入力処理および論理構造解析処理について説明する。
本実施の形態の文書入力処理においては、画像入力手段を介して文書を入力する際に、各ページに対して、見開きか否かなどの論理ページと物理ページの関連性についてのページ属性がユーザにより指定され、指定されたページ属性が対応するページに付与される。
具体的には、図13に示すように、CPU101は、まずステップS1301において、スキャナ109やネットワークに接続されたコピー機などの画像入力手段を用いて、画像および文字列が混在した紙文書のページ毎に読み取られたページ画像を入力する。
次いで、CPU101は、ステップS1302において、文書の各ページ画像が、2枚の物理ページから構成される見開きのページ画像か、1枚の物理ページから構成される見開きでないページ画像かを示すページ属性を、ページ画像毎に付与する処理を行う。本実施の形態においては、キーボード104などを用いてユーザによりページ画像毎のページ属性が指示される方法、または読み込み時のページ画像を、その画像の向きによって、横長なら2枚の物理ページから構成される見開きページのページ画像、縦長なら1枚の物理ページがからなる見開きでないページ画像であると自動的に判定する方法が用いられる。また、ユーザによりページ画像毎のページ属性を指示する場合、例えば、各ページ画像をスキャンする前にページ画像毎にそのページ属性を指定するようにしてもよいし、ページ画像をスキャンする度に指定するのではなく、文書の全ページの入力前後に一括して各ページ画像に対してページ属性を指定するようにしてもよい。
次いで、CPU101は、ステップS1303において、上記ステップS1301で入力されたページ画像と上記ステップS1302で付与されたページ画像のページ属性とを関連付けてDBに格納する。
ここでは、例えば図15に示すように、各ページ画像に対して、物理ページ構成を示しているページ画像のページ属性、ページ画像データの格納位置またはファイル名が付与されている。例えばページ画像1に対しては、そのページ属性として、「物理ページが2ページ(見開き)」、ファイル名として「doc000001.jpg」が付与されている。
次いで、CPU101は、ステップS1304において、文書の全てのページの入力が終了したか否かを判定する。ここで、全てのページの入力が終了していないと判定された場合、CPU101は、上記ステップS1301に戻り、次のページの入力処理を行う。
これに対し、全てのページの入力が終了したと判定された場合、CPU101は、ステップS1305において、上記ステップS1301で読み取られた文書の各ページ画像について領域分割を行い、文字、図、表、写真などの画像を内包する矩形領域を、その矩形の種類とサイズ、ページ内での位置座標などの物理的な情報とともに抽出する。このステップS1305の処理内容を、第1の実施の形態で説明したステップS303の処理内容と同じである。
次いで、CPU101は、ステップS1306において、各ページ画像について向きの判別を行い、ページ画像が正方向でなければ、ページ画像を回転させて正方向になるように修正する。このページ画像の向きの判別と修正の方法としては、例えば特開平8−212298号公報や特開平8−293000号公報などに示されるように、上記ステップS1305で抽出された文字を利用する方法がある。また、この方法に限定されるものではなく、ページ画像の向きの判別と修正が可能であれば、どのような方法でもかまわない。そして、回転させたページ画像に対して領域分割が行われ、上記ステップS1305で抽出された領域分割結果の補正が行われる。
次いで、CPU101は、ステップS1307において、全ての文字領域に対して文字認識処理を行う。上記ステップS1305からステップS1307までのそれぞれの処理結果は、全て、RAM103や外部記憶装置106に格納される。
次いで、CPU101は、ステップS1308において、ステップS1301で入力されたページ画像のページ属性に基づいて当該ページ画像が2枚の物理ページから構成されている見開きのページ画像であるか、1枚の物理ページからなる見開きでないページ画像であるかを判定する。ここで、ページ画像が2枚の物理ページから構成されている見開きのページ画像である場合、CPU101は、ステップS1309において、各ページ画像を物理ページ単位に分割し、各物理ページのサイズ等の情報を抽出する。このステップS1309の処理内容は、上記第1の実施の形態におけるステップS306の処理内容と同じである。そして、CPU101は、ステップS1310において、1枚のページ画像が2枚の物理ページで構成されている場合に、ステップS1302の領域分割結果に対する補正を行う。この補正は、上記第1の実施の形態におけるステップS307で行われる補正と同じである。
次いで、CPU101は、ステップS1311において、1枚のページ画像における各物理ページを対象としたレイアウト抽出処理を行い、矩形領域の物理的な情報に従って、ページ画像とそれを構成する各物理ページにおける各矩形領域の空間的な関係を抽出する。このステップS1311での処理内容は、上記第1の実施の形態におけるステップS305での処理内容と同じである。
次いで、CPU101は、ステップS1313において、全てのページ画像に対する処理が終了したか否かを判定し、全てのページ画像に対する処理が終了していない場合、上記ステップS1308に戻り、次のページ画像に対する処理を行う。
上記ステップS1308においてページ画像が見開きでないページ画像であると判定された場合、CPU101は、ステップS1312において、1枚のページ画像における物理ページを対象としたレイアウト抽出処理を行い、矩形領域の物理的な情報に従って、ページ画像とそれを構成する物理ページにおける各矩形領域の空間的な関係を抽出する。そして、CPU101は、上記ステップS1313に進む。
このようにして文書入力処理が終了すると、論理構造解析処理が行われる。すなわち、CPU101は、各領域に関する各種情報、レイアウト抽出結果、および文字領域に含まれる文字列の特徴などに基づいて、論理構造解析規則に従った解析を行い、文書の論理構造を抽出する。
詳細には、図14に示すように、CPU101は、まずステップS1401において、ページ画像が2枚の物理ページから構成される見開きのページ画像であるか、見開きでないページ画像であるかを判定する。ページ画像が2枚の物理ページから構成される見開きのページ画像である場合、CPU101は、ステップS1402において、見開きを構成する各物理ページを対象とする規則に従って物理ページ単位で解析を行い、物理ページとの関係が深い領域の意味属性を抽出する。ページ画像が見開きでないページ画像である場合、CPU101は、ステップS1403において、1枚の物理ページを対象とする規則に従って物理ページ単位で解析を行い、物理ページとの関係が深い領域の意味属性を抽出する。ステップS1402の処理内容は、上記第1の実施の形態のステップS401の処理内容と同じものである。
次いで、CPU101は、ステップS1404において、論理ページに対する意味属性を推定する。このステップS1404の処理内容は、上記第1の実施の形態のステップS402の処理内容と同じものである。そして、CPU101は、ステップS1405において、論理ページを対象とする規則に従って論理ページ単位で解析を行い、文書を構成する領域の意味属性を抽出する。このステップS1405の処理内容は、上記第1の実施の形態のステップS403の処理内容と同じものである。
次いで、CPU101は、ステップS1406において、ページ画像の物理ページ構成についての判定を行い、ページ画像が2枚の物理ページから構成される場合すなわちページ画像が見開きのページ画像である場合、ステップS1407〜ステップS1409へ進み、ページ画像が1枚の物理ページから構成される場合は、ステップS1410へ進む。ここで、ステップS1407〜ステップS1409は、上記第1の実施の形態のステップS404〜ステップS406に相当するものであり、その説明は省略する。これに対して、ステップS1410においては、物理ページと論理ページが共通であるページ画像に対する解析が行われる。例えば、見出しや段落などの本文を構成する領域に対して、読み順と論理的な関係などが決定される。この結果に基づいて、文書内の前ページの領域との読み順や関係なども決定される。
次いで、CPU101は、ステップS1411において、文書内の全てのページ画像に対して上記処理が終了したか否かを判定し、文書内の全てのページ画像に対して上記終了が終了していなければ、CPU101は、上記ステップS1401に戻り、未処理のページ画像に対して処理を行う。これに対し、文書内の全てのページ画像に対して上記終了が終了すると、CPU101は、本処理を終了する。
上述の処理により、文書の論理構造を解析した結果として、例えば図15に示すような結果が得られる。本例において、各ページ画像1,2,…は、読み込まれた文書の各ページ画像に関する論理情報であり、それぞれには、上記ステップS1301で付与された物理ページ構成に関する情報、解析された論理ページに対する意味属性などが付与されている。また、各領域1,2,…は、ページ画像3から抽出された領域に関する論理情報であり、解析された領域に対する意味属性と、物理ページに対する位置とが、物理ページの読み順に従って付与されている。図中のページや領域をつなぐ実線の矢印は、ページや領域の読み順を示している。また、矢印のない点線は包含関係を示しており、点線の矢印は階層関係で、矢印の始点から終点に向かって上位(親)から下位(子)への階層であることを示している。太線は見出し・キャプション・段落等の文字領域と、写真や図、表等の画像領域の参照関係を示している。例えば、ページ画像3には、領域1,領域2,…が含まれており、その中の意味属性が「見出し」の領域4の下の階層に、意味属性が「段落」の領域5、意味属性が「図」の領域6,…が存在している。また、意味属性が「図」の領域6とは、領域4、領域5、領域7、領域8、領域9、領域11が参照関係で結ばれている。また、ページ画像3内の文字領域は、領域3、領域4、領域5、領域8、…の順に読み順が付与されていることを示す。
以上より、本実施の形態によれば、上記第1の実施の形態と同様の効果を得ることができる。
(第3の実施の形態)
次に、本発明の第3の実施の形態について図17を参照しながら説明する。図17は本発明の第3の実施の形態に係る文書処理システムにおける文書入力処理の詳細な手順を示すフローチャートである。
本実施の形態は、上記第1の実施の形態と同じ構成を有し、その構成についての説明は省略する。また、本実施の形態の文書登録においては、上記第1の実施の形態と同様に、文書入力処理、論理構造解析処理、検索用メタデータ抽出処理、およびDB登録処理が順に実行されるが、本実施の形態の文書入力処理および論理構造解析処理は、上記第1の実施の形態と異なるものである。但し、論理構造解析処理は、上記第2の実施の形態と同じものである。よって、ここでは、文書入力処理のみについて説明する。
本実施の形態の文書入力処理において、図17に示すように、CPU101は、まずステップS1701において、イメージスキャナ109やネットワークに接続されたコピー機などの画像入力手段が画像および文字列が混在した紙原稿から読み取ったページ単位の画像をページ画像として入力する。
次いで、CPU101は、ステップS1702において、上記ステップS1701で入力された読み取られた文書の各ページ画像について領域分割を行い、文字、図、表、写真等の画像を内包する矩形領域を、その矩形の種類とサイズ、ページ内での位置座標等の物理的な情報とともに抽出する。
次いで、CPU101は、ステップS1703において、各ページ画像について向きの判別を行い、ページ画像が正方向でなければ、ページ画像を回転させて正方向になるように修正する。続いて、CPU101は、ステップS1704において、全ての文字領域に対して文字認識処理を行う。そして、CPU101は、ステップS1705において、レイアウト抽出処理を行い、矩形領域の物理的な情報に従って、文書の各ページ画像における各矩形領域の空間的な関係を抽出する。
次いで、CPU101は、ステップS1706において、ステップS1703で正方向に修正されたページ画像の縦横比率やステップS1705で抽出された領域のレイアウトなどに基づいて、文書の各ページ画像の物理ページ構成を識別し、ページ画像が2枚の物理ページから構成される見開きのページ画像であるか、1枚の物理ページから構成される見開きでないページ画像であるかを判別する。例えば、文書に横長のページ画像と縦長のページ画像が混在している場合は、横長のページ画像が物理ページ2ページである可能性があり、ページ画像の最上部・最下部にヘッダやページ番号と思われる左右(上下)対称の領域が存在するかなどによって、物理ページ構成を識別することができる。物理ページ構成の判別方法は、上記方法に限定されるものではない。
上記ステップS1706において1枚のページ画像が2枚の物理ページで構成されていると判定された場合、CPU101は、ステップS1707において、ページ画像を物理ページ単位に分割し、各物理ページのサイズなどの情報を抽出する。続いて、CPU101は、ステップS1708において、上記ステップS1702の領域分割結果とステップS1705のレイアウト抽出結果に対する補正を行う。
次いで、CPU101は、ステップS1709において、全てのページ画像に対して物理ページ構成の判別が終了したか否かを判定する。未処理のページ画像がある場合、CPU101は、上記ステップS1706に戻る。これに対し、全てのページ画像に対して物理ページ構成の判別が終了した場合、CPU101は本処理を終了する。
また、本発明は、複数の機器(例えばホストコンピュータ、インタフェース機器、リーダ、プリンタなど)から構成されるシステムに適応しても、単一の機器からなる装置(例えば、複写機、ファクシミリ装置など)に適応してもよい。
なお、本発明の目的は、前述した実施形態の機能を実現するソフトウエアのプログラムコードを記録した記憶媒体(または記録媒体)を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることはいうまでもない。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
また、プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光磁気ディスク、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、DVD+RW、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。または、プログラムコードを、ネットワークを介してダウンロードしてもよい。
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
本発明の第1の実施の形態に係る文書処理システムが構築されるコンピュータなどの情報処理装置の基本構成を示すブロック図である。 図1の情報処理装置上に構築される文書処理システムにおける文書登録処理の手順を示すフローチャートである。 図2のステップS201の文書入力処理の詳細な手順を示すフローチャートである。 図2のステップS202の論理構造解析処理の詳細な手順を示すフローチャートである。 図2のステップS203の検索用メタデータ抽出処理の詳細な手順を示すフローチャートである。 物理ページと論理ページが同じ2ページの見開きでないページ画像の一例を示す図である。 ある文書におけるページ画像や各ページ画像から抽出された領域についての各種物理的な情報の一例を示す図である。 あるページ画像における各領域の空間的な関係を抽出した結果の一例を示す図である。 文書画像と文書画像のページ属性とを関連付けてDBへ格納する際のデータ構造の一例を示す図である。 図4のフローチャートに従って文書の論理構造を解析した結果の一例を示す図である。 抽出された画像と検索用メタデータとを関連付けてDBへ格納する際のデータ構造の一例を示す図である。 検索条件入力および検索結果表示が表示される検索画面の一例を示す図である。 本発明の第2の実施の形態に係る文書処理システムにおける文書入力処理の詳細な手順を示すフローチャートである。 第2の実施の形態に係る文書処理システムにおける論理構造解析処理の詳細な手順を示すフローチャートである。 第2の実施の形態における文書画像と文書画像のページ属性とを関連付けてDBへ格納する際のデータ構造の一例を示す図である。 図14のフローチャートに従って文書の論理構造を解析した結果の一例を示す図である。 本発明の第3の実施の形態に係る文書処理システムにおける文書入力処理の詳細な手順を示すフローチャートである。 電子文書の再利用サイクルの一例を模式的に示す図である。 1枚の論理ページとしてみなすことができる向かい合った左右の2枚の物理ページが1枚のページ画像として読み込まれた場合の画像例を示す図である。 1枚の物理ページが1枚のページ画像として読み込まれた場合の画像例を示す図である。
符号の説明
101 CPU
102 ROM
103 RAM
104 キーボード
106 外部記憶装置
107 表示器
108 NCU
109 スキャナ

Claims (20)

  1. マルチメディアデータおよびテキストが混在する文書を、複数枚の物理ページを1枚の論理ページとみなすページ単位で入力する文書入力手段と、
    前記文書入力手段を介して入力されたページ毎に、マルチメディアデータ領域とテキストデータ領域とをそれぞれ抽出し、抽出された領域のそれぞれに関するレイアウトを解析するレイアウト解析手段と、
    前記入力されたページ毎に抽出された領域のそれぞれに関するレイアウトの解析結果に基づいて、物理ページを対象とする解析と論理ページを対象とする解析とをそれぞれ行い、入力されたページのそれぞれに対する論理構造を解析する論理構造解析手段と、
    前記入力されたページ毎に、その論理構造と、その物理ページ構成および論理ページ構成とに基づいて、ページに含まれるマルチメディアデータに関するメタデータを抽出するメタデータ抽出手段と、
    前記入力されたページ毎にページに含まれるマルチメディアデータと該マルチメディアデータに関するメタデータとを関連付けて格納する格納手段と
    を備えることを特徴とする文書処理システム。
  2. 前記文書入力手段は、文書毎に、複数枚の物理ページを1枚の論理ページとみなすページ単位で入力するか、1枚の物理ページを1枚のページとするページ単位で入力するかを表すページ属性を決定するページ属性決定手段を有することを特徴とする請求項1記載の文書処理システム。
  3. マルチメディアデータおよびテキストデータが混在する文書をページ単位で入力する文書入力手段と、
    前記文書入力手段を介してページ単位で入力されるページ毎に、複数枚の物理ページから構成される1枚の論理ページであるか、1枚の物理ページから構成される1枚のページであるかを表すページ属性を付与するページ属性付与手段と、
    前記入力されたページ毎に、マルチメディアデータ領域とテキスト領域とをそれぞれ抽出し、抽出された領域のそれぞれに関するレイアウトを解析するレイアウト解析手段と、
    前記入力されたページ毎に、付与されたページ属性に応じた論理構造解析処理を行う論理構造解析手段と、
    前記入力されたページ毎に、その論理構造と、その物理ページ構成および論理ページ構成とに基づいて、ページに含まれるマルチメディアデータに関するメタデータを抽出するメタデータ抽出手段と、
    前記入力されたページ毎に、ページに含まれるマルチメディアデータと該マルチメディアデータに関するメタデータとを関連付けて格納する格納手段と
    を備えることを特徴とする文書処理システム。
  4. 前記ページ属性付与手段は、前記文書入力手段を介して入力されるページ毎に、ユーザにより指示されたページ属性を付与することを特徴とする請求項3記載の文書処理システム。
  5. 前記ページ属性付与手段は、前記文書入力手段を介して入力されるページ毎に、ページ属性を判別すための解析を行い、該解析結果に基づいてページ属性を付与することを特徴とする請求項3記載の文書処理システム。
  6. 前記論理構造解析手段は、複数枚の物理ページから構成される1枚の論理ページであることを表すページ属性が付与されたページに対しては、その抽出されたレイアウトに基づいて、物理ページを対象とする解析と論理ページを対象とする解析とをそれぞれ行い、その論理構造を解析することを特徴とする請求項3記載の文書処理システム。
  7. マルチメディアデータおよびテキストデータが混在する文書をページ単位で入力する文書入力手段と、
    前記文書入力手段を介して入力されたページ毎に、マルチメディアデータ領域とテキスト領域とをそれぞれ抽出し、抽出された領域のそれぞれに関するレイアウトを解析するレイアウト解析手段と、
    前記入力されたページ毎に、解析されたレイアウトに基づいて、複数枚の物理ページから構成される1枚の論理ページであるか、1枚の物理ページから構成される1枚のページであるかを判別する判別手段と、
    前記入力されたページ毎に、複数枚の物理ページから構成される1枚の論理ページであるか1枚の物理ページから構成される1枚のページであるかに応じて対応する論理構造解析処理を行う論理構造解析手段と、
    前記入力されたページ毎に、その論理構造と、その物理ページ構成および論理ページ構成とに基づいて、ページに含まれるマルチメディアデータに関するメタデータを抽出するメタデータ抽出手段と、
    前記入力されたページ毎に、ページに含まれるマルチメディアデータと該マルチメディアデータに関するメタデータとを関連付けて格納する格納手段と
    を備えることを特徴とする文書処理システム。
  8. 前記論理構造解析手段は、複数枚の物理ページから構成される1枚の論理ページであるページに対しては、その抽出されたレイアウトに基づいて、物理ページを対象とする解析と論理ページを対象とする解析とをそれぞれ行い、その論理構造を解析することを特徴とする請求項7記載の文書処理システム。
  9. マルチメディアデータおよびテキストが混在する文書を、複数枚の物理ページを1枚の論理ページとみなすページ単位で入力する文書入力工程と、
    前記ページ単位で入力されたページ毎に、マルチメディアデータ領域とテキストデータ領域とをそれぞれ抽出し、抽出された領域のそれぞれに関するレイアウトを解析するレイアウト解析工程と、
    前記入力されたページ毎に抽出された領域のそれぞれに関するレイアウトの解析結果に基づいて、物理ページを対象とする解析と論理ページを対象とする解析とをそれぞれ行い、入力されたページのそれぞれに対する論理構造を解析する論理構造解析工程と、
    前記入力されたページ毎に、その論理構造と、その物理ページ構成および論理ページ構成とに基づいて、ページに含まれるマルチメディアデータに関するメタデータを抽出するメタデータ抽出工程と、
    前記入力されたページ毎に、ページに含まれるマルチメディアデータと該マルチメディアデータに関するメタデータとを関連付けて記憶装置へ格納する格納工程と
    を有することを特徴とする文書処理方法。
  10. 前記文書入力工程では、文書毎に、複数枚の物理ページを1枚の論理ページとみなすページ単位で入力するか、1枚の物理ページを1枚のページとするページ単位で入力するかを表すページ属性を決定することを特徴とする請求項17記載の文書処理システム。
  11. マルチメディアデータおよびテキストデータが混在する文書をページ単位で入力する文書入力工程と、
    前記文書入力工程で入力されるページ毎に、複数枚の物理ページから構成される1枚の論理ページであるか、1枚の物理ページから構成される1枚のページであるかを表すページ属性を付与するページ属性付与工程と、
    前記入力されたページ毎に、マルチメディアデータ領域とテキスト領域とをそれぞれ抽出し、抽出された領域のそれぞれに関するレイアウトを解析するレイアウト解析工程と、
    前記入力されたページ毎に、付与されたページ属性に応じた論理構造解析処理を行う論理構造解析工程と、
    前記入力されたページ毎に、その論理構造と、その物理ページ構成および論理ページ構成とに基づいて、ページに含まれるマルチメディアデータに関するメタデータを抽出するメタデータ抽出工程と、
    前記入力されたページ毎に、ページ含まれるマルチメディアデータと該マルチメディアデータに関するメタデータとを関連付けて記憶装置へ格納する格納工程と
    を有することを特徴とする文書処理方法。
  12. 前記ページ属性付与工程では、前記文書入力工程で入力されるページ毎に、ユーザにより指示されたページ属性を付与することを特徴とする請求項11記載の文書処理方法。
  13. 前記ページ属性付与工程では、前記文書入力工程で入力されるページ毎に、ページ属性を判別すための解析を行い、該解析結果に基づいてページ属性を付与することを特徴とする請求項11記載の文書処理方法。
  14. 前記論理構造解析工程では、複数枚の物理ページから構成される1枚の論理ページであることを表すページ属性が付与されたページに対しては、その抽出されたレイアウトに基づいて、物理ページを対象とする解析と論理ページを対象とする解析とをそれぞれ行い、その論理構造を解析することを特徴とする請求項11記載の文書処理方法。
  15. マルチメディアデータおよびテキストデータが混在する文書をページ単位で入力する文書入力工程と、
    前記文書入力工程で入力されたページ毎に、マルチメディアデータ領域とテキスト領域とをそれぞれ抽出し、抽出された領域のそれぞれに関するレイアウトを解析するレイアウト解析工程と、
    前記入力されたページ毎に、その解析されたレイアウトに基づいて、複数枚の物理ページから構成される1枚の論理ページであるか、1枚の物理ページから構成される1枚のページであるかを判別する判別工程と、
    前記文書入力工程で入力されたページ毎に、複数枚の物理ページから構成される1枚の論理ページであるか1枚の物理ページから構成される1枚のページであるかに応じて対応する論理構造解析処理を行う論理構造解析工程と、
    前記入力されたページ毎に、その論理構造と、その物理ページ構成および論理ページ構成とに基づいて、ページに含まれるマルチメディアデータに関するメタデータを抽出するメタデータ抽出工程と、
    前記入力されたページ毎に、ページに含まれるマルチメディアデータと該マルチメディアデータに関するメタデータとを関連付けて記憶装置へ格納する格納工程と
    を有することを特徴とする文書処理方法。
  16. 前記論理構造解析工程では、複数枚の物理ページから構成される1枚の論理ページであるページに対しては、その抽出されたレイアウトに基づいて、物理ページを対象とする解析と論理ページを対象とする解析とをそれぞれ行い、その論理構造を解析することを特徴とする請求項15記載の文書処理方法。
  17. マルチメディアデータおよびテキストが混在する文書を、複数枚の物理ページを1枚の論理ページとみなすページ単位で入力する文書入力モジュールと、
    前記文書入力モジュールにより前記ページ単位で入力されたページ毎に、マルチメディアデータ領域とテキストデータ領域とをそれぞれ抽出し、抽出された領域のそれぞれに関するレイアウトを解析するレイアウト解析モジュールと、
    前記入力されたページ毎に抽出された領域のそれぞれに関するレイアウトの解析結果に基づいて、物理ページを対象とする解析と論理ページを対象とする解析とをそれぞれ行い、入力されたページのそれぞれに対する論理構造を解析する論理構造解析モジュールと、
    前記入力されたページ毎に、その論理構造と、その物理ページ構成および論理ページ構成とに基づいて、ページに含まれるマルチメディアデータに関するメタデータを抽出するメタデータ抽出モジュールと、
    前記入力されたページ毎に、ページに含まれるマルチメディアデータと該マルチメディアデータに関するメタデータとを関連付けて記憶装置へ格納する格納モジュールと
    を有することを特徴とするプログラム。
  18. マルチメディアデータおよびテキストデータが混在する文書をページ単位で入力する文書入力モジュールと、
    前記文書入力モジュールにより入力されるページ毎に、複数枚の物理ページから構成される1枚の論理ページであるか、1枚の物理ページから構成される1枚のページであるかを表すページ属性を付与するページ属性付与モジュールと、
    前記入力されたページ毎に、マルチメディアデータ領域とテキスト領域とをそれぞれ抽出し、抽出された領域のそれぞれに関するレイアウトを解析するレイアウト解析モジュールと、
    前記入力されたページ毎に、付与されたページ属性に応じた論理構造解析処理を行う論理構造解析モジュールと、
    前記入力されたページ毎に、その論理構造と、その物理ページ構成および論理ページ構成とに基づいて、ページに含まれるマルチメディアデータに関するメタデータを抽出するメタデータ抽出モジュールと、
    前記入力されたページ毎に、ページに含まれるマルチメディアデータと該マルチメディアデータに関するメタデータとを関連付けて記憶装置へ格納する格納モジュールと
    を有することを特徴とするプログラム。
  19. マルチメディアデータおよびテキストデータが混在する文書をページ単位で入力する文書入力モジュールと、
    前記文書入力モジュールにより入力されたページ毎に、マルチメディアデータ領域とテキスト領域とをそれぞれ抽出し、抽出された領域のそれぞれに関するレイアウトを解析するレイアウト解析モジュールと、
    前記入力されたページ毎に、その解析されたレイアウトに基づいて、複数枚の物理ページから構成される1枚の論理ページであるか、1枚の物理ページから構成される1枚のページであるかを判別する判別モジュールと、
    前記入力されたページ毎に、複数枚の物理ページから構成される1枚の論理ページであるか1枚の物理ページから構成される1枚のページであるかに応じて対応する論理構造解析処理を行う論理構造解析モジュールと、
    前記入力されたページ毎に、その論理構造と、その物理ページ構成および論理ページ構成とに基づいて、ページに含まれるマルチメディアデータに関するメタデータを抽出するメタデータ抽出モジュールと、
    前記入力されたページ毎に、ページに含まれるマルチメディアデータと該マルチメディアデータに関するメタデータとを関連付けて記憶装置へ格納する格納モジュールと
    を有することを特徴とするプログラム。
  20. 請求項17ないし19のいずれか1つのプログラムをコンピュータ読み取り可能に格納したことを特徴とする記憶媒体。
JP2005036863A 2005-02-14 2005-02-14 文書処理システム、文書処理方法、プログラムおよび記憶媒体 Pending JP2006221569A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005036863A JP2006221569A (ja) 2005-02-14 2005-02-14 文書処理システム、文書処理方法、プログラムおよび記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005036863A JP2006221569A (ja) 2005-02-14 2005-02-14 文書処理システム、文書処理方法、プログラムおよび記憶媒体

Publications (1)

Publication Number Publication Date
JP2006221569A true JP2006221569A (ja) 2006-08-24

Family

ID=36983850

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005036863A Pending JP2006221569A (ja) 2005-02-14 2005-02-14 文書処理システム、文書処理方法、プログラムおよび記憶媒体

Country Status (1)

Country Link
JP (1) JP2006221569A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009118340A (ja) * 2007-11-08 2009-05-28 Canon Inc 画像処理装置、画像処理方法、プログラム、および記憶媒体
JP2009301335A (ja) * 2008-06-13 2009-12-24 Ricoh Co Ltd 画像処理装置、画像処理方法及びコンピュータプログラム
JP2010073165A (ja) * 2008-09-22 2010-04-02 Canon Inc 情報処理装置、その制御方法、及びコンピュータプログラム
JP2011141597A (ja) * 2010-01-05 2011-07-21 Canon Inc 画像処理装置、画像処理方法、プログラム
JP2013257659A (ja) * 2012-06-11 2013-12-26 Nikkei Business Publications Inc 情報処理装置、情報処理方法、及びプログラム
CN104021113A (zh) * 2014-06-23 2014-09-03 时代新媒体出版社有限责任公司 一种基于自动排版的一键成书方法
CN104021112A (zh) * 2014-06-23 2014-09-03 时代新媒体出版社有限责任公司 一种基于自动排版的一键成书系统
CN104021113B (zh) * 2014-06-23 2016-11-30 时光流影科技股份有限公司 一种基于自动排版的一键成书方法
CN113792659A (zh) * 2021-09-15 2021-12-14 上海金仕达软件科技有限公司 文档识别方法、装置及电子设备
CN116029802A (zh) * 2023-02-08 2023-04-28 上海正弘建设工程顾问有限公司 一种基于大数据的招标服务信息管理系统及方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009118340A (ja) * 2007-11-08 2009-05-28 Canon Inc 画像処理装置、画像処理方法、プログラム、および記憶媒体
US8179558B2 (en) 2007-11-08 2012-05-15 Canon Kabushiki Kaisha Image processing apparatus, image processing method, program and storage medium constructed to generate print data including a bitmap image and attribute data of each pixel of the bitmap image
JP2009301335A (ja) * 2008-06-13 2009-12-24 Ricoh Co Ltd 画像処理装置、画像処理方法及びコンピュータプログラム
US8584009B2 (en) 2008-06-13 2013-11-12 Ricoh Company, Ltd. Automatically propagating changes in document access rights for subordinate document components to superordinate document components
JP2010073165A (ja) * 2008-09-22 2010-04-02 Canon Inc 情報処理装置、その制御方法、及びコンピュータプログラム
JP2011141597A (ja) * 2010-01-05 2011-07-21 Canon Inc 画像処理装置、画像処理方法、プログラム
JP2013257659A (ja) * 2012-06-11 2013-12-26 Nikkei Business Publications Inc 情報処理装置、情報処理方法、及びプログラム
CN104021113A (zh) * 2014-06-23 2014-09-03 时代新媒体出版社有限责任公司 一种基于自动排版的一键成书方法
CN104021112A (zh) * 2014-06-23 2014-09-03 时代新媒体出版社有限责任公司 一种基于自动排版的一键成书系统
CN104021113B (zh) * 2014-06-23 2016-11-30 时光流影科技股份有限公司 一种基于自动排版的一键成书方法
CN104021112B (zh) * 2014-06-23 2017-01-11 时光流影科技股份有限公司 一种基于自动排版的一键成书系统
CN113792659A (zh) * 2021-09-15 2021-12-14 上海金仕达软件科技有限公司 文档识别方法、装置及电子设备
CN113792659B (zh) * 2021-09-15 2024-04-05 上海金仕达软件科技股份有限公司 文档识别方法、装置及电子设备
CN116029802A (zh) * 2023-02-08 2023-04-28 上海正弘建设工程顾问有限公司 一种基于大数据的招标服务信息管理系统及方法
CN116029802B (zh) * 2023-02-08 2023-10-17 上海正弘建设工程顾问有限公司 一种基于大数据的招标服务信息管理系统及方法

Similar Documents

Publication Publication Date Title
JP4181892B2 (ja) 画像処理方法
CN101443790B (zh) 数字图像中的非回流内容的有效处理
EP3024213B1 (en) Image scanning apparatus and method for controlling the same
JP4785655B2 (ja) 文書処理装置及び文書処理方法
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
US8824798B2 (en) Information processing device, computer readable medium storing information processing program, and information processing method
JP4854491B2 (ja) 画像処理装置及びその制御方法
JP4920928B2 (ja) 画像処理装置及びその制御方法、プログラム
JP2006350867A (ja) 文書処理装置、文書処理方法、プログラム及び情報記録媒体
JP2006221569A (ja) 文書処理システム、文書処理方法、プログラムおよび記憶媒体
JP2005004724A (ja) 画像処理装置及びその制御方法、プログラム
JP2009193356A (ja) 画像処理装置、画像処理方法、プログラム、及び記憶媒体
US9881001B2 (en) Image processing device, image processing method and non-transitory computer readable recording medium
CN1525378A (zh) 票据定义数据生成方法以及票据处理装置
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
JP2007310501A (ja) 情報処理装置、その制御方法、及びプログラム
US20210295033A1 (en) Information processing apparatus and non-transitory computer readable medium
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
JPH11238072A (ja) 文書保管装置
JP2011034504A (ja) 文書処理装置、文書処理方法、プログラム及び記憶媒体
US20230102476A1 (en) Information processing apparatus, non-transitory computer readable medium storing program, and information processing method
JP2004318766A (ja) 情報検索装置及びプログラム並びに記憶媒体
US11481544B2 (en) Form processing apparatus and non-transitory computer readable medium
JP4294456B2 (ja) 特定キャラクタ列検索装置、特定キャラクタ列検索方法、特定キャラクタ列検索プログラム、および記録媒体
US20230205910A1 (en) Information processing device, confidentiality level determination program, and method

Legal Events

Date Code Title Description
RD05 Notification of revocation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7425

Effective date: 20070626