JP2009110500A

JP2009110500A - ドキュメント処理装置、ドキュメント処理方法、ドキュメント処理装置のプログラム

Info

Publication number: JP2009110500A
Application number: JP2008199231A
Authority: JP
Inventors: Akihiko Fujiwara; 彰彦藤原
Original assignee: Toshiba Corp; Toshiba TEC Corp
Current assignee: Toshiba Corp; Toshiba TEC Corp
Priority date: 2007-10-29
Filing date: 2008-08-01
Publication date: 2009-05-21

Abstract

【課題】画像データの特徴に応じて、画像データの意味情報を抽出する解析部品の選択・構成を最適化することで、意味情報を抽出する際に、無駄な処理を省くと共に解析精度を向上させる。
【解決手段】ドキュメント処理装置２３０の意味情報解析部２３は、画像データ中の文書領域の位置情報を算出する文章領域情報算出部２４と、文章領域情報算出で算出結果に基づいて画像データの特徴を抽出する特徴抽出部２５と、抽出した特徴に基づいて、適用する解析部品を選択し、複数の解析部品を選択した場合には解析部品を適用する順番を決める部品構成部２６と、実際にモジュールを動的に適用して、意味情報を解析する解析実行部２７とから構成される。
【選択図】図２

Description

本発明は、紙文書をスキャンした電子データの領域解析を行い、ドキュメント中の領域の意味情報を解析するドキュメント処理装置、ドキュメント処理方法、ドキュメント処理装置のプログラムに関する。

従来から、紙文書をスキャナ装置などによって画像として読み取り、読み取ったドキュメントの種類毎にファイル化してハードディスクなどの記憶装置に記憶させることが行われている。このドキュメント画像をファイル化する技術は、ドキュメントの画像データ（以下、ドキュメント画像という）のレイアウトを解析することによって得たドキュメントの各項目の意味と、光学式文字読取装置（ＯＣＲ：ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）などで得たテキスト情報とを対応付けて分類することにより実現される。

たとえば、特許文献１には、モジュールを用いて、文字の領域（以下、文字領域とする）と認識された領域に隣接する領域の有無や領域の縦横比率などを判断基準として意味構造を判定する技術が開示されている。また、特許文献２には、このようにして解析された領域意味構造やテキスト情報を文書の分類などに利用する技術が開示されている。

しかし、これらの技術では、領域意味解析に精度を欠き、解析処理にも時間がかかるという問題があった。また、特許文献１には、各モジュールをどのように構築して実行するか開示されておらず、具体的な制御方法が理解することができないと言う問題があった。

また、ハンドスキャナＯＣＲは、ＯＣＲ−ＢフォントサイズＩなど、比較的小寸法の文字のみを入力して確認するものである。文字の上下方向の観測視野は、手のゆらぎを考慮して文字の高さの２倍以上に余裕をもたせてあったが、入力情報の周囲に十分な背景白部のある孤立文字列を扱うため、左右方向は被写体と接続する部分の幅を極力狭くして走査位置が見えやすくするのみで実用上十分であった。
特開平９−６９１３６号公報特開２００１−１０１２１３号公報

上述したように、特許文献１、２の技術では、受領域意味構造の解析に精度を欠き、解析処理にも時間がかかるという問題があった。また、各モジュールをどのように構成するか理解できなかった。
本発明は、上記問題点を解決するためになされたものであって、画像データの特徴に応じて画像データの意味情報を抽出する解析アルゴリズムの選択・構成を最適化することで、意味情報の抽出する際に、無駄な処理を省くと共に解析精度を向上させるドキュメント処理装置、ドキュメント処理方法、ドキュメント処理装置のプログラムを提供することを目的とする。解決しようとする問題点は、高精細な図を手送りで走査入力する操作において障害となる入力位置を目視確認できない点である。

上記目的を達成するために、本発明の一実施形態に係るドキュメント処理装置は、ドキュメントの画像データの領域の種別を分別し、領域の種別が文章領域の座標情報を取得するレイアウト解析手段と、前記座標情報に基づいて、文章領域中の部分領域の位置情報を算出する文章領域情報算出部と、前記位置情報に基づいて画像データの特徴を抽出する特徴抽出部と、複数種類の解析部品を用いて前記部分領域の意味情報を抽出する前記前記解析実行部と、前記特徴抽出部によって抽出された前記領域の前記特徴に基づいて前記解析部品モジュールを構築し、構築された前記解析部品に従って前記解析実行部に前記領域の意味情報を解析させる部品構成部と、を備えることを特徴とする。

本発明によれば、画像データの特徴に応じて画像データの意味情報を抽出する解析アルゴリズムの選択・構成を最適化することで、意味情報の抽出する際に、無駄な処理を省くと共に解析精度を向上させることができる。

以下、本発明の実施の形態について図面を参照しながら説明する。

本発明の実施の形態は、一段組のビジネスレターから他段組・多記事の新聞まで、多様な文書から高精度に、文章、写真・絵、図形（グラフ、図、化学式）、表（罫線あり、なし）、フィールドセパレータ、数式などの領域情報を抽出し、また文章の領域（以下、文章領域という）からは、カラム、タイトル、ヘッダ、フッタ、キャプション、本文を抽出し、さらに本文からは段落、リスト、プログラム、文章、単語、文字等、部分領域の意味を抽出することができるようにしたものである。この他に、抽出された領域の意味情報を構造化して、色々なアプリケーションソフトウェアへの入力・応用を可能とする。

初めに、本実施の形態の概要を説明する。印刷文書は、知識表現の一つの形態とみなすことができる。しかし、内容のアクセスが簡単ではないこと、内容の変更・守勢にコストがかかること、配布にコストがかかること、蓄積に物理的スペースを要し、整理に手間がかかることなどの理由から、ディジタル表現への変換が望まれている。ディジタル表現形式に変換すれば、表計算、イメージファイリング、文書管理システム、ワープロ、機械翻訳、音声読み上げ、グループウェア、ワークフロー、秘書エージェントなどの多様な計算機アプリケーションを通じて、所望の情報が所望の形態で簡単に入手できるようになるからである。

そこで、印刷文書をイメージスキャナやコピー機を用いて読み取り、画像データに変換してこの画像データから上記アプリケーションの処理対象となるいろいろな情報を抽出し、数値化・コードからする方法・装置について以下に説明する。

具体的には、印刷文書をスキャニングして得られたページ単位の画像データから、意味情報を抽出する。ここで、「意味情報」とは、文章領域から「カラム（段組）構造」、「文字行」、「文字」、「階層構造（カラム構造−部分領域−行−文字）」、「図形（グラフ、図形、化学式など）」、「絵、写真」、「表、フォーム（罫線のあるもの、罫線のないもの）」、「フィールドセパレータ」、「数式」などの領域情報の意味及び、「字下げ」、「センタリング」、「揃え」、「ハードリターン」、「文書クラス（新聞、論文、明細書などの文書種別）」、「ページ属性（フロントページ、最終ページ、奥付けページ、目次ページなど）」、「論理属性（タイトル、著者名、アブストラクト、ヘッダ、フッタ、ページ番号など）」、「章節構造（複数ページに亙る）」、「リスト（箇条書きなど）構造」、「親子関係（コンテンツの階層構造）」、「参照関係（参考文献、注釈への参照、本文からの非テキスト領域への参照、非テキスト領域とそのキャプション間の参照、タイトルへの参照など）」、「ハイパーテキスト関係」、「順序（読み順）」、「言語」、「話題（タイトル、見出しとその本文の組合せ）」、「段落」、「文章（読点で区切られている単位）」、「単語（インデキシングにより得られるキーワードなどを含む）」、「文字」などの情報を意味する。

抽出された意味情報は、種々のアプリケーションソフトを通じて、ユーザーから要求があった時点で、あらゆるオブジェクトが動的に、全体的あるいは部分的に構造化、順序付けされて、アプリケーションのインタフェースを通じてユーザーに提供される。このとき、処理結果として複数の可能な候補がアプリケーションに供給され、あるいはアプリケーションから出力されるようしてもよい。

また、文書処理装置のＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）で、同様にあらゆるオブジェクトが、動的に構造化あるいは順序付けされて表示されるようしてもよい。

さらに、構造化された情報は、アプリケーションに応じて、プレーンテキスト、ＳＧＭＬ（ＳｔａｎｄａｒｄＧｅｎｅｒａｌｉｚｅｄＭａｒｋｕｐＬａｎｇｕａｇｅ）、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）等の書式記述言語形式、その他ワープロフォーマットに変換されるようにしてもよい。ページ単位に構造化された情報は、文書ごとに編集されて、文書単位の構造化情報が生成されるようにしてもよい。

次に、全体システムの構成について説明する。図１は、本発明の実施形態に係るドキュメント処理装置２３０を備えた、たとえば画像形成装置（ＭＦＰ：ＭｕｌｔｉＦｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌｓ）の構成の一例を示すブロック図である。図１では、画像データを入力する画像入力手段２１０と、データ通信を行なうためのデータ通信路２２０と、画像データの意味情報を抽出するドキュメント処理装置２３０と、各種データを記憶するデータ記憶部２４０と、ドキュメント処理装置２３０の処理状況や入力操作情報を表示する表示装置２５０と、抽出した意味情報に基づいて出力する出力手段２６０と、制御部２７０とから構成される。

画像入力手段２１０とは、たとえば自動給紙機構（ＡＤＦ：ＡｕｔｏＤｏｃｕｍｅｎｔＦｅｅｄｅｒ）などから搬送された印刷文書をスキャナー装置で読み取った画像を入力する装置である。データ記憶部２４０は、画像入力手段２１０やデータ通信手段２２０からの画像データ、ドキュメント処理装置２３０で抽出した情報を記憶する。表示装置２５０は、ＭＦＰの処理状況や入力操作を表示する装置であり、たとえばＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＭｏｎｉｔｏｒ）等で構成される。出力手段２６０は、ドキュメント処理装置２３０で抽出した情報を印刷出力するためにレーザ偏光に出力して回転ドラムを介して給紙された紙に当該ドキュメント画像を転写し、転写された紙文書が排出される。データ通信手段２２０は、本実施の形態にかかるＭＦＰと外部の端末とでデータのやり取りを行なう装置である。これらの装置を接続するデータ通信路２８０は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）などの通信線で構成される。

本発明の実施の形態に係るドキュメント処理装置２３０は、画像データから意味情報を抽出し、抽出した意味情報に対してデータベース処理を施すものである。

（第１の実施の形態）図２は、第１の実施の形態にかかるドキュメント処理装置２３０の構成を示すブロック図である。ドキュメント処理装置２３０は、大別するとレイアウト解析部２０と、テキスト情報取得部２１と、意味情報管理部２２と、意味情報解析部２３とから構成される。

レイアウト解析部２０には、テキスト情報取得部２１と意味情報管理部２２と意味情報解析部２３とが接続されている。すなわち、レイアウト解析部２０は、画像入力手段２１０から文書を二値化したドキュメント画像を受け取り、これに対してレイアウト解析処理を施し、その結果をテキスト情報取得部２１や、意味情報管理部２２へ渡す処理を行う。レイアウト解析処理とは、ドキュメント画像を一定の構造、つまり文章領域、図形領域、画像領域、表領域に分け、また、文章領域中の「部分領域」（文字行、文字列、本文段落）の位置に関する情報を外接矩形の「座標情報」として取得する。ただし、レイアウト解析部２０の処理の時点では、部分領域の意味（文字列がタイトルを意味する等）を解析することはできない。

図３は、ドキュメント画像の外接矩形と「座標情報」を説明した図である。外接矩形とは、文字に外接する矩形であって、文字認識を行う領域を指す情報となる。各文字の外接矩形を求める方法としては、まずドキュメント画像の各画素値をＹ座標軸に対して射影し、空白部分（黒色である文字のない部分）を探索して「行」を判別して行分割を行う。その後、行単位でドキュメント画像をＸ座標軸に対して射影し、空白部分を探索して文字単位に分割する。これによって、各文字を外接矩形で切り出すことが可能となる。ここでは、ドキュメント画像の水平方向をＸ軸、垂直方向をＹ軸とし、外接矩形の位置をＸＹ座標で表す。

レイアウト解析部２０によって、文章領域でないと判断された領域（画像領域、図形領域、表領域）は、意味情報管理部２２に渡される。文章領域と判断された領域は、テキスト情報取得部２１へ渡され、テキスト情報取得部２１で抽出されたテキスト情報が意味情報管理部２２に保存される。同時に文章領域と判断された領域は、意味情報解析部２３へ渡される。

ここで、テキスト情報取得部２１は、ドキュメント画像中の文章領域のテキスト情報を取得するモジュールである。「テキスト情報」とは、ドキュメント画像中の文字列の文字コードを意味する。具体的には、レイアウト解析部２０によって抽出された文字領域の画素分布を解析し、画素のパターンを事前に登録された文字画素パターンや辞書と比較することによって文字種別を判定し、テキスト情報として抽出するモジュールであり、具体的にはＯＣＲを用いることが考えられる。

一方、意味情報解析部２３は、レイアウト解析部２０から受け取った文章領域の意味情報を抽出する。意味情報解析部２３で抽出した意味情報は、意味情報管理部２２に保存される。

意味情報管理部２２は、ファイル装置を含みレイアウト解析部２０で抽出された文章領域でない領域と、テキスト情報取得部２１で抽出されたテキスト情報と、意味情報解析部２３で抽出された意味情報とを関連付けて保存する。

次に、図４のフローチャートを用いて、ドキュメント処理装置２３０の処理全体を説明する。

画像入力手段２１０からのドキュメント画像のデータがレイアウト領域解析部２０に入力される（ステップＳ１０１）。レイアウト解析部２０は、ドキュメント画像の画素の分布状況を解析し（ステップＳ１０２）、文章領域とそれ以外（画像領域、図形領域、表領域）とに分ける（ステップＳ１０３）。そして、画像領域、図形領域、表領域の情報は、意味情報管理部２２に保存される（ステップＳ１０３のｎｏ）。また文章領域の情報については、テキスト情報取得部２１で、テキスト情報が抽出される（ステップＳ１０４のｙｅｓ）。さらに、意味情報解析部２３で、文章領域の意味情報が抽出される（ステップＳ１０５）。文章領域以外の領域と、テキスト情報、文章領域の意味情報は、意味情報管理部２２に管理保存される（ステップＳ１０６）。以上の処理により、ドキュメント処理装置の処理は終了する（ステップＳ１０７）。

ここで、意味情報解析部２３の詳細について図２を参照しながら説明する。意味情報解析部２３は、文章領域情報算出部２４と、特徴抽出部２５と、部品構成部２６と、解析実行部２７とから構成される。

文字領域情報算出部２４は、レイアウト解析部２０で抽出された文章領域中の各部分領域の座標情報やテキスト情報に基づいて、さらに文章領域の情報を取得する。具体的には、座標情報やテキスト情報に基づいて、文章領域の領域中の部分領域にかかる外接矩形の高さや幅、外接矩形と外接矩形の間隔、文字行の数、文字行の方向、文字サイズを算出する。

特徴抽出部２５は、文章領域情報算出部２４で算出した文章領域の各種情報に基づいて、ドキュメント画像における文章領域の「特徴」を抽出する。つまり、データマイニングを用いて文章領域の高頻度に発生する特徴を抽出する。たとえば、特開２００４−１７８０１０号公報で開示されているヒストグラムを用いた手法（平均文字サイズの確率分布、要素の高さの確率分布、要素の幅の確率分布、文字行数の確率分布、言語種別の確率分布、文字行方向の確率分布を算出し、所定の閾値以下を基準に各確率分布の特徴を抽出する）を用いてもよい。あるいは、クラスタ解析（文章領域の領域中の部分領域にかかる外接矩形の高さや幅、外接矩形と外接矩形の間隔、文字行の数、文字行の方向等のデータを、外的基準なく、似ているもの同士を自動的にグループ化し、核グループの特徴を抽出する手法）を用いても良い。これによって、たとえば、ドキュメント画像において、「文字サイズのばらつきが大きい」とか、「特定の文字サイズに偏りがある」とか、「外接矩形がＸ軸方向の方に満遍なくばらついている」とか、「外接矩形がセンターに偏っている」という各種特徴を抽出することが可能となる。

部品構成部２６は、特徴抽出部２５で抽出された特徴に基づいて、意味情報解析を実行するために最適なモジュールを解析実行部２７から選択し、選択したモジュールを組み合わせる。その後、解析実行部２７にて意味情報を解析させる。解析実行部２７には、複数の解析部品が存在する。部品構成部２６は、必要な解析部品を選択し、組み合わせるなどし、このように構成した解析部品を解析実行部２７に実行させる。

本実施形態では、部品構成部２６に部品選択構成部３１を設けた例を示している。この部品選択構成部３１は、部品構成部２６が選んだ解析部品を解析実行部２７から選択する。そのうえで、解析実行部２７に実行させる。

ここで、解析実行部２７は、意味情報の抽出を実行するモジュールであり、この実行を可能にする複数のアルゴリズムを備えている。この、意味情報の抽出を行なうアルゴリズムを「解析部品」という。解析部品を用いて意味情報の抽出を行う際、文章領域情報算出部２４で取得した文章領域中の部分領域にかかる外接矩形の高さや幅、部分領域間の間隔、文字行の数、文字行の方向の情報に基づいて、実際に解析を行うこととなる。「解析部品」は複数種類存在する。具体的には、文字サイズ解析部品２８と、矩形縦方向位置解析部品２９と、矩形横方向位置解析部品３０がある。

文字サイズ解析部品２８は、部分領域の意味情報を文字サイズから判定するモジュールであり、たとえば、最も大きい文字サイズをタイトル、最も小さい文字サイズの文字段落を本文段落と解析するように予め設定されている。矩形縦方向位置解析部品２９は、ドキュメント画像のＹ軸の値で部分領域の意味情報を判定するモジュールである。矩形横方向位置解析部品３０は、ドキュメント画像のＸ軸の値で部分領域の意味情報を判定するモジュールである。

これらの解析部品で意味情報を判定し、判定した意味情報は意味情報管理部２２に保存される。図５は、意味情報管理部２２の記憶テーブルを示す図である。ここでは、レイアウト解析部２０で抽出された図表領域や座標情報と、テキスト情報取得部２１で取得されたテキスト情報と、解析実行部２４で解析された文章領域の意味情報とが関係付けて管理保存される。

図６のフローチャートを用いて、意味情報解析部２３の動作の説明を説明する。意味情報解析部２３は、レイアウト解析部２０で抽出された座標情報や、テキスト情報に基づいて、文章領域の意味情報を抽出する。まず、文章領域情報算出部２４は、レイアウト解析部２０で抽出された外接矩形の座標情報に基づいて、文章領域の領域中の部分領域にかかる外接矩形の高さや幅、部分領域と部分領域の間隔、文字行の数、文字行の方向、文字行中の各文字のサイズを算出する（ステップＳ５１）。

次に、特徴抽出部２５は、文章領域情報算出部２４で取得した文章領域の各種情報の平均値や確率分布を用いて、ドキュメント画像における文章領域の安定した特徴を抽出する（ステップＳ５２）。

次に、部品構成部２６の部品選択構成部３１は、この安定した特徴から意味情報の解析を実行するために最適の解析部品を解析実行部２７から選ぶ。たとえば、文章領域の文字サイズに特徴があった場合（ステップＳ５３のｙｅｓ）、文字サイズで領域の意味情報を抽出する文字サイズ解析部品２８だけを解析実行部２７から選択する（ステップＳ５５）。一方、文字サイズに特徴がない場合（ステップＳ５３のｎｏ）、解析実行部２７が有するすべての解析部品を選択する（ステップＳ５４）。そして、選択した解析部品で意味情報の解析を構成することができるかを確認する（ステップＳ５６）。構成が完了しない場合は、特徴を抽出する作業を再度行う（ステップＳ５７のｎｏ）。構成が完了すると、解析実行部２７は構成した部品モジュール、たとえば、文字サイズ解析部品２８にしたがって意味情報の解析を行う（ステップＳ５８）。この結果、文字サイズ解析部品２８は、文章領域情報算出部２４で算出された外接矩形のサイズや文字サイズにしたがって、最も大きな文字サイズをもつ文字行をタイトル、最も小さいサイズをもつ部分領域を本文段落と解析することとなる。

図７は、ＭＦＰ等でスキャンされたドキュメント画像１に対してなされる処理の概要をドキュメント画像１−１から１−２まで時系列的に表した図である。図７に示すドキュメント画像１は、画像上に「２００６／０９／１９」、「特許明細書」、「本明細書ではＯＣＲシステムについて・・・・・」という文章領域を有する。以下、このドキュメント画像1に対して、本実施形態を適用させた場合の動作を説明する

レイアウト解析部２０は、このドキュメント画像中の文章領域１を分割し、文章領域の情報を抽出する。この実施形態では、ドキュメント画像１−１に示すように、１−ａ、１−ｂ、１−ｃといった文章領域（文字領域）が抽出される。また、それぞれの領域の座標情報も抽出される。たとえば、ドキュメントの横軸をＸ軸、縦軸をＹ軸とすると、始点の（Ｘ１、Ｙ１）座標と終点の（Ｘ２、Ｙ２）座標が数値として求められ、それぞれの文章領域の持つ値として解析することができる。ここで、領域１−ａは始点（１０、８），終点（１０、８０）、領域１−ｂは始点（１３、３０），終点（９０、４０）、領域１−ｃは始点（５、５５），終点（１３０、１５５）という外接矩形の位置に関する座標情報が得られたものとする。ただし、この時点では、外接矩形のサイズ等や文章領域の意味情報を抽出できない。

この後、文字領域情報算出部２４により、座標情報やテキスト情報に基づいて、文章領域の領域中の部分領域にかかる外接矩形の高さや幅、部分領域と部分領域の間隔、文字行の数、文字行の方向を算出する。これら算出した情報に基づいて、特徴抽出部２５は、ドキュメント画像の特徴を抽出する。

たとえば、図７のドキュメント画像１は、文字サイズにばらつきがあるという特徴が抽出されたとする。したがって、部品構成部２６は部品選択構成部３１に文字サイズ解析部品２８だけを選択させる（ドキュメント画像１−２）。そして、解析実行部２７に、文章領域の意味情報を解析させる。この結果、最も文字サイズの大きい領域１−ｂをタイトル領域として抽出することができる。同様にして、領域１−ａは文字サイズ小を、領域１−ｃは文字サイズ中の抽出結果を得ることができる。

最終的には、意味情報管理部２２が以上の処理の結果を統合する。たとえば、図７のドキュメント画像１では、領域１−ａは「２００６／０９／１９」というテキスト情報をもつヘッダ領域と、領域１−ｂは「特許明細書」というテキスト情報をもつタイトル領域と、領域１−ｃは「本明細書では、ＯＣＲシステムについて・・・」というテキスト情報を本文段落領域として管理する。その結果、意味情報管理部２３には、図５の示すように、画像ＩＤ、領域ＩＤ、座標、領域の種別、テキスト情報、領域意味情報の各項目に上記抽出した情報が格納される。

このように、第１の実施形態に係るドキュメント処理システムによれば、ドキュメント画像の特徴に基づいて適切な解析アルゴリズムを選択して、解析させることができるため、解析精度を向上させると共に適切な処理時間での処理を可能とするシステムを提供することが可能となる。

また、本実施形態にかかるドキュメント処理装置２３０を有するＭＦＰにおいては、自動的に必要な部分（たとえばタイトル部分）を抽出し、ドキュメントのサイズを小さくすることが可能となるため、ファクシミリの送信にかかる費用を最小限にすることができる。また、ファイル添付メールでドキュメントを送信する際に、メールサーバのサイズ制限によりメールが返送されてきた場合に自動的にサイズを小さく切り替えることが可能となる。

（第２の実施の形態）図８は、第２の実施形態に係るドキュメント処理装置２３０を示すブロック図である。本実施形態におけるドキュメント処理装置２３０は、図２に示したシステムに加えて、部品構成部２６に部品順序構成部３１が設けられている。
部品順序構成部３１は、部品構成部２６が解析実行部２７から複数の部品モジュールを選んだ場合に、各部品モジュールを実行する最適な順番を決めて、解析実行部２７に意味情報の解析を実行させるモジュールである。

図９のフローチャートを用いて、本実施の形態における意味情報の解析を説明する。まず、文章領域情報算出部２４は、レイアウト解析部２０で抽出された外接矩形の座標情報に基づいて、文章領域の部分領域にかかる外接矩形の高さや幅、部分領域と部分領域の間隔、文字行の数、文字行の方向、文字行中の各文字のサイズを算出する（ステップＳ６１）。

次に特徴抽出部２５は、文章領域情報算出部２４で算出した文章領域の領域中の部分領域にかかる外接矩形の高さや幅、外接矩形と外接矩形の間隔、文字行の数、文字行の各種情報を用いて、ドキュメント画像における特徴を抽出する（ステップＳ６２）。

次に、部品構成部２６の部品選択構成部３１は、抽出した特徴から意味情報の解析を実行するために最適の部品モジュールを解析実行部２７から選ぶ。たとえば、文章領域の文字サイズにばらつきがあるという特徴があった場合（ステップＳ６３のｙｅｓ）、文字サイズで領域の意味を解析する文字サイズ解析部品２８だけを解析実行部２７から選択し（ステップＳ６４）、部品モジュールを構成する(ステップＳ６５)。以上の処理は、第1の実施形態と同じである。

「文字サイズがばらついている」という特徴を抽出できない場合（ステップＳ６３のｎｏ）、部品構成部２６はドキュメント画像の別の特徴に基づいて、適用する解析部品をさらに選択する。ここで、たとえば、「外接矩形がＹ軸方向に満遍なくばらついている」という特徴を抽出した場合（ステップＳ６８のｙｅｓ）、部品選択構成部３１は文字サイズ解析部品２８と矩形縦方向位置解析部品２９の両方のモジュールを選択する（ステップＳ６８）。

このように複数の部品モジュールを選択した場合、部品順序構成部３１が解析部品を適用する順番を決め（ステップＳ７０）、解析部品モジュールを構成する（ステップＳ６５）。さらに、文字サイズ解析部品２８と矩形縦方向位置解析部品２９を選択した場合、文字サイズ解析部品２８によって文字サイズの大きさでタイトルや本文段落の候補が解析され、矩形縦方向位置解析部品２９によってドキュメント画像中の部分領域の縦方向位置から解析をすることで、候補の中から文章領域の意味情報を解析することができる。

特徴を全く抽出できない場合（ステップＳ６８のｎｏ）、部品構成部２６は全ての解析部品（２８，２９，３０）を選択し（ステップＳ７１）、解析部品モジュールを構成するように設定する（ステップＳ６５）。

このように選択した解析部品モジュールを構成し（ステップＳ６５）、構成が終了した場合（ステップＳ６６のｙｅｓ）、それらの解析部品モジュールに従って、解析実行部２７は意味情報の解析を実行する（ステップＳ６７）。なお、部品モジュールの構成ができなければ（ステップＳ６６のｎｏ）、ステップＳ６２へ戻りドキュメント画像の特徴を再抽出することとなる。

図１０は、ＭＦＰ等でスキャンされたドキュメント画像２に対してなされる処理の概要をドキュメント画像２−１から２−２まで時系列的に示した図である。ここでは、文章領域の意味情報を解析することで、文章領域中のタイトルを抽出したいとする。

ドキュメント画像２には、ページ上位に比較的大きなサイズの文字列「特許明細書」が配置されており、ページ中程にページ上位の文字列と同サイズの文字列２行「１．従来の技術」と「２．従来課題」とが配置されており、その文字列２行に隣接する形で、「従来の技術ではドキュメントシステムについて・・・・・・」、「しかし従来の技術では・・・・・・」という小さな文字サイズの文字列が数行存在する。以下、このドキュメント画像２に対して、本実施形態を適用させた場合の動作を説明する。

まず、レイアウト解析部２０により文章領域が抽出されるとともに、座標情報が抽出される。たとえば、ドキュメント画像２−１に示すように、２−ａ、２−ｂ、２−ｃ、２−ｄ、２−ｅといった文章領域（文字領域）が抽出されるとともに、それぞれの文章領域の持つ値として、領域２−ａは始点（１５、５），終点（９０、２５）、領域２−ｂは始点（５、３０），終点（８０、５０）、領域２−ｃは始点（１０、５５），終点（１３０、１００）、領域２−ｄは始点（５、１１０），終点（８０、１３０）、領域２−ｅは始点（１０、１３５），終点（１３０、１６０）と解析される。

ここで、図１０のドキュメント画像２は、領域２−ａ、２−ｂ、２−ｄの文字サイズは同一であり、領域２−ｃ、２−ｅの文字サイズは同一でるため、文字サイズのばらつき自体は小さいが、文字サイズが比較的大きい文字列も存在するという特徴が抽出される。また、文章領域の位置の傾向が、Ｙ軸方向に対して、文字サイズが比較的大きな文字列と文字サイズが比較的小さな複数の文字列が点在しているという特徴が抽出される（ドキュメント画像２−１）。

したがって、部品構成部２６の部品選択構成部３１は、文字サイズのばらつきが小さく、文章領域の位置がＹ軸方向にばらついているという特徴に基づいて、文字サイズ解析部品２８と矩形縦方向位置解析部品２９を選択して、これらを適用する最適な順番を決める。そして、この選択・組み合わせの処理を実行する解析部品として、部品順序構成部３２を選択する。

ここでは、隣接する文字領域の位置関係が文字サイズの比較的大きい文字領域と比較的小さい文字領域が個々に近い場所に分布していることから、文字サイズ解析部品２８と、矩形縦方向位置解析部品２９を順に組み合わせて適用することで、意味情報を解析するとよい。すなわち、領域２−ａ、２−ｂ、２−ｄが他の文字領域と比較して、文字サイズが大きいため、文字サイズ解析部品２８でタイトル候補として選び、その後、矩形縦方向位置解析部品２９で、領域２−ａ、２−ｂ、２−ｄの文字領域のうち、もっともＹ軸の値が小さいものをタイトル領域として選択する。これらの処理の結果、領域２−ａがタイトル領域として意味情報を抽出することができる。

このように、第２の実施形態は、抽出した特徴に応じて解析部品を複数選択し、それを適用する最適な順序を決める部品順序構成部３２を設けることで、解析精度をより向上させると共に適切な処理時間での処理を可能とするドキュメント処理装置２３０を提供することが可能となる。

（第３の実施の形態）図１１は、本発明の第３の実施形態に係るドキュメント処理装置を示すブロック図である。本実形態では、第２の実施形態に加えて、部品構成部２６に部品並列構成部３３が設けられている。さらに、部品構成部２６には解析結果即時提示部３４を介して部品構成途中結果評価部３５が接続されている。

部品並列構成部３３は、解析実行部２７の選択された複数の解析部品を並列に構成し解析に適用するものである。

解析結果即時提示部３４は、解析実行部２７内の各解析部品を表示装置２５０に視覚的部品として表示させ、部品構成部２６で解析部品の構成を行う際にそれらの視覚的部品を感覚的に平易な状態でユーザーに対して提示させ、さらにサンプル画像および上記アルゴリズム部品の構成を適用することによって得られる解析結果をユーザーに対して提供させるモジュールである。

たとえば、アプリケーションのＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）上に表示されるアイコンとして表示装置２５０に表示させ、部品構成部２６で構成を行う際にアプリケーションのＧＵＩ上にユーザーがドラッグアンドドロップなどの操作が可能な編集用ウインドウを表示装置２５０に設け、ユーザーは解析部品のアイコンをそのウインドウ上に配置したり連結させたりすることで解析部品の構成を行い、さらに解析対象となるフォームを持った紙原稿を事前にスキャンしておいて取得された画像情報およびこのサンプル画像に対して実際にタイトル抽出を行った結果を表示装置２５０に提示させるきとによって解析部品の定義の操作をユーザーに対して提供する。

部品構成途中結果評価部３５は、解析結果即時提示部３４で提示された途中結果が肯定的であるか否かを評価するモジュールである。すなわち、部品並列構成部３３によって選択された複数の解析部品の組み合わせを複数組設定された場合に、いずれの組み合わせが最適か否か評価するモジュールである。

図１２のフローチャートを用いて、本実施形態における意味情報の解析の処理を説明する。まず、文章領域情報算出部２４は、レイアウト解析部２０で抽出された外接矩形の座標情報に基づいて、文章領域の部分領域にかかる外接矩形の高さや幅、間隔、文字行の数、文字行の方向、文字行中の各文字のサイズを算出する（ステップＳ８１）。

次に、特徴抽出部２５は、文章領域情報算出部２４で算出した文章領域の領域中の部分領域にかかる外接矩形の高さや幅、外接矩形と外接矩形の間隔、文字行の数、文字行の各種情報を用いて、ドキュメント画像における特徴を抽出する（ステップＳ８２）。

次に、部品構成部２６の部品選択構成部３１は、抽出した特徴から意味情報の解析を実行するために最適の解析部品を解析実行部２７から選ぶ。たとえば、「文章領域の文字サイズにばらつきがある」という特徴があった場合（ステップＳ８３のｙｅｓ）、文字サイズで領域の意味を解析する文字サイズ解析部品２８だけを解析実行部２７から選択し（ステップＳ８４）、解析部品を構成する(ステップＳ８５)。以上の処理は、第１及び第２の実施例と同じである。

「文章領域の文字サイズにばらつきがある」という特徴を抽出できない場合（ステップＳ８３のｎｏ）、部品構成部２６はドキュメント画像の別の特徴に基づいて、適用する解析部品をさらに選択する。ここで、たとえば、ドキュメント画像に「外接矩形がＹ軸方向に満遍なくばらついている」という特徴を抽出した場合（ステップＳ８７のｙｅｓ）、部品選択構成部３１は文字サイズ解析部品２８と矩形縦方向位置解析部品２９の両方のモジュールを選択する（ステップＳ８８）。

このように複数の解析部品を選択した場合、部品順序構成部３２が解析部品を適用する順番を決め（ステップＳ８９）、解析部品を構成する（ステップＳ８５）。たとえば、文字サイズ解析部品２８と矩形縦方向位置解析部品２９を選択した場合、文字サイズ解析部品２８によって文字サイズの大きさでタイトルや本文段落の候補を解析し、矩形縦方向位置解析部品２９で、ドキュメント画像中の部分領域の縦方向位置から解析をすることで、候補の中から文章領域の意味情報を解析することができる。

本実施の形態では、ステップＳ８３，Ｓ８７で特徴を全く抽出できない場合、部品構成部２６は解析実行部２７内の全ての解析部品を選択せず（ステップＳ７１）、解析部品を並列に構成するか判定する（ステップＳ６１）。すなわち、解析部品モジュールの組み合わせパターンを複数作成し、同時間に処理をテストし、最適の組み合わせを選択する。

ここでは、Ｘ軸方向で解析するパターン（ステップＳ９１）とＹ軸方向で解析するパターン（ステップＳ９２）とに分けて解析する。そして、解析部品の組合わせを決した後、解析部品を実行する順序を決める（ステップＳ９３）。たとえば、Ｘ軸方向を基準に解析する場合、文字サイズ解析部品２８を用いて領域意味を解析し、その後、矩形横方向位置解析部品３０を用いて領域意味を抽出する。

また、Ｙ軸方向を基準に解析する場合、文字サイズ解析部品２８を用いて意味情報の抽出を行い、さらに矩形縦方向位置解析部品２９を用いて領域意味を抽出する。このように、解析部品を構成した後（ステップＳ９４）、両処理の結果を、部品構成途中結果評価部３５で評価するか否か判定する（ステップＳ９５）。途中結果を評価すると判定した場合（ステップＳ９７のｙｅｓ）、途中結果を表示する（ステップＳ９６）。途中結果を表示しないと判定した場合、意味情報の解析を終了する（ステップＳ９７のｎｏ）。

図１２は、ＭＦＰ等でスキャンされたドキュメント画像３に対してなされる処理の概要をドキュメント画像３−１から３−３まで時系列的に示した図である。

ドキュメント画像３は、図１３に示すように、ページ上位に比較的大きな文字サイズの文字列２行が、ページ中に分散して同様に比較的大きな文字サイズの文字列２行が、またそれらの比較的大きな文字サイズの文字列に隣接する形で比較的小さな文字サイズの文字列数行が、存在している画像である。さらに、ページ上位の２行は、その行の開始位置がページの横方向に対して左詰めの行と、中央にセンタリングされた行と傾向が異なっている。さらに、ページ中に分散して存在する比較的大きな文字サイズの文字列の２行も、左詰めにされている。

まず、レイアウト解析部２０により文字領域が抽出されるとともに、パラメータ情報も抽出される。たとえば、ドキュメント画像３−１に示すように、３−ｆ、３−ａ、３−ｂ、３−ｃ、３−ｄ、３−ｅといった文章領域が抽出されるとともに、それぞれの文章領域の持つ値として、領域３−ｆは始点（５、５），終点（３５、２５）、領域３−ａは始点（４５、３０），終点（１４５、５０）、領域３−ｂは始点（５、５０），終点（８０、７０）、領域３−ｃは始点（１５、７５），終点（１２５、１１０）、領域３−ｄは始点（５、１２０），終点（５５、１５０）、領域３−ｅは始点（１５、１５５），終点（１２５、１８０）と解析される。

この後、文章領域情報算出部２４により、座標情報やテキスト情報に基づいて、文章領域の領域中の部分領域にかかる外接矩形の高さや幅、間隔、文字行の数、文字行の方向を算出する。これら算出した情報に基づいて、特徴抽出部２５は、ドキュメント画像の特徴を抽出する。

ここで、特徴抽出部２５は、このドキュメント画像３に対して、文字サイズのばらつきが小さい文字列によって構成されており、文字サイズが比較的に大きい文字列がページ中に複数存在しており、文章領域にかかる外接矩形の位置が、文字サイズが比較的大きな文字列と隣接して、文字サイズが比較的小さな複数の文字列を含む文字領域が存在しており、文字サイズが大きい文字列は、ページ横方向に対して左詰めにされている行とセンタリングされている行が存在するという特徴が抽出される（ドキュメント画像３−１）。

こうして得られたドキュメント画像３−１の特長に対して、部品構成部２６はこのドキュメント画像に対して、領域の領域意味の解析を行うに当たって適用すべき解析部品を判定する。このドキュメント画像３−１に対しては、同じ文字サイズの文字列が複数分離して存在しており、隣接する文字領域の位置関係が文字サイズの比較的大きい文字領域と比較的小さい文字領域が個々に近い場所に分布しており、さらに同様の文字サイズの文字列のドキュメント画像横方向の開始場所は左詰めにされている行とセンタリングされている行があることから、部品構成部２６は領域意味の解析をするにあたって、解析実行部２７の解析部品として、文字サイズ解析部品２８と、矩形縦方向位置解析部品２９と、矩形横方向位置解析部品３０とを選択する。

このように、ページ中の縦方向及び横方向の開始位置によって解析を行う場合、それらの解析部品による判定結果を直列的には評価できない場合がある。例えば、直列的に最初に横方向の開始位置によって評価した結果、ページ上位にあるにも関わらず右詰めされているなどの判定基準によってタイトル候補から外されてしまう場合がある。この外されてしまった文字列は、ページ縦方向の開始位置では非常にタイトル候補として適切であると判定されることもあり、その判定を行う前に事前の横方向の判定によって候補から外されてしまうと、より精度の高い判定結果を得ることができない可能性がある。従って、このように複数の解析部品を等価に用いたいように判定された場合は、それらの解析モジュールを並列的に構成して解析に適用する必要がある。

このように、本実施の形態では、解析部品が並列的に構成されると、最終的にタイトル候補を決定するためには、それらの並列的に構成された解析部品の途中段階の解析結果を比較する必要がある。そこで、部品構成途中結果評価部３５で途中結果を表示させる。

本実施形態では、部品並列構成部３３で解析部品を並列的に構成することで、解析の精度を向上させるとともに、適切な処理時間での処理を可能とするシステムを提供することが可能となる。また、本実施の形態では、解析部品の複数の組み合わせを並列に構成し、その途中結果を表示させることで、ユーザーが解析部品の組み合わせを容易に評価することが可能となる。このようにすることで、複数の構成結果の候補から、ユーザー所望の構成結果を選択することが可能となる。

さらに、本実施の形態に係るドキュメント処理装置２３０を備えたＭＦＰにおいては、解析結果即時提示部３４に表示された複数の構成結果をその場でプリントアウトすることが可能となる。加えて、プリントアウトした紙にユーザーがペン等で書き込みをし、スキャンすることで、ユーザー所望の構成結果をＭＦＰに認知させることが可能となる。この場合、ユーザーは解析対象である特定のフォームをサンプル画像に対して入力を行うとよい。たとえば、特定のフォームに各種情報といったコンテンツが記入済みの紙原稿をスキャンし、その画像情報をＪＰＥＧ形式などでファイル化して登録するとよい。また、入力された画像情報を、表示装置２５０の「スキャン画像プレビュー」ウインドウで表示するとよい。

（第４の実施の形態）図１４は、本発明の第４の実施形態に係るドキュメント処理装置を示すブロック図である。本実施形態に係るドキュメント処理装置２３０は、第３の実施の形態に加えて、部品構成定義管理部３６と部品構成定義部３７と部品構成定義学習部３８が設けられている。

部品構成定義部３７は、部品構成途中結果評価部３５で評価されたユーザー所望の構成結果を、最適な構成結果として定義し、表示装置２５０に視覚的に表示させるモジュールである。すなわち、第1の実施の形態から第３の実施の形態におけるような解析部品の構成は、実際にはある特定のフォーム（例えば、旅費精算用フォーム、特許申請用フォームなど、特定の目的のために特定の記述項目やレイアウトを持ったドキュメント）に対してタイトル抽出などの領域情報を自動的に解析させる、といった目的に沿って行われる。従って、ユーザーはその特定のフォームに対して解析部品の構成を定義する必要があり、部品構成定義部３７は、その定義のための手段を提供するものである。

部品構成定義学習部３８は、部品構成定義部３７においてユーザーが解析部品構成を定義を学習するモジュールである。たとえば、特徴抽出部２５で抽出された文章領域の特徴とユーザーが定義した解析部品の組み合わせを関連付けて、ある領域傾向を持った画像に対してユーザーがどのように意味領域を認識して定義することが多いかといった傾向を学習するモジュールである。

部品構成定義管理部３６は、部品構成定義部３７にてユーザーが定義した解析部品の構成結果や、部品構成定義学習部３８によって学習された特定ユーザーの解析部品の組合わせに関する情報を保管保存するモジュールである。

ユーザーは、表示装置２５０に表示させた画像に対して、所望の解析結果を得られるように、解析部品の定義を行っていく。たとえば、部品構成部２６で準備されている解析部品の一つ一つを個々のアイコンとして配置し、アイコン同士を線の描画オブジェクトによって連結させることで処理の流れを表現したり、といった操作が可能であるとする。この場合、個々のアイコンは、メニューにより選択してウインドウに配置することもできれば、アイコンの一覧が別途ウインドウに表示されそのアイコンをドラッグアンドドロップなどの操作で配置することもできる。また、個々の解析部品だけでなく、部品並列構成部３３で組み合わせた複数の構成案をも、フローチャートの表記に類似したようなアイコンを配置することで表現できるものとする。

たとえば、図１５のように、ＧＵＩによって、ユーザー所望の構成結果を視覚的に表示させるとよい。この図１５に示す「解析部品構成結果」ウインドウに対してユーザーが構成定義を行うと、「解析結果一覧」ウインドウにその解析結果が逐次表示される。ここで、「解析部品構成結果」ウインドウに対してユーザーが構成定義を行っている操作が一定時間行われないとする。すると部品構成定義部３７は、その時点で定義されたアルゴリズム部品構成を「スキャン画像プレビュー」ウインドウで表示されているサンプル画像に対して適用し、その解析結果を「解析結果一覧」に画像装置２５０に表示させる。図１５の例では、ユーザーはタイトル領域と日付領域をこの特定のフォームに対して解析させようとしており、それらの領域の解析結果およびＯＣＲ処理を行った結果を共に「解析結果一覧」ウインドウに表示している。

また、ユーザーはこの解析結果を何らかのフォーマットで出力したい場合は、「出力フォーマット確認」ウインドウにて、逐次表示される解析結果が反映された形で出力結果を事前に確認することができる。例えば、ユーザーはあるスキーマを持ったＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）形式で解析結果を出力したい場合には、事前にそのスキーマを解析結果を記述するタグや順番を含めて設定しておく。すると、「解析部品構成結果」ウインドウにて定義されたアルゴリズム部品の構成に応じて得られた解析結果が反映された状態で「出力フォーマット確認」ウインドウに表示が行われ、ユーザーはその内容を確認することで、解析結果だけでなくそれがどのように出力されるか（ここではＸＭＬ形式）を確認することができる。

このように、ユーザーは部品構成定義部３７によって、対象とするフォームのドキュメントに対してアルゴリズム構成を定義することができるが、現実的にはこの定義に伴う操作はその定義内容によっては煩雑であり、かつ異なるフォームに対して都度同様の定義のための操作を行うのは負荷がかかる。

そこで、この場合、部品構成定義学習部３８では、このユーザーが特定のフォームに対して行うアルゴリズム構成定義の操作傾向を学習できるものとする。たとえば、特徴抽出部２５においてその対象となるフォームの特徴は取得されているが、その特徴をパラメータ化しその画像に対してユーザーが行った定義もパラメータ化する。これらのパラメータに対して、例えば協調フィルタリングを適用して、ある画像傾向のパラメータに対して共起されるアルゴリズム構成定義の傾向を学習させることができる。

このようにして得られた学習結果を、その定義を行ったユーザーの情報（例えば、ユーザーＩＤや所属情報、役職情報、得意分野などのキーワード情報、など）と共に部品構成定義管理部３６にてリレーショナルデータベースのテーブルのレコードとして管理するものとする。この部品構成定義管理部３６にて管理保存されているアルゴリズム部品構成定義の情報は、部品構成定義学習部３８で引き続き学習される内容によって更新されたり、また他のユーザーから参照されることによって共有されたりできるものとする。

このように、本実施形態では、部品構成定義管理部３６においてユーザーが解析品の構成の特徴を学習するアルゴリズムを記憶させることで、部品構成定義学習部３８において特徴抽出部２５で解析された領域傾向の特徴量とユーザーの定義したアルゴリズム部品構成パターンを関連付けて、ある特徴を持った画像に対してユーザーがどのように意味情報を認識して定義するかといった意味情報を定義する特徴を学習することが可能となる。

また、本実施形態のドキュメント処理システムを有するＭＦＰにおいては、ユーザーが自由に解析部品を構成できるため、事業形態を問わずにＭＦＰを使用することが可能となる。

さらに、本実施形態では、部品構成定義管理部３６で解析部品の構成結果を保管することができるため、後にどのような解析を行なったユーザーが視覚的に確認することが可能となる。

本発明の実施形態に係る文書処理装置を備えたＭＦＰの一例を示すブロック図。本発明の第1の実施の形態に係る文書処理装置の構成の一例を示すブロック図。外接矩形を説明するための図。本発明の実施の形態に係る文書処理装置の処理の概要を示すフローチャート。本発明の実施の形態に係る意味情報管理部の一例を示す図。本発明の第1の実施の形態に係る文書処理装置の処理の一例を示すフローチャート。本発明の第1の実施の形態に係る文書処理装置の効果の一例を示す図。本発明の第２の実施の形態に係る文書処理装置の構成の一例を示すブロック図。本発明の第２の実施の形態に係る文書処理装置の処理の一例を示すフローチャート。本発明の第２の実施の形態に係る文書処理装置の効果の一例を示す図。本発明の第３の実施の形態に係る文書処理装置の構成の一例を示すブロック図。本発明の第３の実施の形態に係る文書処理装置の処理の一例を示すフローチャート。本発明の第３の実施の形態に係る文書処理装置の効果の一例を示す図。本発明の第４の実施の形態に係る文書処理装置の構成の一例を示すブロック図。本発明の第４の実施の形態に係る分処理装置の効果の一例を示す図。

符号の説明

２１０画像入力手段、２２０データ通信手段、２３０ドキュメント処理装置
２４０データ記憶部、２５０表示装置、２６０出力手段
２７０制御部、２８０データ通信路、２０レイアウト解析部
２１テキスト情報取得部、２２意味情報管理部、２３意味情報解析部
２４文章領域情報算出部、２５特徴抽出部、２６部品構成部
２７解析実行部、２８文字サイズ解析部品
２９矩形縦方向位置解析部品、３０矩形横方向位置解析部品
３１部品選択構成部、３２部品順序構成部、３３部品並列構成部
３４解析結果即時提示部、３５部品構成途中結果評価部
３６部品構成定義管理部、３７部品構成定義部、３８部品構成定義学習部

Claims

ドキュメントから読み取った画像データを解析して種別毎に領域を分別し、その領域中から種別が文章領域の座標情報を取得するレイアウト解析手段と、
前記レイアウト解析手段で取得した前記座標情報に基づいて、前記文章領域毎の部分領域の位置情報を算出する文章領域情報算出部と、
前記文章領域情報算出部で算出された前記位置情報に基づいて、当該文章領域の特徴を抽出する特徴抽出部と、
複数種類の解析部品モジュールを用いて前記部分領域の意味情報を解析する解析実行部と、
前記特徴抽出部によって抽出された前記当該文章領域の前記特徴に基づいて、１つ又は複数の前記解析部品モジュールを選択して構築し、その構築した前記１つ又は複数の解析部品モジュールに従って前記解析実行部に前記部分領域の意味情報の解析を実行させる部品構成部と、
を備えることを特徴とするドキュメント処理装置。
前記文章領域中のテキスト情報を抽出するテキスト情報取得手段と、
前記レイアウト解析手段によって抽出された前記文章領域以外の領域と、前記テキスト情報取得手段によって抽出されたテキスト情報と、前記解析実行部によって抽出された前記意味情報とを関連付けて保管管理する意味情報管理手段と、
を更に備えたことを特徴とする請求項１に記載のドキュメント処理装置。
前記解析実行部に備えられた前記解析部品モジュールの１つが、文字の大きさを基準にして前記文章領域の前記意味情報を抽出する文字サイズ解析部品である請求項１に記載のドキュメント処理装置。
前記解析実行部に備えられた前記解析部品モジュールの１つが、前記画像データの縦方向の位置を基準に前記文章領域の前記意味情報を抽出する矩形縦方向位置解析部品である請求項１に記載のドキュメント処理装置。
前記解析実行部に備えられた前記解析部品モジュールの１つが、前記画像データの横方向の位置を基準に前記文章領域の前記意味情報を抽出する矩形横方向位置解析部品である請求項１に記載のドキュメント処理装置。
前記部品構成部は、前記解析部品モジュールを選択する部品選択構成部を備えることを特徴とする請求項１に記載のドキュメント処理装置。
前記部品構成部は更に、
前記特徴抽出部で抽出した特徴に基づいて前記部品選択構成部によって前記解析部品モジュールが複数選択された時、その選択された複数の解析部品モジュールの順序を設定する部品順序構成部を備えることを特徴とする請求項６に記載のドキュメント処理装置。
前記部品構成部は更に、
前記特徴抽出部で抽出した特徴に基づいて前記部品選択構成部によって前記解析部品モジュールの組み合わせが複数組設定された時、最適な解析部品モジュールの組み合わせを用いて前記解析実行部に並列に解析させる部品並列構成部を備えることを特徴とする請求項６に記載のドキュメント処理装置。
前記ドキュメント処理装置は更に、
前記部品並列構成部を用いて前記並列に実行した解析結果を表示させる解析結果提示部を備えることを特徴とする請求項８に記載のドキュメント処理装置。
前記ドキュメント処理装置は更に、
前記解析結果提示部で提示された前記解析結果が肯定的であるか否かを評価する部品構成結果評価部を備えることを特徴とする請求項９に記載のドキュメント処理装置。
前記部品構成結評価部によって評価された結果が、肯定的である場合、この肯定的な評価結果である前記解析部品モジュールの組み合わせを定義する部品構成定義部を更に備えたことを特徴とする請求項１０に記載のドキュメント処理装置。
前記部品構成定義部で定義された結果を記憶する部品構成学習手段と、
前記部品構成定義部で定義された結果を管理する部品構成定義管理部と、
を更に備えることを特徴とする請求項１０記載のドキュメント処理装置。
前記部品構成結果評価部で評価された結果に変更が生じた場合に、
前記部品構成定義部は変更後の前記解析結果を更新して、定義することを特徴とする請求項１２記載のドキュメント処理装置。
ドキュメントから読み取った画像データを解析して、種別毎に領域を分別し、
その領域中から種別が文章領域の座標情報を取得し、
取得された前記座標情報に基づいて、前記文章領域毎の部分領域の位置情報を算出し、
算出された前記位置情報に基づいて、当該文章領域の特徴を抽出し、
複数種類の解析部品モジュールを有し、抽出された前記当該文章領域の前記特徴に基づいて１つ又は複数の前記解析部品モジュールを選択して構築し、その構築した前記１つ又は複数の解析部品モジュールに従って前記部分領域の意味情報の解析を行うことを特徴とするドキュメント処理方法。
ドキュメントから読み取った画像データを解析して種別毎に領域を分別し、その領域中から種別が文章領域の座標情報を取得するレイアウト解析機能と、
取得した前記座標情報に基づいて、前記文章領域毎の部分領域の位置情報を算出する文章領域情報算出機能と、
算出された前記位置情報に基づいて、当該文章領域の特徴を抽出する特徴抽出機能と、
複数種類の解析部品モジュールを有し、前記抽出された前記当該文章領域の前記特徴に基づいて１つ又は複数の前記解析部品モジュールを選択して構築し、その構築した前記１つ又は複数の解析部品モジュールに従って前記部分領域の意味情報の解析を実行させる解析実行機能と、
を備えることを特徴とするドキュメント処理装置のプログラム。