JP2009110500A - ドキュメント処理装置、ドキュメント処理方法、ドキュメント処理装置のプログラム - Google Patents

ドキュメント処理装置、ドキュメント処理方法、ドキュメント処理装置のプログラム Download PDF

Info

Publication number
JP2009110500A
JP2009110500A JP2008199231A JP2008199231A JP2009110500A JP 2009110500 A JP2009110500 A JP 2009110500A JP 2008199231 A JP2008199231 A JP 2008199231A JP 2008199231 A JP2008199231 A JP 2008199231A JP 2009110500 A JP2009110500 A JP 2009110500A
Authority
JP
Japan
Prior art keywords
analysis
component
unit
area
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008199231A
Other languages
English (en)
Inventor
Akihiko Fujiwara
彰彦 藤原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba TEC Corp
Original Assignee
Toshiba Corp
Toshiba TEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba TEC Corp filed Critical Toshiba Corp
Priority to US12/260,485 priority Critical patent/US20090110288A1/en
Publication of JP2009110500A publication Critical patent/JP2009110500A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

【課題】画像データの特徴に応じて、画像データの意味情報を抽出する解析部品の選択・構成を最適化することで、意味情報を抽出する際に、無駄な処理を省くと共に解析精度を向上させる。
【解決手段】ドキュメント処理装置230の意味情報解析部23は、画像データ中の文書領域の位置情報を算出する文章領域情報算出部24と、文章領域情報算出で算出結果に基づいて画像データの特徴を抽出する特徴抽出部25と、抽出した特徴に基づいて、適用する解析部品を選択し、複数の解析部品を選択した場合には解析部品を適用する順番を決める部品構成部26と、実際にモジュールを動的に適用して、意味情報を解析する解析実行部27とから構成される。
【選択図】図2

Description

本発明は、紙文書をスキャンした電子データの領域解析を行い、ドキュメント中の領域の意味情報を解析するドキュメント処理装置、ドキュメント処理方法、ドキュメント処理装置のプログラムに関する。
従来から、紙文書をスキャナ装置などによって画像として読み取り、読み取ったドキュメントの種類毎にファイル化してハードディスクなどの記憶装置に記憶させることが行われている。このドキュメント画像をファイル化する技術は、ドキュメントの画像データ(以下、ドキュメント画像という)のレイアウトを解析することによって得たドキュメントの各項目の意味と、光学式文字読取装置(OCR:Optical Character Recognition)などで得たテキスト情報とを対応付けて分類することにより実現される。
たとえば、特許文献1には、モジュールを用いて、文字の領域(以下、文字領域とする)と認識された領域に隣接する領域の有無や領域の縦横比率などを判断基準として意味構造を判定する技術が開示されている。また、特許文献2には、このようにして解析された領域意味構造やテキスト情報を文書の分類などに利用する技術が開示されている。
しかし、これらの技術では、領域意味解析に精度を欠き、解析処理にも時間がかかるという問題があった。また、特許文献1には、各モジュールをどのように構築して実行するか開示されておらず、具体的な制御方法が理解することができないと言う問題があった。
また、ハンドスキャナOCRは、OCR−BフォントサイズIなど、比較的小寸法の文字のみを入力して確認するものである。文字の上下方向の観測視野は、手のゆらぎを考慮して文字の高さの2倍以上に余裕をもたせてあったが、入力情報の周囲に十分な背景白部のある孤立文字列を扱うため、左右方向は被写体と接続する部分の幅を極力狭くして走査位置が見えやすくするのみで実用上十分であった。
特開平9−69136号公報 特開2001−101213号公報
上述したように、特許文献1、2の技術では、受領域意味構造の解析に精度を欠き、解析処理にも時間がかかるという問題があった。また、各モジュールをどのように構成するか理解できなかった。
本発明は、上記問題点を解決するためになされたものであって、画像データの特徴に応じて画像データの意味情報を抽出する解析アルゴリズムの選択・構成を最適化することで、意味情報の抽出する際に、無駄な処理を省くと共に解析精度を向上させるドキュメント処理装置、ドキュメント処理方法、ドキュメント処理装置のプログラムを提供することを目的とする。解決しようとする問題点は、高精細な図を手送りで走査入力する操作において障害となる入力位置を目視確認できない点である。
上記目的を達成するために、本発明の一実施形態に係るドキュメント処理装置は、ドキュメントの画像データの領域の種別を分別し、領域の種別が文章領域の座標情報を取得するレイアウト解析手段と、前記座標情報に基づいて、文章領域中の部分領域の位置情報を算出する文章領域情報算出部と、前記位置情報に基づいて画像データの特徴を抽出する特徴抽出部と、複数種類の解析部品を用いて前記部分領域の意味情報を抽出する前記前記解析実行部と、前記特徴抽出部によって抽出された前記領域の前記特徴に基づいて前記解析部品モジュールを構築し、構築された前記解析部品に従って前記解析実行部に前記領域の意味情報を解析させる部品構成部と、を備えることを特徴とする。
本発明によれば、画像データの特徴に応じて画像データの意味情報を抽出する解析アルゴリズムの選択・構成を最適化することで、意味情報の抽出する際に、無駄な処理を省くと共に解析精度を向上させることができる。
以下、本発明の実施の形態について図面を参照しながら説明する。
本発明の実施の形態は、一段組のビジネスレターから他段組・多記事の新聞まで、多様な文書から高精度に、文章、写真・絵、図形(グラフ、図、化学式)、表(罫線あり、なし)、フィールドセパレータ、数式などの領域情報を抽出し、また文章の領域(以下、文章領域という)からは、カラム、タイトル、ヘッダ、フッタ、キャプション、本文を抽出し、さらに本文からは段落、リスト、プログラム、文章、単語、文字等、部分領域の意味を抽出することができるようにしたものである。この他に、抽出された領域の意味情報を構造化して、色々なアプリケーションソフトウェアへの入力・応用を可能とする。
初めに、本実施の形態の概要を説明する。印刷文書は、知識表現の一つの形態とみなすことができる。しかし、内容のアクセスが簡単ではないこと、内容の変更・守勢にコストがかかること、配布にコストがかかること、蓄積に物理的スペースを要し、整理に手間がかかることなどの理由から、ディジタル表現への変換が望まれている。ディジタル表現形式に変換すれば、表計算、イメージファイリング、文書管理システム、ワープロ、機械翻訳、音声読み上げ、グループウェア、ワークフロー、秘書エージェントなどの多様な計算機アプリケーションを通じて、所望の情報が所望の形態で簡単に入手できるようになるからである。
そこで、印刷文書をイメージスキャナやコピー機を用いて読み取り、画像データに変換してこの画像データから上記アプリケーションの処理対象となるいろいろな情報を抽出し、数値化・コードからする方法・装置について以下に説明する。
具体的には、印刷文書をスキャニングして得られたページ単位の画像データから、意味情報を抽出する。ここで、「意味情報」とは、文章領域から「カラム(段組)構造」、「文字行」、「文字」、「階層構造(カラム構造−部分領域−行−文字)」、「図形(グラフ、図形、化学式など)」、「絵、写真」、「表、フォーム(罫線のあるもの、罫線のないもの)」、「フィールドセパレータ」、「数式」などの領域情報の意味及び、「字下げ」、「センタリング」、「揃え」、「ハードリターン」、「文書クラス(新聞、論文、明細書などの文書種別)」、「ページ属性(フロントページ、最終ページ、奥付けページ、目次ページなど)」、「論理属性(タイトル、著者名、アブストラクト、ヘッダ、フッタ、ページ番号など)」、「章節構造(複数ページに亙る)」、「リスト(箇条書きなど)構造」、「親子関係(コンテンツの階層構造)」、「参照関係(参考文献、注釈への参照、本文からの非テキスト領域への参照、非テキスト領域とそのキャプション間の参照、タイトルへの参照など)」、「ハイパーテキスト関係」、「順序(読み順)」、「言語」、「話題(タイトル、見出しとその本文の組合せ)」、「段落」、「文章(読点で区切られている単位)」、「単語(インデキシングにより得られるキーワードなどを含む)」、「文字」などの情報を意味する。
抽出された意味情報は、種々のアプリケーションソフトを通じて、ユーザーから要求があった時点で、あらゆるオブジェクトが動的に、全体的あるいは部分的に構造化、順序付けされて、アプリケーションのインタフェースを通じてユーザーに提供される。このとき、処理結果として複数の可能な候補がアプリケーションに供給され、あるいはアプリケーションから出力されるようしてもよい。
また、文書処理装置のGUI(Graphical User Interface)で、同様にあらゆるオブジェクトが、動的に構造化あるいは順序付けされて表示されるようしてもよい。
さらに、構造化された情報は、アプリケーションに応じて、プレーンテキスト、SGML(Standard Generalized Markup Language)、HTML(Hyper Text Markup Language)等の書式記述言語形式、その他ワープロフォーマットに変換されるようにしてもよい。ページ単位に構造化された情報は、文書ごとに編集されて、文書単位の構造化情報が生成されるようにしてもよい。
次に、全体システムの構成について説明する。図1は、本発明の実施形態に係るドキュメント処理装置230を備えた、たとえば画像形成装置(MFP:Multi Function Peripherals)の構成の一例を示すブロック図である。図1では、画像データを入力する画像入力手段210と、データ通信を行なうためのデータ通信路220と、画像データの意味情報を抽出するドキュメント処理装置230と、各種データを記憶するデータ記憶部240と、ドキュメント処理装置230の処理状況や入力操作情報を表示する表示装置250と、抽出した意味情報に基づいて出力する出力手段260と、制御部270とから構成される。
画像入力手段210とは、たとえば自動給紙機構(ADF:Auto Document Feeder)などから搬送された印刷文書をスキャナー装置で読み取った画像を入力する装置である。データ記憶部240は、画像入力手段210やデータ通信手段220からの画像データ、ドキュメント処理装置230で抽出した情報を記憶する。表示装置250は、MFPの処理状況や入力操作を表示する装置であり、たとえばLCD(Liquid Crystal Monitor)等で構成される。出力手段260は、ドキュメント処理装置230で抽出した情報を印刷出力するためにレーザ偏光に出力して回転ドラムを介して給紙された紙に当該ドキュメント画像を転写し、転写された紙文書が排出される。データ通信手段220は、本実施の形態にかかるMFPと外部の端末とでデータのやり取りを行なう装置である。これらの装置を接続するデータ通信路280は、LAN(Local Area Network)などの通信線で構成される。
本発明の実施の形態に係るドキュメント処理装置230は、画像データから意味情報を抽出し、抽出した意味情報に対してデータベース処理を施すものである。
(第1の実施の形態)図2は、第1の実施の形態にかかるドキュメント処理装置230の構成を示すブロック図である。ドキュメント処理装置230は、大別するとレイアウト解析部20と、テキスト情報取得部21と、意味情報管理部22と、意味情報解析部23とから構成される。
レイアウト解析部20には、テキスト情報取得部21と意味情報管理部22と意味情報解析部23とが接続されている。すなわち、レイアウト解析部20は、画像入力手段210から文書を二値化したドキュメント画像を受け取り、これに対してレイアウト解析処理を施し、その結果をテキスト情報取得部21や、意味情報管理部22へ渡す処理を行う。レイアウト解析処理とは、ドキュメント画像を一定の構造、つまり文章領域、図形領域、画像領域、表領域に分け、また、文章領域中の「部分領域」(文字行、文字列、本文段落)の位置に関する情報を外接矩形の「座標情報」として取得する。ただし、レイアウト解析部20の処理の時点では、部分領域の意味(文字列がタイトルを意味する等)を解析することはできない。
図3は、ドキュメント画像の外接矩形と「座標情報」を説明した図である。外接矩形とは、文字に外接する矩形であって、文字認識を行う領域を指す情報となる。各文字の外接矩形を求める方法としては、まずドキュメント画像の各画素値をY座標軸に対して射影し、空白部分(黒色である文字のない部分)を探索して「行」を判別して行分割を行う。その後、行単位でドキュメント画像をX座標軸に対して射影し、空白部分を探索して文字単位に分割する。これによって、各文字を外接矩形で切り出すことが可能となる。ここでは、ドキュメント画像の水平方向をX軸、垂直方向をY軸とし、外接矩形の位置をXY座標で表す。
レイアウト解析部20によって、文章領域でないと判断された領域(画像領域、図形領域、表領域)は、意味情報管理部22に渡される。文章領域と判断された領域は、テキスト情報取得部21へ渡され、テキスト情報取得部21で抽出されたテキスト情報が意味情報管理部22に保存される。同時に文章領域と判断された領域は、意味情報解析部23へ渡される。
ここで、テキスト情報取得部21は、ドキュメント画像中の文章領域のテキスト情報を取得するモジュールである。「テキスト情報」とは、ドキュメント画像中の文字列の文字コードを意味する。具体的には、レイアウト解析部20によって抽出された文字領域の画素分布を解析し、画素のパターンを事前に登録された文字画素パターンや辞書と比較することによって文字種別を判定し、テキスト情報として抽出するモジュールであり、具体的にはOCRを用いることが考えられる。
一方、意味情報解析部23は、レイアウト解析部20から受け取った文章領域の意味情報を抽出する。意味情報解析部23で抽出した意味情報は、意味情報管理部22に保存される。
意味情報管理部22は、ファイル装置を含みレイアウト解析部20で抽出された文章領域でない領域と、テキスト情報取得部21で抽出されたテキスト情報と、意味情報解析部23で抽出された意味情報とを関連付けて保存する。
次に、図4のフローチャートを用いて、ドキュメント処理装置230の処理全体を説明する。
画像入力手段210からのドキュメント画像のデータがレイアウト領域解析部20に入力される(ステップS101)。レイアウト解析部20は、ドキュメント画像の画素の分布状況を解析し(ステップS102)、文章領域とそれ以外(画像領域、図形領域、表領域)とに分ける(ステップS103)。そして、画像領域、図形領域、表領域の情報は、意味情報管理部22に保存される(ステップS103のno)。また文章領域の情報については、テキスト情報取得部21で、テキスト情報が抽出される(ステップS104のyes)。さらに、意味情報解析部23で、文章領域の意味情報が抽出される(ステップS105)。文章領域以外の領域と、テキスト情報、文章領域の意味情報は、意味情報管理部22に管理保存される(ステップS106)。以上の処理により、ドキュメント処理装置の処理は終了する(ステップS107)。
ここで、意味情報解析部23の詳細について図2を参照しながら説明する。意味情報解析部23は、文章領域情報算出部24と、特徴抽出部25と、部品構成部26と、解析実行部27とから構成される。
文字領域情報算出部24は、レイアウト解析部20で抽出された文章領域中の各部分領域の座標情報やテキスト情報に基づいて、さらに文章領域の情報を取得する。具体的には、座標情報やテキスト情報に基づいて、文章領域の領域中の部分領域にかかる外接矩形の高さや幅、外接矩形と外接矩形の間隔、文字行の数、文字行の方向、文字サイズを算出する。
特徴抽出部25は、文章領域情報算出部24で算出した文章領域の各種情報に基づいて、ドキュメント画像における文章領域の「特徴」を抽出する。つまり、データマイニングを用いて文章領域の高頻度に発生する特徴を抽出する。たとえば、特開2004−178010号公報で開示されているヒストグラムを用いた手法(平均文字サイズの確率分布、要素の高さの確率分布、要素の幅の確率分布、文字行数の確率分布、言語種別の確率分布、文字行方向の確率分布を算出し、所定の閾値以下を基準に各確率分布の特徴を抽出する)を用いてもよい。あるいは、クラスタ解析(文章領域の領域中の部分領域にかかる外接矩形の高さや幅、外接矩形と外接矩形の間隔、文字行の数、文字行の方向等のデータを、外的基準なく、似ているもの同士を自動的にグループ化し、核グループの特徴を抽出する手法)を用いても良い。これによって、たとえば、ドキュメント画像において、「文字サイズのばらつきが大きい」とか、「特定の文字サイズに偏りがある」とか、「外接矩形がX軸方向の方に満遍なくばらついている」とか、「外接矩形がセンターに偏っている」という各種特徴を抽出することが可能となる。
部品構成部26は、特徴抽出部25で抽出された特徴に基づいて、意味情報解析を実行するために最適なモジュールを解析実行部27から選択し、選択したモジュールを組み合わせる。その後、解析実行部27にて意味情報を解析させる。解析実行部27には、複数の解析部品が存在する。部品構成部26は、必要な解析部品を選択し、組み合わせるなどし、このように構成した解析部品を解析実行部27に実行させる。
本実施形態では、部品構成部26に部品選択構成部31を設けた例を示している。この部品選択構成部31は、部品構成部26が選んだ解析部品を解析実行部27から選択する。そのうえで、解析実行部27に実行させる。
ここで、解析実行部27は、意味情報の抽出を実行するモジュールであり、この実行を可能にする複数のアルゴリズムを備えている。この、意味情報の抽出を行なうアルゴリズムを「解析部品」という。解析部品を用いて意味情報の抽出を行う際、文章領域情報算出部24で取得した文章領域中の部分領域にかかる外接矩形の高さや幅、部分領域間の間隔、文字行の数、文字行の方向の情報に基づいて、実際に解析を行うこととなる。「解析部品」は複数種類存在する。具体的には、文字サイズ解析部品28と、矩形縦方向位置解析部品29と、矩形横方向位置解析部品30がある。
文字サイズ解析部品28は、部分領域の意味情報を文字サイズから判定するモジュールであり、たとえば、最も大きい文字サイズをタイトル、最も小さい文字サイズの文字段落を本文段落と解析するように予め設定されている。矩形縦方向位置解析部品29は、ドキュメント画像のY軸の値で部分領域の意味情報を判定するモジュールである。矩形横方向位置解析部品30は、ドキュメント画像のX軸の値で部分領域の意味情報を判定するモジュールである。
これらの解析部品で意味情報を判定し、判定した意味情報は意味情報管理部22に保存される。図5は、意味情報管理部22の記憶テーブルを示す図である。ここでは、レイアウト解析部20で抽出された図表領域や座標情報と、テキスト情報取得部21で取得されたテキスト情報と、解析実行部24で解析された文章領域の意味情報とが関係付けて管理保存される。
図6のフローチャートを用いて、意味情報解析部23の動作の説明を説明する。意味情報解析部23は、レイアウト解析部20で抽出された座標情報や、テキスト情報に基づいて、文章領域の意味情報を抽出する。まず、文章領域情報算出部24は、レイアウト解析部20で抽出された外接矩形の座標情報に基づいて、文章領域の領域中の部分領域にかかる外接矩形の高さや幅、部分領域と部分領域の間隔、文字行の数、文字行の方向、文字行中の各文字のサイズを算出する(ステップS51)。
次に、特徴抽出部25は、文章領域情報算出部24で取得した文章領域の各種情報の平均値や確率分布を用いて、ドキュメント画像における文章領域の安定した特徴を抽出する(ステップS52)。
次に、部品構成部26の部品選択構成部31は、この安定した特徴から意味情報の解析を実行するために最適の解析部品を解析実行部27から選ぶ。たとえば、文章領域の文字サイズに特徴があった場合(ステップS53のyes)、文字サイズで領域の意味情報を抽出する文字サイズ解析部品28だけを解析実行部27から選択する(ステップS55)。一方、文字サイズに特徴がない場合(ステップS53のno)、解析実行部27が有するすべての解析部品を選択する(ステップS54)。そして、選択した解析部品で意味情報の解析を構成することができるかを確認する(ステップS56)。構成が完了しない場合は、特徴を抽出する作業を再度行う(ステップS57のno)。構成が完了すると、解析実行部27は構成した部品モジュール、たとえば、文字サイズ解析部品28にしたがって意味情報の解析を行う(ステップS58)。この結果、文字サイズ解析部品28は、文章領域情報算出部24で算出された外接矩形のサイズや文字サイズにしたがって、最も大きな文字サイズをもつ文字行をタイトル、最も小さいサイズをもつ部分領域を本文段落と解析することとなる。
図7は、MFP等でスキャンされたドキュメント画像1に対してなされる処理の概要をドキュメント画像1−1から1−2まで時系列的に表した図である。図7に示すドキュメント画像1は、画像上に「2006/09/19」、「特許明細書」、「本明細書ではOCRシステムについて・・・・・」という文章領域を有する。以下、このドキュメント画像1に対して、本実施形態を適用させた場合の動作を説明する
レイアウト解析部20は、このドキュメント画像中の文章領域1を分割し、文章領域の情報を抽出する。この実施形態では、ドキュメント画像1−1に示すように、1−a、1−b、1−cといった文章領域(文字領域)が抽出される。また、それぞれの領域の座標情報も抽出される。たとえば、ドキュメントの横軸をX軸、縦軸をY軸とすると、始点の(X1、Y1)座標と終点の(X2、Y2)座標が数値として求められ、それぞれの文章領域の持つ値として解析することができる。ここで、領域1−aは始点(10、8),終点(10、80)、領域1−bは始点(13、30),終点(90、40)、領域1−cは始点(5、55),終点(130、155)という外接矩形の位置に関する座標情報が得られたものとする。ただし、この時点では、外接矩形のサイズ等や文章領域の意味情報を抽出できない。
この後、文字領域情報算出部24により、座標情報やテキスト情報に基づいて、文章領域の領域中の部分領域にかかる外接矩形の高さや幅、部分領域と部分領域の間隔、文字行の数、文字行の方向を算出する。これら算出した情報に基づいて、特徴抽出部25は、ドキュメント画像の特徴を抽出する。
たとえば、図7のドキュメント画像1は、文字サイズにばらつきがあるという特徴が抽出されたとする。したがって、部品構成部26は部品選択構成部31に文字サイズ解析部品28だけを選択させる(ドキュメント画像1−2)。そして、解析実行部27に、文章領域の意味情報を解析させる。この結果、最も文字サイズの大きい領域1−bをタイトル領域として抽出することができる。同様にして、領域1−aは文字サイズ小を、領域1−cは文字サイズ中の抽出結果を得ることができる。
最終的には、意味情報管理部22が以上の処理の結果を統合する。たとえば、図7のドキュメント画像1では、領域1−aは「2006/09/19」というテキスト情報をもつヘッダ領域と、領域1−bは「特許明細書」というテキスト情報をもつタイトル領域と、領域1−cは「本明細書では、OCRシステムについて・・・」というテキスト情報を本文段落領域として管理する。その結果、意味情報管理部23には、図5の示すように、画像ID、領域ID、座標、領域の種別、テキスト情報、領域意味情報の各項目に上記抽出した情報が格納される。
このように、第1の実施形態に係るドキュメント処理システムによれば、ドキュメント画像の特徴に基づいて適切な解析アルゴリズムを選択して、解析させることができるため、解析精度を向上させると共に適切な処理時間での処理を可能とするシステムを提供することが可能となる。
また、本実施形態にかかるドキュメント処理装置230を有するMFPにおいては、自動的に必要な部分(たとえばタイトル部分)を抽出し、ドキュメントのサイズを小さくすることが可能となるため、ファクシミリの送信にかかる費用を最小限にすることができる。また、ファイル添付メールでドキュメントを送信する際に、メールサーバのサイズ制限によりメールが返送されてきた場合に自動的にサイズを小さく切り替えることが可能となる。
(第2の実施の形態)図8は、第2の実施形態に係るドキュメント処理装置230を示すブロック図である。本実施形態におけるドキュメント処理装置230は、図2に示したシステムに加えて、部品構成部26に部品順序構成部31が設けられている。
部品順序構成部31は、部品構成部26が解析実行部27から複数の部品モジュールを選んだ場合に、各部品モジュールを実行する最適な順番を決めて、解析実行部27に意味情報の解析を実行させるモジュールである。
図9のフローチャートを用いて、本実施の形態における意味情報の解析を説明する。まず、文章領域情報算出部24は、レイアウト解析部20で抽出された外接矩形の座標情報に基づいて、文章領域の部分領域にかかる外接矩形の高さや幅、部分領域と部分領域の間隔、文字行の数、文字行の方向、文字行中の各文字のサイズを算出する(ステップS61)。
次に特徴抽出部25は、文章領域情報算出部24で算出した文章領域の領域中の部分領域にかかる外接矩形の高さや幅、外接矩形と外接矩形の間隔、文字行の数、文字行の各種情報を用いて、ドキュメント画像における特徴を抽出する(ステップS62)。
次に、部品構成部26の部品選択構成部31は、抽出した特徴から意味情報の解析を実行するために最適の部品モジュールを解析実行部27から選ぶ。たとえば、文章領域の文字サイズにばらつきがあるという特徴があった場合(ステップS63のyes)、文字サイズで領域の意味を解析する文字サイズ解析部品28だけを解析実行部27から選択し(ステップS64)、部品モジュールを構成する(ステップS65)。以上の処理は、第1の実施形態と同じである。
「文字サイズがばらついている」という特徴を抽出できない場合(ステップS63のno)、部品構成部26はドキュメント画像の別の特徴に基づいて、適用する解析部品をさらに選択する。ここで、たとえば、「外接矩形がY軸方向に満遍なくばらついている」という特徴を抽出した場合(ステップS68のyes)、部品選択構成部31は文字サイズ解析部品28と矩形縦方向位置解析部品29の両方のモジュールを選択する(ステップS68)。
このように複数の部品モジュールを選択した場合、部品順序構成部31が解析部品を適用する順番を決め(ステップS70)、解析部品モジュールを構成する(ステップS65)。さらに、文字サイズ解析部品28と矩形縦方向位置解析部品29を選択した場合、文字サイズ解析部品28によって文字サイズの大きさでタイトルや本文段落の候補が解析され、矩形縦方向位置解析部品29によってドキュメント画像中の部分領域の縦方向位置から解析をすることで、候補の中から文章領域の意味情報を解析することができる。
特徴を全く抽出できない場合(ステップS68のno)、部品構成部26は全ての解析部品(28,29,30)を選択し(ステップS71)、解析部品モジュールを構成するように設定する(ステップS65)。
このように選択した解析部品モジュールを構成し(ステップS65)、構成が終了した場合(ステップS66のyes)、それらの解析部品モジュールに従って、解析実行部27は意味情報の解析を実行する(ステップS67)。なお、部品モジュールの構成ができなければ(ステップS66のno)、ステップS62へ戻りドキュメント画像の特徴を再抽出することとなる。
図10は、MFP等でスキャンされたドキュメント画像2に対してなされる処理の概要をドキュメント画像2−1から2−2まで時系列的に示した図である。ここでは、文章領域の意味情報を解析することで、文章領域中のタイトルを抽出したいとする。
ドキュメント画像2には、ページ上位に比較的大きなサイズの文字列「特許明細書」が配置されており、ページ中程にページ上位の文字列と同サイズの文字列2行「1.従来の技術」と「2.従来課題」とが配置されており、その文字列2行に隣接する形で、「従来の技術ではドキュメントシステムについて・・・・・・」、「しかし従来の技術では・・・・・・」という小さな文字サイズの文字列が数行存在する。以下、このドキュメント画像2に対して、本実施形態を適用させた場合の動作を説明する。
まず、レイアウト解析部20により文章領域が抽出されるとともに、座標情報が抽出される。たとえば、ドキュメント画像2−1に示すように、2−a、2−b、2−c、2−d、2−eといった文章領域(文字領域)が抽出されるとともに、それぞれの文章領域の持つ値として、領域2−aは始点(15、5),終点(90、25)、領域2−bは始点(5、30),終点(80、50)、領域2−cは始点(10、55),終点(130、100)、領域2−dは始点(5、110),終点(80、130)、領域2−eは始点(10、135),終点(130、160)と解析される。
この後、文字領域情報算出部24により、座標情報やテキスト情報に基づいて、文章領域の領域中の部分領域にかかる外接矩形の高さや幅、部分領域と部分領域の間隔、文字行の数、文字行の方向を算出する。これら算出した情報に基づいて、特徴抽出部25は、ドキュメント画像の特徴を抽出する。
ここで、図10のドキュメント画像2は、領域2−a、2−b、2−dの文字サイズは同一であり、領域2−c、2−eの文字サイズは同一でるため、文字サイズのばらつき自体は小さいが、文字サイズが比較的大きい文字列も存在するという特徴が抽出される。また、文章領域の位置の傾向が、Y軸方向に対して、文字サイズが比較的大きな文字列と文字サイズが比較的小さな複数の文字列が点在しているという特徴が抽出される(ドキュメント画像2−1)。
したがって、部品構成部26の部品選択構成部31は、文字サイズのばらつきが小さく、文章領域の位置がY軸方向にばらついているという特徴に基づいて、文字サイズ解析部品28と矩形縦方向位置解析部品29を選択して、これらを適用する最適な順番を決める。そして、この選択・組み合わせの処理を実行する解析部品として、部品順序構成部32を選択する。
ここでは、隣接する文字領域の位置関係が文字サイズの比較的大きい文字領域と比較的小さい文字領域が個々に近い場所に分布していることから、文字サイズ解析部品28と、矩形縦方向位置解析部品29を順に組み合わせて適用することで、意味情報を解析するとよい。すなわち、領域2−a、2−b、2−dが他の文字領域と比較して、文字サイズが大きいため、文字サイズ解析部品28でタイトル候補として選び、その後、矩形縦方向位置解析部品29で、領域2−a、2−b、2−dの文字領域のうち、もっともY軸の値が小さいものをタイトル領域として選択する。これらの処理の結果、領域2−aがタイトル領域として意味情報を抽出することができる。
このように、第2の実施形態は、抽出した特徴に応じて解析部品を複数選択し、それを適用する最適な順序を決める部品順序構成部32を設けることで、解析精度をより向上させると共に適切な処理時間での処理を可能とするドキュメント処理装置230を提供することが可能となる。
また、本実施形態にかかるドキュメント処理装置230を有するMFPにおいては、自動的に必要な部分(たとえばタイトル部分)を抽出し、ドキュメントのサイズを小さくすることが可能となるため、ファクシミリの送信にかかる費用を最小限にすることができる。また、ファイル添付メールでドキュメントを送信する際に、メールサーバのサイズ制限によりメールが返送されてきた場合に自動的にサイズを小さく切り替えることが可能となる。
(第3の実施の形態)図11は、本発明の第3の実施形態に係るドキュメント処理装置を示すブロック図である。本実形態では、第2の実施形態に加えて、部品構成部26に部品並列構成部33が設けられている。さらに、部品構成部26には解析結果即時提示部34を介して部品構成途中結果評価部35が接続されている。
部品並列構成部33は、解析実行部27の選択された複数の解析部品を並列に構成し解析に適用するものである。
解析結果即時提示部34は、解析実行部27内の各解析部品を表示装置250に視覚的部品として表示させ、部品構成部26で解析部品の構成を行う際にそれらの視覚的部品を感覚的に平易な状態でユーザーに対して提示させ、さらにサンプル画像および上記アルゴリズム部品の構成を適用することによって得られる解析結果をユーザーに対して提供させるモジュールである。
たとえば、アプリケーションのGUI(Graphical User Interface)上に表示されるアイコンとして表示装置250に表示させ、部品構成部26で構成を行う際にアプリケーションのGUI上にユーザーがドラッグアンドドロップなどの操作が可能な編集用ウインドウを表示装置250に設け、ユーザーは解析部品のアイコンをそのウインドウ上に配置したり連結させたりすることで解析部品の構成を行い、さらに解析対象となるフォームを持った紙原稿を事前にスキャンしておいて取得された画像情報およびこのサンプル画像に対して実際にタイトル抽出を行った結果を表示装置250に提示させるきとによって解析部品の定義の操作をユーザーに対して提供する。
部品構成途中結果評価部35は、解析結果即時提示部34で提示された途中結果が肯定的であるか否かを評価するモジュールである。すなわち、部品並列構成部33によって選択された複数の解析部品の組み合わせを複数組設定された場合に、いずれの組み合わせが最適か否か評価するモジュールである。
図12のフローチャートを用いて、本実施形態における意味情報の解析の処理を説明する。まず、文章領域情報算出部24は、レイアウト解析部20で抽出された外接矩形の座標情報に基づいて、文章領域の部分領域にかかる外接矩形の高さや幅、間隔、文字行の数、文字行の方向、文字行中の各文字のサイズを算出する(ステップS81)。
次に、特徴抽出部25は、文章領域情報算出部24で算出した文章領域の領域中の部分領域にかかる外接矩形の高さや幅、外接矩形と外接矩形の間隔、文字行の数、文字行の各種情報を用いて、ドキュメント画像における特徴を抽出する(ステップS82)。
次に、部品構成部26の部品選択構成部31は、抽出した特徴から意味情報の解析を実行するために最適の解析部品を解析実行部27から選ぶ。たとえば、「文章領域の文字サイズにばらつきがある」という特徴があった場合(ステップS83のyes)、文字サイズで領域の意味を解析する文字サイズ解析部品28だけを解析実行部27から選択し(ステップS84)、解析部品を構成する(ステップS85)。以上の処理は、第1及び第2の実施例と同じである。
「文章領域の文字サイズにばらつきがある」という特徴を抽出できない場合(ステップS83のno)、部品構成部26はドキュメント画像の別の特徴に基づいて、適用する解析部品をさらに選択する。ここで、たとえば、ドキュメント画像に「外接矩形がY軸方向に満遍なくばらついている」という特徴を抽出した場合(ステップS87のyes)、部品選択構成部31は文字サイズ解析部品28と矩形縦方向位置解析部品29の両方のモジュールを選択する(ステップS88)。
このように複数の解析部品を選択した場合、部品順序構成部32が解析部品を適用する順番を決め(ステップS89)、解析部品を構成する(ステップS85)。たとえば、文字サイズ解析部品28と矩形縦方向位置解析部品29を選択した場合、文字サイズ解析部品28によって文字サイズの大きさでタイトルや本文段落の候補を解析し、矩形縦方向位置解析部品29で、ドキュメント画像中の部分領域の縦方向位置から解析をすることで、候補の中から文章領域の意味情報を解析することができる。
本実施の形態では、ステップS83,S87で特徴を全く抽出できない場合、部品構成部26は解析実行部27内の全ての解析部品を選択せず(ステップS71)、解析部品を並列に構成するか判定する(ステップS61)。すなわち、解析部品モジュールの組み合わせパターンを複数作成し、同時間に処理をテストし、最適の組み合わせを選択する。
ここでは、X軸方向で解析するパターン(ステップS91)とY軸方向で解析するパターン(ステップS92)とに分けて解析する。そして、解析部品の組合わせを決した後、解析部品を実行する順序を決める(ステップS93)。たとえば、X軸方向を基準に解析する場合、文字サイズ解析部品28を用いて領域意味を解析し、その後、矩形横方向位置解析部品30を用いて領域意味を抽出する。
また、Y軸方向を基準に解析する場合、文字サイズ解析部品28を用いて意味情報の抽出を行い、さらに矩形縦方向位置解析部品29を用いて領域意味を抽出する。このように、解析部品を構成した後(ステップS94)、両処理の結果を、部品構成途中結果評価部35で評価するか否か判定する(ステップS95)。途中結果を評価すると判定した場合(ステップS97のyes)、途中結果を表示する(ステップS96)。途中結果を表示しないと判定した場合、意味情報の解析を終了する(ステップS97のno)。
図12は、MFP等でスキャンされたドキュメント画像3に対してなされる処理の概要をドキュメント画像3−1から3−3まで時系列的に示した図である。
ドキュメント画像3は、図13に示すように、ページ上位に比較的大きな文字サイズの文字列2行が、ページ中に分散して同様に比較的大きな文字サイズの文字列2行が、またそれらの比較的大きな文字サイズの文字列に隣接する形で比較的小さな文字サイズの文字列数行が、存在している画像である。さらに、ページ上位の2行は、その行の開始位置がページの横方向に対して左詰めの行と、中央にセンタリングされた行と傾向が異なっている。さらに、ページ中に分散して存在する比較的大きな文字サイズの文字列の2行も、左詰めにされている。
まず、レイアウト解析部20により文字領域が抽出されるとともに、パラメータ情報も抽出される。たとえば、ドキュメント画像3−1に示すように、3−f、3−a、3−b、3−c、3−d、3−eといった文章領域が抽出されるとともに、それぞれの文章領域の持つ値として、領域3−fは始点(5、5),終点(35、25)、領域3−aは始点(45、30),終点(145、50)、領域3−bは始点(5、50),終点(80、70)、領域3−cは始点(15、75),終点(125、110)、領域3−dは始点(5、120),終点(55、150)、領域3−eは始点(15、155),終点(125、180)と解析される。
この後、文章領域情報算出部24により、座標情報やテキスト情報に基づいて、文章領域の領域中の部分領域にかかる外接矩形の高さや幅、間隔、文字行の数、文字行の方向を算出する。これら算出した情報に基づいて、特徴抽出部25は、ドキュメント画像の特徴を抽出する。
ここで、特徴抽出部25は、このドキュメント画像3に対して、文字サイズのばらつきが小さい文字列によって構成されており、文字サイズが比較的に大きい文字列がページ中に複数存在しており、文章領域にかかる外接矩形の位置が、文字サイズが比較的大きな文字列と隣接して、文字サイズが比較的小さな複数の文字列を含む文字領域が存在しており、文字サイズが大きい文字列は、ページ横方向に対して左詰めにされている行とセンタリングされている行が存在するという特徴が抽出される(ドキュメント画像3−1)。
こうして得られたドキュメント画像3−1の特長に対して、部品構成部26はこのドキュメント画像に対して、領域の領域意味の解析を行うに当たって適用すべき解析部品を判定する。このドキュメント画像3−1に対しては、同じ文字サイズの文字列が複数分離して存在しており、隣接する文字領域の位置関係が文字サイズの比較的大きい文字領域と比較的小さい文字領域が個々に近い場所に分布しており、さらに同様の文字サイズの文字列のドキュメント画像横方向の開始場所は左詰めにされている行とセンタリングされている行があることから、部品構成部26は領域意味の解析をするにあたって、解析実行部27の解析部品として、文字サイズ解析部品28と、矩形縦方向位置解析部品29と、矩形横方向位置解析部品30とを選択する。
このように、ページ中の縦方向及び横方向の開始位置によって解析を行う場合、それらの解析部品による判定結果を直列的には評価できない場合がある。例えば、直列的に最初に横方向の開始位置によって評価した結果、ページ上位にあるにも関わらず右詰めされているなどの判定基準によってタイトル候補から外されてしまう場合がある。この外されてしまった文字列は、ページ縦方向の開始位置では非常にタイトル候補として適切であると判定されることもあり、その判定を行う前に事前の横方向の判定によって候補から外されてしまうと、より精度の高い判定結果を得ることができない可能性がある。従って、このように複数の解析部品を等価に用いたいように判定された場合は、それらの解析モジュールを並列的に構成して解析に適用する必要がある。
このように、本実施の形態では、解析部品が並列的に構成されると、最終的にタイトル候補を決定するためには、それらの並列的に構成された解析部品の途中段階の解析結果を比較する必要がある。そこで、部品構成途中結果評価部35で途中結果を表示させる。
本実施形態では、部品並列構成部33で解析部品を並列的に構成することで、解析の精度を向上させるとともに、適切な処理時間での処理を可能とするシステムを提供することが可能となる。また、本実施の形態では、解析部品の複数の組み合わせを並列に構成し、その途中結果を表示させることで、ユーザーが解析部品の組み合わせを容易に評価することが可能となる。このようにすることで、複数の構成結果の候補から、ユーザー所望の構成結果を選択することが可能となる。
さらに、本実施の形態に係るドキュメント処理装置230を備えたMFPにおいては、解析結果即時提示部34に表示された複数の構成結果をその場でプリントアウトすることが可能となる。加えて、プリントアウトした紙にユーザーがペン等で書き込みをし、スキャンすることで、ユーザー所望の構成結果をMFPに認知させることが可能となる。この場合、ユーザーは解析対象である特定のフォームをサンプル画像に対して入力を行うとよい。たとえば、特定のフォームに各種情報といったコンテンツが記入済みの紙原稿をスキャンし、その画像情報をJPEG形式などでファイル化して登録するとよい。また、入力された画像情報を、表示装置250の「スキャン画像プレビュー」ウインドウで表示するとよい。
(第4の実施の形態)図14は、本発明の第4の実施形態に係るドキュメント処理装置を示すブロック図である。本実施形態に係るドキュメント処理装置230は、第3の実施の形態に加えて、部品構成定義管理部36と部品構成定義部37と部品構成定義学習部38が設けられている。
部品構成定義部37は、部品構成途中結果評価部35で評価されたユーザー所望の構成結果を、最適な構成結果として定義し、表示装置250に視覚的に表示させるモジュールである。すなわち、第1の実施の形態から第3の実施の形態におけるような解析部品の構成は、実際にはある特定のフォーム(例えば、旅費精算用フォーム、特許申請用フォームなど、特定の目的のために特定の記述項目やレイアウトを持ったドキュメント)に対してタイトル抽出などの領域情報を自動的に解析させる、といった目的に沿って行われる。従って、ユーザーはその特定のフォームに対して解析部品の構成を定義する必要があり、部品構成定義部37は、その定義のための手段を提供するものである。
部品構成定義学習部38は、部品構成定義部37においてユーザーが解析部品構成を定義を学習するモジュールである。たとえば、特徴抽出部25で抽出された文章領域の特徴とユーザーが定義した解析部品の組み合わせを関連付けて、ある領域傾向を持った画像に対してユーザーがどのように意味領域を認識して定義することが多いかといった傾向を学習するモジュールである。
部品構成定義管理部36は、部品構成定義部37にてユーザーが定義した解析部品の構成結果や、部品構成定義学習部38によって学習された特定ユーザーの解析部品の組合わせに関する情報を保管保存するモジュールである。
ユーザーは、表示装置250に表示させた画像に対して、所望の解析結果を得られるように、解析部品の定義を行っていく。たとえば、部品構成部26で準備されている解析部品の一つ一つを個々のアイコンとして配置し、アイコン同士を線の描画オブジェクトによって連結させることで処理の流れを表現したり、といった操作が可能であるとする。この場合、個々のアイコンは、メニューにより選択してウインドウに配置することもできれば、アイコンの一覧が別途ウインドウに表示されそのアイコンをドラッグアンドドロップなどの操作で配置することもできる。また、個々の解析部品だけでなく、部品並列構成部33で組み合わせた複数の構成案をも、フローチャートの表記に類似したようなアイコンを配置することで表現できるものとする。
たとえば、図15のように、GUIによって、ユーザー所望の構成結果を視覚的に表示させるとよい。この図15に示す「解析部品構成結果」ウインドウに対してユーザーが構成定義を行うと、「解析結果一覧」ウインドウにその解析結果が逐次表示される。ここで、「解析部品構成結果」ウインドウに対してユーザーが構成定義を行っている操作が一定時間行われないとする。すると部品構成定義部37は、その時点で定義されたアルゴリズム部品構成を「スキャン画像プレビュー」ウインドウで表示されているサンプル画像に対して適用し、その解析結果を「解析結果一覧」に画像装置250に表示させる。図15の例では、ユーザーはタイトル領域と日付領域をこの特定のフォームに対して解析させようとしており、それらの領域の解析結果およびOCR処理を行った結果を共に「解析結果一覧」ウインドウに表示している。
また、ユーザーはこの解析結果を何らかのフォーマットで出力したい場合は、「出力フォーマット確認」ウインドウにて、逐次表示される解析結果が反映された形で出力結果を事前に確認することができる。例えば、ユーザーはあるスキーマを持ったXML(Extensible Markup Language)形式で解析結果を出力したい場合には、事前にそのスキーマを解析結果を記述するタグや順番を含めて設定しておく。すると、「解析部品構成結果」ウインドウにて定義されたアルゴリズム部品の構成に応じて得られた解析結果が反映された状態で「出力フォーマット確認」ウインドウに表示が行われ、ユーザーはその内容を確認することで、解析結果だけでなくそれがどのように出力されるか(ここではXML形式)を確認することができる。
このように、ユーザーは部品構成定義部37によって、対象とするフォームのドキュメントに対してアルゴリズム構成を定義することができるが、現実的にはこの定義に伴う操作はその定義内容によっては煩雑であり、かつ異なるフォームに対して都度同様の定義のための操作を行うのは負荷がかかる。
そこで、この場合、部品構成定義学習部38では、このユーザーが特定のフォームに対して行うアルゴリズム構成定義の操作傾向を学習できるものとする。たとえば、特徴抽出部25においてその対象となるフォームの特徴は取得されているが、その特徴をパラメータ化しその画像に対してユーザーが行った定義もパラメータ化する。これらのパラメータに対して、例えば協調フィルタリングを適用して、ある画像傾向のパラメータに対して共起されるアルゴリズム構成定義の傾向を学習させることができる。
このようにして得られた学習結果を、その定義を行ったユーザーの情報(例えば、ユーザーIDや所属情報、役職情報、得意分野などのキーワード情報、など)と共に部品構成定義管理部36にてリレーショナルデータベースのテーブルのレコードとして管理するものとする。この部品構成定義管理部36にて管理保存されているアルゴリズム部品構成定義の情報は、部品構成定義学習部38で引き続き学習される内容によって更新されたり、また他のユーザーから参照されることによって共有されたりできるものとする。
このように、本実施形態では、部品構成定義管理部36においてユーザーが解析品の構成の特徴を学習するアルゴリズムを記憶させることで、部品構成定義学習部38において特徴抽出部25で解析された領域傾向の特徴量とユーザーの定義したアルゴリズム部品構成パターンを関連付けて、ある特徴を持った画像に対してユーザーがどのように意味情報を認識して定義するかといった意味情報を定義する特徴を学習することが可能となる。
また、本実施形態のドキュメント処理システムを有するMFPにおいては、ユーザーが自由に解析部品を構成できるため、事業形態を問わずにMFPを使用することが可能となる。
さらに、本実施形態では、部品構成定義管理部36で解析部品の構成結果を保管することができるため、後にどのような解析を行なったユーザーが視覚的に確認することが可能となる。
本発明の実施形態に係る文書処理装置を備えたMFPの一例を示すブロック図。 本発明の第1の実施の形態に係る文書処理装置の構成の一例を示すブロック図。 外接矩形を説明するための図。 本発明の実施の形態に係る文書処理装置の処理の概要を示すフローチャート。 本発明の実施の形態に係る意味情報管理部の一例を示す図。 本発明の第1の実施の形態に係る文書処理装置の処理の一例を示すフローチャート。 本発明の第1の実施の形態に係る文書処理装置の効果の一例を示す図。 本発明の第2の実施の形態に係る文書処理装置の構成の一例を示すブロック図。 本発明の第2の実施の形態に係る文書処理装置の処理の一例を示すフローチャート。 本発明の第2の実施の形態に係る文書処理装置の効果の一例を示す図。 本発明の第3の実施の形態に係る文書処理装置の構成の一例を示すブロック図。 本発明の第3の実施の形態に係る文書処理装置の処理の一例を示すフローチャート。 本発明の第3の実施の形態に係る文書処理装置の効果の一例を示す図。 本発明の第4の実施の形態に係る文書処理装置の構成の一例を示すブロック図。 本発明の第4の実施の形態に係る分処理装置の効果の一例を示す図。
符号の説明
210 画像入力手段、220 データ通信手段、230 ドキュメント処理装置
240 データ記憶部、250 表示装置、260 出力手段
270 制御部、280 データ通信路、20 レイアウト解析部
21 テキスト情報取得部、22 意味情報管理部、23 意味情報解析部
24 文章領域情報算出部、25 特徴抽出部、26 部品構成部
27 解析実行部、28 文字サイズ解析部品
29 矩形縦方向位置解析部品、30 矩形横方向位置解析部品
31 部品選択構成部、32 部品順序構成部、33 部品並列構成部
34 解析結果即時提示部、35 部品構成途中結果評価部
36 部品構成定義管理部、37 部品構成定義部、38 部品構成定義学習部

Claims (15)

  1. ドキュメントから読み取った画像データを解析して種別毎に領域を分別し、その領域中から種別が文章領域の座標情報を取得するレイアウト解析手段と、
    前記レイアウト解析手段で取得した前記座標情報に基づいて、前記文章領域毎の部分領域の位置情報を算出する文章領域情報算出部と、
    前記文章領域情報算出部で算出された前記位置情報に基づいて、当該文章領域の特徴を抽出する特徴抽出部と、
    複数種類の解析部品モジュールを用いて前記部分領域の意味情報を解析する解析実行部と、
    前記特徴抽出部によって抽出された前記当該文章領域の前記特徴に基づいて、1つ又は複数の前記解析部品モジュールを選択して構築し、その構築した前記1つ又は複数の解析部品モジュールに従って前記解析実行部に前記部分領域の意味情報の解析を実行させる部品構成部と、
    を備えることを特徴とするドキュメント処理装置。
  2. 前記文章領域中のテキスト情報を抽出するテキスト情報取得手段と、
    前記レイアウト解析手段によって抽出された前記文章領域以外の領域と、前記テキスト情報取得手段によって抽出されたテキスト情報と、前記解析実行部によって抽出された前記意味情報とを関連付けて保管管理する意味情報管理手段と、
    を更に備えたことを特徴とする請求項1に記載のドキュメント処理装置。
  3. 前記解析実行部に備えられた前記解析部品モジュールの1つが、文字の大きさを基準にして前記文章領域の前記意味情報を抽出する文字サイズ解析部品である請求項1に記載のドキュメント処理装置。
  4. 前記解析実行部に備えられた前記解析部品モジュールの1つが、前記画像データの縦方向の位置を基準に前記文章領域の前記意味情報を抽出する矩形縦方向位置解析部品である請求項1に記載のドキュメント処理装置。
  5. 前記解析実行部に備えられた前記解析部品モジュールの1つが、前記画像データの横方向の位置を基準に前記文章領域の前記意味情報を抽出する矩形横方向位置解析部品である請求項1に記載のドキュメント処理装置。
  6. 前記部品構成部は、前記解析部品モジュールを選択する部品選択構成部を備えることを特徴とする請求項1に記載のドキュメント処理装置。
  7. 前記部品構成部は更に、
    前記特徴抽出部で抽出した特徴に基づいて前記部品選択構成部によって前記解析部品モジュールが複数選択された時、その選択された複数の解析部品モジュールの順序を設定する部品順序構成部を備えることを特徴とする請求項6に記載のドキュメント処理装置。
  8. 前記部品構成部は更に、
    前記特徴抽出部で抽出した特徴に基づいて前記部品選択構成部によって前記解析部品モジュールの組み合わせが複数組設定された時、最適な解析部品モジュールの組み合わせを用いて前記解析実行部に並列に解析させる部品並列構成部を備えることを特徴とする請求項6に記載のドキュメント処理装置。
  9. 前記ドキュメント処理装置は更に、
    前記部品並列構成部を用いて前記並列に実行した解析結果を表示させる解析結果提示部を備えることを特徴とする請求項8に記載のドキュメント処理装置。
  10. 前記ドキュメント処理装置は更に、
    前記解析結果提示部で提示された前記解析結果が肯定的であるか否かを評価する部品構成結果評価部を備えることを特徴とする請求項9に記載のドキュメント処理装置。
  11. 前記部品構成結評価部によって評価された結果が、肯定的である場合、この肯定的な評価結果である前記解析部品モジュールの組み合わせを定義する部品構成定義部を更に備えたことを特徴とする請求項10に記載のドキュメント処理装置。
  12. 前記部品構成定義部で定義された結果を記憶する部品構成学習手段と、
    前記部品構成定義部で定義された結果を管理する部品構成定義管理部と、
    を更に備えることを特徴とする請求項10記載のドキュメント処理装置。
  13. 前記部品構成結果評価部で評価された結果に変更が生じた場合に、
    前記部品構成定義部は変更後の前記解析結果を更新して、定義することを特徴とする請求項12記載のドキュメント処理装置。
  14. ドキュメントから読み取った画像データを解析して、種別毎に領域を分別し、
    その領域中から種別が文章領域の座標情報を取得し、
    取得された前記座標情報に基づいて、前記文章領域毎の部分領域の位置情報を算出し、
    算出された前記位置情報に基づいて、当該文章領域の特徴を抽出し、
    複数種類の解析部品モジュールを有し、抽出された前記当該文章領域の前記特徴に基づいて1つ又は複数の前記解析部品モジュールを選択して構築し、その構築した前記1つ又は複数の解析部品モジュールに従って前記部分領域の意味情報の解析を行うことを特徴とするドキュメント処理方法。
  15. ドキュメントから読み取った画像データを解析して種別毎に領域を分別し、その領域中から種別が文章領域の座標情報を取得するレイアウト解析機能と、
    取得した前記座標情報に基づいて、前記文章領域毎の部分領域の位置情報を算出する文章領域情報算出機能と、
    算出された前記位置情報に基づいて、当該文章領域の特徴を抽出する特徴抽出機能と、
    複数種類の解析部品モジュールを有し、前記抽出された前記当該文章領域の前記特徴に基づいて1つ又は複数の前記解析部品モジュールを選択して構築し、その構築した前記1つ又は複数の解析部品モジュールに従って前記部分領域の意味情報の解析を実行させる解析実行機能と、
    を備えることを特徴とするドキュメント処理装置のプログラム。
JP2008199231A 2007-10-29 2008-08-01 ドキュメント処理装置、ドキュメント処理方法、ドキュメント処理装置のプログラム Pending JP2009110500A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US12/260,485 US20090110288A1 (en) 2007-10-29 2008-10-29 Document processing apparatus and document processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US98343107P 2007-10-29 2007-10-29

Publications (1)

Publication Number Publication Date
JP2009110500A true JP2009110500A (ja) 2009-05-21

Family

ID=40778882

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008199231A Pending JP2009110500A (ja) 2007-10-29 2008-08-01 ドキュメント処理装置、ドキュメント処理方法、ドキュメント処理装置のプログラム

Country Status (1)

Country Link
JP (1) JP2009110500A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011145904A (ja) * 2010-01-15 2011-07-28 Fuji Xerox Co Ltd 情報表示装置及びプログラム
JP2012514792A (ja) * 2009-01-02 2012-06-28 アップル インコーポレイテッド 文書再構成の方法及びシステム
US8886676B2 (en) 2011-01-18 2014-11-11 Apple Inc. Reconstruction of lists in a document
US8959116B2 (en) 2011-01-18 2015-02-17 Apple Inc. Storage of a document using multiple representations
JP2019105957A (ja) * 2017-12-12 2019-06-27 コニカミノルタ株式会社 文書構成解析システム、文書構成解析方法、プログラム
CN111832403A (zh) * 2020-06-04 2020-10-27 北京百度网讯科技有限公司 文档结构识别方法、文档结构识别的模型训练方法和装置
CN115935074A (zh) * 2023-01-09 2023-04-07 北京创新乐知网络技术有限公司 文章推荐方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004178010A (ja) * 2002-11-22 2004-06-24 Toshiba Corp 文書処理装置並びにその方法及びプログラム
JP2004252766A (ja) * 2003-02-20 2004-09-09 Seiko Epson Corp ドキュメント解析装置
JP2005258782A (ja) * 2004-03-11 2005-09-22 Nec Corp 構造化文書処理装置、構造化文書処理方法、および構造化文書処理プログラム
JP2006120125A (ja) * 2004-10-20 2006-05-11 Toshiba Corp ドキュメント画像情報管理装置及びドキュメント画像情報管理プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004178010A (ja) * 2002-11-22 2004-06-24 Toshiba Corp 文書処理装置並びにその方法及びプログラム
JP2004252766A (ja) * 2003-02-20 2004-09-09 Seiko Epson Corp ドキュメント解析装置
JP2005258782A (ja) * 2004-03-11 2005-09-22 Nec Corp 構造化文書処理装置、構造化文書処理方法、および構造化文書処理プログラム
JP2006120125A (ja) * 2004-10-20 2006-05-11 Toshiba Corp ドキュメント画像情報管理装置及びドキュメント画像情報管理プログラム

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9575945B2 (en) 2009-01-02 2017-02-21 Apple Inc. Efficient data structures for parsing and analyzing a document
US9959259B2 (en) 2009-01-02 2018-05-01 Apple Inc. Identification of compound graphic elements in an unstructured document
US8719701B2 (en) 2009-01-02 2014-05-06 Apple Inc. Identification of guides and gutters of a document
US8832549B2 (en) 2009-01-02 2014-09-09 Apple Inc. Identification of regions of a document
US9063911B2 (en) 2009-01-02 2015-06-23 Apple Inc. Identification of layout and content flow of an unstructured document
US8892992B2 (en) 2009-01-02 2014-11-18 Apple Inc. Methods for efficient cluster analysis
JP2012514792A (ja) * 2009-01-02 2012-06-28 アップル インコーポレイテッド 文書再構成の方法及びシステム
US9460063B2 (en) 2009-01-02 2016-10-04 Apple Inc. Identification, selection, and display of a region of interest in a document
JP2011145904A (ja) * 2010-01-15 2011-07-28 Fuji Xerox Co Ltd 情報表示装置及びプログラム
US8959116B2 (en) 2011-01-18 2015-02-17 Apple Inc. Storage of a document using multiple representations
US8886676B2 (en) 2011-01-18 2014-11-11 Apple Inc. Reconstruction of lists in a document
JP2019105957A (ja) * 2017-12-12 2019-06-27 コニカミノルタ株式会社 文書構成解析システム、文書構成解析方法、プログラム
CN111832403A (zh) * 2020-06-04 2020-10-27 北京百度网讯科技有限公司 文档结构识别方法、文档结构识别的模型训练方法和装置
CN115935074A (zh) * 2023-01-09 2023-04-07 北京创新乐知网络技术有限公司 文章推荐方法、装置、设备及介质
CN115935074B (zh) * 2023-01-09 2023-08-11 北京创新乐知网络技术有限公司 文章推荐方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US20090110288A1 (en) Document processing apparatus and document processing method
US10572725B1 (en) Form image field extraction
JP3940491B2 (ja) 文書処理装置および文書処理方法
JP4343213B2 (ja) 文書処理装置および文書処理方法
US8724907B1 (en) Method and system for using OCR data for grouping and classifying documents
US8849725B2 (en) Automatic classification of segmented portions of web pages
US7836390B2 (en) Strategies for processing annotations
US9910842B2 (en) Interactively predicting fields in a form
JP2012059248A (ja) フォーム・フィールドを検出および生成するシステム、方法およびプログラム
JP5663866B2 (ja) 情報処理装置及び情報処理プログラム
US20070171473A1 (en) Information processing apparatus, Information processing method, and computer program product
US8595235B1 (en) Method and system for using OCR data for grouping and classifying documents
JP2009110500A (ja) ドキュメント処理装置、ドキュメント処理方法、ドキュメント処理装置のプログラム
US20140304579A1 (en) Understanding Interconnected Documents
US20210042518A1 (en) Method and system for human-vision-like scans of unstructured text data to detect information-of-interest
JP2007317034A (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP5380040B2 (ja) 文書処理装置
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
JP4787955B2 (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
JP2006221569A (ja) 文書処理システム、文書処理方法、プログラムおよび記憶媒体
Hoffswell et al. Interactive repair of tables extracted from pdf documents on mobile devices
KR101951910B1 (ko) 계통이 부여된 도판 및 문자의 자동배치를 통한 전자서적 제작 시스템
JP2004178010A (ja) 文書処理装置並びにその方法及びプログラム
CN112464907A (zh) 一种文档处理系统及方法
US20230126022A1 (en) Automatically determining table locations and table cell types

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100323

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120626

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121023