JP4480421B2 - 文書画像レイアウト解析プログラム - Google Patents

文書画像レイアウト解析プログラム Download PDF

Info

Publication number
JP4480421B2
JP4480421B2 JP2004059954A JP2004059954A JP4480421B2 JP 4480421 B2 JP4480421 B2 JP 4480421B2 JP 2004059954 A JP2004059954 A JP 2004059954A JP 2004059954 A JP2004059954 A JP 2004059954A JP 4480421 B2 JP4480421 B2 JP 4480421B2
Authority
JP
Japan
Prior art keywords
character
document image
integrated
extracted
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004059954A
Other languages
English (en)
Other versions
JP2005250816A (ja
Inventor
浩明 武部
克仁 藤本
聡 直井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2004059954A priority Critical patent/JP4480421B2/ja
Publication of JP2005250816A publication Critical patent/JP2005250816A/ja
Application granted granted Critical
Publication of JP4480421B2 publication Critical patent/JP4480421B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Image Analysis (AREA)

Description

本発明は、文書画像における、文字、行、テキストブロック、図、フレームなどの要素の物理的な配置である文書画像レイアウトを解析する、文書画像レイアウト解析プログラムに関する。
近年、スキャナ等の光学機器を用いてコンピュータに取り込んだ文書画像中の文字成分を識別し、文字コードとして出力する光学的文字読取(OCR)が、盛んに利用されている。OCRでは、印刷文字、手書き文字等による文書画像を光学的に走査し読み取って、量子化されたデータを得る。そして、そのデータから文字成分を含んだテキストブロックを抽出する。次に、このテキストブロックから文字成分を抽出して、パターンマッチング等の手法により文字認識を行う。
従来、ある文書画像からテキストブロックを抽出する方法としては、以下のような方法が提案されている。例えば、特許文献1には、基礎要素の集合に対して、それらの近接性(文字成分同士が比較的密に配置されているなど)と同質性(文字成分の大きさがほぼ同じくらいであるなど)に基づいて統合して行を生成する。そして、同様に、行の集合に対しても、それらの近接性と同質性に基づき統合して段(テキストブロック)を生成する。また同時に、生成された段(テキストブロック)を制約と考えることにより、行と段(テキストブロック)を抽出しなおすことが開示されている。具体的には、文書画像における黒画素による連結成分を基礎要素として、それらを統合させ行を生成し、行を統合させてテキストブロックを生成することを基本としている。文書要素に対して、その周辺にある他の文書要素との大きさと位置の関係から、2つの文書要素を統合するかどうかの判断を下す。
また、特許文献2には、文書画像から空白領域の集合を抽出し、それらの中から所定の大きさに関する条件を満たすものを選択して、それらによって被覆される領域以外の領域を抽出することで、文書画像からテキストブロック領域を切り出すことが開示されている。
特開平11−219407号公報 特開平2−263272号公報
しかし、文書要素のレイアウトは複雑かつ多様であり、文書要素の集合に対し、文書要素間の局所的な配置関係の情報のみから、特許文献1のように、一階上の同じ文書要素を構成する文書要素同士をリンクすることは、極めて困難である。例えば、テキストブロック同士が入り組んで配置されている場合や、テキストブロックと図が入り組んで配置されている場合などに、文字成分を過統合して、複数行の文字列をまとめて1行としてしまう問題があった。
図21、図22は、過統合の例を示す図であり、図21は、テキストブロック抽出結果を示し、図22は行抽出結果を示している。
図21では、文書画像300において、2つのテキストブロック310、320が抽出されていることを示している。図22では、図21のようなテキストブロック310、320における行抽出結果(行a〜n)を示している。ここで、a〜hの行は正しく抽出できているが、j〜nの行は左右にわたり過統合しており、さらに、i、k、m及びnの行は上下にわたり過統合している。これらの行を文字認識しても正しい文章が得られない。
また、ある条件を満たす空白領域の集合によって、テキストブロック領域を閉領域として取り出す特許文献2の方式では、以下のような問題がある。
テキストブロック領域を囲む適切な空白領域の大きさは文書画像の各領域によって異なり、固定した条件では、適切な空白領域を選択することは難しい。
図23は、複数の図に囲まれた領域にテキストブロック領域が配置されているレイアウトの例である。
このような場合、テキストブロック領域330のように、図などの他の文書要素と簡単な矩形で分離できないような形で配置されているため、特許文献2の方式であるようなテキストブロック領域を囲む適切な空白領域を選択してテキストブロック領域を切り出すことは、さらに困難である。
本発明はこのような点に鑑みてなされたものであり、複雑なレイアウトの文書画像においても、適切なテキストブロックを抽出可能な文書画像レイアウト解析プログラムを提供することを目的とする。
上記目的を達成するために、文書画像レイアウトを解析する処理をコンピュータに機能させる、以下のような文書画像レイアウト解析プログラムが提供される。
この文書画像レイアウト解析プログラムは、コンピュータに、文書画像における空白領域を仮想的なセパレータとして抽出し、前記仮想的なセパレータを越えたテキスト要素の統合を禁止するもとで、複数の前記テキスト要素を統合して統合テキスト要素として抽出し、抽出した前記統合テキスト要素が行として適合か不適合かを検証し、不適合の場合は、前記空白領域の大きさを制御パラメータにより変化させ、不適合とされた前記統合テキスト要素に対して前記仮想的なセパレータを再抽出し、新たな前記統合テキスト要素を抽出する処理を再帰的に繰り返す、処理を実行させるとともに、前記コンピュータに、前記抽出した前記統合テキスト要素における行において、前記行を囲む文字列矩形内に含まれる、連結成分あるいは前記連結成分を統合したものを文字認識して認識信頼度が高いものを文字候補とし、前記文字列矩形の一角を原点とした2次元座標を用いて番号付けされた前記文字候補を含む、前記原点を一角とした矩形検査領域を前記番号順に設定し、前記矩形検査領域内に前記文字候補より後ろの前記番号の前記文字候補を含まないという条件の下で、前記文字候補の読み取り順序を決定し、統合する前記文字候補より後ろの前記読み取り順序のものを含まないという条件の下で、前記読み取り順序に応じて前記文字候補を順番に統合して生成される新たな生成行が、前記文字列矩形内において前記行の垂直方向に複数存在するときに、前記行を行として不適合であると判定する、処理を実行させる。
また、上記目的を達成するために、文書画像レイアウトを解析する処理をコンピュータに機能させる、以下のような文書画像レイアウト解析プログラムが提供される。
この文書画像レイアウト解析プログラムは、コンピュータに、文書画像における空白領域を仮想的なセパレータとして抽出し、前記仮想的なセパレータを越えたテキスト要素の統合を禁止するもとで、複数の前記テキスト要素を統合して統合テキスト要素として抽出し、抽出した前記統合テキスト要素がテキストブロックとして適合か不適合かを検証し、不適合の場合は、前記空白領域の大きさを制御パラメータにより変化させ、不適合とされた前記統合テキスト要素に対して前記仮想的なセパレータを再抽出し、新たな前記統合テキスト要素を抽出する処理を再帰的に繰り返す、処理を実行させるとともに、前記コンピュータに、前記抽出した前記統合テキスト要素における行において、前記行を囲む文字列矩形内に含まれる、連結成分あるいは前記連結成分を統合したものを文字認識して認識信頼度が高いものを文字候補とし、前記文字列矩形の一角を原点とした2次元座標を用いて番号付けされた前記文字候補を含む、前記原点を一角とした矩形検査領域を前記番号順に設定し、前記矩形検査領域内に前記文字候補より後ろの前記番号の前記文字候補を含まないという条件の下で、前記文字候補の読み取り順序を決定し、統合する前記文字候補より後ろの前記読み取り順序のものを含まないという条件の下で、前記読み取り順序に応じて前記文字候補を順番に統合して生成される新たな生成行が、前記文字列矩形内において前記行の垂直方向に複数存在するときに、前記行を含んだテキストブロックをテキストブロックとして不適合であると判定する、処理を実行させる。
また、上記目的を達成するために、文書画像レイアウトを解析する処理をコンピュータに機能させる、以下のような文書画像レイアウト解析プログラムが提供される。
この文書画像レイアウト解析プログラムは、コンピュータに、文書画像における空白領域を仮想的なセパレータとして抽出し、前記仮想的なセパレータを越えたテキスト要素の統合を禁止するもとで、複数の前記テキスト要素を統合して統合テキスト要素として抽出し、抽出した前記統合テキスト要素がテキストブロックとして適合か不適合かを検証し、不適合の場合は、前記空白領域の大きさを制御パラメータにより変化させ、不適合とされた前記統合テキスト要素に対して前記仮想的なセパレータを再抽出し、新たな前記統合テキスト要素を抽出する処理を再帰的に繰り返す、処理を実行させるとともに、前記コンピュータに、前記抽出した前記統合テキスト要素内に含まれる行において、所定の行数以上の前記行が、前記統合テキスト要素内にある連結成分から推定される前記統合テキスト要素の平均文字間隔よりも大きい同一の空白領域と交差するとき、抽出された前記統合テキスト要素をテキストブロックとして不適合であると判定する、処理を実行させる。
本発明は、文書画像における空白領域を仮想的なセパレータとして抽出し、さらに、そのセパレータを越えたテキスト要素の統合を禁止するもとで、複数のテキスト要素を統合して統合テキスト要素として抽出するので、文書画像のレイアウトに応じた統合テキスト要素を抽出することができる。
また、抽出した統合テキスト要素に対して行またはテキストブロックとして適合か不適合かを検証し、その検証の結果、統合テキスト要素が不適合の場合は、行またはテキストブロックとしての条件が満たされるまで、空白領域の大きさを制御パラメータにより変化させ、仮想セパレータの再抽出及び、統合テキスト要素を抽出する処理を再帰的に繰り返すので、正しい文章として認識可能になる適切な統合テキスト要素を抽出することができる。
以下、本発明の実施の形態を図面を参照して詳細に説明する。
図1は、本発明の文書画像レイアウト解析プログラムの原理を示す図である。
本発明の文書画像レイアウト解析プログラムは、文書画像レイアウトを解析する処理をコンピュータ10に機能させるプログラムである。このプログラムは、コンピュータ10に、文書画像における空白領域を仮想的なセパレータ(以下仮想セパレータという)として抽出し(ステップS1)、仮想セパレータを越えたテキスト要素の統合を禁止するもとで、複数のテキスト要素を統合して統合テキスト要素として抽出する(ステップS2)処理を実行させる。
なお、テキスト要素とは、文字成分あるいは、複数の文字成分からなる行または複数の行からなるテキストブロックであり、統合テキスト要素とは、複数のテキスト要素を統合した行またはテキストブロックである。
さらに、このプログラムは、コンピュータ10に、抽出した統合テキスト要素が行またはテキストブロックとして適合か不適合かを検証し(ステップS3)、検証の結果、統合テキスト要素が正しくない場合は、ステップS1に戻って、空白領域の大きさを制御パラメータ(詳しくは後述する)により変化させ、不適合とされた統合テキスト要素に対して仮想セパレータを再抽出し、新たな統合テキスト要素を抽出する処理を再帰的に繰り返す処理を実行させる。
以下、上記のようなプログラムを実行したときのコンピュータ10による文書画像レイアウト解析処理の概要を、具体例を挙げて説明する。
図2乃至図5は、本発明の文書画像レイアウト解析プログラムによる文書画像レイアウト解析処理の概要を示す図である。
文書画像レイアウト解析処理が開始すると、図2のような文書画像20において、ある制御パラメータ(後述する)に応じてその大きさ(X、Y方向の大きさ)を決定する空白領域(空白矩形)を、仮想セパレータ21a、21b、21c、21d、21eとして抽出する(ステップS1)。
次に、ステップS1の処理で抽出された仮想セパレータ21a、21b、21c、21d、21eを越えたテキスト要素である複数の文字成分や行の統合を禁止するもとで、図3のように文字成分間の近接性と均質性に基づき文字成分を行に、同様に行をテキストブロックへとテキスト要素を統合して統合テキスト要素(ここではテキストブロック)22a、22b、22c、22d、22eとして抽出する(ステップS2)。
さらに、抽出されたテキストブロック22a、22b、22c、22d、22eのそれぞれに対して、テキストブロックとしての条件を満たすか否かを検証する(ステップS3)。
ここでの条件とは、文字認識により正しい文章として認識しうるテキストブロックであるための条件である。例えば、図3のように抽出されたテキストブロック22a、22b、22c、22d、22eにおいて、テキストブロック22b、22cについては、文字認識しても正しい文章として認識されず、ステップS3の検証処理では、テキストブロックとしての条件を満たさず不適合であると判定される(この条件についての詳細は後述する)。
このとき、ステップS1に戻って、仮想セパレータとして抽出する空白領域の大きさを制御パラメータにより変化させ(具体的にはより細い空白領域が仮想セパレータとして抽出されるようにする)、そのテキストブロック22b、22cに対して図4のように仮想セパレータ23a、23b、23c、23d、23eを再抽出し、図5のように新たなテキストブロック24a、24b、24c、24d、24e、24fを抽出する。
上記のような処理が、テキストブロックとしての条件が満たされるまで処理が再帰的に繰り返される。
なお、制御パラメータは、再帰回数と統合テキスト要素の大きさやそれに含まれる文字の大きさに基づいて設定される。
このような、文書画像レイアウト解析プログラムによれば文書画像のレイアウトに応じた統合テキスト要素を抽出することができる。
また、抽出した統合テキスト要素に対して行またはテキストブロックとして適合か不適合かを検証し、その検証の結果、統合テキスト要素が不適合の場合は、行またはテキストブロックとしての条件が満たされるまで、空白領域の大きさを制御パラメータにより変化させ、仮想セパレータの再抽出及び、統合テキスト要素を抽出する処理を再帰的に繰り返すので、正しい文章として認識可能になる適切な統合テキスト要素を抽出することができる。
以下、本発明の実施の形態の詳細を説明する。
図6は、文書画像レイアウト解析プログラムを適用する文書画像レイアウト解析装置のハードウェア構成例である。
文書画像レイアウト解析装置100は、例えばPC(パーソナルコンピュータ)であり、CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、HDD(Hard Disk Drive)104、グラフィック処理部105、入力I/F(Interface)106、通信I/F107などによって構成され、これらはバス108を介して相互に接続されている。
ここで、CPU101は、ROM102や、HDD104に格納されているプログラムや、各種データに応じて各部を制御する。
ROM102は、CPU101が実行する基本的なプログラムやデータを格納している。
RAM103は、CPU101が実行途中のプログラムや、演算途中のデータを格納している。
HDD104は、CPU101が実行するOS(Operation System)や、本発明の文書画像レイアウト解析プログラムなど各種アプリケーションプログラム、図示しないスキャナなどの光学機器によって読み込んだ文書画像データなどの各種データを格納している。
グラフィック処理部105には、表示装置として例えば、ディスプレイ105aが接続されており、CPU101からの描画命令に従って、ディスプレイ105aの画面上に、文書画像などを表示する。
入力I/F106には、マウス106aやキーボード106bが接続されており、ユーザにより入力された情報を受信し、バス108を介してCPU101に伝送する。
通信I/F107は、例えば、インターネットなどのネットワーク120と接続して、ネットワーク120上に接続された他の装置との通信を行う。
次に、文書画像レイアウト解析装置100で行われる文書画像レイアウト解析処理の詳細を説明する。
なお、以下では、前述した統合テキスト要素はテキストブロックであるとして説明を進めるが、行であってもよい。
以下で示す文書画像レイアウト解析処理は、CPU101の制御のもと、例えば、ROM102またはHDD104に格納された本発明の文書画像レイアウト解析プログラムや、文書画像データなどの各種データが読み出され、RAM103に展開されて実行されることによって実現される。
図7は、文書画像レイアウト解析処理全体の概要を示す図である。
文書画像レイアウト解析処理は、図のように、連結成分属性付与処理(ステップS10)と、再帰的テキストブロック抽出処理(ステップS20)からなる。
連結成分属性付与処理(ステップS10)は、文書画像の黒画素による全ての連結成分に、文字成分、セパレータ、図、フレーム、ノイズのいずれかの属性を付与する。ここで、図とは、文字成分、セパレータ、フレームまたはノイズではなく、かつ、それ自身の中に文字成分を含まない連結成分のことである。またフレームとは、複数の文字成分を内側に含んだ枠のことである。
再帰的テキストブロック抽出処理(ステップS20)は、前述の図1で示したステップS1〜S3の処理に相当する。ステップS10の連結成分属性付与処理で属性の付与された連結成分の集合に対して、仮想セパレータの抽出、テキストブロックの抽出、そしてテキストブロックとしての条件を満たしているかの検証を行い、テキストブロックが正しくない場合は、空白領域の大きさを制御パラメータにより変化させ、そのテキストブロックに対して仮想セパレータを再抽出し、新たなテキストブロックを抽出する処理を再帰的に繰り返す処理を行う。
まず、連結成分属性付与処理の詳細を説明する。
図8は、連結成分属性付与処理の流れを示す一例のフローチャートである。
例えば、HDD104に格納された文書画像がCPU101の制御のもと取り出されると、その文書画像に対し、まずラベリング処理が行われる。
図9は、ラベリング処理の具体例を示す図である。
例えば「た」という文字成分は、黒画素による3つの連結成分201、202、203からなる。ラベリング処理では、連結成分201、202、203を囲む最小の長方形である外接矩形201a、202a、203aの座標値(XY座標)を得ることで、黒画素の連結成分の情報を取得する。このような処理を文書画像中の全ての連結成分に対し行う(ステップS11)。
次に、ステップS11の処理で得られた連結成分の集合Sに対して、セパレータ判別処理を行う。ここでは、連結成分の外接矩形の長い辺の長さがある一定値以上であり、かつ外接矩形の縦横比がある一定値以上であるとき、その連結成分はセパレータであると判別する(ステップS12)。
また、連結成分の集合Sに対して、ノイズ判別処理を行う。ここでは、連結成分の外接矩形の面積がある一定値以下であるとき、その連結成分はノイズであると判別する(ステップS13)。
さらに、連結成分の集合Sから、ステップS12、S13の処理で判別されたセパレータとノイズを除いた集合Saに対して、階層化処理を行う。
図10は、階層化処理の具体例を示す図である。
例えば、「区」のような文字成分は、黒画素による2つの連結成分211、212からなる。これらは、連結成分211、212の外接矩形211a、212aの座標値によりステップS11の処理でラベリングされている。この文字の場合、連結成分211の中に連結成分212が包含されている。このような連結成分同士の関連がある場合、連結成分211の“子”に連結成分212を登録し、連結成分212の“親”に連結成分211を登録するといった階層化処理を行う(ステップS14)。
階層化処理が終わると集合Saに対して、文字認識処理を行う。ここでは、連結成分に対して、まず、その外接矩形の領域をそのまま1文字認識する。そして、文字認識結果の信頼度が高いとき、その連結成分に文字成分フラグ“CH”を付ける。次に、例えば、図10のように、“子”を持っている連結成分がある場合には、“子”の連結成分の集合に対して重なり統合を行い、その結果得られる全ての重なり成分の外接矩形領域を1文字認識する。
図11は、文字成分を包含するフレームを示した図である。
この図のように連結成分220は、重なり統合の結果、例えば、文字認識結果の信頼度が高い外接矩形領域221、222、223、224を“子”として有している。このように、文字認識結果の信頼度が高い“子”をある一定数以上有している場合、その連結成分220は複数の文字を囲んだフレームである可能性があるので、連結成分220にフレームフラグ“FR”をつける(ステップS15)。
次に、集合Saに対して、文字成分・フレーム・図判別処理を行う。具体的には、連結成分に文字成分フラグ“CH”がついている場合、その連結成分の“親”が存在するならば、その“親”に文字成分フラグ“CH”がついていないときは“親”に、フレームフラグ“FR”をつける。また、“親”に文字成分フラグ“CH”がついているときは、“子”であるその連結成分の信頼度と“親”の連結成分の信頼度を比較して、“子”の連結成分の信頼度が高ければ、“親”の文字成分フラグ“CH”を取り消し、フレームフラグ“FR”をつける。ここで、集合Saに対して、フレームフラグ“FR”のついている連結成分を全てフレームにする。残りの連結成分の中で、文字成分フラグ“CH”のついていないもので、外接矩形の面積がある一定値以上であるとき、それを図とする。さらに残りの連結成分を文字成分とする(ステップS16)。
最後に、文字成分とした連結成分の集合に対して、重なり統合処理を行う(ステップS17)。
以上のような処理で、文書画像中の全ての連結成分に対して、文字成分、セパレータ、図、フレーム、ノイズのいずれかの属性を付与することができる。
次に、図7で示したステップS20の再帰的テキストブロック抽出処理の詳細を説明する。
図12は、再帰的テキストブロック抽出処理の流れを示す一例のフローチャートである。
連結成分属性付与処理が終わり、再帰的テキストブロック抽出処理が開始すると、まず、文書画像内のある矩形領域Pにおける極大空白矩形を求める処理が行われる。
文書画像における空白矩形とは、文書画像内の矩形領域であって、内部に黒画素を含まないものである。そして、空白矩形の集合のうち、自分以外に自分自身を含む空白矩形が存在しないものを極大空白矩形という。
図13は、極大空白矩形の一例を示す図である。
文書画像内のある矩形領域Pを表している。この矩形領域P内には、図7のステップ10で説明した処理により得られた外接矩形の集合S={Ri∈P,i=1,2,…,n}が与えられている(図ではn=5の場合について示している)。ここで、矩形領域Pにおける空白矩形(以下PにおけるS空白矩形と称す)の集合を、矩形領域P内の矩形領域であり、集合Sに属する全ての矩形と重ならないものとする。また、PにおけるS空白矩形の集合のうち、自分以外に自分自身を含むPにおけるS空白矩形が存在しないものをPにおけるS極大空白矩形という。以下、PにおけるS極大空白矩形の集合をM(P,S)で表す。図13では、M(P,S)のうち矩形領域P内で最大となる、PにおけるS極大空白矩形230を示している。
M(P,S)は制御パラメータn、xによって決定し、以下の式で定義される。
n,x(P,S)={T∈M(P,S)|min(TX,TY)≧n and max(TX,TY)≧x}
ここで、TXはM(P,S)に含まれるPにおけるS極大空白矩形Tの横(X方向)の長さを表し、TYはTの縦(Y方向)の長さを表す。min(TX,TY)≧nは、TX,TYのうち短いほうが制御パラメータn以上であることを示し、max(TX,TY)≧xはTX,TYのうち長いほうが制御パラメータx以上であることを示す(ステップS21)。
制御パラメータn、xは、再帰回数とテキストブロックの大きさやそれに含まれる文字の大きさに基づいて設定する。
ところで、前述した連結成分属性付与処理によって外接矩形に付与された属性をもとに、外接矩形の集合Sのうち、文字成分の外接矩形の集合を“C”、フレームやセパレータ、図など文字成分以外の外接矩形の集合を“H”として、“H”は、他の外接矩形との統合を禁止するリンク禁止領域として分類されているものとする。
このとき、ステップS21で求めた矩形領域PにおけるC∪H(CとHの和集合)極大空白矩形集合Mn,x(P,C∪H)を、仮想セパレータとしてリンク禁止領域である“H”に追加する。そして追加されたリンク禁止領域を“Ha”とする(ステップS22)。
次に、文字成分の外接矩形の集合“C”に対して、リンク禁止領域“Ha”を超える統合を禁止するもとで、近接性あるいは同質性に基づいて統合を行いテキストブロックの抽出を行う。具体的な方法については、特開平11−219407号公報に開示されている。処理結果としては、テキストブロックとそれを構成する行が得られる(ステップS23)。
次に、抽出されたテキストブロック数をlとして、ループ回数i=0とし(ステップS24)、i=lとなるまで以下の処理を繰り返す。
すなわち、i<lであるか否かを判断し(ステップS25)、i<lである場合には、抽出したテキストブロックBiがテキストブロック適合性条件(詳細は後述する)を満たすか否かを判断し(ステップS26)、満たす場合にはiをインクリメントして(ステップS27)、ステップS24の処理に戻る。i=lとなった場合、すなわち矩形領域P内の全てのテキストブロックBiがテキストブロック適合性条件を満たした場合には、文書画像内の矩形領域Pに対する処理を終了して、別の矩形領域に対してステップS21からの処理を繰り返す(リターン)。
一方、ステップS26の処理でテキストブロックBiがテキストブロック適合性条件を満たさない場合には、テキストブロックBiを矩形領域Pとし、テキストブロックBi内の文字成分の外接矩形U、文字成分以外の外接矩形Vとして、C={U∈C|U∩P≠φ}、H={V∈H|V∩P≠φ}と新たに定義する。そして、これらP、C、Hに対して、制御パラメータn、xを変化させ(ステップS28)、ステップS21からの処理を再度行う(ステップS29)。再帰処理が終わる(リターンする)とiをインクリメントした後(ステップS27)、ステップS24の処理に戻り、次のテキストブロックBi+1についての検証を行う(ステップS26)。
なお、再帰処理の際、制御パラメータn、xは、ともに減少させていくように設定する。すなわち、テキストブロック適合性条件を満たさなかったテキストブロックBiにおいては、仮想セパレータとして設定する極大空白矩形を小さいものにしていく。
このようにすることで、テキストブロックと図が複雑に入り組んで配置されている場合でも、文字成分を過統合して、複数行の文字列をまとめて1行としてしまうなどの問題を解消できる。
次に、図12におけるテキストブロックとしての適合性を検証する処理(ステップS26)の詳細を説明する。
ステップS23の処理におけるテキストブロック抽出結果が、テキストブロックとしての条件(テキストブロック適合性条件)を満たすかどうかを判断するために、以下の2つの処理を行う。
図14は、テキストブロックとしての適合性検証の処理の概略を示す図である。
ステップS30:テキストブロックを構成する各行について、行が、行の方向(縦または横)の垂直方向にわたって、文字を2文字以上含まないか判断する。
図15は、あるテキストブロックを構成する行の一例を示す図である。
図のようにテキストブロック240において、行241〜245が得られているものとする。このとき、行242、244、245については、行方向の垂直方向にわたり2文字以上の文字を含んでいる。すなわち、抽出された行はその領域内に、行の垂直方向に複数の行を有している。このような行242、244、245は、文字認識を行っても正しい文章が得られないため、行として不適合であるとともに、このような行242、244、245を含むテキストブロック240は、テキストブロックとして不適合であると判定される。
ステップS40:テキストブロックを構成する行について、所定の行数以上の行が、文字間隔よりも大きい同一の空白領域と交差しないか判断する。
図16は、図15のテキストブロックの空白領域を示した図である。
図のようにテキストブロック240は、全ての行が、文字間隔よりも大きい同一の空白領域250と交差している。このようなテキストブロック240では、文字認識を行っても正しい文章が得られないためテキストブロックとして不適合とする。
以下、図14のそれぞれの処理についての詳細を説明する。
図17は、テキストブロック適合性検証処理の1つめの処理の詳細を示すフローチャートである。
抽出されたテキストブロックBiに対して、行抽出結果を{Lj:j=1、2、…、m}とする。このとき、まず、j=0として(ステップS31)、j=mとなるまで以下の処理を繰り返す。
まず、j<mであるか否かを判断する(ステップS32)。j<mである場合には、行Ljに対し、文字候補集合Mの中から行Ljに含まれる文字候補MLjを求める。なお、文字候補集合Mは、前述した連結成分属性付与処理(図7)で文字成分と判別されたもののうち、認識信頼度が高い文字成分(前述のフラグ“CH”が付加されたものを用いても良い)からなる集合である(ステップS33)。
次に、ステップS33の処理で求められた文字候補MLjに対して行生成を行う。
行生成は、行Ljにおける文字候補MLjに付与される読み取り順序に応じて生成される。
図18は、読み取り順序を付与する処理の概略を示す図である。
行Ljに含まれる文字候補MLj(外接矩形で図示している)は、例えば、その外接矩形の左上点のY座標の小さい順にソートされる。Y座標が同一の場合は、X座標が小さい順にソートされる。これにより、文字候補MLjは、図のように番号(1)〜(16)と番号付けされる。
ここで、行Ljを囲む文字列矩形の一角を原点260としたときに、その原点260を一角として文字候補MLjを含む矩形検査領域261、262を設定する。文字候補MLjの読み取り順序は、この矩形検査領域261、262内に、文字候補MLjより後ろの読み取り順序のものを含まないという条件のもとで、文字候補MLjの読み取り順序を決定する。
具体的には、まず、番号(1)の文字候補MLjから順に、原点260を一角として文字候補MLjを含む矩形検査領域を設定し、その文字候補MLjより後ろの番号の文字候補MLjが含まれない場合に、読み取り番号の付与を行う。その文字候補MLjより後ろの番号が含まれる場合には、読み取り番号の付与は行わない。例えば、図18のように番号(1)の文字候補MLjを含む矩形検査領域261は、番号(4)、(5)、(6)、(7)の文字候補MLjを含む。よって読み取り番号の付与は行わない。番号(2)、(3)の文字候補MLjについても同様に、読み取り番号の付与は行われない。番号(4)の文字候補MLjについては、矩形検査領域262にそれ以外のものを含まないので、読み取り番号1が付与される。このような処理を繰り返すことで図のような読み取り番号1〜16が行Ljに対して付与される。
図19は、行生成の処理の概略を示す図である。
文字候補MLjを図18で示したような処理で決定した読み取り順序(付与された読み取り番号)に従って順に統合して、新たに行Ljkを生成する。ここで、図19のように、読み取り番号5の文字候補MLjを統合して外接矩形271(点線で図示している)で表される行Ljkを生成しようとすると、読み取り番号5より後ろの、読み取り番号8の文字候補MLjがその外接矩形271に含まれてしまう。この場合、読み取り番号5の文字候補MLjの統合をせず、読み取り番号1〜4の文字候補MLjを1つの行Lj1として確定する。このように、統合する文字候補MLjより後ろの読み取り順序のものを含まないという条件の下で、読み取り順序に応じて文字候補MLjを順番に統合して新たな生成行とする。同様にして、図のように新たに行Lj2、Lj3、Lj4が生成される(ステップS34)。
次に、ステップS34の処理により新たに生成された行Ljkの中に、行Ljの垂直方向に複数並ぶものがないか否かを判断する(ステップS35)。そのような行Ljkがない場合には、jをインクリメントし(ステップS36)、ステップS32からの処理を繰り返す。また、図19で示したような行Ljのように、垂直方向に並んだ複数の行Lj2、Lj3が生成された場合には、行Ljは行として不適合として判定され、その行Ljを含む抽出したテキストブロックBiは不適合と判断され(ステップS37)処理を終了する。
一方、ステップS32において、j=mとなった場合、すなわち、テキストブロックBiを構成する全ての行Ljに対して、垂直方向に複数の行Ljkを持たないという判断がなされた場合は、テキストブロックBiは、テキストブロックとして適合であると判断され(ステップS38)処理を終了する。
次に、図14で示したテキストブロック適合性検証処理の2つめの処理(ステップS40)の詳細を説明する。
図20は、テキストブロック適合性検証処理の2つめの処理の詳細を示すフローチャートである。
前述したステップS30のテキストブロック適合性検証処理と同様に、抽出されたテキストブロックBiに対して、行抽出結果を{Lj:j=1、2、…、m}とする。そして、まず、テキストブロックBiに含まれる文字成分Ciを求める(ステップS41)。
次に、テキストブロックBiに含まれる連結成分である文字成分Ciから推定される平均文字間隔を求める(ステップS42)。そして、平均文字間隔から、前述した極大空白矩形を設定する制御パラメータ(n,x)の設定を行い(ステップS43)、BiにおけるCi極大空白矩形集合Mn,x(Bi,Ci)を求める(ステップS44)。
次に、BiにおけるCi極大空白矩形集合Mn,x(Bi,Ci)に含まれる極大空白矩形が、{Lj:j=1、2、…、m}の所定の行数(th)以上の行Ljと交差するものがないか否かを判断する(ステップS45)。ここで、そのような極大空白矩形がない場合には、抽出したテキストブロックBiは適合であるとし(ステップS46)、一定本数以上の行Ljと交差するものがある場合には、テキストブロックBiは不適合であるとし(ステップS47)、テキストブロック適合性検証処理を終える。
所定の行数(th)は、例えば、抽出されたテキストブロックBiを構成する行数に応じて設定し、例えば、その行数の1割などとする。
以上のように、本発明によれば、従来技術では困難であった、テキストブロック同士が入り組んで配置されている場合や、テキストブロックと図が入り組んで配置されている場合や、テキストブロックが他の文書要素と矩形で分離できない形で配置されている場合であっても、テキストブロックを正しく抽出することができる。これにより、雑誌や広告などの複雑なレイアウト構造を持つ文書に対して、テキストブロックを高精度に抽出することができる。
なお、上記では、テキスト要素を統合してテキストブロックや行を抽出するとしたが、抽出された仮想セパレータに基づいて生成される閉領域をそのまま抽出することによって、テキスト要素のほかに、図や表、写真などの文書要素を抽出するようにしてもよい。
そして、抽出した文書要素のうちテキスト要素が行またはテキストブロックとして適合か不適合かを前述のように検証し、不適合の場合は、空白領域の大きさを制御パラメータn,xにより変化させ、不適合とされたテキスト要素に対して仮想的なセパレータを再抽出し、前記文書要素を抽出する処理を再帰的に繰り返すような処理を行うようにしてもよい。
なお、上記の処理機能は、コンピュータ(図6で示したようなハードウェア構成である)によって実現することができる。その場合、文書画像レイアウト解析装置100が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM、CD−R(Recordable)/RW(ReWritable)などがある。光磁気記録媒体には、MO(Magneto-Optical disk)などがある。
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送される毎に、逐次、受け取ったプログラムに従った処理を実行することもできる。
本発明は、例えば、スキャナなどの光学機器により読み込んだ広告記事などの様々な文書画像において文字認識処理を行う際に適用される。
(付記1) 文書画像レイアウトを解析する処理をコンピュータに機能させる文書画像レイアウト解析プログラムにおいて、
コンピュータに、
文書画像における空白領域を仮想的なセパレータとして抽出し、
前記仮想的なセパレータを越えたテキスト要素の統合を禁止するもとで、複数の前記テキスト要素を統合して統合テキスト要素として抽出する、
処理を実行させることを特徴とする文書画像レイアウト解析プログラム。
(付記2) 前記コンピュータに、
抽出した前記統合テキスト要素が行またはテキストブロックとして適合か不適合かを検証し、
不適合の場合は、前記空白領域の大きさを制御パラメータにより変化させ、不適合とされた前記統合テキスト要素に対して前記仮想的なセパレータを再抽出し、新たな前記統合テキスト要素を抽出する処理を再帰的に繰り返す、
処理を更に実行させることを特徴とする付記1記載の文書画像レイアウト解析プログラム。
(付記3) 前記抽出した前記統合テキスト要素における行において、前記行を囲む文字列矩形内に含まれる、連結成分あるいは前記連結成分を統合したものを文字認識して認識信頼度が高いものを文字候補とし、
前記文字列矩形の一角を原点とし、前記原点を一角として前記文字候補を含むような矩形検査領域を設定し、
前記矩形検査領域内に前記文字候補より後ろの読み取り順序のものを含まないという条件の下で、前記文字候補の前記読み取り順序を決定し、
統合する前記文字候補より後ろの前記読み取り順序のものを含まないという条件の下で、前記読み取り順序に応じて前記文字候補を順番に統合して生成される新たな生成行が、前記文字列矩形内において前記行の垂直方向に複数存在するときに、前記行を行として不適合であると判定することを特徴とする付記2記載の文書画像レイアウト解析プログラム。
(付記4) 前記抽出した前記統合テキスト要素における行において、前記行を囲む文字列矩形内に含まれる、連結成分あるいは前記連結成分を統合したものを文字認識して認識信頼度が高いものを文字候補とし、
前記文字列矩形の一角を原点とし、前記原点を一角として前記文字候補を含むような矩形検査領域を設定し、
前記矩形検査領域内に前記文字候補より後ろの読み取り順序のものを含まないという条件の下で、前記文字候補の前記読み取り順序を決定し、
統合する前記文字候補より後ろの前記読み取り順序のものを含まないという条件の下で、前記読み取り順序に応じて前記文字候補を順番に統合して生成される新たな生成行が、前記文字列矩形内において前記行の垂直方向に複数存在するときに、前記行を含んだテキストブロックをテキストブロックとして不適合であると判定することを特徴とする付記2記載の文書画像レイアウト解析プログラム。
(付記5) 前記抽出した前記統合テキスト要素内に含まれる行において、所定の行数以上の前記行が、前記統合テキスト要素内にある連結成分から推定される前記統合テキスト要素の平均文字間隔よりも大きい同一の空白領域と交差するとき、抽出された前記統合テキスト要素をテキストブロックとして不適合であると判定することを特徴とする付記2記載の文書画像レイアウト解析プログラム。
(付記6) 文書画像から抽出した行を検証する処理をコンピュータに機能させる行抽出結果検証プログラムにおいて、
コンピュータに、
抽出した前記行において、前記行を囲む文字列矩形内に含まれる、連結成分あるいは前記連結成分を統合したものを文字認識して認識信頼度が高いものを文字候補とし、
前記文字列矩形の一角を原点とし、前記原点を一角として前記文字候補を含むような矩形検査領域を設定し、
前記矩形検査領域内に前記文字候補より後ろの読み取り順序のものを含まないという条件の下で、前記文字候補の前記読み取り順序を決定し、
統合する前記文字候補より後ろの前記読み取り順序のものを含まないという条件の下で、前記読み取り順序に応じて前記文字候補を順番に統合して生成される新たな生成行が、前記文字列矩形内において前記行の垂直方向に複数存在するときに、抽出した前記行は行として不適合であると判定する、
処理を実行させることを特徴とする行抽出結果検証プログラム。
(付記7) 文書画像から抽出したテキストブロックを検証する処理をコンピュータに機能させるテキストブロック抽出結果検証プログラムにおいて、
コンピュータに、
抽出した前記テキストブロックに含まれる行において、前記行を囲む文字列矩形内に含まれる、連結成分あるいは前記連結成分を統合したものを文字認識して認識信頼度が高いものを文字候補とし、
前記文字列矩形の一角を原点とし、前記原点を一角として前記文字候補を含むような矩形検査領域を設定し、
前記矩形検査領域内に前記文字候補より後ろの読み取り順序のものを含まないという条件の下で、前記文字候補の前記読み取り順序を決定し、
統合する前記文字候補より後ろの前記読み取り順序のものを含まないという条件の下で、前記読み取り順序に応じて前記文字候補を順番に統合して生成される新たな生成行が、前記文字列矩形内において前記行の垂直方向に複数存在するときに、前記行を含んだテキストブロックをテキストブロックとして不適合であると判定する、
処理を実行させることを特徴とするテキストブロック抽出結果検証プログラム。
(付記8) 文書画像から抽出したテキストブロックを検証する処理をコンピュータに機能させるテキストブロック抽出結果検証プログラムにおいて、
コンピュータに、
抽出した前記テキストブロックに含まれる行において、所定の行数以上の前記行が、前記テキストブロック内にある連結成分から推定される前記テキストブロックの平均文字間隔よりも大きい同一の空白領域と交差するとき、抽出された前記テキストブロックをテキストブロックとして不適合であると判定する、
処理を実行させることを特徴とするテキストブロック抽出結果検証プログラム。
(付記9) 文書画像レイアウトを解析する処理をコンピュータに機能させる文書画像レイアウト解析プログラムにおいて、
コンピュータに、
文書画像における空白領域を仮想的なセパレータとして抽出し、
前記仮想的なセパレータに基いて生成される閉領域を抽出することにより文書要素を抽出し、
抽出した文書要素のうちテキスト要素が行またはテキストブロックとして適合か不適合かを検証し、
不適合の場合は、前記空白領域の大きさを制御パラメータにより変化させ、不適合とされたテキスト要素に対して前記仮想的なセパレータを再抽出し、前記文書要素を抽出する処理を再帰的に繰り返す、
処理を実行させることを特徴とする文書画像レイアウト解析プログラム。
(付記10) 文書画像レイアウトを解析する文書画像レイアウト解析装置において、
文書画像における空白領域を仮想的なセパレータとして抽出する仮想セパレータ抽出手段と、
前記仮想的なセパレータを越えたテキスト要素の統合を禁止するもとで、複数の前記テキスト要素を統合して統合テキスト要素として抽出する統合テキスト要素抽出手段と、
を有することを特徴とする文書画像レイアウト解析装置。
(付記11) 抽出した前記統合テキスト要素が行またはテキストブロックとして適合か不適合かを検証する検証手段を更に有し、
不適合の場合は、前記仮想セパレータ抽出手段は、前記空白領域の大きさを制御パラメータにより変化させ、不適合とされた前記統合テキスト要素に対して前記仮想的なセパレータを再抽出し、前記統合テキスト要素抽出手段は、新たな前記統合テキスト要素を抽出する処理を再帰的に繰り返すことを特徴とする付記10記載の文書画像レイアウト解析装置。
本発明の文書画像レイアウト解析プログラムの原理を示す図である。 本発明の文書画像レイアウト解析プログラムによる文書画像レイアウト解析処理の概要を示す図である(その1)。 本発明の文書画像レイアウト解析プログラムによる文書画像レイアウト解析処理の概要を示す図である(その2)。 本発明の文書画像レイアウト解析プログラムによる文書画像レイアウト解析処理の概要を示す図である(その3)。 本発明の文書画像レイアウト解析プログラムによる文書画像レイアウト解析処理の概要を示す図である(その4)。 文書画像レイアウト解析プログラムを適用する文書画像レイアウト解析装置のハードウェア構成例である。 文書画像レイアウト解析処理全体の概要を示す図である。 連結成分属性付与処理の流れを示す一例のフローチャートである。 ラベリング処理の具体例を示す図である。 階層化処理の具体例を示す図である。 文字成分を包含するフレームを示した図である。 再帰的テキストブロック抽出処理の流れを示す一例のフローチャートである。 極大空白矩形の一例を示す図である。 テキストブロックとしての適合性検証の処理の概略を示す図である。 あるテキストブロックを構成する行の一例を示す図である。 図15のテキストブロックの空白領域を示した図である。 テキストブロック適合性検証処理の1つめの処理の詳細を示すフローチャートである。 読み取り順序を付与する処理の概略を示す図である。 行生成の処理の概略を示す図である。 テキストブロック適合性検証処理の2つめの処理の詳細を示すフローチャートである。 過統合の例を示す図であり、テキストブロック抽出結果を示す図である。 過統合の例を示す図であり、行抽出結果を示す図である。 複数の図に囲まれた領域にテキストブロック領域が配置されているレイアウトの例である。
符号の説明
10 コンピュータ
20 文書画像
21a、21b、21c、21d、21e、23a、23b、23c、23d、23e 仮想セパレータ
22a、22b、22c、22d、22e、24a、24b、24c、24d、24e、24f テキストブロック

Claims (3)

  1. 文書画像レイアウトを解析する処理をコンピュータに機能させる文書画像レイアウト解析プログラムにおいて、
    コンピュータに、
    文書画像における空白領域を仮想的なセパレータとして抽出し、
    前記仮想的なセパレータを越えたテキスト要素の統合を禁止するもとで、複数の前記テキスト要素を統合して統合テキスト要素として抽出
    抽出した前記統合テキスト要素が行として適合か不適合かを検証し、
    不適合の場合は、前記空白領域の大きさを制御パラメータにより変化させ、不適合とされた前記統合テキスト要素に対して前記仮想的なセパレータを再抽出し、新たな前記統合テキスト要素を抽出する処理を再帰的に繰り返す、
    処理を実行させるとともに、
    前記コンピュータに、
    前記抽出した前記統合テキスト要素における行において、前記行を囲む文字列矩形内に含まれる、連結成分あるいは前記連結成分を統合したものを文字認識して認識信頼度が高いものを文字候補とし、
    前記文字列矩形の一角を原点とした2次元座標を用いて番号付けされた前記文字候補を含む、前記原点を一角とした矩形検査領域を前記番号順に設定し、
    前記矩形検査領域内に前記文字候補より後ろの前記番号の前記文字候補を含まないという条件の下で、前記文字候補の読み取り順序を決定し、
    統合する前記文字候補より後ろの前記読み取り順序のものを含まないという条件の下で、前記読み取り順序に応じて前記文字候補を順番に統合して生成される新たな生成行が、前記文字列矩形内において前記行の垂直方向に複数存在するときに、前記行を行として不適合であると判定する、
    処理を実行させることを特徴とする文書画像レイアウト解析プログラム。
  2. 文書画像レイアウトを解析する処理をコンピュータに機能させる文書画像レイアウト解析プログラムにおいて、
    コンピュータに、
    文書画像における空白領域を仮想的なセパレータとして抽出し、
    前記仮想的なセパレータを越えたテキスト要素の統合を禁止するもとで、複数の前記テキスト要素を統合して統合テキスト要素として抽出し、
    抽出した前記統合テキスト要素がテキストブロックとして適合か不適合かを検証し、
    不適合の場合は、前記空白領域の大きさを制御パラメータにより変化させ、不適合とされた前記統合テキスト要素に対して前記仮想的なセパレータを再抽出し、新たな前記統合テキスト要素を抽出する処理を再帰的に繰り返す、
    処理を実行させるとともに、
    前記コンピュータに、
    前記抽出した前記統合テキスト要素における行において、前記行を囲む文字列矩形内に含まれる、連結成分あるいは前記連結成分を統合したものを文字認識して認識信頼度が高いものを文字候補とし、
    前記文字列矩形の一角を原点とした2次元座標を用いて番号付けされた前記文字候補を含む、前記原点を一角とした矩形検査領域を前記番号順に設定し、
    前記矩形検査領域内に前記文字候補より後ろの前記番号の前記文字候補を含まないという条件の下で、前記文字候補の読み取り順序を決定し、
    統合する前記文字候補より後ろの前記読み取り順序のものを含まないという条件の下で、前記読み取り順序に応じて前記文字候補を順番に統合して生成される新たな生成行が、前記文字列矩形内において前記行の垂直方向に複数存在するときに、前記行を含んだテキストブロックをテキストブロックとして不適合であると判定する、
    処理を実行させることを特徴とする文書画像レイアウト解析プログラム。
  3. 文書画像レイアウトを解析する処理をコンピュータに機能させる文書画像レイアウト解析プログラムにおいて、
    コンピュータに、
    文書画像における空白領域を仮想的なセパレータとして抽出し、
    前記仮想的なセパレータを越えたテキスト要素の統合を禁止するもとで、複数の前記テキスト要素を統合して統合テキスト要素として抽出し、
    抽出した前記統合テキスト要素がテキストブロックとして適合か不適合かを検証し、
    不適合の場合は、前記空白領域の大きさを制御パラメータにより変化させ、不適合とされた前記統合テキスト要素に対して前記仮想的なセパレータを再抽出し、新たな前記統合テキスト要素を抽出する処理を再帰的に繰り返す、
    処理を実行させるとともに、
    前記コンピュータに、
    前記抽出した前記統合テキスト要素内に含まれる行において、所定の行数以上の前記行が、前記統合テキスト要素内にある連結成分から推定される前記統合テキスト要素の平均文字間隔よりも大きい同一の空白領域と交差するとき、抽出された前記統合テキスト要素をテキストブロックとして不適合であると判定する、
    処理を実行させることを特徴とする文書画像レイアウト解析プログラム。
JP2004059954A 2004-03-04 2004-03-04 文書画像レイアウト解析プログラム Expired - Fee Related JP4480421B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004059954A JP4480421B2 (ja) 2004-03-04 2004-03-04 文書画像レイアウト解析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004059954A JP4480421B2 (ja) 2004-03-04 2004-03-04 文書画像レイアウト解析プログラム

Publications (2)

Publication Number Publication Date
JP2005250816A JP2005250816A (ja) 2005-09-15
JP4480421B2 true JP4480421B2 (ja) 2010-06-16

Family

ID=35031245

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004059954A Expired - Fee Related JP4480421B2 (ja) 2004-03-04 2004-03-04 文書画像レイアウト解析プログラム

Country Status (1)

Country Link
JP (1) JP4480421B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4443443B2 (ja) 2005-03-04 2010-03-31 富士通株式会社 文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法
JP5310206B2 (ja) * 2009-04-08 2013-10-09 コニカミノルタ株式会社 文書処理装置、文書処理方法および文書処理プログラム
US8594422B2 (en) 2010-03-11 2013-11-26 Microsoft Corporation Page layout determination of an image undergoing optical character recognition
JP5577948B2 (ja) * 2010-08-24 2014-08-27 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
KR102122561B1 (ko) * 2018-11-27 2020-06-12 삼성생명보험주식회사 문서 이미지 상에서 글자를 인식하기 위한 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01269184A (ja) * 1988-04-20 1989-10-26 Fujitsu Ltd 文書中の領域境界抽出方式
JPH09114923A (ja) * 1995-10-23 1997-05-02 Ricoh Co Ltd 領域分割装置
JPH11219407A (ja) * 1997-11-28 1999-08-10 Fujitsu Ltd 文書画像認識装置および文書画像認識プログラムの記憶媒体
JP2000105836A (ja) * 1998-09-29 2000-04-11 Fuji Xerox Co Ltd 論理構造抽出装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01269184A (ja) * 1988-04-20 1989-10-26 Fujitsu Ltd 文書中の領域境界抽出方式
JPH09114923A (ja) * 1995-10-23 1997-05-02 Ricoh Co Ltd 領域分割装置
JPH11219407A (ja) * 1997-11-28 1999-08-10 Fujitsu Ltd 文書画像認識装置および文書画像認識プログラムの記憶媒体
JP2000105836A (ja) * 1998-09-29 2000-04-11 Fuji Xerox Co Ltd 論理構造抽出装置

Also Published As

Publication number Publication date
JP2005250816A (ja) 2005-09-15

Similar Documents

Publication Publication Date Title
JP4443443B2 (ja) 文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法
JP3302147B2 (ja) 文書画像処理方法
US6466694B2 (en) Document image processing device and method thereof
JP2579397B2 (ja) 文書画像のレイアウトモデルを作成する方法及び装置
JP4918776B2 (ja) 電子文書比較プログラム、電子文書比較装置および電子文書比較方法
JPH08185474A (ja) 文書画像分割装置
JPH0668301A (ja) 文字認識方法及び装置
US20100211871A1 (en) Information processor, information processing method, and computer readable medium
Zhou et al. Easy generation of personal Chinese handwritten fonts
US20120134591A1 (en) Image processing apparatus, image processing method and computer-readable medium
JP4549400B2 (ja) 文書認識プログラム、文書認識装置、および文書認識方法
JP4480421B2 (ja) 文書画像レイアウト解析プログラム
JPH11184894A (ja) 論理要素抽出方法および記録媒体
JP2009251872A (ja) 情報処理装置及び情報処理プログラム
KR101118628B1 (ko) 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법
JPH10214340A (ja) 矩形分類方法
JP5009256B2 (ja) 文書データ作成装置、文書データ作成方法および文書データ作成プログラム
US8077977B2 (en) Image processing system, image processing method, computer readable medium and computer data signal
JP4390523B2 (ja) 最小領域による合成画像の分割
US8165404B2 (en) Method and apparatus for creating document data, and computer program product
JP2004282701A5 (ja)
JP5673277B2 (ja) 画像処理装置およびプログラム
JPH09120443A (ja) 画像処理方法とその装置
JP4882929B2 (ja) 画像処理装置及び画像処理プログラム
JP7365845B2 (ja) 学習装置、学習方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070223

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100316

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100316

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130326

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140326

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees