JP2006244309A - 文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法 - Google Patents

文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法 Download PDF

Info

Publication number
JP2006244309A
JP2006244309A JP2005061529A JP2005061529A JP2006244309A JP 2006244309 A JP2006244309 A JP 2006244309A JP 2005061529 A JP2005061529 A JP 2005061529A JP 2005061529 A JP2005061529 A JP 2005061529A JP 2006244309 A JP2006244309 A JP 2006244309A
Authority
JP
Japan
Prior art keywords
text block
text
document image
extraction
character recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005061529A
Other languages
English (en)
Other versions
JP4443443B2 (ja
Inventor
Hiroaki Takebe
浩明 武部
Katsuto Fujimoto
克仁 藤本
Satoshi Naoi
聡 直井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2005061529A priority Critical patent/JP4443443B2/ja
Priority to US11/175,127 priority patent/US7627176B2/en
Publication of JP2006244309A publication Critical patent/JP2006244309A/ja
Application granted granted Critical
Publication of JP4443443B2 publication Critical patent/JP4443443B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 適切なテキストブロックの組み合わせとして、単一の抽出条件では抽出が困難な組み合わせのテキストブロックを抽出できるようにする。
【解決手段】 テキストブロック抽出手段2により、抽出条件記憶手段1に記憶されたテキストブロック抽出条件それぞれに従って、文書画像4からテキストブロックが抽出される。そして、テキストブロック統合手段3により、テキストブロック抽出手段2で抽出された複数のテキストブロック抽出結果5a,5b,・・・それぞれに含まれるテキストブロックの文字認識が行われ、文字認識結果に基づいてテキストブロックが示す範囲の正確性が判定され、正確性が高いテキストブロックが選択され、テキストブロック統合結果6として出力される。
【選択図】 図1

Description

本発明は文書画像内の文章が記述された要素をテキストブロックとして抽出する文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法に関し、特に各要素内の文章の正しさに基づいてテキストブロックを抽出する文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法に関する。
近年、スキャナ等の光学機器を用いて取り込んだ文書画像中の文字成分を識別し、文字コードとして出力する光学式文字読取装置(OCR:Optical Character Reader)がある。OCRの機能は、コンピュータ上のソフトウェアで実現することもできる。
OCRでは、印刷文字、手書き文字等による文書画像が光学的に読み取られる。OCRは、読み取った文書画像から、文字成分を含むテキストブロックを抽出する。そして、OCRは、抽出したテキストブロックから文字成分を抽出し、パターンマッチング等の手法により文字認識を行う。
ここで、テキストブロックを抽出するには、文書画像に含まれる複数の文書要素の物理的な配置(レイアウト)を解析する必要がある。なお、文書画像における文書要素には、文字、行、テキストブロック、図、表、罫線、セルなどが含まれる。
従来、文書画像からテキストブロックを抽出する方法としては以下のような方法が提案されている。
例えば、基礎要素の集合に対して、それらの近接性(文字成分同士が比較的密に配置されている)と同質性(文字成分の大きさがほぼ同じ大きさである)に基づいて統合し、行を生成する。同様に、行の集合に対して、それらの近接性と同質性に基づき統合して段(テキストブロック)を生成することで、テキストブロックを抽出できる(例えば、特許文献1参照)。
また、文書画像から空白領域を抽出し、それらの中から大きさに関する条件を満たすものを選択して、それらによって被覆される領域以外の領域を抽出することで、文書画像からテキストブロック領域を切り出すこともできる(例えば、特許文献2参照)。
特開平11−219407号公報 特開平2−263272号公報
しかし、文書要素のレイアウトは複雑かつ多様であり、従来の方法では正しく適すブロックを抽出できない場合があった。
例えば、特許文献1記載の方式では、テキストブロック同士が入り組んで配置されている場合や、テキストブロックと図が入り組んで配置されている場合などに、文字成分を過統合して、複数行の文字列をまとめて1行としてしまうことがある。また、特許文献2記載の方式では、テキストブロックが他の文書要素と矩形で分離できない形で配置されている場合に、正しくテキストブロックを抽出することは非常に難しい。
そこで、本出願人は、複雑なレイアウトの文書画像においても、テキストブロックを抽出可能な文書画像レイアウト解析プログラムを発明し、特許出願を行っている(特願2004−059954)。この発明では、文書画像の空白領域を仮想的なセパレータ(テキストブロック間の境界)として利用する。このとき、抽出する空白領域のサイズを処理のパラメータとして設定する。テキストブロック抽出をおこなった場合、抽出されたテキストブロックの適合性を検証する。そして、適合性能の条件を満たすテキストブロックが抽出されるまで、パラメータの値を変化させながら、テキストブロックの抽出処理を再帰的に行う。これにより、複雑なレイアウトの文書であっても、適切なテキストブロックの抽出が可能となる。
ただし、特願2004−059954の発明を用いても、適切なテキストブロックを抽出できない場合もある。具体的には、空白セパレータ抽出におけるパラメータの初期値が固定値であること、また2回目以降の値も初期値に依存して決まる。このことから、与えられる画像に対しパラメータがフィットせずに、適切な空白領域が抽出されずに、テキストブロック抽出が失敗することがある。
例えば、画像の傾きやノイズの影響で、初回の空白セパレータ抽出処理でセパレータが抽出されず、テキストブロックが過統合されることがある。この場合、2回目以降の空白セパレータ抽出処理でセパレータが抽出されるが、抽出されるセパレータが適切ではなくなり、テキストブロックが過統合される場合があり得る。
また、初回の空白セパレータ抽出処理によって得られるセパレータが、タイトルのような比較的大きい文字からなる行の内部まで達し、その行が分離した状態で抽出される場合もある。仮想的なセパレータによるテキストブロックの抽出方式では、分離されてしまった行の統合処理等は行われない。
本発明はこのような点に鑑みてなされたものであり、適切なテキストブロックの組み合わせとして、単一の抽出条件では抽出が困難な組み合わせのテキストブロックを抽出できる文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法を提供することを目的とする。
本発明では上記課題を解決するために、図1に示すような文書画像レイアウト解析プログラムが提供される。本発明に係る文書画像レイアウト解析プログラムは、文書画像4に含まれるテキストのレイアウトを解析して、文字認識の処理対象とする範囲を示すテキストブロックを抽出するために、図1に示す機能をコンピュータに実行させることができる。
抽出条件記憶手段1は、テキストブロックを抽出するための条件を定義した複数の抽出条件を記憶する。テキストブロック抽出手段2は、抽出条件記憶手段1に記憶されたテキストブロック抽出条件それぞれに従って、文書画像4からテキストブロックを抽出する。テキストブロック統合手段3は、テキストブロック抽出手段2で抽出された複数のテキストブロック抽出結果5a,5b,・・・それぞれに含まれるテキストブロックの文字認識を行い、文字認識結果に基づいてテキストブロックが示す範囲の正確性を判定し、正確性が高いテキストブロックを選択してテキストブロック統合結果6として出力する。
このような文書画像レイアウト解析プログラムをコンピュータに実行させれば、テキストブロック抽出手段2により、抽出条件記憶手段1に記憶されたテキストブロック抽出条件それぞれに従って、文書画像4からテキストブロックが抽出される。そして、テキストブロック統合手段3により、テキストブロック抽出手段2で抽出された複数のテキストブロック抽出結果5a,5b,・・・それぞれに含まれるテキストブロックの文字認識が行われ、文字認識結果に基づいてテキストブロックが示す範囲の正確性が判定され、正確性が高いテキストブロックが選択され、テキストブロック統合結果6として出力される。
また、上記課題を解決するために、文書画像に含まれるテキストのレイアウトを解析して、文字認識の処理対象とする範囲を示すテキストブロックを抽出する文書画像レイアウト解析装置において、テキストブロックを抽出するための条件を定義した複数の抽出条件を記憶する抽出条件記憶手段と、前記抽出条件記憶手段に記憶された前記テキストブロック抽出条件それぞれに従って、前記文書画像からテキストブロックを抽出するテキストブロック抽出手段と、前記テキストブロック抽出手段で抽出された複数のテキストブロック抽出結果それぞれに含まれるテキストブロックの文字認識を行い、文字認識結果に基づいてテキストブロックが示す範囲の正確性を判定し、正確性が高いテキストブロックを選択してテキストブロック統合結果として出力するテキストブロック統合手段と、を有することを特徴とする文書画像レイアウト解析装置が提供される。
また、上記課題を解決するために、文書画像に含まれるテキストのレイアウトを解析して、文字認識の処理対象とする範囲を示すテキストブロックを抽出するための文書画像レイアウト解析方法において、テキストブロック抽出手段が、予めテキストブロックを抽出するための条件を定義した複数の抽出条件が記憶された抽出条件記憶手段を参照し、前記テキストブロック抽出条件それぞれに従って、前記文書画像からテキストブロックを抽出し、テキストブロック統合手段が、前記テキストブロック抽出手段で抽出された複数のテキストブロック抽出結果それぞれに含まれるテキストブロックの文字認識を行い、文字認識結果に基づいてテキストブロックが示す範囲の正確性を判定し、正確性が高いテキストブロックを選択してテキストブロック統合結果として出力する、ことを特徴とする文書画像レイアウト解析方法が提供される。
本発明では、複数の抽出条件それぞれに基づいて抽出された複数のテキストブロックの中から正確性が高いテキストブロックを選択してテキストブロック統合結果とするようにした。これにより、単一の抽出条件では抽出が困難な、適切な組み合わせのテキストブロックの抽出が可能となる。
以下、本発明の実施の形態を図面を参照して説明する。
図1は、本実施の形態の概略を示す図である。本発明に係る文書画像レイアウト解析装置は、抽出条件記憶手段1、テキストブロック抽出手段2、およびテキストブロック統合手段3を有する。
抽出条件記憶手段1は、テキストブロックを抽出するための条件を定義した複数の抽出条件を記憶する。抽出条件としては、例えば、テキストブロック間の境界を示すセパレータと判定するための、セパレータに含まれるべき空白領域の大きさを示す条件が設定される。
テキストブロック抽出手段2は、抽出条件記憶手段1に記憶されたテキストブロック抽出条件それぞれに従って、文書画像4からテキストブロックを抽出する。例えば、テキストブロック抽出手段2は、抽出条件として、セパレータに含まれるべき空白領域の大きさを示す条件が設定されている場合、文書画像4から、抽出条件を満たす空白領域を探し出し、その空白領域をセパレータとする。そして、テキストブロック抽出手段2は、セパレータで分けられた残りの領域を、テキストブロックとして抽出する。これにより、抽出条件毎のテキストブロック抽出結果5a,5b,・・・が生成される。
テキストブロック統合手段3は、テキストブロック抽出手段2で抽出された複数のテキストブロック抽出結果5a,5b,・・・それぞれに含まれるテキストブロックの文字認識を行い、文字認識結果に基づいてテキストブロックが示す範囲の正確性を判定する。そして、テキストブロック統合手段3は、正確性が高いテキストブロックを選択してテキストブロック統合結果6として出力する。
このような文書画像レイアウト解析装置によれば、テキストブロック抽出手段2により、抽出条件記憶手段1に記憶されたテキストブロック抽出条件それぞれに従って、文書画像4からテキストブロックが抽出される。そして、テキストブロック統合手段3により、テキストブロック抽出手段2で抽出された複数のテキストブロック抽出結果5a,5b,・・・それぞれに含まれるテキストブロックの文字認識が行われ、文字認識結果に基づいてテキストブロックが示す範囲の正確性が判定され、正確性が高いテキストブロックが選択され、テキストブロック統合結果6として出力される。その結果、単一の抽出条件では抽出が困難な、適切な組み合わせのテキストブロックの抽出が可能となる。
次に、本実施の形態の詳細を説明する。
[第1の実施の形態]
以下の実施の形態では、セパレータ(テキストブロック間の境界)とする空白領域の大きさを示すパラメータのセット(パラメータセット)を、複数用意する。そして、各パラメータセットを初期値として、再帰的なテキストブロック抽出処理(特願2004−059954参照)を実行する。このようにして生成された複数のテキストブロック抽出結果を統合することにより、テキストブロックの抽出精度を向上させる。
複数のテキストブロック抽出結果を統合させる方法としては、あらゆる組み合わせの可能性から必要最小限の組み合わせを取り出すのにグラフ理論におけるクリークの考え方を用いるものとする。すなわち、同時に出現可能なテキストブロック(グラフ上ノードで示す)同士をパスで接続したグラフを生成し、そのグラフから、全てのノード間が互いに接続された関係となるノードの組み合わせをクリークとして抽出する。
なお、組み合わせの評価には認識コストと言語コストを用いるものとする。認識コストとは、文字認識による認識の確からしさを示す正読確率に応じた数値である。正読確率が高いほど、認識コストが低く設定される。言語コストとは、文字認識結果における文章が言語的に自然であることを数値化したものである。文章が言語的に自然であるほど、言語コストが低く設定される。
そして、抽出された組み合わせ候補を、認識コストと言語コストから決まるテキストブロック評価値の総和より順位付けし、最高値の組み合わせを最終解(テキストブロック統合結果)とする。
なお、以下の実施の形態では、コンピュータを用いて、文書画像レイアウト解析処理を行うものとする。
図2は、本実施の形態に用いるコンピュータのハードウェア構成例を示す図である。コンピュータ100は、CPU(Central Processing Unit)101によって装置全体が制御されている。CPU101には、バス108を介してRAM(Random Access Memory)102、ハードディスクドライブ(HDD:Hard Disk Drive)103、グラフィック処理装置104、入力インタフェース105、通信インタフェース106、およびLANインタフェース107が接続されている。
RAM102には、CPU101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM102には、CPU101による処理に必要な各種データが格納される。HDD103には、OSやアプリケーションプログラムや文書画像が格納される。
グラフィック処理装置104には、モニタ11が接続されている。グラフィック処理装置104は、CPU101からの命令に従って、画像をモニタ11の画面に表示させる。入力インタフェース105には、キーボード12とマウス13とが接続されている。入力インタフェース105は、キーボード12やマウス13から送られてくる信号を、バス108を介してCPU101に送信する。
通信インタフェース106は、外部入出力機器との間のデータ通信を行う。例えば、通信インタフェース106には、イメージスキャナ14を接続できる。この場合、イメージスキャナ14で読みとった文書画像を示す画像データが、イメージスキャナ14から通信インタフェース106を介してCPU101に渡される。
LANインタフェース107は、ネットワーク10に接続されている。LANインタフェース107は、ネットワーク10を介して、他のコンピュータとの間でデータの送受信を行う。
以上のようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。以下の例では、イメージスキャナ14で読み取った文書画像の文字認識のために、文書画像のレイアウトを解析するものとする。
図3は、本実施の形態の文書画像レイアウト解析機能を示すブロック図である。コンピュータ100は、文書画像読み取り部110、文書画像レイアウト解析部120、および文字認識部130を有している。
文書画像読み取り部110は、イメージスキャナ14を制御し、文書21の画像を読み取らせる。イメージスキャナ14が読み取った文書画像は、文書画像読み取り部110を介して、文書画像レイアウト解析部120に渡される。なお、文書画像読み取り部110は、予めHDD103に格納されている文書画像を文書画像レイアウト解析部120に渡すこともできる。
文書画像レイアウト解析部120は、渡された文書画像のレイアウトを解析し、テキストブロックの最適な組み合わせ(文書画像レイアウト解析結果)を決定する。決定された画像レイアウト解析結果が、レイアウト情報として文字認識部130に渡される。
文字認識部130は、画像レイアウト解析結果で示されるテキストブロック毎に文字を認識する。そして、文字認識部130は、読み取った結果をキャラクタコードに変換し、文字テキストデータ22を生成する。
次に、文書画像レイアウト解析部120の内部の構成について説明する。文書画像レイアウト解析部120は、パラメータセットテーブル121、テキストブロック抽出部122、およびテキストブロック統合部123を有している。
パラメータセットテーブル121は、テキストブロックを抽出する際の空白領域のための初期条件を示すパラメータが複数格納されたデータテーブルである。パラメータセットテーブル121内のパラメータセットは、ユーザによって予め登録されている。パラメータセットテーブル121の具体的内容は後述する。
テキストブロック抽出部122は、パラメータセットテーブル121に格納されたパラメータセットそれぞれに基づいて、テキストブロック抽出処理を行う。これにより、テキストブロック抽出部122では、パラメータセット毎のテキストブロック抽出結果が生成される。生成されたテキストブロック抽出結果は、テキストブロック統合部123に渡される。
テキストブロック統合部123は、受け取ったテキストブロック抽出結果の統合処理を行う。複数のテキストブロック抽出結果を統合することで、文書画像レイアウト解析結果が得られる。
図4は、パラメータセットテーブルのデータ構造例を示す図である。パラメータセットテーブル121には、セパレータの判定基準となる2つの制御パラメータn,xの組が複数登録されている。
ここで、パラメータセットの個数をp_numとし、個々のパラメータセットをP(i)とおく(iは、パラメータセットを一意に識別するための番号であり、0以上の整数である)。また、P(i)に対応するテキストブロック抽出結果をRiとする。
次に、文書画像レイアウト解析部120における処理を詳細に説明する。
図5は、文書画像レイアウト解析処理の手順を示すフローチャートである。以下、図5に示す処理を、ステップ番号に沿って説明する。なお、この処理は、R0,R1,・・・,Rp_num-1から一度に統合結果を求める並列方式である。
[ステップS11]テキストブロック抽出部122は、パラメータセットの識別番号を示すiの初期値を0にセットする。
[ステップS12]テキストブロック抽出部122は、iがp_num未満か否かを判断する。p_num未満であれば処理がステップS13に進められる。p_num以上であれば処理がステップS16に進められる。
[ステップS13]テキストブロック抽出部122は、P=P(i)として、テキストブロック抽出処理を行う。テキストブロック抽出処理の詳細は後述する。
[ステップS14]テキストブロック抽出部122は、ステップS13のテキストブロック抽出結果を、Riに代入する。
[ステップS15]テキストブロック抽出部122は、iをインクリメント(1加算)し、処理をステップS12に進める。これにより、iがp_numに達するまで順次iのカウントアップが行われ、全てのパラメータセットに応じたテキストブロック抽出処理が行われる。
[ステップS16]全てのパラメータセットに応じたテキストブロック抽出処理が完了すると、テキストブロック統合部123が、パラメータセット毎のテキストブロック抽出結果R0,R1,・・・,Rp_num-1を統合する。統合された結果が、文書画像レイアウト解析結果となる。
次に、テキストブロック抽出処理(ステップS13)とテキストブロック抽出結果統合処理(ステップS16)とについて、詳細に説明する。
図6は、テキストブロック抽出処理の手順を示すフローチャートである。以下、図6に示す処理をステップ番号に沿って説明する。
[ステップS21]テキストブロック抽出部122は、まず、連結成分属性付与処理を行う。具体的には、テキストブロック抽出部122は、文書画像の黒画素による全ての連結成分に、文字成分、セパレータ、図、フレーム、ノイズのいずれかの属性を付与する。ここで、図とは、文字成分、セパレータ、フレームまたはノイズではなく、かつ、それ自身の中に文字成分を含まない連結成分のことである。またフレームとは、複数の文字成分を内側に含んだ枠のことである。
[ステップS22]テキストブロック抽出部122は、再帰的テキストブロック抽出処理を行う。具体的には、テキストブロック抽出部122は、ステップS21の連結成分属性付与処理で属性の付与された連結成分の集合に対して、仮想セパレータの抽出、テキストブロックの抽出、そしてテキストブロックとしての条件を満たしているかの検証を行う。そして、テキストブロック抽出部122は、テキストブロックが正しくない場合は、空白領域の大きさを制御パラメータにより変化させ、そのテキストブロックに対して仮想セパレータを再抽出し、新たなテキストブロックを抽出する処理を再帰的に繰り返す処理を行う。
まず、連結成分属性付与処理の詳細を説明する。
図7は、連結成分属性付与処理の手順を示すフローチャートである。以下、図7に示す処理をステップ番号に沿って説明する。
[ステップS31]テキストブロック抽出部122は、ラベリング処理を行う。ラベリング処理は、文書画像から連結成分(連続した黒画素で構成される図形)を検出し、その連結成分の位置情報を取得する処理である。例えば、イメージスキャナ14で読み取られた文書画像がCPU101の制御のもと取り出されると、その文書画像に対し、まずラベリング処理が行われる。
図8は、ラベリング処理の具体例を示す図である。例えば「た」という文字成分は、黒画素による3つの連結成分201、202、203からなる。ラベリング処理では、連結成分201、202、203を囲む最小の長方形である外接矩形201a、202a、203aの座標値(例えば、外接矩形の左上と右下の角のXY座標)を得ることで、黒画素の連結成分201、202、203の位置を示す情報を取得する。このような処理を文書画像中の全ての連結成分に対し行う。
図7に戻り、ステップS32以降の処理を説明する。
[ステップS32]テキストブロック抽出部122は、ステップS31の処理で得られた連結成分の集合Sに基づいて、セパレータ判別処理を行う。セパレータとは、テキストブロック間の境界を表す連結成分(例えば、文章を区切る罫線など)である。ここでは、テキストブロック抽出部122は、連結成分の外接矩形の長い辺の長さがある一定値以上であり、かつ外接矩形の縦横比がある一定値以上であるとき、その連結成分はセパレータであると判別する。
[ステップS33]テキストブロック抽出部122は、連結成分の集合Sに対して、ノイズ判別処理を行う。ここでは、テキストブロック抽出部122は、連結成分の外接矩形の面積がある一定値以下であるとき、その連結成分はノイズであると判別する。
[ステップS34]テキストブロック抽出部122は、連結成分の集合Sから、ステップS32、S33の処理で判別されたセパレータとノイズを除いた集合Saに対して、階層化処理を行う。階層化処理は、互いに関連する連結成分のそれぞれに対して、親子関係を定義する処理である。
図9は、階層化処理の具体例を示す図である。例えば、「区」のような文字成分は、黒画素による2つの連結成分211、212からなる。これらは、連結成分211、212の外接矩形211a、212aの座標値によりステップS31の処理でラベリングされている。この文字の場合、連結成分211の中に連結成分212が包含されている。このような連結成分同士の関連がある場合、連結成分211の“子”に連結成分212を登録し、連結成分212の“親”に連結成分211を登録するといった階層化処理を行う。
図7に戻り、ステップS35以降の処理を説明する。
[ステップS35]テキストブロック抽出部122は、階層化処理が終わると集合Saに対して、文字認識処理を行う。
ここでは、テキストブロック抽出部122は、連結成分に対して、まず、その外接矩形の領域をそのまま1文字認識する。そして、テキストブロック抽出部122は、文字認識結果の信頼度が高いとき、その連結成分に文字成分フラグ“CH”を付ける。
次に、テキストブロック抽出部122は、例えば、図9のように、“子”を持っている連結成分がある場合には、“子”の連結成分の集合に対して重なり統合(親子関係を有する連結成分を包含する外接矩形領域を定義する処理)を行い、その結果得られる全ての重なり成分の外接矩形領域を1文字認識する。
図10は、文字成分を包含するフレームを示した図である。図10に示す連結成分220は、重なり統合の結果、例えば、文字認識結果の信頼度が高い外接矩形領域221、222、223、224を“子”として有している。このように、文字認識結果の信頼度が高い“子”をある一定数以上有している場合、その連結成分220は複数の文字を囲んだフレームである可能性があるので、連結成分220にフレームフラグ“FR”をつける。
図7に戻り、ステップS36以降の処理を説明する。
[ステップS36]テキストブロック抽出部122は、集合Saに対して、文字成分・フレーム・図判別処理を行う。具体的には、連結成分に文字成分フラグ“CH”がついている場合、その連結成分の“親”が存在するならば、その“親”に文字成分フラグ“CH”がついていないときは“親”にフレームフラグ“FR”をつける。
また、テキストブロック抽出部122は、“親”に文字成分フラグ“CH”がついているときは、“子”であるその連結成分の信頼度と“親”の連結成分の信頼度を比較して、“子”の連結成分の信頼度が高ければ、“親”の文字成分フラグ“CH”を取り消し、フレームフラグ“FR”をつける。
ここで、テキストブロック抽出部122は、集合Saに対して、フレームフラグ“FR”のついている連結成分を全てフレームにする。また、テキストブロック抽出部122は、残りの連結成分の中で、文字成分フラグ“CH”のついていないもので、外接矩形の面積がある一定値以上であるとき、それを図とする。さらに、テキストブロック抽出部122は、残りの連結成分を文字成分とする。
[ステップS37]最後に、テキストブロック抽出部122は、文字成分とした連結成分の集合に対して、重なり統合処理を行う。
以上のような処理で、文書画像中の全ての連結成分に対して、文字成分、セパレータ、図、フレーム、ノイズのいずれかの属性を付与することができる。
次に、図6で示したステップS22の再帰的テキストブロック抽出処理の詳細を説明する。
図11は、再帰的テキストブロック抽出処理の手順を示す一例のフローチャートである。以下、図11に示す処理をステップ番号に沿って説明する。
[ステップS41]テキストブロック抽出部122は、連結成分属性付与処理が終わり、再帰的テキストブロック抽出処理が開始すると、まず、文書画像内のある矩形領域Pにおける極大空白矩形を求める。
文書画像における空白矩形とは、文書画像内の矩形領域であって、内部に黒画素を含まないものである。そして、空白矩形の集合のうち、自分自身を含む他の空白矩形が存在しないものを極大空白矩形という。
図12は、極大空白矩形の一例を示す図である。文書画像内のある矩形領域Qを表している。この矩形領域Q内には、図6のステップS21で説明した処理により得られた外接矩形の集合SQ={Uk∈Q,k=1,2,…,nS}が与えられている。nSは、矩形領域Qに含まれる外接矩形の総数であり、図12ではnS=5の場合について示している。
ここで、矩形領域Qにおける空白矩形(以下QにおけるW空白矩形と称す)の集合は、矩形領域Q内の矩形領域であり、集合SQに属する全ての外接矩形Ukと重ならないものとする。また、矩形領域QにおけるW空白矩形の集合のうち、自分自身を含むQにおける他のW空白矩形が存在しないものをQにおけるW極大空白矩形という。以下、QにおけるS極大空白矩形の集合をM(Q,W)で表す。図12では、M(Q,W)のうち矩形領域Q内で最大となる、QにおけるW極大空白矩形230を示している。
M(Q,W)は制御パラメータn、xによって決定し、以下の式で定義される。
n,x(Q,W)={T∈M(Q,W)|min(TX,TY)≧n and max(TX,TY)≧x}
ここで、TXはM(Q,W)に含まれるQにおけるW極大空白矩形Tの横(X方向)の長さを表し、TYはTの縦(Y方向)の長さを表す。min(TX,TY)≧nは、TX,TYのうち短いほうが制御パラメータn以上であることを示し、max(TX,TY)≧xはTX,TYのうち長いほうが制御パラメータx以上であることを示す。
制御パラメータn、xの初期値は、パラメータセットテーブル121から選択されたパラメータセットの値である。その後、再帰的にテキストブロック抽出処理が行われる毎に、制御パラメータn、xの値が更新される。例えば、制御パラメータn、xを更新する場合、再帰回数とテキストブロックの大きさやそれに含まれる文字の大きさに基づいて、値が決定される。
[ステップS42]ここで、前述した連結成分属性付与処理によって外接矩形に付与された属性をもとに、外接矩形の集合SQのうち、文字成分の外接矩形の集合を“C”、フレームやセパレータ、図など文字成分以外の外接矩形の集合を“H”として、“H”は、他の外接矩形との統合を禁止するリンク禁止領域として分類されているものとする。
このとき、テキストブロック抽出部122は、ステップS41で求めた矩形領域QにおけるC∪H(CとHの和集合)極大空白矩形集合Mn,x(Q,C∪H)を、仮想セパレータとしてリンク禁止領域である“H”に追加する。そして追加されたリンク禁止領域を“Ha”とする。
[ステップS43]テキストブロック抽出部122は、文字成分の外接矩形の集合“C”に対して、リンク禁止領域“Ha”を超える統合を禁止するもとで、近接性あるいは同質性に基づいて統合を行いテキストブロックの抽出を行う。具体的な方法については、特開平11−219407号公報に開示されている。処理結果としては、テキストブロックとそれを構成する行が得られる。
[ステップS44]テキストブロック抽出部122は、抽出されたテキストブロック数をl(lは0以上の整数)として、ループ回数a=0とし、a=lとなるまでステップS45〜S49の処理を繰り返す。
[ステップS45]テキストブロック抽出部122は、a<lであるか否かを判断する。aがl未満であれば処理がステップS46に進められる。a=lとなった場合、すなわち矩形領域Q内の全てのテキストブロックBaがテキストブロック適合性条件を満たした場合には、文書画像内の矩形領域Qに対する再帰的テキストブロック抽出処理が終了し、呼び出し元の処理に戻る。
[ステップS46]a<lである場合には、テキストブロック抽出部122は、ステップS43で抽出されたテキストブロックのうち、a番目のテキストブロックBaを選択する。そして、テキストブロック抽出部122は、抽出したテキストブロックBaがテキストブロック適合性条件を満たすか否かを判断する。
具体的には、テキストブロック抽出部122は、まず、テキストブロックを構成する各行について、行が、行の方向(縦または横)の垂直方向にわたって、文字を2文字以上含まないか判断する。すなわち、行方向に文字が1つの行に並んでいるか否かを判断する。行からはずれた文字(行の方向の垂直方向に並んだ文字)があれば、そのテキストブロックは不適合と判定される。
次に、テキストブロック抽出部122は、テキストブロックを構成する行について、所定の行数以上の行が、文字間隔よりも大きい同一の空白領域と交差しないか判断する。すなわち、間に大きな空白領域を挟んだテキストブロックは、実際には個別の2つのテキストブロックである可能性が高いため、不適合と判断される。
テキストブロック抽出部122は、テキストブロックがこれらの全ての適合性条件の判定において適合と判定された場合、そのテキストブロックに関して、テキストブロック適合性条件を満たしていると判定する。テキストブロック抽出部122は、テキストブロック適合性条件を満たす場合、処理がステップS47に進められる。テキストブロック適合性条件を満たさない場合、処理がステップS48に進められる。
[ステップS47]テキストブロックBaが満たす場合、テキストブロック抽出部122は、aをインクリメント、処理をステップS45に進める。これにより、次のテキストブロックBa+1についての検証が行われる。
[ステップS48]一方、ステップS46の処理でテキストブロックBaがテキストブロック適合性条件を満たさない場合には、テキストブロック抽出部122は、テキストブロックBaを矩形領域Qとし、テキストブロックBa内の文字成分の外接矩形U、文字成分外の外接矩形Vとして、C={U∈C|U∩Q≠φ}、H={V∈H|V∩Q≠φ}と新たに定義する。そして、これらQ、C、Hに応じて、制御パラメータn、xを変化させる。
[ステップS49]テキストブロック抽出部122は、ステップS48で設定した制御パラメータを用いて、ステップS41からの処理を再度行う。処理が終わる(リターンする)と処理がステップS47に進められ、次のテキストブロックBa+1についての検証が行われる。
なお、再帰処理の際、ステップS48において、制御パラメータn、xを、ともに減少させていくように変更する。すなわち、テキストブロック適合性条件を満たさなかったテキストブロックBaにおいては、仮想セパレータとして設定する極大空白矩形を小さいものにしていく。
このようにすることで、テキストブロックと図が複雑に入り組んで配置されている場合でも、文字成分を過統合して、複数行の文字列をまとめて1行としてしまうなどの問題を解消できる。
以上のようにして、各パラメータセットに応じたテキストブロック抽出結果が得られる。
次に、テキストブロック抽出結果の統合処理(ステップS16)について詳細に説明する。
パラメータセットがP(i)のときのテキストブロック抽出結果Riを、{Ti j|j=0,1,2,・・・,t(i)_num−1}で表す。Ti jは、Riに含まれるj番目のテキストブロックを示している。t(i)_numは、テキストブロック抽出結果Riに含まれるテキストブロックの総数である。また、Ti jに連結するテキストブロックの集合をSTとおく。
図13は、テキストブロックの統合例を示す図である。例えば、R0とR1が図13のように表されたとする。ここで、テキストブロックT0 1に連結するテキストブロックを抽出する。その場合、テキストブロック統合部123は、まず、テキストブロックT0 1と少なくとも一部が重なるテキストブロックをR1から抽出し、連結対象とする。次に、テキストブロック統合部123は、R1から抽出されたテキストブロックに対して、少なくとも一部が重なるテキストブロックをR0から抽出し、連結対象とする。
以後、同様に、テキストブロック統合部123は、連結対象として抽出されたテキストブロックに対して少なくとも一部が重なるテキストブロックを、他のテキストブロック抽出結果から抽出し、連結対象とする。このような重複関係に基づく連結対象の抽出処理が、テキストブロックが抽出されなくなるまで続けられる。図13の例では、テキストブロックT0 1の連結対象の集合STは、{T0 1,T0 2,T1 1,T1 2,T1 3}となる。
図14は、テキストブロック抽出結果統合処理の手順を示すフローチャートである。以下、図14に示す処理をステップ番号に沿って説明する。なお、並列方式の場合、{T0 j(j=0,1,2,・・・,t(0)_num−1)}に重複するテキストブロックを、{Ti j|i=1,2,・・・,p_num−1、j=0,1,2,・・・,t(i)_num−1}から求める。
なお、テキストブロック抽出結果に含まれる各テキストブロックには、統合対象としての検討を行ったか否かを示すフラグが設けられている。検討していないテキストブロックのフラグは0であり、検討したテキストブロックのフラグは1である。このフラグの初期値は0である。
[ステップS51]テキストブロック統合部123は、jの初期値を0に設定する。
[ステップS52]テキストブロック統合部123は、j<t(i)_numが満たされるか否かを判断する。jがt(i)_num未満であれば、処理がステップS53に進められる。j=t(i)_numであれば、テキストブロック抽出結果統合処理が終了する。
[ステップS53]テキストブロック統合部123は、Ti jのフラグが0か否かを判定する。フラグが0であれば、処理がステップS54に進められる。フラグが1であれば、処理がステップS58に進められる。
[ステップS54]テキストブロック統合部123は、Ti jのフラグに1を設定する。
[ステップS55]テキストブロック統合部123は、Ti jをSTに登録する。
[ステップS56]テキストブロック統合部123は、Ti jに連結するテキストブロックを探索する。
[ステップS57]テキストブロック統合部123は、最適組み合わせ探索処理を行う。
[ステップS58]テキストブロック統合部123は、jの値をインクリメント(1加算)して、処理をステップS52に進める。
次に、連結集合探索処理の詳細について説明する。連結集合探索処理では、テキストブロック統合部123は、Ti jに連結するテキストブロックの集合STを求める。そして、テキストブロック統合部123は、Ti jに対して領域が重複するTm N(m≠i)を全て求めSTに登録する。さらに、テキストブロック統合部123は、再帰的にTm Nに対して、Tm Nに重複するTp q(p≠m)を求めて、STに登録する。
図15は、連結集合探索処理の手順を示すフローチャートである。以下、図15に示す処理をステップ番号に沿って説明する。
[ステップS61]テキストブロック統合部123は、Ti jに対して少なくとも一部が重複するテキストブロックを、他のテキストブロック抽出結果(並列方式の場合{Ti j|i=0,1,2,・・・,p_num−1、j=0,1,2,・・・,t(i)_num−1})から取得し、重複するテキストブロックの集合を{Tm N(k)}(m≠i)とする。また、重複するテキストブロックの個数をxi jとする。
kは、重複するテキストブロックを識別する識別番号であり、0≦k<xi jである。N(k)は、k番のテキストブロックのテキストブロック抽出結果内での識別番号を示している。
なお、図14のステップS56で呼び出された連結集合探索処理の場合、i=0のテキストブロック抽出結果{T0 j}に対して少なくとも一部が重複するテキストブロックの集合が得られる(jはステップS51またはステップS58で設定された値である)。
また、ステップS67から再帰的に呼び出された連結集合探索処理の場合、呼び出し前のステップS66の処理でSTに登録されたテキストブロックTm N(k)に重複する少なくとも一部が重複するテキストブロックの集合が得られる。
[ステップS62]テキストブロック統合部123は、kを0に初期化する。
[ステップS63]テキストブロック統合部123は、k<xi jか否かを判断する。kがxi j未満であれば処理がステップS64に進められる。kがxi j以上であれば、現在実行している連結集合探索処理が終了し、呼び出し元に処理が戻される。
[ステップS64]テキストブロック統合部123は、Tm N(k)のフラグが0か否かを判断する。フラグが0であれば処理がステップS65に進められる。フラグが1であれば、処理がステップS68に進められる。
[ステップS65]テキストブロック統合部123は、Tm N(k)のフラグを1に設定する。
[ステップS66]テキストブロック統合部123は、Tm N(k)をSTに登録する。
[ステップS67]テキストブロック統合部123は、Tm N(k)に対する連結集合探索処理を再帰的に実行する。再帰的に実行した連結集合探索処理が終了すると、処理がステップS68に進められる。
[ステップS68]テキストブロック統合部123は、kをインクリメント(1加算)し、処理をステップS63に進める。
このようにして、連結集合探索処理が再帰的に実行される。
次に、最適組み合わせ探索処理の詳細について説明する。
図16は、最適組み合わせ探索処理の手順を示すフローチャートである。以下、図16に示す処理をステップ番号に沿って説明する。
[ステップS71]テキストブロック統合部123は、テキストブロック抽出結果に対して、文字認識処理を行う。この文字認識処理では、後処理として言語処理(言語としての自然さの検証)も行う。
[ステップS72]テキストブロック統合部123は、正読確率によって決まる認識コストと形態素解析コストによって決まる言語コストを求め、テキストブロック抽出結果に値を付与する。
[ステップS73]テキストブロック統合部123は、テキストブロック抽出結果の配置による可能な組み合わせをグラフによって表現する。グラフは、ノードがテキストブロックであり、ノードとノードがパスで結ばれているのは、テキストブロック間で重複がなく両立可能であることを示す。
[ステップS74]テキストブロック統合部123は、論理的に必要最小限の組み合わせをグラフからクリークとして求め、それらを組み合わせ候補とする。
[ステップS75]テキストブロック統合部123は、抽出された組み合わせ候補を、テキストブロックの認識コストと言語コストの値により順位付けし、最小コストの組み合わせを最終結果とする。
次に、最小コストクリーク探索処理について詳細に説明する。本実施の形態では、クリークを2つずつ対比し、優劣をつける。そして、優位な方のクリークに得点を加点する。そして、各クリークの得点によってクリークの順位付けを行う。なお、優劣の比較には、認識コストと言語コストが用いられる。認識コストには正読確率の逆数に比例する値が用いられ、言語コストには形態素解析コストが用いられる。
図17は、最小コストクリーク探索処理の手順を示すフローチャートである。以下、図17に示す処理をステップ番号に沿って説明する。
[ステップS81]テキストブロック統合部123は、各クリークについて認識コストを計算する。認識コストとは、テキストブロック内の文字認識を行い、そのときの認識の確からしさを示す数値である。文字認識が正確であるほど、認識コストの値は小さくなる。
[ステップS82]テキストブロック統合部123は、各クリークについて言語コストを計算する。言語コストとは、文字認識を行い、文字の配列を文章としてとらえたときの、文章の言語としての正しさを示す数値である。文章が正しいほど、言語コストの値は低くなる。
[ステップS83]テキストブロック統合部123は、比較対象とするクリークを2つ選択する。
[ステップS84]テキストブロック統合部123は、選択した2つのクリークの認識コストと言語コストの両方を比較し、優位な差があるか否かを判定する。認識コストにおける有意な差は例えば10を用い、言語コストにおける有意な差は例えば50を用いる。その場合、認識コストと言語コストとの何れか一方で優位な差があれば、コストの値が小さい方のクリークを、優位なクリークとする。なお、認識コストによる優位なクリークと、言語コストによる優位なクリークとが異なるクリークとなる場合、例えば、優位な差がないと判断する。
優位な差が存在した場合、処理がステップS88に進められる。優位な差が存在しない場合、処理がステップS85に進められる。
[ステップS85]テキストブロック統合部123は、比較対象のクリークそれぞれの認識コストと言語コストとを正規化した値の和を取る。このとき、認識コストの正規化値には、正読確率が用いられる。言語コストの正規化値には、言語コストの逆数を定数倍したものが用いられる。
なお、言語コストの正規化値については、別の方法も考えられる。例えば、テキストブロック統合部123は、数多くのサンプル(テキストブロック抽出結果であり、正解と失敗を含む)に対し、サンプルの言語コストを求める。さらに、テキストブロック統合部123は、言語コスト値と、文字認識結果が正解である頻度と誤りである頻度(正解確率)をあらかじめ調べてテーブル化しておく。そして、テキストブロック統合部123は、そのテーブルを用いて言語コストを正解確率に変換し、得られた正解確率を正規化に用いることもできる。
[ステップS86]テキストブロック統合部123は、比較対照のクリークの正規化した値の和を比較し、優位な差があるか否か(所定値以上の差があるか)を判定する。優位な差があれば、テキストブロック統合部123は、正規化した値の小さい方を優位なクリークと判断し、処理をステップS88に進める。優位な差が無い場合、処理がステップS87に進められる。
[ステップS87]テキストブロック統合部123は、テキストブロックの数が少ない方のクリークを優位なクリークと判定する。
[ステップS88]テキストブロック統合部123は、優位と判定されたクリークに得点(例えば、1点)を加点する。
[ステップS89]テキストブロック統合部123は、全ての組み合わせを比較したか否かを判定する。全てのクリークの組み合わせの比較が完了した場合、処理がステップS90に進められる。比較していないクリークの組み合わせがある場合、処理がステップS83に進められる。
[ステップS90]テキストブロック統合部123は、得点の最も高いクリークを、最小コストクリークとして選択し、最小コストクリーク探索処理を終了する。
以上のような処理によって、複数のパラメータセット毎に生成されたテキストブロックを統合することができる。
次に、本実施の形態による文書画像レイアウト解析処理の具体例について説明する。
図18は、解析対象の文書画像の例を示す図である。図18に示す文書画像300には、横書きの見出し、縦書きの文章等が混在している。このような文書画像300が文書画像レイアウト解析部120に入力されると、テキストブロック抽出部122によって、パラメータセット毎にテキストブロック抽出処理が行われる。
図19は、テキストブロック抽出結果の第1の例を示す図である。このテキストブロック抽出結果301では、文書画像300から8つのテキストブロック311〜318が抽出されている。このテキストブロック抽出結果301のままでは、テキストブロック313の文字認識を行ったときに、意味の通らない文章が生成されてしまう。
図20は、テキストブロック抽出結果の第2の例を示す図である。このテキストブロック抽出結果302では、文書画像から11個のテキストブロック321〜331が抽出されている。このテキストブロック抽出結果302のままでは、テキストブロック329,330の文字認識を行ったときに、意味の通らない文章が生成されてしまう。
そこで、図19と図20とに示したテキストブロック抽出結果の統合処理が、テキストブロック統合部123によって行われる。その際、まず、連結集合探索処理によって、テキストブロック抽出結果301,302の間の連結集合が探索される。
図21は、連結集合探索処理結果を示す図である。なお、テキストブロック統合部123は、各テキストブロック抽出結果301,302に含まれるテキストブロックを、識別番号によって管理している。図21の例では、テキストブロック抽出結果301に含まれる各テキストブロック311〜318に対して、それぞれ「T11,T12,・・・,T18」の識別番号が設定されている。また、テキストブロック抽出結果302に含まれる各テキストブロック321〜331に対して、それぞれ「T21,T22,・・・,T31」の識別番号が設定されている。
これらのテキストブロック抽出結果301,302から連結集合を探索すると、連結集合探索結果303として、5つの連結集合341〜345が得られる。ここで、連結集合343〜345については、同じ範囲を示すテキストブロック同士が連結されており、統合後も、そのまま1つのテキストブロックとすることができる。
一方、連結集合341,342については、異なる範囲を示す複数のテキストブロックが含まれている。そのため、連結集合341,342の中から、最適なテキストブロックの組み合わせを決定する必要がある。そこで、テキストブロック統合部123は、連結集合341,342それぞれに対して、最適組み合わせ探索処理を行う。
まず、連結集合341の最適組み合わせ探索処理について説明する。
図22は、連結集合の第1の例を示す図である。連結集合341は、テキストブロック抽出結果301に含まれていた2つのテキストブロック317,318と、テキストブロック抽出結果302に含まれていた3つのテキストブロック329〜331とで構成されている。
ここで、テキストブロック317は、テキストブロック318,331とは重複していないが、テキストブロック329,330と重複している。また、テキストブロック318は、テキストブロック317とは重複していないが、テキストブロック329〜331と重複している。テキストブロック329〜331の間では、重複関係は存在しない。
このような重複関係に基づいて、テキストブロック統合部123がグラフを作成する。そして、テキストブロック統合部123は、グラフの中からクリークを抽出する。
図23は、グラフとクリークとの第1の例を示す図である。連結集合341から生成されたグラフ40には、5つのノードが含まれる。各ノードがテキストブロックを示している。グラフ40では、各ノードに、対応するテキストブロックの識別番号が付与されている。
ノード間の重複関係がパス(ノード間を接続する線)で示されている。ノードとノードがパスで結ばれているのは、テキストブロック間で重複がなく両立可能であることを示している。
このようなグラフ40から、両立可能な論理的に必要最小限の組み合わせが、クリーク41〜43として求められる。すなわち、グラフ40から複数のノードを選択し、選択された全てのノード間にパスが設けられていれば、選択されたノードの組がクリークとして抽出される。
クリークが生成されると、クリーク毎の認識コストと言語コストとが計算される。
図24は、コスト計算結果を示す図である。この例では、クリーク41の認識コストが「105」、言語コストが「250」である。クリーク42の認識コストが「160」、言語コストが「1440」である。クリーク43の認識コストが「235」、言語コストが「780」である。
図20、図21を参照すると分かるように、識別番号が「T31」のテキストブロック331は、内容が「た。」である。そのため、文字認識をすると、文字切り出しに失敗し、認識コストが大きくなる。また、識別番号が「T29」「T30」のテキストブロック329,330は、元々繋がりの無い文章を1つのテキストブロックに含めているため、言語コストが大きくなる。
そのため、「T29」,「T30」,「T31」のノードを含むクリーク42,43は、それらを含まないクリーク41に比べて言語コストが高くなっている。その結果、3つのクリーク41〜43間で最小コストクリーク探索処理が行われると、クリーク41が最小コストクリークとして選択される。
次に、連結集合342の最適組み合わせ探索処理について説明する。
図25は、連結集合の第2の例を示す図である。連結集合342は、テキストブロック抽出結果301に含まれていた3つのテキストブロック313,314,316と、テキストブロック抽出結果302に含まれていた5つのテキストブロック323〜325,327,328とで構成されている。
このような連結集合342から、テキストブロック統合部123がグラフを作成する。そして、テキストブロック統合部123は、グラフの中からクリークを抽出する。
図26は、グラフとクリークとの第2の例を示す図である。連結集合342から生成されたグラフ50には、8つのノードが含まれる。このようなグラフ50から、両立可能な論理的に必要最小限の組み合わせが、クリーク51,52,53,・・・として求められる。
そして、最小コストクリーク探索処理が行われ、最小コストクリークが選択される。この例では、クリーク52が選択されたものとする。
2つの連結集合341,342それぞれの最小コストクリークに含まれるテキストブロックが、テキストブロック抽出結果の統合結果に含められる。
図27は、テキストブロック抽出結果の統合結果を示す図である。図27に示すように、複数のテキストブロック抽出結果を統合し、それぞれから適切なテキストブロックを採用することで、全体として正確なテキストブロック抽出が可能となっている。
具体的には、テキストブロック抽出結果301では、テキストブロック313,314,316の領域が不適切であったが、その領域については、テキストブロック抽出結果302に含まれているテキストブロック323〜325,327,328が採用されることで、適切なテキストブロック抽出結果となっている。
また、テキストブロック抽出結果302では、テキストブロック329,330,331の領域が不適切であったが、その領域については、テキストブロック抽出結果301に含まれているテキストブロック317,318が採用されることで、適切なテキストブロック抽出結果となっている。
以上のようにして、異なる条件で抽出されたテキストブロック抽出結果と統合することで、適切なテキストブロックが抽出できる。テキストブロックの取り方が適切であれば、その後の文字認識処理における文字認識の正確性が向上する。
実際に、新聞・雑誌・広告などから収集した複雑なレイアウトを持つ40文書に対して、精度評価実験を行った。再帰的テキストブロック抽出処理を1回だけ行う場合と、パラメータの初期値を変えて5回処理させ、結果を統合する場合とを比較した。その結果、テキストブロックが正しく抽出される確率が96.3%から98.0%に向上した。
[第2の実施の形態]
第2の実施の形態は、テキストブロック抽出結果の統合を、テキストブロック抽出結果が得られる毎に、逐次実行するものである(逐次方式)。
第2の実施の形態は、文書画像レイアウト解析処理の内容が第1の実施の形態と異なる。また、第2の実施の形態の機能ブロックは、図3に示した第1の実施の形態と同様である。そこで、図3に示す構成を用いて、第2の実施の形態における文書画像レイアウト解析処理について説明する。
第2の実施の形態では、テキストブロック抽出部122は、R0,R1,・・・,Rp_num-1の順番でテキストブロック抽出結果を取得する。そして、テキストブロック統合部123が、順次、それ以前に得られている統合結果に、新たに取得されたテキストブロック抽出結果を統合する。具体的には、テキストブロック統合部123は、パラメータセットの識別番号であるiがi≧1のとき、P(i)から得られるテキストブロック抽出結果Riを、P(i−1)までのテキストブロック抽出結果Ri-1に統合し、統合結果を改めてRiと設定する。
図28は、第2の実施の形態の文書画像レイアウト解析処理の手順を示すフローチャートである。以下、図28に示す処理を、ステップ番号に沿って説明する。
[ステップS81]テキストブロック抽出部122は、パラメータセットの識別番号を示すiの初期値を0にセットする。
[ステップS82]テキストブロック抽出部122は、P=P(i)として、テキストブロック抽出処理を行う。テキストブロック抽出処理の詳細は後述する。
[ステップS83]テキストブロック抽出部122は、ステップS82のテキストブロック抽出結果を、Riに代入する。
[ステップS84]テキストブロック抽出部122は、iをインクリメント(1加算)し、処理をステップS82に進める。
[ステップS85]テキストブロック抽出部122は、iがp_num未満か否かを判断する。p_num未満であれば処理がステップS86に進められる。p_num以上であれば処理が終了する。
[ステップS86]テキストブロック抽出部122は、P=P(i)として、テキストブロック抽出処理を行う。テキストブロック抽出処理の詳細は、図6に示した第1の実施の形態におけるテキストブロック抽出処理と同様である。
[ステップS87]テキストブロック抽出部122は、ステップS86のテキストブロック抽出結果を、Riに代入する。
[ステップS88]テキストブロック統合部123が、テキストブロック抽出結果RiとRi-1とを統合する。統合処理の詳細は、図14に示した第1の実施の形態におけるテキストブロック抽出結果統合処理と同様である。
[ステップS89]テキストブロック抽出部122は、ステップS88による統合結果を、Riに代入する。
[ステップS90]テキストブロック抽出部122は、iをインクリメント(1加算)し、処理をステップS85に進める。
これにより、iがp_numに達するまで順次、各パラメータセットに応じたテキストブロック抽出結果が得られる。そして、テキストブロック抽出結果が得られる毎に、それ以前に生成されたテキストブロック抽出結果に対して統合される。すなわち、テキストブロック抽出結果を逐次統合することができる。
テキストブロック抽出結果を逐次統合することで、テキストブロック抽出結果を格納するためのメモリ領域を削減することができる。
また、テキストブロック抽出結果を逐次統合する毎に、統合結果を認識コストや言語コストで評価し、評価結果が所定値未満(正規化した値で評価する場合は、所定値以上)となった時点で、文書画像レイアウト解析処理を終了させることもできる。これにより、所定の条件を満たす評価が得られた以後は、テキストブロック抽出処理等を行わずにすみ、処理時間を短縮することができる。
[その他の応用例]
上記の実施の形態では、セパレータ抽出のための初期パラメータを変えることで、複数のテキストブロック抽出結果を生成しているが、全く異なる手法で複数のテキストブロック抽出処理を行い、その結果を統合することもできる。例えば、特許文献1や特許文献2記載の技術でテキストブロックを抽出し、その抽出結果を統合することもできる。テキストブロック抽出処理の多様性が増すほど、より精度の高い統合結果を得ることができる。
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、文書画像レイアウト解析部120が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。光磁気記録媒体には、MO(Magneto-Optical disk)などがある。
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送される毎に、逐次、受け取ったプログラムに従った処理を実行することもできる。
なお、本発明は、上述の実施の形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変更を加えることができる。
以上説明した実施の形態の主な技術的特徴は、以下の付記の通りである。
(付記1) 文書画像に含まれるテキストのレイアウトを解析して、文字認識の処理対象とする範囲を示すテキストブロックを抽出する文書画像レイアウト解析プログラムにおいて、
コンピュータを、
テキストブロックを抽出するための条件を定義した複数の抽出条件を記憶する抽出条件記憶手段、
前記抽出条件記憶手段に記憶された前記テキストブロック抽出条件それぞれに従って、前記文書画像からテキストブロックを抽出するテキストブロック抽出手段、
前記テキストブロック抽出手段で抽出された複数のテキストブロック抽出結果それぞれに含まれるテキストブロックの文字認識を行い、文字認識結果に基づいてテキストブロックが示す範囲の正確性を判定し、正確性が高いテキストブロックを選択してテキストブロック統合結果として出力するテキストブロック統合手段、
として機能させることを特徴とする文書画像レイアウト解析プログラム。
(付記2) 前記テキストブロック統合手段は、文字認識による認識の確からしさを示す正読確率が高いほど、テキストブロックが示す範囲の正確性を高く評価することを特徴とする付記1記載の文書画像レイアウト解析プログラム。
(付記3) 前記テキストブロック統合手段は、文字認識結果における文章が言語的に自然であるほど、テキストブロックが示す範囲の正確性を高く評価することを特徴とする付記1記載の文書画像レイアウト解析プログラム。
(付記4) 前記テキストブロック統合手段は、複数の前記テキストブロック抽出結果それぞれに含まれるテキストブロックのうち領域が重複するテキストブロック同士を関連づけ、関連づけられたテキストブロックの集合を連結集合とし、前記連結集合から正確性が高いテキストブロックの組み合わせを選択することを特徴とする付記1記載の文書画像レイアウト解析プログラム。
(付記5) 前記テキストブロック統合手段は、前記連結集合に含まれるテキストブロックから領域の重複関係が無いテキストブロックの組み合わせを抽出し、各テキストブロックの文字認識結果に基づいて、各組み合わせに含まれるテキストブロックが示す範囲の正確性を評価し、評価の高い組み合わせに含まれるテキストブロックを選択することを特徴とする付記4記載の文書画像レイアウト解析プログラム。
(付記6) 前記テキストブロック統合手段は、テキストブロック毎の文字認識による認識の確からしさを示す正読確率と、文字認識結果における文章が言語的な自然さを示す数値とを正規化し、組み合わせに含まれるテキストブロック毎の正規化した値の和を、組み合わせに含まれるテキストブロックの範囲の正確性を示す値とすることを特徴とする付記5記載の文書画像レイアウト解析プログラム。
(付記7) 前記テキストブロック統合手段は、組み合わせに含まれるテキストブロックが示す範囲の正確性を前記組み合わせ毎に数値化し、組み合わせを2つずつ対比し、正確性を示す数値が対比相手の組み合わせよりも所定値以上の差で高く評価されている組み合わせに得点を与え、最も得点の高い組み合わせに含まれるテキストブロックを選択することを特徴とする付記4記載の文書画像レイアウト解析プログラム。
(付記8) 前記抽出条件記憶手段には、テキストブロック間の境界を示すセパレータと判定するための、前記セパレータに含まれるべき空白領域の大きさを示す条件が前記抽出条件として格納されていることを特徴とする付記1記載の文書画像レイアウト解析プログラム。
(付記9) 文書画像に含まれるテキストのレイアウトを解析して、文字認識の処理対象とする範囲を示すテキストブロックを抽出する文書画像レイアウト解析装置において、
テキストブロックを抽出するための条件を定義した複数の抽出条件を記憶する抽出条件記憶手段と、
前記抽出条件記憶手段に記憶された前記テキストブロック抽出条件それぞれに従って、前記文書画像からテキストブロックを抽出するテキストブロック抽出手段と、
前記テキストブロック抽出手段で抽出された複数のテキストブロック抽出結果それぞれに含まれるテキストブロックの文字認識を行い、文字認識結果に基づいてテキストブロックが示す範囲の正確性を判定し、正確性が高いテキストブロックを選択してテキストブロック統合結果として出力するテキストブロック統合手段と、
を有することを特徴とする文書画像レイアウト解析装置。
(付記10) 文書画像に含まれるテキストのレイアウトを解析して、文字認識の処理対象とする範囲を示すテキストブロックを抽出するための文書画像レイアウト解析方法において、
テキストブロック抽出手段が、予めテキストブロックを抽出するための条件を定義した複数の抽出条件が記憶された抽出条件記憶手段を参照し、前記テキストブロック抽出条件それぞれに従って、前記文書画像からテキストブロックを抽出し、
テキストブロック統合手段が、前記テキストブロック抽出手段で抽出された複数のテキストブロック抽出結果それぞれに含まれるテキストブロックの文字認識を行い、文字認識結果に基づいてテキストブロックが示す範囲の正確性を判定し、正確性が高いテキストブロックを選択してテキストブロック統合結果として出力する、
ことを特徴とする文書画像レイアウト解析方法。
(付記11) 文書画像に含まれるテキストのレイアウトを解析して、文字認識の処理対象とする範囲を示すテキストブロックを抽出する文書画像レイアウト解析プログラムを記録したコンピュータ読み取り可能な記録媒体において、
前記コンピュータを、
テキストブロックを抽出するための条件を定義した複数の抽出条件を記憶する抽出条件記憶手段、
前記抽出条件記憶手段に記憶された前記テキストブロック抽出条件それぞれに従って、前記文書画像からテキストブロックを抽出するテキストブロック抽出手段、
前記テキストブロック抽出手段で抽出された複数のテキストブロック抽出結果それぞれに含まれるテキストブロックの文字認識を行い、文字認識結果に基づいてテキストブロックが示す範囲の正確性を判定し、正確性が高いテキストブロックを選択してテキストブロック統合結果として出力するテキストブロック統合手段、
として機能させることを特徴とする文書画像レイアウト解析プログラムを記録したコンピュータ読み取り可能な記録媒体。
本実施の形態の概略を示す図である。 本実施の形態に用いるコンピュータのハードウェア構成例を示す図である。 本実施の形態の文書画像レイアウト解析機能を示すブロック図である。 パラメータセットテーブルのデータ構造例を示す図である。 文書画像レイアウト解析処理の手順を示すフローチャートである。 テキストブロック抽出処理の手順を示すフローチャートである。 連結成分属性付与処理の手順を示すフローチャートである。 ラベリング処理の具体例を示す図である。 階層化処理の具体例を示す図である。 文字成分を包含するフレームを示した図である。 再帰的テキストブロック抽出処理の手順を示す一例のフローチャートである。 極大空白矩形の一例を示す図である。 テキストブロックの統合例を示す図である。 テキストブロック抽出結果統合処理の手順を示すフローチャートである。 連結集合探索処理の手順を示すフローチャートである。 最適組み合わせ探索処理の手順を示すフローチャートである。 最小コストクリーク探索処理の手順を示すフローチャートである。 解析対象の文書画像の例を示す図である。 テキストブロック抽出結果の第1の例を示す図である。 テキストブロック抽出結果の第2の例を示す図である。 連結集合探索処理結果を示す図である。 連結集合の第1の例を示す図である。 グラフとクリークとの第1の例を示す図である。 コスト計算結果を示す図である。 連結集合の第2の例を示す図である。 グラフとクリークとの第2の例を示す図である。 テキストブロック抽出結果の統合結果を示す図である。 第2の実施の形態の文書画像レイアウト解析処理の手順を示すフローチャートである。
符号の説明
1 抽出条件記憶手段
2 テキストブロック抽出手段
3 テキストブロック統合手段
4 文書画像
5a,5b,・・・ テキストブロック抽出結果
6 テキストブロック統合結果

Claims (10)

  1. 文書画像に含まれるテキストのレイアウトを解析して、文字認識の処理対象とする範囲を示すテキストブロックを抽出する文書画像レイアウト解析プログラムにおいて、
    コンピュータを、
    テキストブロックを抽出するための条件を定義した複数の抽出条件を記憶する抽出条件記憶手段、
    前記抽出条件記憶手段に記憶された前記テキストブロック抽出条件それぞれに従って、前記文書画像からテキストブロックを抽出するテキストブロック抽出手段、
    前記テキストブロック抽出手段で抽出された複数のテキストブロック抽出結果それぞれに含まれるテキストブロックの文字認識を行い、文字認識結果に基づいてテキストブロックが示す範囲の正確性を判定し、正確性が高いテキストブロックを選択してテキストブロック統合結果として出力するテキストブロック統合手段、
    として機能させることを特徴とする文書画像レイアウト解析プログラム。
  2. 前記テキストブロック統合手段は、文字認識による認識の確からしさを示す正読確率が高いほど、テキストブロックが示す範囲の正確性を高く評価することを特徴とする請求項1記載の文書画像レイアウト解析プログラム。
  3. 前記テキストブロック統合手段は、文字認識結果における文章が言語的に自然であるほど、テキストブロックが示す範囲の正確性を高く評価することを特徴とする請求項1記載の文書画像レイアウト解析プログラム。
  4. 前記テキストブロック統合手段は、複数の前記テキストブロック抽出結果それぞれに含まれるテキストブロックのうち領域が重複するテキストブロック同士を関連づけ、関連づけられたテキストブロックの集合を連結集合とし、前記連結集合から正確性が高いテキストブロックの組み合わせを選択することを特徴とする請求項1記載の文書画像レイアウト解析プログラム。
  5. 前記テキストブロック統合手段は、前記連結集合に含まれるテキストブロックから領域の重複関係が無いテキストブロックの組み合わせを抽出し、各テキストブロックの文字認識結果に基づいて、各組み合わせに含まれるテキストブロックが示す範囲の正確性を評価し、評価の高い組み合わせに含まれるテキストブロックを選択することを特徴とする請求項4記載の文書画像レイアウト解析プログラム。
  6. 前記テキストブロック統合手段は、テキストブロック毎の文字認識による認識の確からしさを示す正読確率と、文字認識結果における文章が言語的な自然さを示す数値とを正規化し、組み合わせに含まれるテキストブロック毎の正規化した値の和を、組み合わせに含まれるテキストブロックの範囲の正確性を示す値とすることを特徴とする請求項5記載の文書画像レイアウト解析プログラム。
  7. 前記テキストブロック統合手段は、組み合わせに含まれるテキストブロックが示す範囲の正確性を前記組み合わせ毎に数値化し、組み合わせを2つずつ対比し、正確性を示す数値が対比相手の組み合わせよりも所定値以上の差で高く評価されている組み合わせに得点を与え、最も得点の高い組み合わせに含まれるテキストブロックを選択することを特徴とする請求項4記載の文書画像レイアウト解析プログラム。
  8. 前記抽出条件記憶手段には、テキストブロック間の境界を示すセパレータと判定するための、前記セパレータに含まれるべき空白領域の大きさを示す条件が前記抽出条件として格納されていることを特徴とする請求項1記載の文書画像レイアウト解析プログラム。
  9. 文書画像に含まれるテキストのレイアウトを解析して、文字認識の処理対象とする範囲を示すテキストブロックを抽出する文書画像レイアウト解析装置において、
    テキストブロックを抽出するための条件を定義した複数の抽出条件を記憶する抽出条件記憶手段と、
    前記抽出条件記憶手段に記憶された前記テキストブロック抽出条件それぞれに従って、前記文書画像からテキストブロックを抽出するテキストブロック抽出手段と、
    前記テキストブロック抽出手段で抽出された複数のテキストブロック抽出結果それぞれに含まれるテキストブロックの文字認識を行い、文字認識結果に基づいてテキストブロックが示す範囲の正確性を判定し、正確性が高いテキストブロックを選択してテキストブロック統合結果として出力するテキストブロック統合手段と、
    を有することを特徴とする文書画像レイアウト解析装置。
  10. 文書画像に含まれるテキストのレイアウトを解析して、文字認識の処理対象とする範囲を示すテキストブロックを抽出するための文書画像レイアウト解析方法において、
    テキストブロック抽出手段が、予めテキストブロックを抽出するための条件を定義した複数の抽出条件が記憶された抽出条件記憶手段を参照し、前記テキストブロック抽出条件それぞれに従って、前記文書画像からテキストブロックを抽出し、
    テキストブロック統合手段が、前記テキストブロック抽出手段で抽出された複数のテキストブロック抽出結果それぞれに含まれるテキストブロックの文字認識を行い、文字認識結果に基づいてテキストブロックが示す範囲の正確性を判定し、正確性が高いテキストブロックを選択してテキストブロック統合結果として出力する、
    ことを特徴とする文書画像レイアウト解析方法。
JP2005061529A 2005-03-04 2005-03-04 文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法 Expired - Fee Related JP4443443B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005061529A JP4443443B2 (ja) 2005-03-04 2005-03-04 文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法
US11/175,127 US7627176B2 (en) 2005-03-04 2005-07-05 Apparatus, method, and computer program for analyzing document layout

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005061529A JP4443443B2 (ja) 2005-03-04 2005-03-04 文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法

Publications (2)

Publication Number Publication Date
JP2006244309A true JP2006244309A (ja) 2006-09-14
JP4443443B2 JP4443443B2 (ja) 2010-03-31

Family

ID=36970964

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005061529A Expired - Fee Related JP4443443B2 (ja) 2005-03-04 2005-03-04 文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法

Country Status (2)

Country Link
US (1) US7627176B2 (ja)
JP (1) JP4443443B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010072826A (ja) * 2008-09-17 2010-04-02 Ricoh Co Ltd 画像処理装置、画像処理方法、プログラムおよびコンピュータ読み取り可能な記憶媒体

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7756871B2 (en) * 2004-10-13 2010-07-13 Hewlett-Packard Development Company, L.P. Article extraction
US20060224953A1 (en) * 2005-04-01 2006-10-05 Xiaofan Lin Height-width estimation model for a text block
JP2007141159A (ja) * 2005-11-22 2007-06-07 Fuji Xerox Co Ltd 画像処理装置、画像処理方法、及び画像処理プログラム
US20100257160A1 (en) * 2006-06-07 2010-10-07 Yu Cao Methods & apparatus for searching with awareness of different types of information
JP2009130870A (ja) * 2007-11-28 2009-06-11 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
JP5412903B2 (ja) * 2009-03-17 2014-02-12 コニカミノルタ株式会社 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
US8214903B2 (en) 2009-10-02 2012-07-03 International Business Machines Corporation Analysis of scripts
JP5577948B2 (ja) * 2010-08-24 2014-08-27 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
US9082339B2 (en) * 2011-11-04 2015-07-14 Facebook, Inc. Rendering texts on electronic devices
US9628865B2 (en) * 2012-09-10 2017-04-18 Apple Inc. Enhanced closed caption feature
JP5735126B2 (ja) * 2013-04-26 2015-06-17 株式会社東芝 システムおよび筆跡検索方法
RU2604668C2 (ru) * 2014-06-17 2016-12-10 Общество с ограниченной ответственностью "Аби Девелопмент" Визуализация машинно-генерируемого изображения документа
JP6352695B2 (ja) * 2014-06-19 2018-07-04 株式会社東芝 文字検出装置、方法およびプログラム
CN105678207A (zh) * 2014-11-19 2016-06-15 富士通株式会社 用于从给定图像中识别目标铭板图像的内容的装置和方法
EP3258420A1 (en) 2016-06-16 2017-12-20 Kabushiki Kaisha Toshiba Delivery handling apparatus, delivery handling method, and delivery handling program
CN106503634B (zh) * 2016-10-11 2020-02-14 讯飞智元信息科技有限公司 一种图像对齐方法及装置
US10347293B1 (en) * 2018-07-31 2019-07-09 Droplr, Inc. Detecting, redacting, and scoring confidential information in video
CN112487138A (zh) * 2020-11-19 2021-03-12 华为技术有限公司 带格式文本的信息抽取方法和装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2887803B2 (ja) 1989-04-01 1999-05-10 富士ゼロックス株式会社 文書画像処理装置
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
US5588072A (en) * 1993-12-22 1996-12-24 Canon Kabushiki Kaisha Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks
JPH08284797A (ja) 1995-04-11 1996-10-29 Takeyoshi Maeda 燃料を必要としない元始力エンジンである
US5999647A (en) * 1995-04-21 1999-12-07 Matsushita Electric Industrial Co., Ltd. Character extraction apparatus for extracting character data from a text image
US5774579A (en) * 1995-08-11 1998-06-30 Canon Kabushiki Kaisha Block selection system in which overlapping blocks are decomposed
US5848191A (en) * 1995-12-14 1998-12-08 Xerox Corporation Automatic method of generating thematic summaries from a document image without performing character recognition
JPH10187890A (ja) 1996-10-28 1998-07-21 Fujitsu Ltd 言語解析装置
JP4170441B2 (ja) 1997-11-28 2008-10-22 富士通株式会社 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体
JP3912463B2 (ja) 1998-09-29 2007-05-09 富士ゼロックス株式会社 論理構造抽出装置及び論理構造抽出方法
US6446035B1 (en) * 1999-05-05 2002-09-03 Xerox Corporation Finding groups of people based on linguistically analyzable content of resources accessed
US6993205B1 (en) * 2000-04-12 2006-01-31 International Business Machines Corporation Automatic method of detection of incorrectly oriented text blocks using results from character recognition
JP2002092549A (ja) 2000-09-20 2002-03-29 Ricoh Co Ltd 文字認識方法および記録媒体
JP4031189B2 (ja) 2000-09-28 2008-01-09 株式会社東芝 文書認識装置及び文書認識方法
JP4421134B2 (ja) * 2001-04-18 2010-02-24 富士通株式会社 文書画像検索装置
JP3912215B2 (ja) 2002-07-25 2007-05-09 Jfeスチール株式会社 転炉吹錬制御方法
JP4480421B2 (ja) 2004-03-04 2010-06-16 富士通株式会社 文書画像レイアウト解析プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010072826A (ja) * 2008-09-17 2010-04-02 Ricoh Co Ltd 画像処理装置、画像処理方法、プログラムおよびコンピュータ読み取り可能な記憶媒体

Also Published As

Publication number Publication date
US20060204096A1 (en) 2006-09-14
JP4443443B2 (ja) 2010-03-31
US7627176B2 (en) 2009-12-01

Similar Documents

Publication Publication Date Title
JP4443443B2 (ja) 文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法
US20200410160A1 (en) Extracting structured information from a document containing filled form images
US8131087B2 (en) Program and apparatus for forms processing
JP2973944B2 (ja) 文書処理装置および文書処理方法
JP4366108B2 (ja) 文書検索装置、文書検索方法及びコンピュータプログラム
US8208765B2 (en) Search and retrieval of documents indexed by optical character recognition
US8160402B2 (en) Document image processing apparatus
US20080187240A1 (en) Apparatus and method for analyzing and determining correlation of information in a document
US8300942B2 (en) Area extraction program, character recognition program, and character recognition device
JP2004348591A (ja) 文書検索方法及び装置
RU2370814C2 (ru) Система и способ для обнаружения списка в рукописных входных данных
JP6003705B2 (ja) 情報処理装置及び情報処理プログラム
US20090030882A1 (en) Document image processing apparatus and document image processing method
Yalniz et al. Ottoman archives explorer: A retrieval system for digital Ottoman archives
US20180012112A1 (en) Recognition device, recognition method, and computer program product
JP2008310772A (ja) 情報処理装置、その制御プログラムおよび該制御プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに制御方法
US20130329263A1 (en) Image processing apparatus, and image processing method and program therefor
KR101118628B1 (ko) 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법
JP5942361B2 (ja) 画像処理装置及び画像処理プログラム
JPH10214340A (ja) 矩形分類方法
KR101265928B1 (ko) 논리 구조 및 레이아웃 기반의 오프라인 문자 인식을 위한방법, 시스템, 및 장치 판독 가능 매체
JP4480421B2 (ja) 文書画像レイアウト解析プログラム
US20080044086A1 (en) Image processing system, image processing method, computer readable medium and computer data signal
JPH08320914A (ja) 表認識方法および装置
JP4055976B2 (ja) 文書画像処理方法、文書画像処理装置及び記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100112

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100112

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140122

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees