JPH1083431A - 情報処理装置およびその方法 - Google Patents

情報処理装置およびその方法

Info

Publication number
JPH1083431A
JPH1083431A JP9160205A JP16020597A JPH1083431A JP H1083431 A JPH1083431 A JP H1083431A JP 9160205 A JP9160205 A JP 9160205A JP 16020597 A JP16020597 A JP 16020597A JP H1083431 A JPH1083431 A JP H1083431A
Authority
JP
Japan
Prior art keywords
connected component
frame
component
attached
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9160205A
Other languages
English (en)
Other versions
JP4077904B2 (ja
Inventor
Wang Shin-Ywan
ヤン ワング シン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JPH1083431A publication Critical patent/JPH1083431A/ja
Application granted granted Critical
Publication of JP4077904B2 publication Critical patent/JP4077904B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/155Removing patterns interfering with the pattern to be recognised, such as ruled lines or underlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

(57)【要約】 【課題】 ブロックセレクション技法では、テキスト行
が他のデータと隣接または重なる場合、テキストブロッ
クが誤識別されることがある。 【解決手段】 ドキュメント画像の連結成分をトレース
し、連結成分中の白輪郭をトレースし、白輪郭に基づい
て枠の輪郭を定義し、枠の輪郭の内側の独立した文字デ
ータを識別し、そして枠の輪郭の内側の初期の矩形を定
義する。更に、拡張した文字エリアを生成するために初
期の矩形エリアから水平または垂直方向に黒画素を検出
し、各白輪郭に対する拡張した文字エリアの内側にある
境界画素の場所を見つけ、拡張された文字エリアの内側
にある境界画素間にある黒画素を識別し、少なくとも1
つの連結成分を形成するように拡張文字エリアにある境
界画素間にある黒画素を結合し、垂直線、水平線、破線
の一部または、枠の一部として認識できない場合、テキ
スト成分として、少なくとも1つの連結成分を認識す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ブロックセレクシ
ョン技法を利用するドキュメントページの画像データを
解析する為のシステムに関する発明である。そして、特
にドキュメントページの中の枠に付着したテキスト成分
の抽出と識別を可能にするブロックセレクションシステ
ムである。
【0002】
【従来の技術】特願平6−320955(米国出願番号
08/596,716)および特願平8−221834
(米国出願番号08/514,252)に記述されてい
るようなブロックセレクション技法は、ドキュメントペ
ージ中の異なるタイプの画像データを解析し識別するペ
ージ解析システムに使用される。更に、識別および解析
結果は画像データに施されるべき光学式文字認識(OC
R)、データ圧縮、データルーチン(data rou
ting)、その他のようなタイプを決定するために使
われる。例えば、テキストデータであることが示された
画像データはOCR処理されるのに対し、ピクチャデー
タであることが示された画像データはOCR処理されな
い。結果として、異なるタイプの画像データをオペレー
ターの介入なしに自動入力し正確に処理することができ
る。
【0003】ブロックセレクション技法の動作は、図1
−図3のように一般的に記述される。図1は、代表的な
ドキュメントのページ101を示す。ページ101に
は、2カラムフォーマットであり、タイトル102を含
み、水平線104、テキストデータ行を含むいくつかの
テキストエリア105、106、107、テキストでは
ないグラフィックイメージを含むハーフトーンのピクチ
ャデータ108、テキスト情報を含むテーブル110、
枠エリア116、見出しデータ126を付属したハーフ
トーンのピクチャエリア121、見出しデータ137が
付着するピクチャエリア132、135が配置されてい
る。ブロックセレクション技法は、画像データのタイプ
に従ってページ101のそれぞれのエリアの定義を試み
る。図2のように、ブロックセレクション技法はそれぞ
れのエリアを定義し、階層的ツリー構造が生成される。
【0004】図2の階層的ツリー(木)構造200は、
画像データのそれぞれの識別されたエリアまたはブロッ
クをそれぞれ表す複数のノードを含む。ツリーのそれぞ
れのノードは、対応する画像データのブロックの特徴を
定義する特徴データを含む。例えば、特徴データは、ブ
ロック位置データ、属性データ(テキスト、ピクチャ、
テーブル、その他のようなを特定する)、サブ属性デー
タ、子ノードまたは親ノードのポインターを含んでい
る。子または「子孫」ノードは、画像データの大きなブ
ロックの中にその全体が存在する画像データを表す。子
ノードは、親ノードから枝別れしているノードのような
階層的ツリー構造200として描かれる。例えば、枠1
16の中のテキストブロックは、枠116を表す親ノー
ド212からの直接的な枝別れとして、ノード214,
216のような階層的ツリー構造として描かれる。上述
した特徴データに加えて、テキストブロックを表すノー
ドは、そのブロックの読取り方向及び読取り順を定義す
る特徴データを含んでいる。それらのデータは、ページ
のテキストブロックをOCRする処理場合に有用であ
る。
【0005】
【発明が解決しようとする課題】一般的なブロックテキ
ストセレクション技法では、テキストデータ行が他のデ
ータと隣接または重なり合っている場合、テキストブロ
ックはしばしば誤って識別されることがある。この問題
は、ドキュメント画像に含まれるテーブル画像を処理す
る際にしばしば遭遇する。テーブルセルの枠サイズが小
さい為、しばしば、それらの枠の一つによって周りを囲
まれたテキスト枠に付着されることになる。従って、こ
のテキストは、ピクチャ画像として、または、枠の一部
として識別されるか、あるいは、ノイズとして識別され
てブロックセレクション技法によって、必要のないデー
タとして無視される。このテキストは、テキストブロッ
クとして識別されない為、このテキストブロックは、O
CR処理されず、従って、そのブロックの中のテキスト
文字に、テキストエディターはアクセスできない。更
に、残るテキストブロックのドキュメントの読取り順
は、誤った識別をされたテキストブロックを考慮せず
に、割り当てられる。従って、読取り順が誤っている為
に、正しく識別されたテキストブロックでさえ、誤って
処理される。
【0006】従って、本発明は、テーブルセルの枠に付
着したテキストデータを識別し抽出することが可能な情
報処理装置およびその方法を提供することを目的とす
る。
【0007】
【課題を解決するための手段】本発明は、前記の目的を
達成する一手段として、以下の構成を備える。
【0008】本発明のある面によれば、本発明は、テー
ブルセルの枠からテキストデータを識別し、抽出する方
法であり、ドキュメントの中の連結成分をトレース、連
結成分の内側の白い輪郭をトレースし、トレースした白
い輪郭を基に枠の輪郭を定義し、枠の輪郭の内側の独立
した連結成分を識別し、そして、枠の輪郭の内側に初期
の矩形エリアを定義するステップを含む。
【0009】初期の矩形エリアは、独立した連結成分が
識別された場合、独立連結成分をもとに定義され、独立
連結成分が識別されない場合、白い輪郭をもとに定義さ
れ、小さい独立連結成分が識別された場合、独立した連
結成分、輪郭および独立連結成分から枠の輪郭の縁まで
の距離を基に定義される。この方法は、その上、拡張さ
れた文字エリアを生成する為に、水平または垂直方向に
おいて初期の矩形エリアからの黒画素を検出し、それぞ
れの白い輪郭に対する拡張された文字エリアの内側にあ
る境界画素を定め、拡張された文字エリアの内側にある
境界画素間に置かれた黒画素を識別し、少なくとも一つ
の連結成分を形成するために拡張された文字エリアの内
側にある境界画素間に置かれた黒画素を結合し、以下の
条件を満たせば、すくなくとも一つの連結成分をテキス
ト成分として認識する。つまり、(1)前記少なくとも
1つの連結成分の高さは、第三のあらかじめ決められた
閾値よりも小さくはない。また、前記少なくとも1つの
連結成分の縦横の比は、第四のあらかじめ決められた閾
値より大きくはない。(2)前記少なくとも1つの連結
成分の幅は、第五のあらかじめ決められた閾値より小さ
くはない。また、前記少なくとも1つの連結成分の縦横
の比は、第六のあらかじめ決められた閾値より大きくは
ない。(3)前記少なくとも1つの連結した成分の幅ま
たは高さは、第七のあらかじめ決められた閾値より大き
い。また、前記少なくとも1つのテキスト成分は独立し
連結成分と別の独立し連結成分との間にある。そして、
(4)連結成分のグループは、前記少なくとも1つの連
結成分を含み、別の連結成分は、同列または同行におい
て上記(1)、(2)を満たす。そして、前記拡張され
た文字エリアに対応する階層的ツリー構造の文字ノード
を定義し、前記少なくとも一つの連結成分といくつかの
識別された独立した連結成分の両方を含んでいる。
【0010】別の面によれば、本発明は、テーブル画像
の中の枠に付着する連結成分がテキスト成分かどうか決
定するための方法であり、枠の輪郭の内側に初期の矩形
エリアを定義し抽出された文字エリアを生成する為に水
平または垂直方向において初期の矩形エリアから黒画素
を検出し、拡張された文字エリアの内部にある境界画素
を定め、拡張された文字エリアの内側にある境界画素間
に置かれた黒画素を識別し、少なくとも1つの連結成分
を形成する為に拡張された文字エリアの内部にある境界
画素間に置かれた黒画素を結合し、そして、あらかじめ
決められた閾値の大きさに基づきテキスト成分として前
記少なくとも一つの連結成分を認識するステップを含
む。
【0011】
【発明の実施の形態】以下、本発明にかかる一実施形態
の枠に付着したテキストを抽出するシステムについて図
を参照して詳細に説明する。なお、本発明は、特願平6
−320955(米国出願番号08/596,716)
および特願平8−221834(米国出願番号08/5
14,252)に鑑みてなされたものである。
【0012】図3は、本発明の実施の形態の一例を表す
装置の外観を示す図である。
【0013】図3に示されるコンピュータシステム31
0は、例えば、Macintosh(登録商標)または
IBM PC、PC互換機である。このシステムは、M
icrosoft Windows(登録商標)のよう
なウィンドウズ環境をもつ。コンピュータシステム31
0は、カラーモニタのようなディスプレイ画面312、
ユーザコマンドを入力する為のキーボード313、ディ
スプレイ画面上312に表示されたオブジェクトを操作
し、ポインティングするためのマウスのようなポインテ
ィングデバイスを備える。
【0014】コンピュータシステム310は、圧縮また
は非圧縮の何らかのドキュメント画像ファイルも含むデ
ータファイルを記憶する為、そして、本発明を具体化す
るブロックセレクションアプリケーションプログラムを
含むアプリケーションプログラムファイルを記憶する為
のコンピュータディスク311のような大容量の記憶装
置を含む。また、ブロックセレクション技法に従って処
理されたドキュメントページに対応する様々な階層的ツ
リー(木)構造データもディスク311に保存されてい
る。
【0015】本発明の実行においては、ドキュメントの
それぞれのページをスキャンするスキャナ316によっ
て複数のページドキュメント(原稿)の画像が入力さ
れ、それらのページのビットマップ画像データがコンピ
ュータシステム310に供給される。画像データはま
た、ネットワークインタフェース324を通ってネット
ワークから入力、あるいは、ファクシミリ/モデムイン
タフェース326を通ってWWW(World Wid
e Web)から入力等のようにスキャナに限らず様々
な他のソースからコンピュータシステム310に入力さ
れる。プリンタ318は、処理されたドキュメント画像
を出力する為に提供される。
【0016】なお、図3に示されるプログラム可能な汎
用のコンピュータシステムでも、専用またはスタンドア
ローンコンピュータあるいは他のタイプのデータ処理装
置でも、本発明の実行に利用することができる。
【0017】図4は、コンピュータシステム310の内
部構成例を示す詳細なブロック図である。図4に示され
るように、コンピュータシステム310は、コンピュー
タバス421とインタフェースする中央演算処理装置
(CPU)を含む。スキャナインタフェース422、プ
リンタインタフェース423、ネットワークインタフェ
ース424、FAX/MODEMインタフェース42
6、ディスプレイインタフェース427、キーボードイ
ンタフェース428、マウスインタフェース429、メ
インランダムアクセスメモリー(RAM)430、ディ
スク装置311もまた、コンピュータバス421にイン
タフェースされる。
【0018】メインメモリー430は、本発明によるブ
ロックセレクション技法の処理ステップのような記憶さ
れた処理ステップを実行するCPU420にRAM記憶
を提供するため、コンピュータバス421にインタフェ
ースする。特に、CPU420は、ディスク311から
メインメモリー430へ処理ステップをロードして、ド
キュメント画像の中のテーブルセルの枠に付着したテキ
ストデータを識別し抽出するために、メインメモリー4
30から処理ステップを実行する。
【0019】キーボード413またはマウス414のど
ちらかを用いて入力されたユーザの指示に従って、他の
記憶されたアプリケーションプログラムは画像処理とデ
ータ操作を提供する。例えば、Windows用のWo
rdPerfect(登録商標)デスクトップワードプ
ロセッシングプログラムは、ドキュメントにブロックセ
レクション技法を適用する前後にドキュメントを生成
し、操作し、見る為に、オペレータによって起動され
る。同様に、ページ解析プログラムは、ドキュメントペ
ージにブロックセレクション技法を施すため、そして、
ウィンドウズ環境を介しオペレータにブロックセレクシ
ョン技法の結果を表示するために実行される。 図5
A、図5B、図6にドキュメントの中のテーブルを識別
する本発明によるブロックセレクション技法のやり方に
ついては、その概略を説明する。
【0020】ドキュメントを解析する処理を始めるため
に、解析されるドキュメントがスキャナ316に挿入さ
れる。順番に、スキャナ316は、ドキュメントを表す
ビットマップ画像を生成する。その画像データは、さら
に処理する為にコンピュータバス421を経てディスク
311を記憶される。ディスク311に記憶されたブロ
ックセレクションプログラムは、ドキュメント画像デー
タのブロックセレクション技法を実行する為の処理ステ
ップを含む。
【0021】その処理ステップは、メインメモリー43
0に記憶され、CPU420によって実行される。
【0022】上述したように、ブロックセレクション技
法の処理ステップは、ドキュメント画像の中の画像デー
タの異なったタイプを識別する。
【0023】この説明において、ドキュメントページが
図5Aのドキュメントページ501のようなテーブルを
含んでいると仮定する。
【0024】第一に、本発明によるブロックセレクショ
ン技法は、ページの中の連結成分をトレースすることに
よってドキュメントページの中の画像データを識別する
ことを試みる。連結成分は、白画素によって完全に囲ま
れた黒画素のグループである。例えば、図5Aは、それ
ぞれの連結成分であるテーブル500、502、504
を含んでいるドキュメントページ501を示す。連結成
分をトレースする為のある技法は、特願平6−3209
55(米国出願番号08/596,716)に開示され
ている。
【0025】トレースは、選択された部分の右下部から
左まで、画像データのその選択部分をスキャンすること
によって実行され、縁に達する度に、または、所望する
セクションの走査位置に出会う前に方向を変える。も
し、黒画素に出会ったならば、いくつかの隣接画素もま
た、黒かどうか決定する為に隣接した画素が検査され
る。一つの隣接黒画素が見つかったら、その隣接黒画素
から画像の外側がトレースされるまで、検査を進める。
本発明に従えば、ピクチャ504のような連結成分の内
側の部分をトレースする必要はない。
【0026】ピクチャ504がトレースされた後、スキ
ャンは新しい黒画素に出会うまで進み、テーブル500
のトレースに着手する。上記の処理は、画像の中の全て
の連結成分がトレースされるまで続けられる。
【0027】一旦、連結成分がトレースされると、それ
ぞれの連結成分は、矩形化される。例えば、図5Bに示
されるように矩形化は、トレースされた連結成分を完全
に包みこみできる限り小さい矩形エリアを定義すること
からなる。このように、矩形507、509、510
は、テーブル500とピクチャ502、504の周りに
描かれる。これらの矩形のそれぞれのサイズは、外接連
結成分がテーブルかどうか決定するために閾値のサイズ
と比較される。従って、矩形507のサイズは閾値のサ
イズよりも大きい為、テーブル500は、それがテーブ
ルかどうか決定する為の処理を更に受ける。
【0028】テーブル500の詳細図は、図6に示され
る。テーブル500は、テーブルセル601と602の
ようないくつかの独特のセルを含む。テーブルセル60
1は、セル枠に付着していないテキスト(以下「独立テ
キスト」と呼ぶ)604を含む。テーブルセル602
は、独立テキスト605と、セル枠に付着したテキスト
(以下「付着テキスト」と呼ぶ)606およびセル枠に
付着したデータ(以下「付着データ」と呼ぶ)607を
含む。
【0029】テーブル500がテーブルかどうか決定す
る為に、テーブルの中の白い輪郭がトレースされる。繰
り返すが、この技法は、上述した特願平6−32095
5(米国出願番号08/596,716)に開示されて
いるので、以下は一般的なことのみを記述する。
【0030】白い輪郭は、連結成分に関する上述と同様
な方法でトレースされるが、しかし、白画素は、黒画素
よりも詳しく調べられる。従って、テーブル500の内
部は右下部から左上部へ白画素についてスキャンされ
る。最初の白画素に出会ったとき、いくつかの隣接画素
もまた白がどうかを決定する為隣接画素が検査される。
全ての白い輪郭が、トレースされた黒画素によって囲ま
れるまでトレースを続ける。例えば、テーブル500の
白い輪郭は、図6に符号610で示される。
【0031】その内部の白い輪郭に基づくテーブルの識
別法の詳細は、特願平8−221834(米国出願番号
08/514,252)に開示されている。簡単に説明
すると、一旦、テーブル500内部の白い輪郭がトレー
スされると、白い輪郭の数はあらかじめ決められた別の
閾値と比較される。テーブル500の場合、白い輪郭の
数は、この閾値よりも大きい。従って、テーブル500
は、それがテーブルかどうか決定する為にさらに解析さ
れる。
【0032】特に、テーブル500のあるセルに属する
白い輪郭610は、まとめてグループ化される。例え
ば、テーブルセル602の中の白い輪郭は、矩形エリア
を形成するように見えるので、閾値と一まとめにグルー
プ化される。これらの白い輪郭を一まとめにグループ化
する為の方法の詳細もまた、前述の特願平8−2218
34(米国出願番号08/514,252)に開示され
ている。
【0033】これらのグルーブ化された白い輪郭は、連
結成分に関して上述したように矩形化される。しかしな
がら、上述した矩形化とは違って、これらの白い輪郭の
矩形化は、グループの中のトレースされた全ての白い輪
郭を完全に包み込むもっとも小さい矩形である枠の輪郭
を生成する。白い輪郭のグループが矩形化された後、グ
ループレートとして知られる、輪郭がグループ化された
頻度が調べられる。
【0034】テーブル500のグループレートが低いた
め、テーブル500はテーブルに決定される。このよう
にして、階層的ツリー構造のテーブルノードは、テーブ
ル500のそれぞれのセルに対応する子ノードを持つよ
うに生成される。それぞれのセルは、セルの中の白い輪
郭の矩形化によって生成された枠の輪郭によって外接エ
リアに等しいエリアをもっていると定義される。同様
に、テーブル500のそれぞれのセルを表すノードは、
セルの中の白い輪郭を表す子ノードを持っている。図7
Aおよび7Bは、テーブルセルの例を示し、それらは、
白い輪郭と枠の輪郭に対応する。
【0035】例えば、図7Aは白い輪郭のトレースが実
行された後の「空」のテーブルセル603の内部を示
す。図7Aに示されるように、テーブルセル603の中
に単一の白い輪郭610が存在する。なお、白い輪郭6
10はテーブルセル603のそれぞれの縁に直接隣接す
る、または、連結成分が、セルの中に存在する場合、白
い輪郭610は連結成分に隣接する。同様に図7Bは、
独立した連結成分604を含むテーブルセル601の中
のトレースされた白い輪郭610を示す。
【0036】図7Cは、トレースされた白い輪郭610
を示し、テーブルセル602の中の704、706は付
着した連結成分606および607と、独立した連結成
分605の両方を含んでいる。また、図7Cは、排他的
なエリアに周囲を囲まれた白い輪郭の中の上述した方法
のトレース結果を示す。結果として、トレース後、別の
白い輪郭の中に白い輪郭は存在しない。
【0037】テーブル500に戻って、それぞれの白い
輪郭の中の連結成分は、矩形化およびそれぞれのセルの
中の独立した連結成分を識別とする為に上述したように
トレースされる。この動作が実行された後、階層的ツリ
ー構造は独立した連結成分を表すノードについて更新さ
れる。
【0038】しかしながら、それぞれの白い輪郭の中の
連結成分をトレースしている時、本発明は、図7Cに示
されるテーブルセル602の構成要素606のような付
着した連結成分をトレースし識別することはできない。
特に、上述した輪郭のトレース方法は、テーブルセル6
02に付着した連結成分606の辺をトレースすること
はできない。付着した連結成分606は適切にトレース
できないので、矩形化できず、識別もできず、ノードに
よって表すこともできない。
【0039】したがって、テーブルセルの中に付着した
テキストデータが存在するかどうか識別する為に、初期
の矩形エリアが定義される。例えば、テーブルセル60
3の中に独立した連結成分が無いときは、初期の矩形エ
リアは図8Aに示されるように定義される。特に、矩形
エリアとして定義される矩形エリア801は、枠の輪郭
708の水平方向の中間点に対して左右に面を置かれ、
枠の輪郭708の天の1画素下から枠の輪郭708の底
の1画素上まで伸ばされる。
【0040】独立した連結成分がテーブルセルの中に存
在する場合、識別された連結成分は、枠の輪郭708に
関して上述したように矩形化され、それによって、全て
の独立した連結成分に外接する矩形が生成される。
【0041】図8Bに例を示す、テーブルセル602の
中の文字列「ABC hij」のそれぞれが、テーブル
セル602に接すると仮定する。この場合、外接矩形エ
リア802の面積は、閾値X2と比較される。エリアの
面積が閾値X2よりも小さい場合、外接矩形802のそ
れぞれの辺は、黒画素を含んでいる行または列に達する
まで拡張される。それらの辺は、一つずつまたは同時に
拡張することができる。図8Bに示されるように、枠の
輪郭708から指定の距離において、黒画素に出会った
辺は、その最初の位置にとどまる。初期の矩形エリア
は、結果矩形804として定義される。
【0042】テーブルセル602に戻り、外接矩形エリ
アの面積が、あらかじめ決められた閾値X2よりも大き
い場合、初期の矩形エリアは、図8Cに示されるような
外接矩形エリア805として定義される。
【0043】一旦、初期の矩形エリアが定義されると、
そのエリアは、テーブルセル602の中に位置する付着
した連結成分を含むように拡張される。
【0044】初期の矩形を拡張する為に行または列方向
の全体が初期の矩形エリアのある辺に直接隣接する探索
エリアが定義される。例えば、図9に示されるように、
探索エリア901は、初期の矩形エリア805に隣接し
ていると定義される。
【0045】一旦、探索エリアが定義されると探索エリ
アの画素はそれぞれ検査される。いくつかの黒画素が探
索エリアに存在する場合、初期の矩形エリア805は、
探索エリアを含むように拡張される。図9Bに示される
ように、付着した連結成分606の為に、初期の矩形エ
リア805の左側の辺が、探索エリア901を含むよう
に拡張される。
【0046】黒画素が探索エリアで検出されず、かつ、
探索エリアと初期の矩形エリア805に対向する枠の輪
郭708の境界978との間の距離があらかじめ決めら
れた距離X3よりも大きい場合、探索エリアは再定義さ
れる。
【0047】探索エリアは、前の探索エリアに隣接する
画素グループとして、前述した枠の輪郭708に向かっ
て再定義される。それから処理は上述のようにつづけら
れる。
【0048】黒画素が探索エリアの中で検出されず、か
つ、境界928までの距離が距離X3に等しいかまたは
小さい場合、連結成分はテーブルセル602のこちら側
には付着していないと仮定される。拡張された矩形の全
ての辺が検査されていないのであれば、新しい探索エリ
アは、画素の行または列方向が初期の矩形エリア805
の別の辺に直接隣接する新たな探索エリアが定義され、
上記の処理が繰り返される。なお、本発明の別の面によ
れば、それぞれの辺は同時に拡張される。図9Dは、テ
ーブルセル602および上記の拡張プロセスが完了した
後の拡張された文字エリア910を示す。
【0049】さらに、上記の拡張処理が完了した後、初
期の矩形エリアは今、 枠の輪郭708の境界上にある
黒画素を含む枠の輪郭708の中にある黒画素を含む。
さらに、この処理の作用によって、拡張された矩形エリ
ア910は、テーブルセル602の中にある付着した連
結成分と独立した連結成分のすべてを含んでいるもっと
も小さい矩形になる。
【0050】拡張された矩形エリア910およびテーブ
ルセル602の中の白い輪郭は、拡張されたテキストエ
リア910の中の黒画素のグループを結合するために使
われる。黒画素は付着した連結成分を抽出するために結
合される。
【0051】黒画素を結合するために、拡張された文字
エリア910の最初の行1001が選択される。選択さ
れた行1001のなかにある境界画素が識別される。境
界画素は選択された白い輪郭の境界上にある特定の行の
すべての画素である。例えば、行1002の画素w1、
w2、w3、w4は境界画素である。
【0052】識別された境界画素は、テーブルセル60
2の左端から連続的に番号が付けられる。それぞれの白
い輪郭が現在選択された行について解析されると、次の
行が解析される。そうでなければ、他の白い輪郭が選択
される。一つ以上の白い輪郭の境界画素が単一の行にあ
る場合、それらの境界画素には、その行の境界画素に割
り当てられた最後の番号から連続的に番号が付けられ
る。例えば、行1002の場合、境界画素w1、w2、
w3とw4が白い輪郭704の解析の間に識別される。
その後、2つの境界画素が白い輪郭704に対応すると
識別される。これらの境界画素はそれぞれ番号を付けら
れたw5とw6である。なお、このナンバリング体系は
単一の行にある境界画素にだけ適用され、そして境界線
画素のナンバリングは新しい行が分析されるたびにw1
にリセットされる。
【0053】新しい行が解析される前に、黒い境界画素
が識別される。黒い画素は、拡張された矩形エリア91
0の上にある選択された行の黒画素である。例えば、行
1001が選択されると、黒画素Pが識別される。
【0054】一旦、セル602の中の境界画素と黒い境
界画素とが識別されると、偶数番号と奇数番号の境界画
素間にある黒画素が検出される。例えば、図10Bに示
されるように、黒画素は行1002の境界画素w2とw
5間、境界画素w6とw3の間で検出される。加えて、
行1008の中では、境界画素w2とw3間で黒画素
が、検出される。このようにして拡張された文字エリア
910の各行について黒画素が検出される。
【0055】本発明は、それから、偶数番号の境界画素
と黒い境界画素間にある黒画素を検出する。例えば、行
1001の画素w2と黒い境界画素Pの間にある黒画素
が検出される。同様に、黒い境界画素と奇数番号の境界
画素間にある黒画素が検出される。
【0056】検出された黒画素それぞれは、付着した連
結成分を形成するために一まとめにグループ化される。
例えば、図10Bで、隣接した黒画素は、付着した連結
成分「A」を形成するために一まとめにグループ化され
る。
【0057】形成された付着した連結成分は、それが水
平線であるかどうか決定するために調べられる。従っ
て、構成要素の高さがあらかじめ決められた閾値X4よ
りも小さく、かつ、その構成要素の縦横の比があらかじ
め決められた閾値X5より大きい場合、その構成要素は
水平線であると指定される。
【0058】同様に、構成要素の幅があらかじめ決めら
れた閾値X6よりも小さく、かつ、その構成要素の縦横
の比があらかじめ決められた閾値X7よりも大きいと
き、その構成要素は垂直線であると指定される。
【0059】構成要素の高さまたは幅があらかじめ決め
られた閾値X8より小さく、かつ、すべてのテキスト連
結成分の天、底または左右のいずれかの辺に、その構成
要素が一致する場合、その構成要素はテーブルセル60
2の一部に指定される。
【0060】最終的に、構成要素は、その行または列に
他の構成要素が置かれているかどうかを決定するために
解析される。構成要素の行または列は、水平および垂直
線ついて上述したように検査される。構成要素の列また
は行が垂直または水平線のどちらかの基準を満たすな
ら、その構成要素は破線で示される。
【0061】上記の4つの基準が満たされない場合、付
着した連結成分はテキスト成分であると仮定される。し
たがって、付着したテキスト606を表すノードが生成
される。
【0062】このようにして、テーブルセル602の中
のテキストはOCRシステムで自動的に処理することが
できるようになる。その後、キーボード313とマウス
314を利用して、ディスク311に記憶されたワード
プロセッシングアプリケーションにより、そのテキスト
はさらに処理することができるようになり、そして完全
なドキュメント画像をプリンタ318を使って出力する
ことができる。 付着したテキスト/文字データを識別
し、抽出する操作を図11A、11B、11C、11D
のフローチャートと図5から図10に基づき詳細に説明
する。
【0063】ステップS1101で、ドキュメント画像
の連結成分がトレースされる。上述したように、そして
図5Aに示されるように、テーブル500を識別するた
めに、テーブル500の外側の黒画素がトレースされ
る。テーブル500のトレース後、トレース結果は、ト
レースされた構成要素の大きさが、トレースした成分が
テーブルであることを表すあらかじめ決められた閾値の
大きさに等しいかまたは大きいかどうかを決定する為の
ステップS1102で用いられる。テーブル500の大
きさはそのあらかじめ決められた閾値より大きいと決定
された場合、そして画像の識別のステップS1103に
進み、ここで、テーブル500の中の白い輪郭610が
トレースされる。
【0064】ステップS1104で、トレースされた連
結成分の中の白い輪郭の数が、あらかじめ決められた数
より小さいならば、その連結成分はテーブルではない。
しかし、テーブル500の中の白い輪郭610の数があ
らかじめ決められた数より大きければ、フローは、テー
ブル500がテーブルであるかどうか決定する為にステ
ップS1104からステップS1105に進む。
【0065】ステップS1105で、図7に示され、符
号708で示される枠の輪郭を形成するために、白い輪
郭はグループ化され矩形化される。ステップS1106
で、白い輪郭がグループ化される頻度が、あらかじめ決
められたレートより小さい場合、その白い輪郭を含んで
いる連結成分はテーブルであると決定される。テーブル
500の場合、その白い輪郭610のグループ化レート
が小さい為、テーブル500はテーブルであると決定さ
れる。フローは、それからステップS1107に進む。
【0066】ステップS1107で、テーブル500の
各セルの白い輪郭の中の独立した連結成分が、トレース
される。一旦、これらの成分がトレースされると、それ
らの成分を表すノードが生成され、階層的ツリー構造の
中の独立した連結成分を含む白い輪郭を表すノードから
下った位置にそれらのノードが配置される。この時点
で、階層的ツリー構造はテーブル500の中の付着した
連結成分を表すノードを含んでいない。
【0067】従って、ステップS1109で、独立した
連結成分が存在しないと判定されるならば、フローはス
テップS1110に進み、図8Aに示されるように、初
期の矩形エリアが、定義される。
【0068】しかし、ステップS1109で独立した連
結成分が存在すると判定される場合、フローは、ステッ
プS1109からステップS1111に進む。ステップ
S1111で、独立した連結成分は、図8Bと8Cの矩
形802と805のような外接矩形を形成する為に矩形
化される。その後、外接矩形の面積は、ステップS11
12において閾値X2と比較される。
【0069】図8Bの矩形802の場合のように外接矩
形の面積がX2より小さい場合、外接矩形802の各辺
は黒い画素を含んでいる行または列に届くまで拡張され
る。フローはステップS1114に進み、そこで、枠の
輪郭708から指定された距離までに黒画素に出会わな
かった辺は、その最初の位置にとどまり、そして初期の
矩形のエリアは結果として矩形804が定義される。
【0070】矩形805の場合のように、外接矩形の面
積があらかじめ決められた閾値の値X2より大きい場
合、フローはステップS1115へ進み、そこで、初期
の矩形エリアは外接矩形805が定義される。
【0071】上記ステップに従って定義された初期の矩
形エリアは、枠の中で独立した連結成分および付着した
連結成分の周りを囲む拡張された矩形エリアを生成する
為に使われる。
【0072】従って、ステップS1116で、探索エリ
アは、初期の矩形エリアのある辺に行または列の全体が
直接隣接するように定義される。例えば、図9Aは、探
索エリア901が初期の矩形エリア805に隣接してい
ることを示す。
【0073】探索エリア901の中の画素は、ステップ
S1117で検査される。黒画素が探索エリアに存在す
るならば、フローはステップS1119へ進み、そこ
で、初期の矩形エリア805は探索エリア901を含む
ように拡張される。例えば、付着した連結成分606の
為に、初期の矩形エリア805の左辺は、探索エリア9
01を含む為に図9Bのように拡張される。
【0074】フローは、ステップS1120へ進み、そ
こで、探索エリア901は、その中の画素が初期の矩形
エリア805に対向する枠の輪郭708の境界978の
上にあるかが検査される。そうであるならば、フローは
ステップS1124へ進む。そうでなければ、フローは
ステップS1121へ進み、そこで、図9Cに示される
ように、探索エリアは前の探索エリアから枠の輪郭70
8の境界978に向かって、前の検出エリアに隣接する
画素902のグループになるように再定義される。フロ
ーは、それからステップS1117に進み、上述の処理
を継続する。
【0075】他方、黒画素がステップS1117で検出
されないならば、フローはステップS1122に進み、
そこで、探索エリアと初期の矩形エリア805に対向す
る枠の輪郭708の境界970との間の距離が、あらか
じめ決められた距離X3と比較される。その距離がX3
より大きいなら、フローはステップS1123に進む。
ステップS1123で、探索エリアは、ステップS11
21に関して上述したように再定義される。フローはス
テップS1117に戻って、そして上述の処理を継続す
る。
【0076】ステップS1122において、その距離が
距離X3より小さいかまたは等しいならば、連結成分は
テーブルセル502のこの辺に付着していないと仮定さ
れ、フローはステップS1124に進む。初期の矩形エ
リア805の4つの辺のそれぞれに隣接している画素が
検査されていない場合、フローはステップS1116に
戻り、そこで新しい探索エリアに、オリジナルの初期の
矩形エリア805の別の辺に直接隣接する画素の行ある
いは列として定義される。そうでなければ、フローはそ
れからステップS1124からステップS1125へ進
む。ここで、図9Dに示されるように、初期の矩形エリ
ア805が、テーブルセル502の中のすべての付着し
た連結成分を含むように拡張される。
【0077】拡張された文字エリア910の最初の行1
001がステップS1126で解析のために選択され
る。それから、ステップS1127で、枠の輪郭708
の中の白い輪郭が解析のために選択される。ステップS
1129で、選択された行1001にある境界画素が識
別される。境界画素は、選択された白い輪郭の境界の上
にある特定の行の全ての画素である。例えば図10Aに
おいて、行1002の画素w1、w2、w3およびw4
は境界画素である。
【0078】次に、ステップS1130で、識別された
境界画素はテーブルセル502の左を端から連続的に番
号を付けられる。ステップS1131で、それぞれの白
い輪郭が、現在の選択行について解析されたと判断され
ると、フローはステップS1134に進む。そうでなけ
れば、フローはステップS1132に進み、そこで、の
中で別の白い輪郭が選択される。フローはそれからステ
ップS1129に戻り、上述した処理を行う。
【0079】ステップS1130で単一の行の解析が繰
り返されている場合、識別された境界画素には、その行
の境界画素に割り当てられた最後の番号に続く番号が連
続的につけられる。例えば図10Aにおいて、行100
2の場合、境界画素w1,w2,w3,w4は、白い輪
郭610を解析している間に識別される。その後、二つ
の境界画素は、白い輪郭704に対応して識別される。
これらの境界画素には、それぞれw5,w6の番号がつ
けられる。
【0080】上述したように、ステップS1134は、
すべての白い輪郭が単一の行に関して解析されたならば
実行される。ステップS1134は、拡張された矩形エ
リア910にある選択行の黒画素を含む黒い境界画素が
識別される。例えば、行1006が選択されたとき、黒
画素Pが識別される。
【0081】拡張された矩形エリア910のすべての行
が解析されていないならば、フローはステップS113
5からS1136へ進み、そこで、拡張された矩形エリ
ア910の次の行が選択され、フローはステップS11
27へ戻る。他方、ステップS1135において、解析
された最後の行が拡張された矩形エリア910の一番下
の行1004であったならば、フローはステップS11
37へ進み、各行の境界画素が解析される。特に、単一
の行の偶数番号と奇数番号の境界画素間にある黒画素が
検出される。図10Bに示すように、行1002の境界
画素w2とw5間および境界画素w6とw3間で黒画素
が検出される。さらに、行1006において境界画素w
2とw3間の黒画素が検出される。このようにして、拡
張された矩形エリア910の各行の黒画素が検出され
る。
【0082】ステップS1138で、偶数番号の境界画
素と黒い境界画素間にある黒画素が検出される。例え
ば、行1001の画素w2と黒い境界画素Pの間にある
黒画素が検出される。同様に、ステップS1138で、
黒い境界画素と奇数番号の境界画素間にあるいくつかの
黒画素が検出される。
【0083】ステップS1137とステップS1138
で検出された全ての隣接する黒画素は、ステップS11
39で付着した連結成分を形成するために一まとめにグ
ループ化される。例えば、図10Bにおいては、隣接す
る黒画素は、付着した連結成分「A」を形成するために
一まとめにグループ化される。一旦、各付着した連結成
分の各黒画素がグループ化され、ステップS1139で
形成された付着した連続した成分は、それらがテキスト
成分かどうか決定する為に検査される。
【0084】ステップS1140において、付着した連
結成分は、それが水平線かどうか決定する為に検査され
る。従って、その構成要素の高さがあらかじめ決められ
た閾値X4よりも小さく、かつ、その構成要素の縦横の
比があらかじめ決められた閾値X5よりも大きい場合
は、フローはステップS1141に進み、そこで、その
構成要素が水平線として指定される。フローはステップ
S1150に進む。
【0085】付着した連結成分が、ステップS1140
の基準を満たさないならば、フローはステップS114
2に進み、そこで、その付着した連結成分が、垂直線か
どうか決定する為に検査される。従って、その構成要素
の幅があらかじめ決められた閾値X6よりも小さく、か
つ、その構成要素の縦横の比があらかじめ決められた閾
値X7よりも大きい場合は、フローはステップS114
4に進む。ステップS1144は、その構成要素は、垂
直線として指定され、フローはステップS1150に進
む。
【0086】ステップS1145は、その成分がテーブ
ルセル502の一部かどうかを決定する。従って、ステ
ップS1145で、その成分の高さまたは幅があらかじ
め決められた閾値X8よりも小さく、かつ、その成分が
天、底、または枠の中の全てのテキスト連結成分の左右
どちらかの辺と同じ場合、フローはステップS1146
に進み、そこで、その成分は、テーブルセル502の一
部として指定され、フローはステップS1150に進
む。
【0087】ステップS1147で、ほかの成分がその
行または列に位置するかどうか決定するためにその成分
は解析される。他の成分が位置するならば、成分の行ま
たは列が、水平および垂直線について、上述したように
検査される。その成分の行または列が、水平または垂直
線のいずれかの基準を満たすならば、その成分は、ステ
ップS1148の中で破線の一部として指定される。フ
ローはそれから、ステップS1120に進む。
【0088】ステップS1140、S1142、S11
45またはS1147で示した必要条件が満たされない
ならば、ステップS1149で、付着した連結成分はテ
キスト成分であると仮定される。従って、独立テキスト
606を表すノードが生成される。
【0089】フローは、それから、ステップS1150
に進み、テーブルセル502の中に未解析の付着した連
結成分があるならば、フローはステップS1140に戻
る。全ての付着した連結成分が解析されたならば、本発
明のフローは終了する。
【0090】なお、本発明は、いくつかのページ解析シ
ステムを一まとめにしてもよく、上記したブロックセレ
クション技法に制限されない。さらに、本発明は、装飾
用の境界線などのように、枠がテーブルのセルを表すか
どうかにかかわらず、外接する枠に付着したテキストデ
ータを識別し、抽出するために利用することができる。
【0091】本発明に関して、現状を考慮した好ましい
実施形態を上述したが、本発明は、上記の実施形態に制
限されるものではない。
【0092】反対に、本発明は様々な変形をカバーする
ように意図され、それと等しい構成が特許請求の範囲お
よびその精神に含まれている。
【0093】
【他の実施形態】なお、本発明は、複数の機器(例えば
ホストコンピュータ,インタフェイス機器,リーダ,プ
リンタなど)から構成されるシステムに適用しても、一
つの機器からなる装置(例えば、複写機,ファクシミリ
装置など)に適用してもよい。
【0094】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ(またはCPUやM
PU)が記憶媒体に格納されたプログラムコードを読出し
実行することによっても、達成されることは言うまでも
ない。この場合、記憶媒体から読出されたプログラムコ
ード自体が前述した実施形態の機能を実現することにな
り、そのプログラムコードを記憶した記憶媒体は本発明
を構成することになる。プログラムコードを供給するた
めの記憶媒体としては、例えば、フロッピディスク,ハ
ードディスク,光ディスク,光磁気ディスク,CD-ROM,
CD-R,CD-R/W,DVD-ROM,DVD-RAM,磁気テープ,不揮発
性のメモリカード,ROMなどを用いることができる。
【0095】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているOS(オペレー
ティングシステム)などが実際の処理の一部または全部
を行い、その処理によって前述した実施形態の機能が実
現される場合も含まれることは言うまでもない。
【0096】さらに、記憶媒体から読出されたプログラ
ムコードが、コンピュータに挿入された機能拡張カード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張カードや機能拡張ユニットに備わ
るCPUなどが実際の処理の一部または全部を行い、その
処理によって前述した実施形態の機能が実現される場合
も含まれることは言うまでもない。
【0097】
【発明の効果】以上説明したように、本発明によれば、
テーブルセルの枠に付着したテキストデータを識別し抽
出する為の情報処理装置およびその方法を提供すること
ができる。
【0098】
【図面の簡単な説明】
【図1】ドキュメントページの概要を示す図、
【図2】ブロックセレクション技法によって作られた階
層的ツリー構造の概要を示す図、
【図3】本発明にかかる一実施形態の情報処理システム
の構成例を示す図、
【図4】本発明にかかる一実施形態の情報処理装置の構
成例を示すブロック図、
【図5A】連結成分の輪郭トレースを説明するための
図、
【図5B】連結成分の輪郭トレースを説明するための
図、
【図6】解析されるドキュメントの中のテーブルの概要
を示す図、
【図7A】白い輪郭のトレースを説明するための図、
【図7B】白い輪郭のトレースを説明するための図、
【図7C】白い輪郭のトレースを説明するための図、
【図8A】初期の矩形エリアを定義する方法を説明する
ための図、
【図8B】初期の矩形エリアを定義する方法を説明する
ための図、
【図8C】初期の矩形エリアを定義する方法を説明する
ための図、
【図9A】初期の矩形エリアを拡張する方法を説明する
ための図、
【図9B】初期の矩形エリアを拡張する方法を説明する
ための図、
【図9C】初期の矩形エリアを拡張する方法を説明する
ための図、
【図9D】初期の矩形エリアを拡張する方法を説明する
ための図、
【図10A】付着した連結成分を形成するための黒画素
をグループ化する方法を説明するための図、
【図10B】付着した連結成分を形成するための黒画素
をグループ化する方法を説明するための図、
【図11A】連結成分に付着したテキストを識別し抽出
するための方法を示すフローチャート、
【図11B】連結成分に付着したテキストを識別し抽出
するための方法を示すフローチャート、
【図11C】連結成分に付着したテキストを識別し抽出
するための方法を示すフローチャート、
【図11D】連結成分に付着したテキストを識別し抽出
するための方法を示すフローチャートである。

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】 入力ドキュメントの画像データを解析し
    て、前記ドキュメントに含まれるテーブルの枠に付着す
    るテキスト成分を認識する情報処理方法であって、 前記ドキュメントの画像データに含まれる連結成分をト
    レースする第一のトレーシングステップと、 前記連結成分内の白輪郭をトレースする第二のトレーシ
    ングステップと、 トレースされた白輪郭に基づき前記枠の輪郭を定義する
    第一の定義ステップと、 前記枠の輪郭内において、前記枠に付着していない非付
    着連結成分を識別する第一の識別ステップと、 前記枠の輪郭内に初期矩形エリアを定義する第二の定義
    ステップと、 水平および垂直方向に、前記初期矩形エリアから黒画素
    を検出して、拡張文字エリアを生成する検出ステップ
    と、 前記拡張文字エリア内にある境界画素の位置を定める位
    置決めステップと、 前記拡張文字エリア内の境界画素の間に位置する黒画素
    を識別する第二の識別ステップと、 前記拡張文字エリア内の境界画素の間に位置する黒画素
    を連結して少なくとも一つの連結成分を形成する連結ス
    テップと、 前記少なくとも一つの連結成分をテキスト成分として認
    識する認識ステップとを有することを特徴とする情報処
    理方法。
  2. 【請求項2】 前記第一の定義ステップは、前記トレー
    スされた白輪郭をグループ化し矩形化することにより前
    記枠の輪郭を定義することを特徴とする請求項1に記載
    された情報処理方法。
  3. 【請求項3】 前記第二の定義ステップは、前記第一の
    識別ステップにおいて、非付着連結成分が識別された場
    合はその非付着連結成分に基づく初期矩形エリアを定義
    し、非付着連結成分が識別されなかった場合は前記白輪
    郭に基づく初期矩形エリアを定義し、小さな非付着連結
    成分が識別された場合は前記白輪郭および前記非付着連
    結成分から前記枠の輪郭のエッジまでの距離に基づく初
    期矩形エリアを定義するステップを有し、 前記小さな非付着連結成分は第二の所定値より小さい面
    積を有することを特徴とする請求項1に記載された情報
    処理方法。
  4. 【請求項4】 前記認識ステップは、次の四つの条件が
    満たされる場合に、前記少なくとも一つの連結成分をテ
    キスト成分として認識する、それらの条件は、 (1)前記少なくとも一つの連結成分の高さが第三の所定
    値以上、または、前記少なくとも一つの連結成分の縦横
    比が第四の所定値以下である、 (2)前記少なくとも一つの連結成分の幅が第五の所定値
    以上、または、前記縦横比が第六の所定値以下である、 (3)前記少なくとも一つの連結成分の幅または高さが第
    七の所定値を超える、または、前記少なくとも一つの連
    結成分が非付着連結成分ともう一つの非付着連結成分と
    の間にある、および、 (4)連結成分のグループが、前記少なくとも一つの連結
    成分と、同じ行または列が前記条件(1)および(2)を満た
    す他の連結成分とを含むことを特徴とする請求項1に記
    載された情報処理方法。
  5. 【請求項5】 さらに、前記拡張文字エリアに対応し、
    前記少なくとも一つの連結成分および識別された非付着
    連結成分の両方を含む階層ツリー構造の文字ノードを定
    義する第三の定義ステップを有することを特徴とする請
    求項1から請求項4の何れかに記載された情報処理方法。
  6. 【請求項6】 入力ドキュメントの画像データを解析し
    て、前記ドキュメントに含まれるテーブルの枠に付着す
    る連結成分がテキスト成分か否かを決定する情報処理方
    法であって、 前記枠内に初期矩形エリアを定義する第一の定義ステッ
    プと、 水平および垂直方向に、前記初期矩形エリアから黒画素
    を検出して、拡張文字エリアを生成する検出ステップ
    と、 前記拡張文字エリア内にある境界画素の位置を定める位
    置決めステップと、 前記拡張文字エリア内の境界画素の間に位置する黒画素
    を識別する第一の識別ステップと、 前記拡張文字エリア内の境界画素の間に位置する黒画素
    を連結して少なくとも一つの連結成分を形成する連結ス
    テップと、 所定のしきい値に基づき、前記少なくとも一つの連結成
    分をテキスト成分として認識する認識ステップとを有す
    ることを特徴とする情報処理方法。
  7. 【請求項7】 さらに、前記拡張文字エリア内にある黒
    い境界画素の位置を定めるステップを有することを特徴
    とする請求項6に記載された情報処理方法。
  8. 【請求項8】 前記第一の識別ステップは、前記拡張文
    字エリア内の黒い境界画素および白輪郭の境界画素の間
    に位置する黒画素も識別することを特徴とする請求項6
    に記載された情報処理方法。
  9. 【請求項9】 前記連結ステップは、前記拡張文字エリ
    ア内の黒い境界画素および白輪郭の境界画素の間に位置
    する黒画素を連結して、少なくとも一つの連結成分を形
    成することを特徴とする請求項7に記載された情報処理
    方法。
  10. 【請求項10】 前記第一の定義ステップは、 前記枠内の白輪郭をトレースするトレーシングステップ
    と、 トレースされた白輪郭に基づく枠の輪郭を定義する第二
    定義ステップと、 前記枠の輪郭内において、前記枠に付着していない非付
    着連結成分を識別する第二の識別ステップと、 前記初期矩形エリアを定義する第三の定義ステップとを
    有することを特徴とする請求項6に記載された情報処理
    方法。
  11. 【請求項11】 前記第二の定義ステップは、トレース
    された白い輪郭をグループ化し、矩形化することにより
    枠の輪郭を定義することを特徴とする請求項10に記載さ
    れた情報処理方法。
  12. 【請求項12】 前記第三の定義ステップは、前記第二
    の識別ステップにおいて、非付着連結成分が識別された
    場合はその非付着連結成分に基づく初期矩形エリアを定
    義し、非付着連結成分が識別されなかった場合は前記白
    輪郭に基づく初期矩形エリアを定義し、小さな非付着連
    結成分が識別された場合は前記白輪郭および前記非付着
    連結成分から前記枠の輪郭のエッジまでの距離に基づく
    初期矩形エリアを定義するステップを有し、 前記小さな非付着連結成分は所定のしきい値より小さい
    面積を有することを特徴とする請求項10に記載された情
    報処理方法。
  13. 【請求項13】 前記認識ステップは、次の四つの条件
    が満たされる場合に、前記少なくとも一つの連結成分を
    テキスト成分として認識する、それらの条件は、 (1)前記少なくとも一つの連結成分の高さが第三の所定
    値以上、または、前記少なくとも一つの連結成分の縦横
    比が第四の所定値以下である、 (2)前記少なくとも一つの連結成分の幅が第五の所定値
    以上、または、前記縦横比が第六の所定値以下である、 (3)前記少なくとも一つの連結成分の幅または高さが第
    七の所定値を超える、または、前記少なくとも一つの連
    結成分が非付着連結成分ともう一つの非付着連結成分と
    の間にある、および、 (4)連結成分のグループが、前記少なくとも一つの連結
    成分と、同じ行または列が前記条件(1)および(2)を満た
    す他の連結成分とを含むことを特徴とする請求項6に記
    載された情報処理方法。
  14. 【請求項14】 入力ドキュメントの画像データを解析
    して、前記ドキュメントに含まれるテーブルの枠に付着
    するテキスト成分を認識する情報処理装置であって、 前記ドキュメントの画像データに含まれる連結成分をト
    レースする第一のトレーシング手段と、 前記連結成分内の白輪郭をトレースする第二のトレーシ
    ング手段と、 トレースされた白輪郭に基づき前記枠の輪郭を定義する
    第一の定義手段と、 前記枠の輪郭内において、前記枠に付着していない非付
    着連結成分を識別する第一の識別手段と、 前記枠の輪郭内に初期矩形エリアを定義する第二の定義
    手段と、 水平および垂直方向に、前記初期矩形エリアから黒画素
    を検出して、拡張文字エリアを生成する検出手段と、 前記拡張文字エリア内にある境界画素の位置を定める位
    置決め手段と、 前記拡張文字エリア内の境界画素の間に位置する黒画素
    を識別する第二の識別手段と、 前記拡張文字エリア内の境界画素の間に位置する黒画素
    を連結して少なくとも一つの連結成分を形成する連結手
    段と、 前記少なくとも一つの連結成分をテキスト成分として認
    識する認識手段とを有することを特徴とする情報処理装
    置。
  15. 【請求項15】 入力ドキュメントの画像データを解析
    して、前記ドキュメントに含まれるテーブルの枠に付着
    する連結成分がテキスト成分か否かを決定する情報処理
    装置であって、 前記枠内に初期矩形エリアを定義する第一の定義手段
    と、 水平および垂直方向に、前記初期矩形エリアから黒画素
    を検出して、拡張文字エリアを生成する検出手段と、 前記拡張文字エリア内にある境界画素の位置を定める位
    置決め手段と、 前記拡張文字エリア内の境界画素の間に位置する黒画素
    を識別する第一の識別手段と、 前記拡張文字エリア内の境界画素の間に位置する黒画素
    を連結して少なくとも一つの連結成分を形成する連結手
    段と、 所定のしきい値に基づき、前記少なくとも一つの連結成
    分をテキスト成分として認識する認識手段とを有するこ
    とを特徴とする情報処理装置。
  16. 【請求項16】 入力ドキュメントの画像データを解析
    して、前記ドキュメントに含まれるテーブルの枠に付着
    するテキスト成分を認識する情報処理のプログラムコー
    ドが記録された記録媒体であって、 前記ドキュメントの画像データに含まれる連結成分をト
    レースする第一のトレーシングステップのコードと、 前記連結成分内の白輪郭をトレースする第二のトレーシ
    ングステップのコードと、 トレースされた白輪郭に基づき前記枠の輪郭を定義する
    第一の定義ステップのコードと、 前記枠の輪郭内において、前記枠に付着していない非付
    着連結成分を識別する第一の識別ステップのコードと、 前記枠の輪郭内に初期矩形エリアを定義する第二の定義
    ステップのコードと、 水平および垂直方向に、前記初期矩形エリアから黒画素
    を検出して、拡張文字エリアを生成する検出ステップの
    コードと、 前記拡張文字エリア内にある境界画素の位置を定める位
    置決めステップのコードと、 前記拡張文字エリア内の境界画素の間に位置する黒画素
    を識別する第二の識別ステップのコードと、 前記拡張文字エリア内の境界画素の間に位置する黒画素
    を連結して少なくとも一つの連結成分を形成する連結ス
    テップのコードと、 前記少なくとも一つの連結成分をテキスト成分として認
    識する認識ステップのコードとを有することを特徴とす
    る記録媒体。
  17. 【請求項17】 入力ドキュメントの画像データを解析
    して、前記ドキュメントに含まれるテーブルの枠に付着
    する連結成分がテキスト成分か否かを決定する情報処理
    のプログラムコードが記録された記録媒体であって、 前記枠内に初期矩形エリアを定義する第一の定義ステッ
    プのコードと、 水平および垂直方向に、前記初期矩形エリアから黒画素
    を検出して、拡張文字エリアを生成する検出ステップの
    コードと、 前記拡張文字エリア内にある境界画素の位置を定める位
    置決めステップコードと、 前記拡張文字エリア内の境界画素の間に位置する黒画素
    を識別する第一の識別ステップのコードと、 前記拡張文字エリア内の境界画素の間に位置する黒画素
    を連結して少なくとも一つの連結成分を形成する連結ス
    テップのコードと、 所定のしきい値に基づき、前記少なくとも一つの連結成
    分をテキスト成分として認識する認識ステップのコード
    とを有することを特徴とする記録媒体。
JP16020597A 1996-06-17 1997-06-17 情報処理装置およびその方法 Expired - Fee Related JP4077904B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/664675 1996-06-17
US08/664,675 US6157738A (en) 1996-06-17 1996-06-17 System for extracting attached text

Publications (2)

Publication Number Publication Date
JPH1083431A true JPH1083431A (ja) 1998-03-31
JP4077904B2 JP4077904B2 (ja) 2008-04-23

Family

ID=24666972

Family Applications (1)

Application Number Title Priority Date Filing Date
JP16020597A Expired - Fee Related JP4077904B2 (ja) 1996-06-17 1997-06-17 情報処理装置およびその方法

Country Status (4)

Country Link
US (1) US6157738A (ja)
EP (1) EP0814422B1 (ja)
JP (1) JP4077904B2 (ja)
DE (1) DE69718243T2 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6112216A (en) * 1997-12-19 2000-08-29 Microsoft Corporation Method and system for editing a table in a document
US6330357B1 (en) * 1999-04-07 2001-12-11 Raf Technology, Inc. Extracting user data from a scanned image of a pre-printed form
JP3204259B2 (ja) * 1999-10-06 2001-09-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字列抽出方法、手書き文字列抽出方法、文字列抽出装置、および画像処理装置
JP3425408B2 (ja) * 2000-05-31 2003-07-14 株式会社東芝 文書読取装置
DE60109278T2 (de) * 2001-06-26 2006-03-30 Nokia Corp. Verfahren und Gerät zur Lokalisierung von Schriftzeichen in Bildern aus einer Digitalkamera
JP2004088585A (ja) * 2002-08-28 2004-03-18 Fuji Xerox Co Ltd 画像処理システムおよびその方法
JP4897520B2 (ja) * 2006-03-20 2012-03-14 株式会社リコー 情報配信システム
US20070253615A1 (en) * 2006-04-26 2007-11-01 Yuan-Hsiang Chang Method and system for banknote recognition
US8331680B2 (en) * 2008-06-23 2012-12-11 International Business Machines Corporation Method of gray-level optical segmentation and isolation using incremental connected components
CN102314608A (zh) * 2010-06-30 2012-01-11 汉王科技股份有限公司 文字图像中行提取的方法和装置
US20130163871A1 (en) * 2011-12-22 2013-06-27 General Electric Company System and method for segmenting image data to identify a character-of-interest
US9842281B2 (en) * 2014-06-05 2017-12-12 Xerox Corporation System for automated text and halftone segmentation
US20160055376A1 (en) * 2014-06-21 2016-02-25 iQG DBA iQGATEWAY LLC Method and system for identification and extraction of data from structured documents
CN104268545B (zh) * 2014-09-15 2017-09-29 同方知网(北京)技术有限公司 一种电子档版式文件中的表格区域识别与内容栅格化方法
JP6173542B1 (ja) * 2016-08-10 2017-08-02 株式会社Pfu 画像処理装置、画像処理方法、および、プログラム
CN113221778B (zh) * 2021-05-19 2022-05-10 北京航空航天大学杭州创新研究院 手写表格的检测与识别方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4377803A (en) * 1980-07-02 1983-03-22 International Business Machines Corporation Algorithm for the segmentation of printed fixed pitch documents
JPS63268081A (ja) * 1987-04-17 1988-11-04 インタ−ナショナル・ビジネス・マシ−ンズ・コ−ポレ−ション 文書の文字を認識する方法及び装置
US5588072A (en) * 1993-12-22 1996-12-24 Canon Kabushiki Kaisha Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks
US5848186A (en) * 1995-08-11 1998-12-08 Canon Kabushiki Kaisha Feature extraction system for identifying text within a table image

Also Published As

Publication number Publication date
DE69718243T2 (de) 2003-08-28
EP0814422A3 (en) 1998-01-28
US6157738A (en) 2000-12-05
JP4077904B2 (ja) 2008-04-23
EP0814422A2 (en) 1997-12-29
EP0814422B1 (en) 2003-01-08
DE69718243D1 (de) 2003-02-13

Similar Documents

Publication Publication Date Title
JP3950498B2 (ja) イメージ処理方法及び装置
JP3359095B2 (ja) 画像処理方法及び装置
US5893127A (en) Generator for document with HTML tagged table having data elements which preserve layout relationships of information in bitmap image of original document
JP4077904B2 (ja) 情報処理装置およびその方法
US6173073B1 (en) System for analyzing table images
US6711292B2 (en) Block selection of table features
JPH08235349A (ja) ページ解析システム
US5509092A (en) Method and apparatus for generating information on recognized characters
JPH0668300A (ja) 文書画像のレイアウトモデルを作成する方法及び装置
JPH10162150A (ja) ページ解析システム
JPH08185474A (ja) 文書画像分割装置
JP2007148677A (ja) 画像処理装置、画像処理方法
JP2002279433A (ja) 映像中の文字検索方法及び装置
US9189459B2 (en) Document image layout apparatus
JP4849883B2 (ja) 行方向判定プログラム、方法及び装置
JP4390523B2 (ja) 最小領域による合成画像の分割
JPH08320914A (ja) 表認識方法および装置
JPH0612540B2 (ja) 文書作成支援装置
JP2004282701A5 (ja)
JP2006072839A (ja) 画像処理方法、画像処理装置、画像処理プログラム及び記録媒体
JP2006277149A (ja) 文字画像切出装置、文字画像切出方法およびプログラム
JP2803736B2 (ja) 文字認識方式
JPH09288714A (ja) 表認識方法および装置
JP4548062B2 (ja) 画像処理装置
JPH02138674A (ja) 文書処理方法及び装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040531

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040531

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20040531

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080204

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110208

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120208

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130208

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140208

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees