JPH08320914A - 表認識方法および装置 - Google Patents

表認識方法および装置

Info

Publication number
JPH08320914A
JPH08320914A JP7149497A JP14949795A JPH08320914A JP H08320914 A JPH08320914 A JP H08320914A JP 7149497 A JP7149497 A JP 7149497A JP 14949795 A JP14949795 A JP 14949795A JP H08320914 A JPH08320914 A JP H08320914A
Authority
JP
Japan
Prior art keywords
cell
page
ruled line
area
structure information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7149497A
Other languages
English (en)
Inventor
Takuya Okamoto
卓哉 岡本
Masatoshi Hino
匡利 樋野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP7149497A priority Critical patent/JPH08320914A/ja
Publication of JPH08320914A publication Critical patent/JPH08320914A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 (修正有) 【目的】1つの表が複数ページに分割して記述されてい
る場合であっても1つの表として認識し、さらに1つの
セルが複数ページに分割されている場合であっても1つ
のセルとして認識して該セル内の文字認識を適正に行う
ことができる表認識方法。 【構成】各ページの画像データを読み出し、画像内の罫
線の抽出を行う201。次に抽出された罫線を含む最小
の矩形領域を表領域とする202。各表領域に関して、
抽出された罫線で表領域を分割していき、表を構成する
フィールドの最小単位セルに分解する203。抽出され
たセルの座標から、セル間の接続情報を求める204。
各ページの最下部の表に関して、表の最下部に罫線が存
在するかどうかをチェックし、もし罫線が存在しなけれ
ば、次ページの最上部の表と統合する205〜209。
以上の処理で得られた各セルについては、セル中の文字
抽出、文字認識を行なう210。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書をスキャナなどの
光学的読み取り装置でコンピュータ内に画像データとし
て読み込み、その内容を認識する文書認識システムに関
し、特に、ページをまたがる表であっても1つの表とし
て認識することができる表認識方法および装置に関す
る。
【0002】
【従来の技術】文書は、文字および図表より構成される
ものが多く、これらの文書を認識する方式に関しては、
例えば特開昭62−55769号の「画像理解方式」な
どがある。これは、スキャナなどの読み取り装置で読み
込んだ画像上から、文字、表、および図などの要素を抽
出し、その並びから、文字領域、表領域、図領域などを
分離する方式である。
【0003】また、帳票などを含む表の解析に関して
も、特開昭61−193281号「文書入力方式」や、
特開平1−196657号「文書構造認識方式」などの
方式が存在する。これらの方式は、ページ内の罫線に囲
まれた領域を1つのセルとして抽出し、セル同士の接続
関係から、表構造の階層性を解析するものである。
【0004】各セル内の文字抽出については、「横書き
日本語文書における個別文字の抽出」電子通信学会論文
誌 '85/11 Vol.J68-D No.11 pp.1899-1909で述べられて
いる方法などを利用することができる。文字認識につい
ては特願平04−51305号「文字認識方式」などが
利用できる。
【0005】
【発明が解決しようとする課題】ところで、一般に文書
は複数ページから構成されており、表に関しても大きな
ものは複数ページに分割して記述される。一方、文書画
像の認識はページ単位で行われる。そのため、複数ペー
ジにわたる表については、それぞれのページの表が個々
に認識されるため、本来1つの表であったものが、複数
の別の表として認識されることになる。この場合、レイ
アウトの変更に対処して表を変形、移動させようとする
と、分割された箇所が、再びページ境界になるとは限ら
ないため、正しくレイアウトすることができなかった
り、表内容の編集が困難になるなどの問題がある。
【0006】また、1つのセルが複数ページに分割され
た場合、これらを1つのフィールドに統合できないた
め、それぞれのセルで文字列の抽出および文字認識を行
うことになる。この場合、文、単語が複数のセルに分け
られてしまうため、認識結果からキーワード抽出しよう
としても、漏れが発生するなどの問題点がある。
【0007】以上より、表を含む文書を電子化する際に
は、複数ページにわたる表を統合して、1つの表として
表現することが必要となる。
【0008】本発明は、1つの表が複数ページに分割し
て記述されている場合であっても1つの表として認識
し、さらに1つのセルが複数ページに分割されている場
合であっても1つのセルとして認識して該セル内の文字
認識を適正に行うことができる表認識方法および装置を
提供することを目的とする。
【0009】
【課題を解決するための手段】本発明は、各ページの画
像中から罫線を抽出して表領域を認識し、該表の表構造
情報を生成し、各ページの表の表構造情報に基づいて前
後のページ間の表の接続関係を判定し、前後のページ間
で表が接続していると判定されたときはそれらの表を1
つの表として認識して表構造情報を統合し、1つの表と
して統合された表構造情報にしたがい該表内の文字認識
を行って文字コードを生成することを特徴とする。
【0010】前後のページ間の表の接続関係の判定は、
ページ内の最後部の表の後部罫線が存在するか否かによ
り行い、存在しなければ次ページの最前部の表と接続し
ていると判定する。ページ内の最後部の表の後部罫線と
は、例えば、ページが上下に接続する場合はページの最
下部の表の最下部の罫線のことであり、ページが左から
右に接続する場合(あるページの右側が次ページの左側
につながる場合)はページの最右側の表の最右側の罫線
のことである。
【0011】接続すると判定された表については、ペー
ジ境界部のセル同士の位置関係からセル同士の接続関係
を判定し、接続する場合はセル間の接続関係を表現する
リンクを変更することで1つの表に統合する。
【0012】前後のページ間で表が接続していると判定
されたとき、それらの表領域の画像を結合して1つの画
像とし、その画像から表構造情報を生成するようにして
もよい。
【0013】
【作用】本発明によれば、複数のページにわたる表の構
造を解析し、1つの表として表現することが可能にな
る。また、ページの境界で複数セルに分断された内容を
接続して1つの文字列として認識することができる。
【0014】
【実施例】以下、図面を用いて本発明の実施例を説明す
る。
【0015】図1に、本発明の第1の実施例に係る表認
識システムの構成を示す。スキャナ101から複数ペー
ジよりなる文書が入力され、その画像データは、メモリ
102上の画像格納領域に格納される。CPU103
は、メモリ102上の書式解析プログラムを実行し、画
像格納領域に格納されている画像中の図表および文字列
を抽出する。文字列領域については、メモリ102上の
文字認識プログラムを実行することにより、メモリ10
2上のワーク領域を利用して文字認識処理を行い、文字
認識結果を認識結果格納ファイル104に出力する。表
領域については、メモリ102上の表解析プログラムを
実行することにより、メモリ102上のワーク領域を利
用して表構造認識処理を行い、表構造認識結果を得る。
さらに、表内の文字に対する文字認識処理を行ない、認
識結果格納ファイル104に認識結果を格納する。画像
中の図領域に関しては、これをイメージとして切り出
し、認識結果格納ファイル104に出力する。
【0016】図2は、本発明の第1の実施例に係る表認
識方法の手順(図1のCPU103が実行する処理)を
示すフローチャートである。なおここでは、横書き文書
でページ下部が次ページに繋がる表を含む文書の表部分
に関して認識処理を施すものとする。縦書き文書などに
ついても、同様の処理で実現できる。
【0017】まず、各ページの画像データを読み出し、
画像内の罫線の抽出を行う(ステップ201)。ステッ
プ201の詳細は、図4を参照して後述する。次に、抽
出された罫線のうち接続している罫線をまとめ、これを
含む最小の矩形領域を表領域とする(ステップ20
2)。ステップ202の詳細は、図6を参照して後述す
る。
【0018】さらに、各表領域に対して、表領域を罫線
で分割し表の単位(セル)を得る(ステップ203)。
ステップ203の詳細は図8を参照して後述するが、簡
単に言うと、各表領域に含まれる罫線を抽出し、それら
の罫線で表領域を小領域に分割していく。また、分割さ
れた小領域に対しても、その領域を分割する罫線を抽出
し、この罫線でさらに小領域に分割していく。以上のよ
うな領域を分割していく処理を、すべての小領域につい
てそれ以上分割できなくなるまで繰り返し、表を構成す
るフィールドの最小単位(セル)を抽出する。抽出した
セルには識別子としてセル番号を付ける。
【0019】次に、抽出されたセルの座標から、上下左
右に接続するセルを求める(ステップ204)。そし
て、各セルについて、上下左右に接続するセルのセル番
号をテーブルに格納する。接続するセルが複数存在する
場合は、最も左、あるいは最も上のセルの番号を記述す
る。また、表領域の外枠の少なくとも一辺に接するセル
に関しては、表枠側の接続情報にNIL(=−1)を設
定する。ステップ204では、以上の処理を各ページに
ついて行う。
【0020】次に、ページカウンタPに1を代入し、順
に表統合処理を行う(ステップ205)。まず、第Pペ
ージの最下部の表に関して、表の最下部に罫線が存在す
るかどうかをチェックする(ステップ206)。もし、
罫線が存在しなければ、次ページに表が続くものと判定
し、次ページの最上部の表との統合処理を行う(ステッ
プ207)。ステップ207の詳細は、図12および図
13を参照して後述する。次に、ページカウンタPを1
加算し(ステップ208)、最終ページに達するまでス
テップ206〜208の処理を繰り返す(ステップ20
9)。表認識した結果得られた各セルについては、セル
中の文字抽出、文字認識を行ない、結果を出力する(ス
テップ210)。
【0021】図3は、本実施例で認識する表解析結果の
1例である。表を構成する罫線は、水平、垂直の直線で
構成され、セルを構成するフィールドは周囲を罫線で囲
まれた矩形領域として与えられるものとする。301は
解析対象の表の例を示す。上述の図2の処理によって、
表301は5つのセルに分割される。表301の各セル
内に記載した0〜4の数字は、当該セルのセル番号を示
す。また、図2の処理によって、各セルに対して、その
位置情報、上下左右に接するセルのセル番号、および当
該セルの4辺を囲む罫線番号が得られる。
【0022】302は、基準座標格納テーブルである。
基準座標格納テーブル302には、表領域の基準座標と
して該表領域の左上の位置の画像上での座標を格納す
る。303は、セル情報管理テーブルである。セル情報
管理テーブル303には、各セルに関するセル番号、左
上−右下の表相対位置、接続セル番号、および接続罫線
番号を格納する。左上−右下の表相対位置とは、表領域
の基準座標を(0,0)としたときのセルの相対座標
(セルの左上と右下の位置の座標)である。接続セル番
号とは、当該セルの上下左右に隣接するセルのセル番号
である。接続罫線番号とは、当該セルの周囲を囲む罫線
の番号である。
【0023】なお、表301においてセルの周囲の罫線
から当該セルの外側に伸びる矢印は、当該セルの接続セ
ルを示す。例えば、セル番号0のセルの上側および左側
に向かう矢印から分かるように、これらの方向には接続
するセルがなく、表領域の外枠になっているから、基準
座標格納テーブル302のセル番号0の接続セル番号の
うち上および左には「−1」が設定されている。また、
セル番号0のセルの下側および右側に向かう矢印から分
かるように、下側にはセル番号4のセルが、右側にはセ
ル番号1のセルが、それぞれ接続しているから、基準座
標格納テーブル302のセル番号0の接続セル番号のう
ち下および右にはそれぞれ「4」、「1」が設定されて
いる。
【0024】また、表301において、各罫線を点線で
延長し、その点線の近傍に記された数字は、各罫線を識
別するための番号である。例えば、セル番号0のセルの
上下左右の罫線の罫線番号は順に3,4,0,1である
ので、基準座標格納テーブル302のセル番号0の接続
罫線番号は、上下左右の順に3,4,0,1になってい
る。
【0025】304は、罫線情報管理テーブルである。
罫線情報管理テーブル304には、縦罫線の本数および
各縦罫線の座標、並びに、横罫線の本数および各横罫線
の座標を格納する。縦罫線の座標および横罫線の座標
は、表領域の基準座標を(0,0)としたときの、罫線
の始終点の相対座標で表す。例えば、表301では縦罫
線が3本あるので、罫線情報管理テーブル304の縦罫
線本数は「3」になっている。また、罫線番号が0の縦
罫線の始点は(0,0)で終点は(0,400)である
ので、罫線情報管理テーブル304にはそのように設定
されている。他の罫線についても同様である。
【0026】図4は、罫線の抽出処理(図2のステップ
201)の流れを表すフローチャートである。罫線抽出
は、縦罫線、横罫線の順に抽出処理を行う。
【0027】まず、しきい値w以下の長さの横方向の黒
ラン(横方向に連続した黒画素の列)を抽出する(ステ
ップ401)。次に、これらの黒ランが縦方向に並んで
いれば、これを統合し、縦罫線素として抽出する(ステ
ップ402)。
【0028】図5に、縦罫線素の抽出結果を示す。図5
において、501の矢印の範囲はラン長のしきい値wを
示す。黒い帯は、ラン長のしきい値w(501)以下の
長さの黒ランを示す。504は、ラン長がしきい値wよ
り長い黒ランを示す。ステップ402では、ラン長のし
きい値w(501)以下の長さの黒ラン(黒い帯で図示
した黒ラン)を統合して、縦罫線素502および縦罫線
素503を抽出する。縦罫線素502は4つの黒ランを
統合したもの、縦罫線素503は3つの黒ランを統合し
たものである。
【0029】再び図4に戻って、ステップ402の後、
途切れている縦罫線素を接続して新たに縦罫線素を得る
(ステップ403)。縦罫線に横罫線が交わっている場
合、本来は1本の縦罫線であるものが横罫線に対応する
長い黒ランで分断され複数の罫線素に分けられる。例え
ば、図5において、横罫線に対応する長い黒ラン(50
4)があるために、本来は1つの縦罫線素となるべき縦
罫線素502および503が、2つに分断されている。
そこで、ステップ403では、このような縦罫線素50
2および503を統合して、新たに罫線素とする。この
ような統合を繰り返して、縦罫線を得る。
【0030】具体的には、罫線素の間の距離がしきい値
以下の罫線素を統合する。罫線素の間の距離とは、2つ
の罫線素の向かい合う辺の中点間の横(水平)方向のず
れおよび縦(垂直)方向のずれを言う。例えば、図5の
縦罫線素502および縦罫線素503において、縦罫線
素502の下側の辺と縦罫線素503の上側の辺とが向
かい合っているから、縦罫線素502の下側の辺の中点
の座標を(x1,y1)とし、縦罫線素503の上側の
辺の中点の座標を(x2,y2)として、横方向のずれ
(x1とx2との差の絶対値)|x1−x2|、および
縦方向のずれ(y1とy2との差の絶対値)|y1−y
2|が、縦罫線素502および503の間の距離であ
る。そして、これら2つの縦罫線素502および503
の統合の条件は、横方向のずれ|x1−x2|<aドッ
ト かつ 縦方向のずれ|y1−y2|<bドットが成立
することである。なお、a,bは、正の定数でしきい値
を表す。
【0031】aの値が大きくなれば、傾きへの対応能力
が上がるが、罫線近くの文字を罫線として抽出する場合
がある。また、bの値が大きくなれば、大きな途切れ、
破線などにも対応できるが、文字など、罫線以外の要素
を繋げて罫線と誤認識する場合がある。これらのことを
考慮して、しきい値a,bの値を設定する必要がある。
【0032】再び図4に戻って、横罫線に関しても、縦
罫線の抽出(ステップ401〜403)と同様に処理す
る(ステップ404〜406)。すなわち、縦方向の黒
ランを抽出し(ステップ404)、しきい値h以下の長
さの縦方向の黒ランを横方向に統合して、横罫線素を抽
出し(ステップ405)、上記と同様の条件で横方向に
罫線素を統合していくことで(ステップ406)、横罫
線を得る。
【0033】次に、ステップ401から403の処理で
抽出した縦罫線素のうち、罫線の始終点の両方が、文書
記述領域枠または何れかの横罫線に接しているものを縦
罫線として抽出する(ステップ407)。逆にいえば、
ステップ401から403の処理で抽出した縦罫線素の
うち、罫線の始終点のうちの何れかが文書記述領域枠ま
たは横罫線に接していないものを除去する。同様に、ス
テップ404から406の処理で抽出された横罫線素の
うち、罫線の始終点の両方が、文書記述領域枠または何
れかの縦罫線に接しているものを横罫線として抽出する
(ステップ408)。
【0034】図6は、表領域を抽出する処理(図2のス
テップ202)の流れを表すフローチャートである。表
領域は、1つの表を構成する縦罫線を抽出し、これを含
む最小の矩形領域として設定する。初期状態としては、
表領域がない状態から始まる。
【0035】まず、ページ内の表の数をカウントするカ
ウンタcに初期値0を代入する(ステップ601)。次
に、図4の処理で抽出した縦罫線から1本分の縦罫線の
データを読み出し(ステップ602)、その縦罫線の存
在するy座標の範囲を求める(ステップ603)。次
に、ステップ603で得られた縦罫線のy座標の範囲が
既登録の表領域と重なるか否か判定する(ステップ60
4)。重ならない場合(初期状態で表領域が存在しない
場合も含む)は、その縦罫線を含む矩形領域を新たに第
c版目の表領域とし、カウンタcをインクリメントする
(ステップ606)。ステップ604で当該縦罫線のy
座標の範囲が既登録の表領域(第0版目〜第c−1版目
の表領域)と重なる場合は、その表領域を当該縦罫線も
含む最小の矩形領域に更新する(ステップ605)。
【0036】次に、すべての縦罫線について上記の処理
を行なったか否かを判定する(ステップ607)。未処
理の縦罫線が残っているときは、ステップ602に戻っ
て、同様の処理を繰り返す。すべての縦罫線について上
記の処理を行なった後、抽出された表領域(第0版目〜
第c−1版目の表領域)のうち重なる表領域を統合して
(ステップ608)、表領域抽出処理を終了する。
【0037】なお、本実施例では、y座標の範囲が一部
でも重なる縦罫線は同一の表領域に含まれるような表を
対象にしている。そのため、縦罫線のy座標の範囲に基
づいて表領域を求めることができるようになっている。
【0038】図7は、図6の処理による表領域の抽出結
果である。701はページを示す。701のページの中
で、網掛けした部分(702、703、704)が表領
域として抽出された領域である。
【0039】図8は、表をセルに分割する処理の流れを
表すフローチャートである。この処理は、主に図2のス
テップ203を詳細にしたものであるが、ステップ80
7の処理は図2のステップ204の処理も含むものとす
る。
【0040】まず、表領域内の罫線を、その長さが長い
順にソートする(ステップ801)。次に、ステップ8
01でソートされた順に罫線を検索し、与えられた表領
域を分割する罫線を探索する(ステップ802)。この
ような罫線が見つかったら(ステップ803)、与えら
れた処理領域をこの罫線で2つの領域に分割する(ステ
ップ804)。分割した領域は、表の小領域として登録
する。ステップ803で該当する罫線が見つからなけれ
ば、その領域に関しては既に分割が終了したということ
であるから、セルとして登録する(ステップ805)。
【0041】次に、分割された表の各小領域について、
分割が終了していない小領域が存在するか否かを調べる
(ステップ806)。未分割の小領域が存在すれば、そ
の領域に対して、同様の処理(ステップ802から80
4)を繰り返す。すべての領域が分割済みであれば(ス
テップ806)、各セルを上下左右に囲む罫線の番号
と、上下左右に接するセルの番号を登録する(ステップ
807)。
【0042】以上の図4、図6、および図8の処理(す
なわち、図2のステップ201〜204)により、各ペ
ージの画像中から、縦横の罫線、ページ内の表領域、各
表領域のセルを抽出できる。抽出結果は、図3の基準座
標格納テーブル302、セル情報管理テーブル303、
および罫線情報管理テーブル304に設定される。ただ
し、ここまでではページ間にわたる表は別々の表として
認識されている。本実施例では、ページ間にわたる表を
1つの表に統合することができる。以下、そのようなペ
ージ間にわたる表の処理について説明する。
【0043】図9は、複数ページにわたる表の例であ
る。901は第nページ、903は第n+1ページを示
す。第nページ(901)には表(902)が存在し、
第n+1ページ(903)には表(904)が存在する
が、これらの表は本来は1つの表であったものが分割さ
れているものである。このように、表がページ内では記
述できず、次ページに繋がる場合は、ページ境界におい
て表の下部の罫線が記述されない。したがって、上記の
処理で、第nページ(901)の表(902)の最下部
のセルの下側の罫線が存在しない場合は、第n+1ペー
ジに継続する表が存在すると判定できることになる。ま
た、次ページ(903)の最上部の表(904)につい
ても、上記の表認識処理を行なうことで、最上部のセル
の上部の罫線の有無が得られる。これにより、上部の罫
線が存在しなければ、1つのセルがページ境界で分割さ
れており、罫線が存在すれば、ページ境界はセルの境界
と一致したことがわかる。
【0044】図10は、図9の表を統合した場合の表の
構造である。この図に示したように、第nページのセル
7は、ページ境界で分割されていたが、本来は1つのセ
ルであり、統合しなければならない。
【0045】図11は、表解析結果の統合処理によるテ
ーブル内容の変化を示す図である。第nページの表のセ
ル情報(1101)と第n+1ページの表のセル情報
(1102)とを統合することで、1つの表のセル情報
(1103)を得る。セル情報(1101)の7番目の
セルとセル情報(1102)の0番目のセルは同一セル
と判定されたので、セル情報(1103)で1つのセル
に統合される。このように、各ページから抽出された表
認識結果から、分割セルあるいは互いに接続するセルを
得て、これらを統合あるいは接続するように変更するこ
とで、1つの表データへと変換する。罫線情報について
も同様に統合する。
【0046】図12および図13は、図9〜図11で説
明した表統合処理の流れを示すフローチャートである。
具体的には、図12のステップ206は図2のステップ
206に対応し、図12および図13のステップ120
2〜1213は図2のステップ207に対応する。以
下、表統合処理の処理手順について説明する。
【0047】まず、各ページについて、そのページ内の
最下部に存在する表の下方の罫線が存在するかどうかを
調べる(ステップ1201)。存在するなら、その表は
そのページ内で閉じた表であり、次ページに続く表では
ないから、処理を終了する。ステップ1201で罫線が
存在しないときは、その表(以下、表Aと呼ぶ)を次ペ
ージに続く表と判定し、ステップ1202以降の表統合
処理を行う。
【0048】表Aが次ページに続く表であれば、次ペー
ジの最上部の表(以下、表Bと呼ぶ)を接続対象の表と
する。まず、表Aと表Bの幅を比較する(ステップ12
02)。そして、表Aと表Bの幅の差がしきい値V以下
であるか否か判定する(ステップ1203)。幅の差が
しきい値V以下であればステップ1204に進み、そう
でなければ、表Aと表Bは統合できないとしてエラー処
理(ステップ1213)を行ない、処理を終了する。
【0049】統合可能な表であれば、まず、表Aの最下
部のセルについて、表の左端からセルの左端までの距離
(以下、左端位置と呼ぶ)、および表の左端からセルの
右端までの距離(以下、右端位置と呼ぶ)を求める(ス
テップ1204)。次に、表Bの最上部のセルについ
て、表の左端位置および右端位置を求め、セル上部の罫
線の有無を調べる(ステップ1205)。そして、表A
と表Bとの境界部のセルである、表Aの最下部のセル、
および、表Bの最上部のセルの相互の接続関係を表すリ
ンクを設定するため、まず、一方の表からあるセルを取
り出し、他方の表の中に左端位置、右端位置の差(例え
ば、表Aの最下部のあるセルの左端位置と表Bの最上部
のあるセルの左端位置との差、およびそれらのセルの右
端位置同士の差)がいずれもしきい値S以下のセルがあ
れば、これらのセルを対応付け、表Aについては下方
向、表Bについては上方向のリンクを、それぞれ設定す
る(ステップ1206)。
【0050】次に、表Aと表Bの境界部のすべてのセル
にリンクが設定されたか否かを判定する(ステップ12
07)。設定されていたら、表Aの最下部のセルと表B
の最上部のセルは、1対1に対応付けられるため、表結
合処理(ステップ1212)を行う。そうでなければ、
表Bの中にステップ1206の処理でリンクが設定でき
なかったセルの中で、上部罫線の存在しないセルが存在
するか否かを調べる(ステップ1208)。もしこのよ
うなセルが存在すれば、ページ間でセルが分割されてい
ると判定されたにもかかわらず、セルのサイズが合わな
いなどの理由で、1つのセルとして結合できなかったと
いうことであるから、エラー処理を行ない(ステップ1
213)、処理を終了する。
【0051】ステップ1208で表Bのリンクが設定で
きなかったセルの中に上部罫線の存在しないセルがなか
ったとき(すなわち、表Bのリンクが設定できなかった
セルがすべて上部罫線を有するセルだったとき)は、表
Aと表Bのリンクが設定されなかったセルのうち左端位
置の差がしきい値S以下のセル同士でリンクを設定する
(ステップ1209)。
【0052】そして、すべてのセル(表Aと表Bの境界
部のセル)についてリンクが設定されたか否か判定す
る。設定されていたなら、表Aと表Bの結合処理を行う
(ステップ1212)。そうでなければ、リンクが設定
されなかったセルは、そのセルの左端位置が他方の表の
セルと重なる(すなわち、そのセルの左端位置が、他方
の表のセルのx方向の範囲に含まれるということ)セル
へのリンクを設定する(ステップ1211)。以上の処
理で、すべての境界部のセルに関してリンクが設定され
るので、表A,表Bの結合処理を行う(ステップ121
2)。
【0053】図14は、表Aと表Bの結合処理(図13
のステップ1212)の流れを表すフローチャートであ
る。表の結合は、まず、表Bの最上部のセルを順に抽出
し(ステップ1301)、このセルが上部罫線が存在し
ないセルかどうかをチェックする(ステップ130
2)。上部に罫線が存在するセルなら、表Aのセルとの
結合をする必要はないから、ステップ1304に進む。
上部に罫線が存在しないセルであれば、これを表Aの最
下部の対応付けられたセル(リンクが設定されているセ
ル)と同じセルとして、まず、表Aの当該セルと表Bの
当該セルを1つのセルに変換し、サイズおよびリンクな
どの情報を更新して表Aのセルとして登録し、表Bから
は除く(ステップ1303)。そして、表Bの最上部の
すべてのセルをチェックするまで、上記処理を行う(ス
テップ1304)。
【0054】次に、表Bのセル(最上部のセルに限らな
い)のうちステップ1303で除かれたセル以外のセル
に関しては、セル番号および罫線番号を表Aのセル番号
および罫線番号に連続するように設定し直し、またそれ
らのセルや罫線の座標情報も表Aの左上(基準座標)を
基準に変更する(ステップ1305)。次に、表Aと表
Bの境界部である、表Bの最上部のセルおよび表Aの最
下部のセルについては、接続方向のリンク先のセルの番
号(接続セル番号)を、更新されたそれぞれ下と上の接
続セルとして登録する(ステップ1306)。以上の処
理を行った後、2つの表情報を1つにまとめることで、
表の結合が行われる(ステップ1307)。
【0055】図15は、ページ境界で分断されたセルの
例である。第nページのセル1401と第n+1ページ
のセル1402は、本来1つのセルであるがページ境界
で分断されている。また、セル1403と1404も分
断されている。これらのページ境界で分断されたセルの
内容を認識する際には、縦書きか横書きかによって、行
を統合する処理が変わってくる。縦書きであれば、セル
1401およびセル1402のそれぞれのセルで縦方向
の文字列を抽出した後、縦方向の行の途中で分断された
文字列を統合して、新たに1つの縦方向の行としなけれ
ばならない。横書きであれば、セル1403およびセル
1404のそれぞれのセルで抽出された横方向の行を繋
げることで、行抽出が可能となる。
【0056】図16は、分割されたセルの行抽出を行う
処理のフローチャートである。各セル内の文字が縦書き
なのか横書きなのか判定し、それぞれの方向に行統合を
行う。
【0057】まず、統合対象の各セルについてセル内の
文字抽出および文字認識を行う(ステップ1501)。
次に、セル内の文字が縦書きであると仮定して、縦方向
に行抽出を行ない、これにより得られる文字列に対して
日本語後処理を行ない、その評価値を求める(ステップ
1502)。同様に、セル内の文字が横書きであると仮
定して、行抽出および日本語後処理を行ない評価値を求
める(ステップ1503)。日本語後処理とは、辞書と
照合していわゆる形態素解析を行う処理などである。評
価値とは、辞書との照合がどの程度うまくいったかを示
す値(辞書の単語とのマッチング率)である。
【0058】縦書き、横書きそれぞれの評価値から、縦
書きか横書きかの判定を行う(ステップ1504)。縦
書きと判定されたときは(ステップ1505)、縦方向
に行統合した結果を行抽出結果とする(ステップ150
6)。そうでないときは(ステップ1505)、横方向
に行抽出した結果を行抽出結果とする(ステップ150
7)。
【0059】次に、本発明の第2の実施例を説明する。
第2の実施例は、上述の第1の実施例とほぼ同じである
ので、異なる部分のみ説明する。第1の実施例では、図
2で説明したとおり、各ページの表領域からセルを抽出
してセル同士の接続関係を求め、図3の各テーブルの情
報を得てから、ページ間にわたる表の結合を行った。こ
れに対し、第2の実施例では、ページ間にわたる表の結
合を画像データで統合することにより行い、統合された
画像に対して、罫線やセルの抽出およびセル同士の接続
関係の取得を行う。以下、第2の実施例の手順を説明す
る。
【0060】図17は、第2の実施例のフローチャート
である。ステップ1601の罫線抽出、ステップ160
2の表領域の抽出までは、上述の第1の実施例と同様の
処理(すなわち、図2のステップ201,202と同
じ)を行う。次に、ページカウンタPに1を代入し(ス
テップ1603)、ページPの最下部の表の下部の罫線
が存在するか否かを判定する(ステップ1604)。存
在しなければ、次ページに表が続くものとして、このペ
ージPの最下部の表の画像と次ページの最上部の表の画
像とを統合する(ステップ1605)。なお、画像を統
合する際には、表領域の画像の幅の差がしきい値V以下
であることをチェックするようにする。次に、ページカ
ウンタPに1を加算し(ステップ1606)、最終ペー
ジまで処理を繰り返す(ステップ1607)。
【0061】全ページに関して表の画像での統合が終了
したら、統合された画像について、再度、罫線抽出処理
を行う(ステップ1608)。以下は、第1の実施例と
同様に、セル抽出処理(ステップ1609)、セル間の
接続関係の抽出処理(ステップ1610)、セル内の文
字認識処理(ステップ1611)を行うことで、第1の
実施例と同様の処理が実現できる。
【0062】なお、上記第1および第2の実施例では、
ページが上下方向に接続するような文書を対象としてい
るが、ページの接続の方向はこれに限らない。例えば、
ページの右側に次ページの左側がつながるような文書で
あっても、本発明は適用可能である。また、上記第1お
よび第2の実施例では、あるページの最下部の表の最下
部のセルの下側の罫線が存在しない場合に、次ページへ
と表が続くと判定している(逆にいえば、そのようなフ
ォームの表を対象としている)が、次ページに表が続く
か否かを判定する方法は、これに限らない。例えば、あ
るページの最下部に表があり、次ページの最上部に表が
あるときは、とりあえずページ境界のセル同士の接続を
試みて、それがうまくいったとき、それらの表は連続す
るものであると判定するようにしてもよい。
【0063】
【発明の効果】本発明によれば、複数のページにわたる
表を統合し、1つの表として認識することができる。ま
た、複数のページに分割されたセルを1つのセルとして
認識できるので、該セル内の文字認識を適正に行うこと
ができる。これにより、文書認識して入力された文書の
管理、編集などが容易になる。
【図面の簡単な説明】
【図1】本発明の実施例に係るシステム構成を表す図
【図2】第1の実施例のフローチャート図
【図3】表解析結果の例を示す図
【図4】罫線抽出処理のフローチャート図
【図5】罫線抽出処理の例を示す図
【図6】表領域抽出処理のフローチャート図
【図7】表領域抽出結果の例を示す図
【図8】セル分割処理のフローチャート図
【図9】複数ページにわたる表の例を示す図
【図10】表の統合結果の例を示す図
【図11】表統合処理内容の例を示す図
【図12】表統合処理のフローチャート(その1)図
【図13】表統合処理のフローチャート(その2)図
【図14】表結合処理のフローチャート図
【図15】セルがページ境界で分断される表の例を示す
【図16】分割セル内行抽出処理フローチャート図
【図17】第2の実施例のフローチャート図
【符号の説明】
101−スキャナ、102…メモリ、103…CPU、
104…認識結果格納ファイル、301…表の例、30
2…表基準位置テーブル、303…セル情報テーブル、
304…罫線情報テーブル、601…罫線抽出に用いる
ラン長のしきい値、602,603…罫線素、604…
長い黒ラン、1101…セル情報テーブルA、1102
…セル情報テーブルB、1103…統合したセル情報テ
ーブル。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】表を含む文書画像から表領域を認識し、該
    表の表構造情報と該表内の文字コードを生成する文書認
    識方法において、 各ページにおいて、画像中から罫線を抽出して表領域を
    認識し、該表の表構造情報を生成するステップと、 各ページの表の表構造情報に基づいて、前後のページ間
    の表の接続関係を判定するステップと、 前後のページ間で表が接続していると判定されたとき、
    それらの表を1つの表として認識して、表構造情報を統
    合するステップと、 1つの表として統合された表構造情報にしたがい、該表
    内の文字認識を行って文字コードを生成するステップと
    を備えたことを特徴とする表認識方法。
  2. 【請求項2】前記前後のページ間の表の接続関係を判定
    するステップは、ページ内の最後部の表の後部罫線が存
    在するか否かを判定し、存在しなければ次ページの最前
    部の表と接続していると判定することを特徴とする請求
    項1に記載の表認識方法。
  3. 【請求項3】前記表構造情報を統合するステップは、前
    後のページ間で接続していると判定された表に対して、
    該ページ間の境界部にあるセルの位置関係からセル同士
    の接続関係を判定し、接続する場合はセル間の接続関係
    を表現するリンクを変更することで1つの表に統合する
    ことを特徴とする請求項1または2に記載の表認識方
    法。
  4. 【請求項4】表を含む文書画像から表領域を認識し、該
    表の表構造情報と該表内の文字コードを生成する文書認
    識方法において、 各ページにおいて、画像中から罫線を抽出して表領域を
    認識するステップと、 認識した罫線および表領域の情報に基づいて、前後のペ
    ージ間の表の接続関係を判定するステップと、 前後のページ間で表が接続していると判定されたとき、
    それらの表領域の画像を結合して1つの画像とするステ
    ップと、 該1つの画像から罫線を抽出して表構造情報を生成する
    とともに、該表内の文字認識を行って文字コードを生成
    するステップとを備えたことを特徴とする表認識方法。
  5. 【請求項5】表を含む文書画像から表領域を認識し、該
    表の表構造情報と該表内の文字コードを生成する文書認
    識装置において、 各ページにおいて、画像中から罫線を抽出して表領域を
    認識し、該表の表構造情報を生成する手段と、 各ページの表の表構造情報に基づいて、前後のページ間
    の表の接続関係を判定する手段と、 前後のページ間で表が接続していると判定されたとき、
    それらの表を1つの表として認識して、表構造情報を統
    合する手段と、 1つの表として統合された表構造情報にしたがい、該表
    内の文字認識を行って文字コードを生成する手段とを備
    えたことを特徴とする表認識装置。
  6. 【請求項6】表を含む文書画像から表領域を認識し、該
    表の表構造情報と該表内の文字コードを生成する文書認
    識装置において、 各ページにおいて、画像中から罫線を抽出して表領域を
    認識する手段と、 認識した罫線および表領域の情報に基づいて、前後のペ
    ージ間の表の接続関係を判定する手段と、 前後のページ間で表が接続していると判定されたとき、
    それらの表領域の画像を結合して1つの画像とする手段
    と、 該1つの画像から罫線を抽出して表構造情報を生成する
    とともに、該表内の文字認識を行って文字コードを生成
    する手段とを備えたことを特徴とする表認識装置。
JP7149497A 1995-05-24 1995-05-24 表認識方法および装置 Pending JPH08320914A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7149497A JPH08320914A (ja) 1995-05-24 1995-05-24 表認識方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7149497A JPH08320914A (ja) 1995-05-24 1995-05-24 表認識方法および装置

Publications (1)

Publication Number Publication Date
JPH08320914A true JPH08320914A (ja) 1996-12-03

Family

ID=15476449

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7149497A Pending JPH08320914A (ja) 1995-05-24 1995-05-24 表認識方法および装置

Country Status (1)

Country Link
JP (1) JPH08320914A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10289253A (ja) * 1997-02-13 1998-10-27 Fujitsu Ltd キーワード領域抽出方式
JP2007148719A (ja) * 2005-11-28 2007-06-14 Fuji Xerox Co Ltd 画像処理装置、方法及びプログラム
JP2009021712A (ja) * 2007-07-10 2009-01-29 Canon Inc 画像処理装置及びその制御方法
JP2009116632A (ja) * 2007-11-07 2009-05-28 Meidensha Corp 帳票データの移植システム、移植方法およびこの方法のプログラム
CN102883085A (zh) * 2011-07-12 2013-01-16 富士施乐株式会社 图像处理装置和图像处理方法
CN111626145A (zh) * 2020-05-08 2020-09-04 西安工业大学 一种简捷有效的残缺表格识别及跨页拼接方法
JP2022504454A (ja) * 2019-09-30 2022-01-13 北京市商▲湯▼科技▲開▼▲發▼有限公司 フォーム認識方法、フォーム抽出方法および関連する装置
CN114782970A (zh) * 2022-06-22 2022-07-22 广州市新文溯科技有限公司 一种表格提取方法、系统及可读介质
JP2022162379A (ja) * 2021-04-12 2022-10-24 株式会社プリマジェスト 情報処理装置、情報処理方法、及びプログラム

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10289253A (ja) * 1997-02-13 1998-10-27 Fujitsu Ltd キーワード領域抽出方式
JP2007148719A (ja) * 2005-11-28 2007-06-14 Fuji Xerox Co Ltd 画像処理装置、方法及びプログラム
JP2009021712A (ja) * 2007-07-10 2009-01-29 Canon Inc 画像処理装置及びその制御方法
US8244035B2 (en) 2007-07-10 2012-08-14 Canon Kabushiki Kaisha Image processing apparatus and control method thereof
JP2009116632A (ja) * 2007-11-07 2009-05-28 Meidensha Corp 帳票データの移植システム、移植方法およびこの方法のプログラム
JP2013020477A (ja) * 2011-07-12 2013-01-31 Fuji Xerox Co Ltd 画像処理装置およびプログラム
CN102883085A (zh) * 2011-07-12 2013-01-16 富士施乐株式会社 图像处理装置和图像处理方法
CN102883085B (zh) * 2011-07-12 2016-12-14 富士施乐株式会社 图像处理装置和图像处理方法
JP2022504454A (ja) * 2019-09-30 2022-01-13 北京市商▲湯▼科技▲開▼▲發▼有限公司 フォーム認識方法、フォーム抽出方法および関連する装置
CN111626145A (zh) * 2020-05-08 2020-09-04 西安工业大学 一种简捷有效的残缺表格识别及跨页拼接方法
CN111626145B (zh) * 2020-05-08 2024-01-23 西安工业大学 一种简捷有效的残缺表格识别及跨页拼接方法
JP2022162379A (ja) * 2021-04-12 2022-10-24 株式会社プリマジェスト 情報処理装置、情報処理方法、及びプログラム
CN114782970A (zh) * 2022-06-22 2022-07-22 广州市新文溯科技有限公司 一种表格提取方法、系统及可读介质

Similar Documents

Publication Publication Date Title
US20200065601A1 (en) Method and system for transforming handwritten text to digital ink
JP3822277B2 (ja) 文字テンプレートセット学習マシン動作方法
US6006240A (en) Cell identification in table analysis
US8908961B2 (en) System and methods for arabic text recognition based on effective arabic text feature extraction
US5907631A (en) Document image processing method and system having function of determining body text region reading order
JP2700130B2 (ja) 手書き文字の認識システム及び認識方法
JP5134628B2 (ja) 連続する記事部分の媒体資料解析
JP3452774B2 (ja) 文字認識方法
Ma et al. Joint layout analysis, character detection and recognition for historical document digitization
JPS61267177A (ja) 文書画像追加情報の蓄積方法
JP2005173730A (ja) 帳票ocrプログラム、方法及び装置
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
Ma et al. Adaptive Hindi OCR using generalized Hausdorff image comparison
JP2730665B2 (ja) 文字認識装置および方法
US7680329B2 (en) Character recognition apparatus and character recognition method
JP4704601B2 (ja) 文字認識方法,プログラム及び記録媒体
JPH08320914A (ja) 表認識方法および装置
Lakshmi et al. An optical character recognition system for printed Telugu text
JP3837193B2 (ja) 文字行抽出方法および装置
JP2008108114A (ja) 文書処理装置および文書処理方法
JP4983526B2 (ja) データ処理装置及びデータ処理プログラム
JP2926066B2 (ja) 表認識装置
JPH11232439A (ja) 文書画像構造解析方法
Baloun et al. ChronSeg: Novel Dataset for Segmentation of Handwritten Historical Chronicles.
JP3898645B2 (ja) 帳票書式編集装置および帳票書式編集プログラム