JPH08320914A

JPH08320914A - 表認識方法および装置

Info

Publication number: JPH08320914A
Application number: JP7149497A
Authority: JP
Inventors: Takuya Okamoto; 卓哉岡本; Masatoshi Hino; 匡利樋野
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1995-05-24
Filing date: 1995-05-24
Publication date: 1996-12-03

Abstract

(57)【要約】（修正有）【目的】１つの表が複数ページに分割して記述されてい
る場合であっても１つの表として認識し、さらに１つの
セルが複数ページに分割されている場合であっても１つ
のセルとして認識して該セル内の文字認識を適正に行う
ことができる表認識方法。【構成】各ページの画像データを読み出し、画像内の罫
線の抽出を行う２０１。次に抽出された罫線を含む最小
の矩形領域を表領域とする２０２。各表領域に関して、
抽出された罫線で表領域を分割していき、表を構成する
フィールドの最小単位セルに分解する２０３。抽出され
たセルの座標から、セル間の接続情報を求める２０４。
各ページの最下部の表に関して、表の最下部に罫線が存
在するかどうかをチェックし、もし罫線が存在しなけれ
ば、次ページの最上部の表と統合する２０５〜２０９。
以上の処理で得られた各セルについては、セル中の文字
抽出、文字認識を行なう２１０。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文書をスキャナなどの
光学的読み取り装置でコンピュータ内に画像データとし
て読み込み、その内容を認識する文書認識システムに関
し、特に、ページをまたがる表であっても１つの表とし
て認識することができる表認識方法および装置に関す
る。

【０００２】

【従来の技術】文書は、文字および図表より構成される
ものが多く、これらの文書を認識する方式に関しては、
例えば特開昭６２−５５７６９号の「画像理解方式」な
どがある。これは、スキャナなどの読み取り装置で読み
込んだ画像上から、文字、表、および図などの要素を抽
出し、その並びから、文字領域、表領域、図領域などを
分離する方式である。

【０００３】また、帳票などを含む表の解析に関して
も、特開昭６１−１９３２８１号「文書入力方式」や、
特開平１−１９６６５７号「文書構造認識方式」などの
方式が存在する。これらの方式は、ページ内の罫線に囲
まれた領域を１つのセルとして抽出し、セル同士の接続
関係から、表構造の階層性を解析するものである。

【０００４】各セル内の文字抽出については、「横書き
日本語文書における個別文字の抽出」電子通信学会論文
誌 '85/11 Vol.J68-D No.11 pp.1899-1909で述べられて
いる方法などを利用することができる。文字認識につい
ては特願平０４−５１３０５号「文字認識方式」などが
利用できる。

【０００５】

【発明が解決しようとする課題】ところで、一般に文書
は複数ページから構成されており、表に関しても大きな
ものは複数ページに分割して記述される。一方、文書画
像の認識はページ単位で行われる。そのため、複数ペー
ジにわたる表については、それぞれのページの表が個々
に認識されるため、本来１つの表であったものが、複数
の別の表として認識されることになる。この場合、レイ
アウトの変更に対処して表を変形、移動させようとする
と、分割された箇所が、再びページ境界になるとは限ら
ないため、正しくレイアウトすることができなかった
り、表内容の編集が困難になるなどの問題がある。

【０００６】また、１つのセルが複数ページに分割され
た場合、これらを１つのフィールドに統合できないた
め、それぞれのセルで文字列の抽出および文字認識を行
うことになる。この場合、文、単語が複数のセルに分け
られてしまうため、認識結果からキーワード抽出しよう
としても、漏れが発生するなどの問題点がある。

【０００７】以上より、表を含む文書を電子化する際に
は、複数ページにわたる表を統合して、１つの表として
表現することが必要となる。

【０００８】本発明は、１つの表が複数ページに分割し
て記述されている場合であっても１つの表として認識
し、さらに１つのセルが複数ページに分割されている場
合であっても１つのセルとして認識して該セル内の文字
認識を適正に行うことができる表認識方法および装置を
提供することを目的とする。

【０００９】

【課題を解決するための手段】本発明は、各ページの画
像中から罫線を抽出して表領域を認識し、該表の表構造
情報を生成し、各ページの表の表構造情報に基づいて前
後のページ間の表の接続関係を判定し、前後のページ間
で表が接続していると判定されたときはそれらの表を１
つの表として認識して表構造情報を統合し、１つの表と
して統合された表構造情報にしたがい該表内の文字認識
を行って文字コードを生成することを特徴とする。

【００１０】前後のページ間の表の接続関係の判定は、
ページ内の最後部の表の後部罫線が存在するか否かによ
り行い、存在しなければ次ページの最前部の表と接続し
ていると判定する。ページ内の最後部の表の後部罫線と
は、例えば、ページが上下に接続する場合はページの最
下部の表の最下部の罫線のことであり、ページが左から
右に接続する場合（あるページの右側が次ページの左側
につながる場合）はページの最右側の表の最右側の罫線
のことである。

【００１１】接続すると判定された表については、ペー
ジ境界部のセル同士の位置関係からセル同士の接続関係
を判定し、接続する場合はセル間の接続関係を表現する
リンクを変更することで１つの表に統合する。

【００１２】前後のページ間で表が接続していると判定
されたとき、それらの表領域の画像を結合して１つの画
像とし、その画像から表構造情報を生成するようにして
もよい。

【００１３】

【作用】本発明によれば、複数のページにわたる表の構
造を解析し、１つの表として表現することが可能にな
る。また、ページの境界で複数セルに分断された内容を
接続して１つの文字列として認識することができる。

【００１４】

【実施例】以下、図面を用いて本発明の実施例を説明す
る。

【００１５】図１に、本発明の第１の実施例に係る表認
識システムの構成を示す。スキャナ１０１から複数ペー
ジよりなる文書が入力され、その画像データは、メモリ
１０２上の画像格納領域に格納される。ＣＰＵ１０３
は、メモリ１０２上の書式解析プログラムを実行し、画
像格納領域に格納されている画像中の図表および文字列
を抽出する。文字列領域については、メモリ１０２上の
文字認識プログラムを実行することにより、メモリ１０
２上のワーク領域を利用して文字認識処理を行い、文字
認識結果を認識結果格納ファイル１０４に出力する。表
領域については、メモリ１０２上の表解析プログラムを
実行することにより、メモリ１０２上のワーク領域を利
用して表構造認識処理を行い、表構造認識結果を得る。
さらに、表内の文字に対する文字認識処理を行ない、認
識結果格納ファイル１０４に認識結果を格納する。画像
中の図領域に関しては、これをイメージとして切り出
し、認識結果格納ファイル１０４に出力する。

【００１６】図２は、本発明の第１の実施例に係る表認
識方法の手順（図１のＣＰＵ１０３が実行する処理）を
示すフローチャートである。なおここでは、横書き文書
でページ下部が次ページに繋がる表を含む文書の表部分
に関して認識処理を施すものとする。縦書き文書などに
ついても、同様の処理で実現できる。

【００１７】まず、各ページの画像データを読み出し、
画像内の罫線の抽出を行う（ステップ２０１）。ステッ
プ２０１の詳細は、図４を参照して後述する。次に、抽
出された罫線のうち接続している罫線をまとめ、これを
含む最小の矩形領域を表領域とする（ステップ２０
２）。ステップ２０２の詳細は、図６を参照して後述す
る。

【００１８】さらに、各表領域に対して、表領域を罫線
で分割し表の単位（セル）を得る（ステップ２０３）。
ステップ２０３の詳細は図８を参照して後述するが、簡
単に言うと、各表領域に含まれる罫線を抽出し、それら
の罫線で表領域を小領域に分割していく。また、分割さ
れた小領域に対しても、その領域を分割する罫線を抽出
し、この罫線でさらに小領域に分割していく。以上のよ
うな領域を分割していく処理を、すべての小領域につい
てそれ以上分割できなくなるまで繰り返し、表を構成す
るフィールドの最小単位（セル）を抽出する。抽出した
セルには識別子としてセル番号を付ける。

【００１９】次に、抽出されたセルの座標から、上下左
右に接続するセルを求める（ステップ２０４）。そし
て、各セルについて、上下左右に接続するセルのセル番
号をテーブルに格納する。接続するセルが複数存在する
場合は、最も左、あるいは最も上のセルの番号を記述す
る。また、表領域の外枠の少なくとも一辺に接するセル
に関しては、表枠側の接続情報にＮＩＬ（＝−１）を設
定する。ステップ２０４では、以上の処理を各ページに
ついて行う。

【００２０】次に、ページカウンタＰに１を代入し、順
に表統合処理を行う（ステップ２０５）。まず、第Ｐペ
ージの最下部の表に関して、表の最下部に罫線が存在す
るかどうかをチェックする（ステップ２０６）。もし、
罫線が存在しなければ、次ページに表が続くものと判定
し、次ページの最上部の表との統合処理を行う（ステッ
プ２０７）。ステップ２０７の詳細は、図１２および図
１３を参照して後述する。次に、ページカウンタＰを１
加算し（ステップ２０８）、最終ページに達するまでス
テップ２０６〜２０８の処理を繰り返す（ステップ２０
９）。表認識した結果得られた各セルについては、セル
中の文字抽出、文字認識を行ない、結果を出力する（ス
テップ２１０）。

【００２１】図３は、本実施例で認識する表解析結果の
１例である。表を構成する罫線は、水平、垂直の直線で
構成され、セルを構成するフィールドは周囲を罫線で囲
まれた矩形領域として与えられるものとする。３０１は
解析対象の表の例を示す。上述の図２の処理によって、
表３０１は５つのセルに分割される。表３０１の各セル
内に記載した０〜４の数字は、当該セルのセル番号を示
す。また、図２の処理によって、各セルに対して、その
位置情報、上下左右に接するセルのセル番号、および当
該セルの４辺を囲む罫線番号が得られる。

【００２２】３０２は、基準座標格納テーブルである。
基準座標格納テーブル３０２には、表領域の基準座標と
して該表領域の左上の位置の画像上での座標を格納す
る。３０３は、セル情報管理テーブルである。セル情報
管理テーブル３０３には、各セルに関するセル番号、左
上−右下の表相対位置、接続セル番号、および接続罫線
番号を格納する。左上−右下の表相対位置とは、表領域
の基準座標を（０，０）としたときのセルの相対座標
（セルの左上と右下の位置の座標）である。接続セル番
号とは、当該セルの上下左右に隣接するセルのセル番号
である。接続罫線番号とは、当該セルの周囲を囲む罫線
の番号である。

【００２３】なお、表３０１においてセルの周囲の罫線
から当該セルの外側に伸びる矢印は、当該セルの接続セ
ルを示す。例えば、セル番号０のセルの上側および左側
に向かう矢印から分かるように、これらの方向には接続
するセルがなく、表領域の外枠になっているから、基準
座標格納テーブル３０２のセル番号０の接続セル番号の
うち上および左には「−１」が設定されている。また、
セル番号０のセルの下側および右側に向かう矢印から分
かるように、下側にはセル番号４のセルが、右側にはセ
ル番号１のセルが、それぞれ接続しているから、基準座
標格納テーブル３０２のセル番号０の接続セル番号のう
ち下および右にはそれぞれ「４」、「１」が設定されて
いる。

【００２４】また、表３０１において、各罫線を点線で
延長し、その点線の近傍に記された数字は、各罫線を識
別するための番号である。例えば、セル番号０のセルの
上下左右の罫線の罫線番号は順に３，４，０，１である
ので、基準座標格納テーブル３０２のセル番号０の接続
罫線番号は、上下左右の順に３，４，０，１になってい
る。

【００２５】３０４は、罫線情報管理テーブルである。
罫線情報管理テーブル３０４には、縦罫線の本数および
各縦罫線の座標、並びに、横罫線の本数および各横罫線
の座標を格納する。縦罫線の座標および横罫線の座標
は、表領域の基準座標を（０，０）としたときの、罫線
の始終点の相対座標で表す。例えば、表３０１では縦罫
線が３本あるので、罫線情報管理テーブル３０４の縦罫
線本数は「３」になっている。また、罫線番号が０の縦
罫線の始点は（０，０）で終点は（０，４００）である
ので、罫線情報管理テーブル３０４にはそのように設定
されている。他の罫線についても同様である。

【００２６】図４は、罫線の抽出処理（図２のステップ
２０１）の流れを表すフローチャートである。罫線抽出
は、縦罫線、横罫線の順に抽出処理を行う。

【００２７】まず、しきい値ｗ以下の長さの横方向の黒
ラン（横方向に連続した黒画素の列）を抽出する（ステ
ップ４０１）。次に、これらの黒ランが縦方向に並んで
いれば、これを統合し、縦罫線素として抽出する（ステ
ップ４０２）。

【００２８】図５に、縦罫線素の抽出結果を示す。図５
において、５０１の矢印の範囲はラン長のしきい値ｗを
示す。黒い帯は、ラン長のしきい値ｗ（５０１）以下の
長さの黒ランを示す。５０４は、ラン長がしきい値ｗよ
り長い黒ランを示す。ステップ４０２では、ラン長のし
きい値ｗ（５０１）以下の長さの黒ラン（黒い帯で図示
した黒ラン）を統合して、縦罫線素５０２および縦罫線
素５０３を抽出する。縦罫線素５０２は４つの黒ランを
統合したもの、縦罫線素５０３は３つの黒ランを統合し
たものである。

【００２９】再び図４に戻って、ステップ４０２の後、
途切れている縦罫線素を接続して新たに縦罫線素を得る
（ステップ４０３）。縦罫線に横罫線が交わっている場
合、本来は１本の縦罫線であるものが横罫線に対応する
長い黒ランで分断され複数の罫線素に分けられる。例え
ば、図５において、横罫線に対応する長い黒ラン（５０
４）があるために、本来は１つの縦罫線素となるべき縦
罫線素５０２および５０３が、２つに分断されている。
そこで、ステップ４０３では、このような縦罫線素５０
２および５０３を統合して、新たに罫線素とする。この
ような統合を繰り返して、縦罫線を得る。

【００３０】具体的には、罫線素の間の距離がしきい値
以下の罫線素を統合する。罫線素の間の距離とは、２つ
の罫線素の向かい合う辺の中点間の横（水平）方向のず
れおよび縦（垂直）方向のずれを言う。例えば、図５の
縦罫線素５０２および縦罫線素５０３において、縦罫線
素５０２の下側の辺と縦罫線素５０３の上側の辺とが向
かい合っているから、縦罫線素５０２の下側の辺の中点
の座標を（ｘ１，ｙ１）とし、縦罫線素５０３の上側の
辺の中点の座標を（ｘ２，ｙ２）として、横方向のずれ
（ｘ１とｘ２との差の絶対値）｜ｘ１−ｘ２｜、および
縦方向のずれ（ｙ１とｙ２との差の絶対値）｜ｙ１−ｙ
２｜が、縦罫線素５０２および５０３の間の距離であ
る。そして、これら２つの縦罫線素５０２および５０３
の統合の条件は、横方向のずれ｜ｘ１−ｘ２｜＜ａドッ
トかつ縦方向のずれ｜ｙ１−ｙ２｜＜ｂドットが成立
することである。なお、ａ，ｂは、正の定数でしきい値
を表す。

【００３１】ａの値が大きくなれば、傾きへの対応能力
が上がるが、罫線近くの文字を罫線として抽出する場合
がある。また、ｂの値が大きくなれば、大きな途切れ、
破線などにも対応できるが、文字など、罫線以外の要素
を繋げて罫線と誤認識する場合がある。これらのことを
考慮して、しきい値ａ，ｂの値を設定する必要がある。

【００３２】再び図４に戻って、横罫線に関しても、縦
罫線の抽出（ステップ４０１〜４０３）と同様に処理す
る（ステップ４０４〜４０６）。すなわち、縦方向の黒
ランを抽出し（ステップ４０４）、しきい値ｈ以下の長
さの縦方向の黒ランを横方向に統合して、横罫線素を抽
出し（ステップ４０５）、上記と同様の条件で横方向に
罫線素を統合していくことで（ステップ４０６）、横罫
線を得る。

【００３３】次に、ステップ４０１から４０３の処理で
抽出した縦罫線素のうち、罫線の始終点の両方が、文書
記述領域枠または何れかの横罫線に接しているものを縦
罫線として抽出する（ステップ４０７）。逆にいえば、
ステップ４０１から４０３の処理で抽出した縦罫線素の
うち、罫線の始終点のうちの何れかが文書記述領域枠ま
たは横罫線に接していないものを除去する。同様に、ス
テップ４０４から４０６の処理で抽出された横罫線素の
うち、罫線の始終点の両方が、文書記述領域枠または何
れかの縦罫線に接しているものを横罫線として抽出する
（ステップ４０８）。

【００３４】図６は、表領域を抽出する処理（図２のス
テップ２０２）の流れを表すフローチャートである。表
領域は、１つの表を構成する縦罫線を抽出し、これを含
む最小の矩形領域として設定する。初期状態としては、
表領域がない状態から始まる。

【００３５】まず、ページ内の表の数をカウントするカ
ウンタｃに初期値０を代入する（ステップ６０１）。次
に、図４の処理で抽出した縦罫線から１本分の縦罫線の
データを読み出し（ステップ６０２）、その縦罫線の存
在するｙ座標の範囲を求める（ステップ６０３）。次
に、ステップ６０３で得られた縦罫線のｙ座標の範囲が
既登録の表領域と重なるか否か判定する（ステップ６０
４）。重ならない場合（初期状態で表領域が存在しない
場合も含む）は、その縦罫線を含む矩形領域を新たに第
ｃ版目の表領域とし、カウンタｃをインクリメントする
（ステップ６０６）。ステップ６０４で当該縦罫線のｙ
座標の範囲が既登録の表領域（第０版目〜第ｃ−１版目
の表領域）と重なる場合は、その表領域を当該縦罫線も
含む最小の矩形領域に更新する（ステップ６０５）。

【００３６】次に、すべての縦罫線について上記の処理
を行なったか否かを判定する（ステップ６０７）。未処
理の縦罫線が残っているときは、ステップ６０２に戻っ
て、同様の処理を繰り返す。すべての縦罫線について上
記の処理を行なった後、抽出された表領域（第０版目〜
第ｃ−１版目の表領域）のうち重なる表領域を統合して
（ステップ６０８）、表領域抽出処理を終了する。

【００３７】なお、本実施例では、ｙ座標の範囲が一部
でも重なる縦罫線は同一の表領域に含まれるような表を
対象にしている。そのため、縦罫線のｙ座標の範囲に基
づいて表領域を求めることができるようになっている。

【００３８】図７は、図６の処理による表領域の抽出結
果である。７０１はページを示す。７０１のページの中
で、網掛けした部分（７０２、７０３、７０４）が表領
域として抽出された領域である。

【００３９】図８は、表をセルに分割する処理の流れを
表すフローチャートである。この処理は、主に図２のス
テップ２０３を詳細にしたものであるが、ステップ８０
７の処理は図２のステップ２０４の処理も含むものとす
る。

【００４０】まず、表領域内の罫線を、その長さが長い
順にソートする（ステップ８０１）。次に、ステップ８
０１でソートされた順に罫線を検索し、与えられた表領
域を分割する罫線を探索する（ステップ８０２）。この
ような罫線が見つかったら（ステップ８０３）、与えら
れた処理領域をこの罫線で２つの領域に分割する（ステ
ップ８０４）。分割した領域は、表の小領域として登録
する。ステップ８０３で該当する罫線が見つからなけれ
ば、その領域に関しては既に分割が終了したということ
であるから、セルとして登録する（ステップ８０５）。

【００４１】次に、分割された表の各小領域について、
分割が終了していない小領域が存在するか否かを調べる
（ステップ８０６）。未分割の小領域が存在すれば、そ
の領域に対して、同様の処理（ステップ８０２から８０
４）を繰り返す。すべての領域が分割済みであれば（ス
テップ８０６）、各セルを上下左右に囲む罫線の番号
と、上下左右に接するセルの番号を登録する（ステップ
８０７）。

【００４２】以上の図４、図６、および図８の処理（す
なわち、図２のステップ２０１〜２０４）により、各ペ
ージの画像中から、縦横の罫線、ページ内の表領域、各
表領域のセルを抽出できる。抽出結果は、図３の基準座
標格納テーブル３０２、セル情報管理テーブル３０３、
および罫線情報管理テーブル３０４に設定される。ただ
し、ここまでではページ間にわたる表は別々の表として
認識されている。本実施例では、ページ間にわたる表を
１つの表に統合することができる。以下、そのようなペ
ージ間にわたる表の処理について説明する。

【００４３】図９は、複数ページにわたる表の例であ
る。９０１は第ｎページ、９０３は第ｎ＋１ページを示
す。第ｎページ（９０１）には表（９０２）が存在し、
第ｎ＋１ページ（９０３）には表（９０４）が存在する
が、これらの表は本来は１つの表であったものが分割さ
れているものである。このように、表がページ内では記
述できず、次ページに繋がる場合は、ページ境界におい
て表の下部の罫線が記述されない。したがって、上記の
処理で、第ｎページ（９０１）の表（９０２）の最下部
のセルの下側の罫線が存在しない場合は、第ｎ＋１ペー
ジに継続する表が存在すると判定できることになる。ま
た、次ページ（９０３）の最上部の表（９０４）につい
ても、上記の表認識処理を行なうことで、最上部のセル
の上部の罫線の有無が得られる。これにより、上部の罫
線が存在しなければ、１つのセルがページ境界で分割さ
れており、罫線が存在すれば、ページ境界はセルの境界
と一致したことがわかる。

【００４４】図１０は、図９の表を統合した場合の表の
構造である。この図に示したように、第ｎページのセル
７は、ページ境界で分割されていたが、本来は１つのセ
ルであり、統合しなければならない。

【００４５】図１１は、表解析結果の統合処理によるテ
ーブル内容の変化を示す図である。第ｎページの表のセ
ル情報（１１０１）と第ｎ＋１ページの表のセル情報
（１１０２）とを統合することで、１つの表のセル情報
（１１０３）を得る。セル情報（１１０１）の７番目の
セルとセル情報（１１０２）の０番目のセルは同一セル
と判定されたので、セル情報（１１０３）で１つのセル
に統合される。このように、各ページから抽出された表
認識結果から、分割セルあるいは互いに接続するセルを
得て、これらを統合あるいは接続するように変更するこ
とで、１つの表データへと変換する。罫線情報について
も同様に統合する。

【００４６】図１２および図１３は、図９〜図１１で説
明した表統合処理の流れを示すフローチャートである。
具体的には、図１２のステップ２０６は図２のステップ
２０６に対応し、図１２および図１３のステップ１２０
２〜１２１３は図２のステップ２０７に対応する。以
下、表統合処理の処理手順について説明する。

【００４７】まず、各ページについて、そのページ内の
最下部に存在する表の下方の罫線が存在するかどうかを
調べる（ステップ１２０１）。存在するなら、その表は
そのページ内で閉じた表であり、次ページに続く表では
ないから、処理を終了する。ステップ１２０１で罫線が
存在しないときは、その表（以下、表Ａと呼ぶ）を次ペ
ージに続く表と判定し、ステップ１２０２以降の表統合
処理を行う。

【００４８】表Ａが次ページに続く表であれば、次ペー
ジの最上部の表（以下、表Ｂと呼ぶ）を接続対象の表と
する。まず、表Ａと表Ｂの幅を比較する（ステップ１２
０２）。そして、表Ａと表Ｂの幅の差がしきい値Ｖ以下
であるか否か判定する（ステップ１２０３）。幅の差が
しきい値Ｖ以下であればステップ１２０４に進み、そう
でなければ、表Ａと表Ｂは統合できないとしてエラー処
理（ステップ１２１３）を行ない、処理を終了する。

【００４９】統合可能な表であれば、まず、表Ａの最下
部のセルについて、表の左端からセルの左端までの距離
（以下、左端位置と呼ぶ）、および表の左端からセルの
右端までの距離（以下、右端位置と呼ぶ）を求める（ス
テップ１２０４）。次に、表Ｂの最上部のセルについ
て、表の左端位置および右端位置を求め、セル上部の罫
線の有無を調べる（ステップ１２０５）。そして、表Ａ
と表Ｂとの境界部のセルである、表Ａの最下部のセル、
および、表Ｂの最上部のセルの相互の接続関係を表すリ
ンクを設定するため、まず、一方の表からあるセルを取
り出し、他方の表の中に左端位置、右端位置の差（例え
ば、表Ａの最下部のあるセルの左端位置と表Ｂの最上部
のあるセルの左端位置との差、およびそれらのセルの右
端位置同士の差）がいずれもしきい値Ｓ以下のセルがあ
れば、これらのセルを対応付け、表Ａについては下方
向、表Ｂについては上方向のリンクを、それぞれ設定す
る（ステップ１２０６）。

【００５０】次に、表Ａと表Ｂの境界部のすべてのセル
にリンクが設定されたか否かを判定する（ステップ１２
０７）。設定されていたら、表Ａの最下部のセルと表Ｂ
の最上部のセルは、１対１に対応付けられるため、表結
合処理（ステップ１２１２）を行う。そうでなければ、
表Ｂの中にステップ１２０６の処理でリンクが設定でき
なかったセルの中で、上部罫線の存在しないセルが存在
するか否かを調べる（ステップ１２０８）。もしこのよ
うなセルが存在すれば、ページ間でセルが分割されてい
ると判定されたにもかかわらず、セルのサイズが合わな
いなどの理由で、１つのセルとして結合できなかったと
いうことであるから、エラー処理を行ない（ステップ１
２１３）、処理を終了する。

【００５１】ステップ１２０８で表Ｂのリンクが設定で
きなかったセルの中に上部罫線の存在しないセルがなか
ったとき（すなわち、表Ｂのリンクが設定できなかった
セルがすべて上部罫線を有するセルだったとき）は、表
Ａと表Ｂのリンクが設定されなかったセルのうち左端位
置の差がしきい値Ｓ以下のセル同士でリンクを設定する
（ステップ１２０９）。

【００５２】そして、すべてのセル（表Ａと表Ｂの境界
部のセル）についてリンクが設定されたか否か判定す
る。設定されていたなら、表Ａと表Ｂの結合処理を行う
（ステップ１２１２）。そうでなければ、リンクが設定
されなかったセルは、そのセルの左端位置が他方の表の
セルと重なる（すなわち、そのセルの左端位置が、他方
の表のセルのｘ方向の範囲に含まれるということ）セル
へのリンクを設定する（ステップ１２１１）。以上の処
理で、すべての境界部のセルに関してリンクが設定され
るので、表Ａ，表Ｂの結合処理を行う（ステップ１２１
２）。

【００５３】図１４は、表Ａと表Ｂの結合処理（図１３
のステップ１２１２）の流れを表すフローチャートであ
る。表の結合は、まず、表Ｂの最上部のセルを順に抽出
し（ステップ１３０１）、このセルが上部罫線が存在し
ないセルかどうかをチェックする（ステップ１３０
２）。上部に罫線が存在するセルなら、表Ａのセルとの
結合をする必要はないから、ステップ１３０４に進む。
上部に罫線が存在しないセルであれば、これを表Ａの最
下部の対応付けられたセル（リンクが設定されているセ
ル）と同じセルとして、まず、表Ａの当該セルと表Ｂの
当該セルを１つのセルに変換し、サイズおよびリンクな
どの情報を更新して表Ａのセルとして登録し、表Ｂから
は除く（ステップ１３０３）。そして、表Ｂの最上部の
すべてのセルをチェックするまで、上記処理を行う（ス
テップ１３０４）。

【００５４】次に、表Ｂのセル（最上部のセルに限らな
い）のうちステップ１３０３で除かれたセル以外のセル
に関しては、セル番号および罫線番号を表Ａのセル番号
および罫線番号に連続するように設定し直し、またそれ
らのセルや罫線の座標情報も表Ａの左上（基準座標）を
基準に変更する（ステップ１３０５）。次に、表Ａと表
Ｂの境界部である、表Ｂの最上部のセルおよび表Ａの最
下部のセルについては、接続方向のリンク先のセルの番
号（接続セル番号）を、更新されたそれぞれ下と上の接
続セルとして登録する（ステップ１３０６）。以上の処
理を行った後、２つの表情報を１つにまとめることで、
表の結合が行われる（ステップ１３０７）。

【００５５】図１５は、ページ境界で分断されたセルの
例である。第ｎページのセル１４０１と第ｎ＋１ページ
のセル１４０２は、本来１つのセルであるがページ境界
で分断されている。また、セル１４０３と１４０４も分
断されている。これらのページ境界で分断されたセルの
内容を認識する際には、縦書きか横書きかによって、行
を統合する処理が変わってくる。縦書きであれば、セル
１４０１およびセル１４０２のそれぞれのセルで縦方向
の文字列を抽出した後、縦方向の行の途中で分断された
文字列を統合して、新たに１つの縦方向の行としなけれ
ばならない。横書きであれば、セル１４０３およびセル
１４０４のそれぞれのセルで抽出された横方向の行を繋
げることで、行抽出が可能となる。

【００５６】図１６は、分割されたセルの行抽出を行う
処理のフローチャートである。各セル内の文字が縦書き
なのか横書きなのか判定し、それぞれの方向に行統合を
行う。

【００５７】まず、統合対象の各セルについてセル内の
文字抽出および文字認識を行う（ステップ１５０１）。
次に、セル内の文字が縦書きであると仮定して、縦方向
に行抽出を行ない、これにより得られる文字列に対して
日本語後処理を行ない、その評価値を求める（ステップ
１５０２）。同様に、セル内の文字が横書きであると仮
定して、行抽出および日本語後処理を行ない評価値を求
める（ステップ１５０３）。日本語後処理とは、辞書と
照合していわゆる形態素解析を行う処理などである。評
価値とは、辞書との照合がどの程度うまくいったかを示
す値（辞書の単語とのマッチング率）である。

【００５８】縦書き、横書きそれぞれの評価値から、縦
書きか横書きかの判定を行う（ステップ１５０４）。縦
書きと判定されたときは（ステップ１５０５）、縦方向
に行統合した結果を行抽出結果とする（ステップ１５０
６）。そうでないときは（ステップ１５０５）、横方向
に行抽出した結果を行抽出結果とする（ステップ１５０
７）。

【００５９】次に、本発明の第２の実施例を説明する。
第２の実施例は、上述の第１の実施例とほぼ同じである
ので、異なる部分のみ説明する。第１の実施例では、図
２で説明したとおり、各ページの表領域からセルを抽出
してセル同士の接続関係を求め、図３の各テーブルの情
報を得てから、ページ間にわたる表の結合を行った。こ
れに対し、第２の実施例では、ページ間にわたる表の結
合を画像データで統合することにより行い、統合された
画像に対して、罫線やセルの抽出およびセル同士の接続
関係の取得を行う。以下、第２の実施例の手順を説明す
る。

【００６０】図１７は、第２の実施例のフローチャート
である。ステップ１６０１の罫線抽出、ステップ１６０
２の表領域の抽出までは、上述の第１の実施例と同様の
処理（すなわち、図２のステップ２０１，２０２と同
じ）を行う。次に、ページカウンタＰに１を代入し（ス
テップ１６０３）、ページＰの最下部の表の下部の罫線
が存在するか否かを判定する（ステップ１６０４）。存
在しなければ、次ページに表が続くものとして、このペ
ージＰの最下部の表の画像と次ページの最上部の表の画
像とを統合する（ステップ１６０５）。なお、画像を統
合する際には、表領域の画像の幅の差がしきい値Ｖ以下
であることをチェックするようにする。次に、ページカ
ウンタＰに１を加算し（ステップ１６０６）、最終ペー
ジまで処理を繰り返す（ステップ１６０７）。

【００６１】全ページに関して表の画像での統合が終了
したら、統合された画像について、再度、罫線抽出処理
を行う（ステップ１６０８）。以下は、第１の実施例と
同様に、セル抽出処理（ステップ１６０９）、セル間の
接続関係の抽出処理（ステップ１６１０）、セル内の文
字認識処理（ステップ１６１１）を行うことで、第１の
実施例と同様の処理が実現できる。

【００６２】なお、上記第１および第２の実施例では、
ページが上下方向に接続するような文書を対象としてい
るが、ページの接続の方向はこれに限らない。例えば、
ページの右側に次ページの左側がつながるような文書で
あっても、本発明は適用可能である。また、上記第１お
よび第２の実施例では、あるページの最下部の表の最下
部のセルの下側の罫線が存在しない場合に、次ページへ
と表が続くと判定している（逆にいえば、そのようなフ
ォームの表を対象としている）が、次ページに表が続く
か否かを判定する方法は、これに限らない。例えば、あ
るページの最下部に表があり、次ページの最上部に表が
あるときは、とりあえずページ境界のセル同士の接続を
試みて、それがうまくいったとき、それらの表は連続す
るものであると判定するようにしてもよい。

【００６３】

【発明の効果】本発明によれば、複数のページにわたる
表を統合し、１つの表として認識することができる。ま
た、複数のページに分割されたセルを１つのセルとして
認識できるので、該セル内の文字認識を適正に行うこと
ができる。これにより、文書認識して入力された文書の
管理、編集などが容易になる。

【図面の簡単な説明】

【図１】本発明の実施例に係るシステム構成を表す図

【図２】第１の実施例のフローチャート図

【図３】表解析結果の例を示す図

【図４】罫線抽出処理のフローチャート図

【図５】罫線抽出処理の例を示す図

【図６】表領域抽出処理のフローチャート図

【図７】表領域抽出結果の例を示す図

【図８】セル分割処理のフローチャート図

【図９】複数ページにわたる表の例を示す図

【図１０】表の統合結果の例を示す図

【図１１】表統合処理内容の例を示す図

【図１２】表統合処理のフローチャート（その１）図

【図１３】表統合処理のフローチャート（その２）図

【図１４】表結合処理のフローチャート図

【図１５】セルがページ境界で分断される表の例を示す
図

【図１６】分割セル内行抽出処理フローチャート図

【図１７】第２の実施例のフローチャート図

【符号の説明】

１０１−スキャナ、１０２…メモリ、１０３…ＣＰＵ、
１０４…認識結果格納ファイル、３０１…表の例、３０
２…表基準位置テーブル、３０３…セル情報テーブル、
３０４…罫線情報テーブル、６０１…罫線抽出に用いる
ラン長のしきい値、６０２，６０３…罫線素、６０４…
長い黒ラン、１１０１…セル情報テーブルＡ、１１０２
…セル情報テーブルＢ、１１０３…統合したセル情報テ
ーブル。

Claims

【特許請求の範囲】

【請求項１】表を含む文書画像から表領域を認識し、該
表の表構造情報と該表内の文字コードを生成する文書認
識方法において、各ページにおいて、画像中から罫線を抽出して表領域を
認識し、該表の表構造情報を生成するステップと、各ページの表の表構造情報に基づいて、前後のページ間
の表の接続関係を判定するステップと、前後のページ間で表が接続していると判定されたとき、
それらの表を１つの表として認識して、表構造情報を統
合するステップと、１つの表として統合された表構造情報にしたがい、該表
内の文字認識を行って文字コードを生成するステップと
を備えたことを特徴とする表認識方法。
【請求項２】前記前後のページ間の表の接続関係を判定
するステップは、ページ内の最後部の表の後部罫線が存
在するか否かを判定し、存在しなければ次ページの最前
部の表と接続していると判定することを特徴とする請求
項１に記載の表認識方法。
【請求項３】前記表構造情報を統合するステップは、前
後のページ間で接続していると判定された表に対して、
該ページ間の境界部にあるセルの位置関係からセル同士
の接続関係を判定し、接続する場合はセル間の接続関係
を表現するリンクを変更することで１つの表に統合する
ことを特徴とする請求項１または２に記載の表認識方
法。
【請求項４】表を含む文書画像から表領域を認識し、該
表の表構造情報と該表内の文字コードを生成する文書認
識方法において、各ページにおいて、画像中から罫線を抽出して表領域を
認識するステップと、認識した罫線および表領域の情報に基づいて、前後のペ
ージ間の表の接続関係を判定するステップと、前後のページ間で表が接続していると判定されたとき、
それらの表領域の画像を結合して１つの画像とするステ
ップと、該１つの画像から罫線を抽出して表構造情報を生成する
とともに、該表内の文字認識を行って文字コードを生成
するステップとを備えたことを特徴とする表認識方法。
【請求項５】表を含む文書画像から表領域を認識し、該
表の表構造情報と該表内の文字コードを生成する文書認
識装置において、各ページにおいて、画像中から罫線を抽出して表領域を
認識し、該表の表構造情報を生成する手段と、各ページの表の表構造情報に基づいて、前後のページ間
の表の接続関係を判定する手段と、前後のページ間で表が接続していると判定されたとき、
それらの表を１つの表として認識して、表構造情報を統
合する手段と、１つの表として統合された表構造情報にしたがい、該表
内の文字認識を行って文字コードを生成する手段とを備
えたことを特徴とする表認識装置。
【請求項６】表を含む文書画像から表領域を認識し、該
表の表構造情報と該表内の文字コードを生成する文書認
識装置において、各ページにおいて、画像中から罫線を抽出して表領域を
認識する手段と、認識した罫線および表領域の情報に基づいて、前後のペ
ージ間の表の接続関係を判定する手段と、前後のページ間で表が接続していると判定されたとき、
それらの表領域の画像を結合して１つの画像とする手段
と、該１つの画像から罫線を抽出して表構造情報を生成する
とともに、該表内の文字認識を行って文字コードを生成
する手段とを備えたことを特徴とする表認識装置。