JPH02138674A

JPH02138674A - 文書処理方法及び装置

Info

Publication number: JPH02138674A
Application number: JP1214795A
Authority: JP
Inventors: Sachiko Kouchitani; 河内谷　幸子; Haruo Takeda; 晴夫武田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1988-08-24
Filing date: 1989-08-23
Publication date: 1990-05-28

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】【産業上の利用分野】

本発明は文書処理方法および装置に関し、更に詳しくは
、複数の罫線からなる表と文字とを含む文書画像から罫
線を認識して、表作成用のデータを得るようにした文書
データ処理方法および装置に関する。

【従来の技術】

ワードプロセッサやワークステーシミンなどの文書作成
装置において，表を含む文書を作成しようとすると、通
常は装置を罫線モードに設定し、罫線の始点と終点をそ
れぞれカーソルにより指定することにより罫線を引き、
この操作を縦，横の複数の罫線に繰り返している。また
、装置によっては、カーソルで始点を指定し、該始点か
ら右方向，または下方向に延びる罫線を引き、次に終点
をカーソルで指定し、終点より右、または下に延びた不
正な罫線部分を消去することにより、所望長さの罫線を
描いている。このようにして描かれた表の枠外や、表内
の所定の欄（セクション）に文字を記入する場合には、
罫線モードを解消して装置を文字入力モードに戻し、文
字キーとカーソル・キーの操作により文字を入力する。表を描くための面倒なキー操作をなくすための１つの方
法として、例えば特開昭６２−１３８９８８号公報にお
いて、白紙上にフリーハンドで比較的きれいに描いた表
を、画像入力装置により読取り９表認識のための特殊な
知識を蓄えている知識ベースを利用して、上記入力され
た表面像を認識し１表の枠を自動的に生成するアイディ
アが提案されている。

【発明が解決しようとする課ＷＡ】

然るに、入力画像を利用して表を生成する上記従来の装
置は、入力画像が複数の罫線からなる表のみを含むこと
を前提として表認識がなされており、例えば、既存の伝
票や文書の如く、文書と表とが混在する用紙を原稿とし
て用いることはできない。本発明の目的は、複数の罫線からなる表と、表の内、あ
るいは外に記入された複数の文字とを含む文書を原稿と
して用い、画像入力装置により読込まれた文書画像から
罫線を認識して、自動的に罫線を描くようにした文書処
理方法、および装置を提供することにある。本発明の他の目的は、罫線の一部が劣化したり、縦横の
罫線が正確に交っていない文書画像を処理して、鮮明で
正しい交点をもつ罫線からなる表を生成できるようにし
た文書の処理方法、および装とを含む文書画像から罫線
を認識し、ワードプロセッサ機能によりオペレータが罫
線を修正したり追加したりできる形の罫線データを自動
的に生成する文書処理方法、及び装置を提供することに
ある。本発明の更に他の目的は、複数の罫線と文字列義データ
とを自動的に生成する文書処理方法、および装置を提供
することにある。

【課題を解決するための手段】

上記目的を達成するために、本発明による文書処理方法
では、複数の文字と、縦横の複数の罫線からなる表とを
含む文書を１画像入力手段により文書画像に変換する第
１ステップと、上記文書画像を、複数の罫線のみを含む
第２の文書画像に変換する第２ステップと、上記第２の
文書画像に含まれる罫線を認識して、各罫線を定義する
複数のベクトルデータを得る第３ステップと、上記ベク
トルデータに基づいて描かれた複数の罫線からなる表を
表示する第４ステップとからなることを特徴とする。更に詳述すると、上記第２ステップは、例えば、文書画
像に含まれる黒画素連結領域の外接矩形を求めるステッ
プと、文書画像上で所定サイズ以下の外接矩形内に位置
する黒画素を白画素に置換するステップとからなる。ま
た、上記第３ステップは、上記第２の文書画像から複数
の横罫線を抽出して、各横罫線の始点と、終点と、線幅
とを示すベクトルデータを得るステップと、上記第２の
文書画像から複数の縦罫線を抽出して、各縦罫線の始点
と、終点と、ＲＩＡ＠とを示すベクトルデータを得るス
テップとからなる。本発明による文書処理装置は、表と文字とを含む文書画
像を入力するための画像入力装置と文書画像を表示する
ための画面をもつ表示手段と、上記画像入力手段から入
力された複数画素からなる文書画像を記憶するための第
１のメモリ手段と、傾きを補正された文書画像を記憶す
るための第２のメモリ手段と、罫線を定義するベクトル
データを記憶するための第３のメモリ手段と、ｍ−←ｎ
−オペレータによって操作される指令と文字データを入
力するための手段と、上記入力手段からの指令に応答し
て動作するデータ処理手段とからなり、上記データ処理
手段が、更に、上記第１のメモリ手段に記憶された文書
画像の傾きを検出し、傾き補正された文書画像を上記第
２のメモリ手段に書込む第１手段と、文字を構成してい
る黒画素を白画素に置換することにより、上記第２のメ
モリ手段に記憶されている文書画像を。複数の罫線が残されている第２の文書画像に変換するた
めの第２手段と、上記第２の文書画像から、横罫線のグ
ループと縦罫線のグループとを別々に検出し、各罫線の
位置とサイズを定義する複数のベクトルデータを上記第
３のメモリ手段に書込む第３手段と、上記ベクトルデー
タに基づいて描かれた複数の罫線からなる表を上記表示
手段に出力するための手段とを備えることを特徴とする
。

【作用】

本発明において、前記横罫線の抽出は、例えば第２の文
書画像を水平方向に順次に走査することにより検出され
るそれぞれ１以上の黒画素からなる複数の線分のうち、
所定の閾値よりも短い線分を除外することにより行なわ
れ、前記縦罫線の抽出は、第２の文書画像を垂直方向に
順次に走査することにより検出されるそれぞれ１以上の
黒画素からなる複数の線分のうち、所定の閾値よりも短
かい線分を除外することにより行なわれる。また、前記
各横罫線のベクトルデータは、水平方向の走査により検
出される所定閾値より長い複数の線分のうち、互いに接
する位置関係にあるものを統合して、線幅あるいは線長
が大きくなった１つの線分にし、この統合された線分の
始点、終点、線幅を検出することにより求められる。同
様に、前記は各縦罫線のベクトルデータ剤、垂直方向の走査により検
出される所定閾値より長い複数の線分のうち、互いに接
する位置関係にあるものを統合して、ａＳまたは線長が
大きくなった１つの線分にし、この統合された線分の始
点、終点、線幅を検出することにより求められる。上述したベクトルデータに基づいて罫線を描くことによ
り、本発明によれば１表示画面およびプリンタに劣化の
ない罫線からなる鮮明な表を出力させることができる。尚、表示された表内の任意のセクションを、オペレータ
がカーソルで指示し、このセクションに文字データを入
力できるようにするためには、カーソルがどのセクショ
ンに位置しているかを判断するためのセクション定義デ
ータが必要となる。本発明によれば、表における各セクションの定義データ
を、前記第３ステップで得られた各罫線のベグ］・ルデ
ータ、または、罫線のはみ出し部分を補正したベクトル
データに基づいて５例えば最上位の横線を基準線として
、これと交わる縦線を順次見つけ、次にこれらの縦線と
交わる横線を順次にＡ、つける形で、上記基準線を上辺
とする第１行目の複数のセクションの位置データを算出
し、次に第２番目以降の横線をｊ順次に基準線として同
様の動作を繰り返すことにより求めることができる。

【実施例】

以下、本発明の１実施例を図面を参照して説明する。第１図は、本発明による文書処理方法を実施するシステ
ムの全体構成の１例を示す。このシステムは、オペレー
タがコマンドやデータを入力するためのキーボード１１
と、帳票などの文書画像を入力するためのイメージスキ
ャナ１２と、入力文書あるいは、このシステムにより認
識処理された文書データを表示するための表示装置１３
．プリンタ１４．プログラムメモリ１６にストアされた
プログラムに従ってデータ処理動作を行なうデータプロ
セッサ１５９文書認識の結果得られたベクトルデータ（
線分データ、ａデータ）や文字データをストアするため
の文書データファイル１７゜画像入力装置１２から入力
された画像データを１時的にストアするための入力バッ
ファメモリ］８、上記人力バッファメモリ１８にストア
された画像データを処理して得られる補正画像データを
ス１〜アするためのメモリ１９、および本発明による文
書認識処理に必要な各種のテーブルとワークデータをス
トアするためのメモリ２０とからなる。メモリ２０は、
文書画像から検出した黒画素連結領域の外接矩形枠を示
すデータをストアするためのテーブル領域２１、文書に
含まれる罫線を定義するデータをストアするためのテー
ブル領域２２、文書に含まれる表を構成する欄を定義す
るデータをストアするためのテーブル領域２３、歪んだ
罫線を補正する処理に用いられる横仮線データテーブル
領域２４および縦仮線データフ−プル２５、横罫線と縦
罫線との識別のために用いら九る。ｆＩ長さ頻度テーブ
ル領域２６、横線検出の閾値をストアすゐための領域２
７、縦線検出の閾値をストアするための領域２８．外接
矩形枠検出に用いるラベルデータをストアするための領
域２９、およびワークエリア３０からなる。第２Ａ図〜第２Ｇ図は、本発明による文書認識処理の手
順を模式的に示した図である。第２Ａ図は、処理対象となる原帳票用紙２００を示し、
この帳票は罫＄２１０と、見出し文字列２１１と、ａ内
に記入された文字データ２１２とを含む。第２Ｂ図は、
画像入力装置１２により入力画面バッファ１８に読込ま
れた上記帳票の入力画像データ２０１を示す。入力画像
データ２０１は、オペレータによる入力装置１２への紙
面セットの不正確さに起因して、水平（あるいは垂直）
方向に対して傾いた状態となる。第２Ｃ図は、入力画像
２０１に含まれる直線（罫線の１部）２１０を検出し、
傾きを補正して得られる画像データ２０２を示す。この
画像データ２０２は、原ｉｐｐｍ用紙（Ｈ稿）２０ｏに
存在する印刷のよごれ、および画像入力装置１２におけ
る変換処理時に生ずるノイズなどにより、罫線の１部に
突起２１３や欠落２１４、などの欠陥が生じている。第２Ｄ図は、入力画像２０２に含まれる黒画素の連結領
域を検出し、それぞれの黒画素連結領域の外接矩形枠を
求め、外接矩形枠のサイズから文字枠を識別し、文字情
報２１１，２１２を除去することにより得られた罫線情
報２１０のみを含む画像データ２０３を示す。第２Ｅ図は、画像データ２０３から横線と縦線を検出し
た後、各線分のベクトルデータを求め、これらのベクト
ルデータに基づいて描画したグラフィックデータ画像２
０４を示す。横線の検出は、例えば、画像データ２０３
を横方向に順次に走査することにより同一走査線上で連
続する複数画素からなる仮線を求め、連続画素数が所定
値以下のものは縦罫線要素とみなして除外し、残された
複数の仮線を横罫線構成要素と判断する。複数の互いに
隣接する仮線を１つの実線に統合し、その始点と終点と
から各横罫線のベクトルデータを求める。これと同様に
、縦線のベクトルデータは、画像データ２０３を縦方向
に走査し、同一走査線上で連続する所定個数以上の画素
からなる縦方向の仮線を求め、隣接仮線を統合すること
により求める。これらの画像処理により、罫線は円２１
５′に示す如く、欠落の補正された直線となるが、２１
３′で示すように、縦線と横線の交点が部分的に突出し
たり、未接続になってすした不完全な状態である。第２Ｆ図は、上記グラフィックデータ画像２０４に対し
て補正処理を施し、突起がなく、縦線と横線が正しく交
わり、且つ、罫線が所定の線幅に統一された、修正され
たベクトルデータにより描かれたグラフィックデータ画
像２０５を示す。第２Ｇ図は、縦、横の罫線により形成される欄（例えば
斜線で示した領域２１６は１つの欄である）を認識し、
オペレータがカーソルで指示した位置がどの欄に相当す
るかを判断するのに必要な欄定義データを求めた状態を
示す。第３図は、上述した文書認識処理を行なうための処理プ
ログラムのフローチャートを示す。このプログラムでは、先ず、画像入力装置１２により入
力帳票２００の画像情報を入力画像バッファメモリ１８
に読み込む（ステップ３０１）。次に、罫線２１０を利用して、第４図と第５図を参照し
て後述する入力画像２０１の傾きを検出処理を行ない（
ステップ３０２）、第６図で詳述するように傾き補正さ
れた画像データ２０２を画像データ領域１９にストアす
る（ステップ３０３）。傾き補正された画像データ２０２は表示装置１３に出力
され（ステップ３０４）、オペレータ（ユーザ）は、上
記表示画像を視覚的にチエツクする。オペレータは、表示画面をみて、＠票画像を再入力する
か否かを判断し、もし、表示された傾き補正画像に問題
がなければＯＫを示すコマンドをキーボード１１から入
力する。ＯＫの入力があった場合（ステップ３０５）、
画像データ２０２に含まれる黒画素連続領域の外接矩形
を求めて、文字に外接する枠を認識しくステップ３０６
）、次に文字情報と罫、５ｌｉＩ（直線）情報とを分離
して、画像データ２０２から文字を消去した第２Ｄ図に
示す画像２０３を得る（ステップ３０７）。次に、第９
Ａ図〜第２０図で詳述するように、画像データ２０３に
含まれる罫線から縦線と横線を識別し、各線分のベクト
ルデータを得て（ステップ３０８）、これらのベクトル
データに基づいて描画される第２Ｅ図のグラフィックデ
ータ画像２０４を表示画面に表示する（ステップ３０９
）。更に、第２１図で詳述するように、画像２０４に含
まれる罫線の各交点に対する補正処理と、線幅の統一処
理を行ない、第２Ｆ図に示す補正されたグラフィックデ
ータ２０５画像を得（ステップ３１０）、このグラフィ
ックデータ画像に対して、第２２図〜第２６図で説明す
る欄の認識処理を行なう（ステップ３１２）。尚、グラ
フィックデータ画像２０４または２０５に対しては、オ
ペレータは、ステップ３１３で示す如く、キーボードか
ら罫線の補正操作を加えることができ、この場合、オペ
レータの操作コマンドに応じて線分のベクトルデータが
修正、消去あるいは追加される。以下、上記フローチャートの主たるステップの詳細につ
いて説明する。ステップ３０２で行なう傾き検出では、入力画像２０１
に含まれる罫線（直線）の１つを検出し。この直線の傾きを求める。画像に含まれる直線の検出は
、公知の種々の方法で行なうことができるが、ここでは
公知のＨｏｕｇｈ変換のアルゴリズムを適用する。第４図は、左辺に相当する罫線を検出するためが求める
直線の式であり、γは原点Ｏからの距離。 Δ θは直線の傾きを表わす。Ｈｏｕｇｈ変換方式の特徴は
、画像中の、例えば文字などの他の情報に影響されるこ
となく、直線を検出できることにある。第４図のフローチャートにおいて、ステップ４０１．４
０２はパラメータの初期化であり、ステップ４０．３〜
４０６で直線上の１つの点の候補、例えば黒画素Ｐ□を
探索し、次にステップ４０７〜４１１で、この点Ｐ工を
通る全ての直線として。 γ＝ｘｓｉｎθ＋ｙ　ｃｏｓθにおけるγとθとの組を
求め、更に、ステップ４０３〜４１２を繰り返すことに
より、頻度分布ｆ（γ、０）を求める。ここでＪ（γ、
θ）は、直線γ＝ｘｓｉｎｏ＋ｙ　ｃｏｓｏ上てはｆ（
γ、θ）の値はＮ　４１１となるが、これ以外の直線（
γ、θ）に対しては、ｆ（γ、θ）の値はＯ〜２の小さ
い値となる。従って、ステップ４１３でｆ（γ、θ）の
値が最大となるγ、θを求めることにより、最も多くの
候補点を通る直線のパラメータが得られる。第３図のステップ３０３で行なう傾きの補正は、例えば
、第６図に示す如く、補正画像２０２上の点Ａを入力画
像２０１上の点ａの座標に変換し、点Ａの画素濃度とし
て、例えば、点ａに最も近い点ａ′の画素濃度を与える
操作を、補正画像上の全ての点（画素）について繰り返
すことにより行なう。点Ａに対応する点ａの座標値は、
ステップ３０２で求めた直線の傾き角度θを用いて計算
できる。尚、点ａの濃度値は、点ａを囲む４つの画素の
濃度値と、点ａとこれらの画素の距離とに応じて計算し
てもよい。第３図のステップ３０６に示した文字外接矩形枠の認識
は次のようにして行なう。第７Ａ図は、罫線２１０と５文字２１２Ａ〜２１２Ｃを
含む画像２０２の拡大図である。本発明で言う文字外接
矩形枠（文字枠）は、２２０Ａ〜２２０Ｃの如く１文字
を構成する互いに連結した複数の黒画素に外接する矩形
を意味し、これらの文字枠の始点と終点は、それぞれ左
上画素Ｐｓと右下画素ＰＥで示す。各文字外接矩形枠は
１例えば、電子通信学会編、コロナ社発行、「パターン
情報処理」　（長尾真著）、Ｐ、８４−８５に記載され
た方法で検出できる。上記方法によれば、画像２０２を
上側の行から順に、各行では左から右に走査し、各行で
、連続する黒画素が互いに同−のラベル（識別符号）を
もつように順次にラベル付けをしていく。例えば、第７Ｂ図に示す如く、画像２０２を矢印方向に
順に走査し、最初に検出された黒画素の位置にはラベル
Ａを与え、これに連続する黒画素位置には同じラベルＡ
を与えていく、黒画素が途切れた後、同一の行内で別の
黒画素が現われたら、これには別ラベルＢを与え、これ
に続く黒画素の位置に同一ラベルＢを与えていく。これ
らの黒画素の位置とラベルとの関係はメモリ領域２９に
記憶しておく。次の行からは、黒画素が検出される毎に
、その近傍に既にラベル付けされた点があるか否かを判
定し、もし有れば上記ラベルと同一のラベルを与え、な
ければ新たなラベルを与えていく。このようにラベル付
けを行なうと、第７Ｂ図に示す如く、同一ラベルをもつ
互いに連続する黒画素の集合Ｓ＾〜ＳＤが形成される。ここで、例えばＳｃとＳＤの如く、異なるラベルを持つ
複数の集合が連続している場合、ラベルを統一する必要
がある。そこで、画像２０２全体の走査を終えた時、メ
モリ領域２９をチエツクし、他の集合ＳＣと連結した集
合（Ｓｏ）について、ラベルの書替え（Ｄ→Ｃ）を行な
う。そして、同一ラベルを持つ各画素集合の外接矩形２
２０を求め、それぞれの始点Ｐｓと終点ＰＥの座標を外
接矩形枠テーブル２１に、例えば第８図に示すように記
憶する。第８図において、２ＬＡは矩形番号、２１Ｂは始点座標
、２１Ｃは終点座標である。外接矩形テーブル２１には
１文字を構成する黒画素の外接矩形データと、罫線を構
成する黒画素の外接矩形デ所定のサイズより小さい矩形
を文字外接矩形と判断する。第３図のステップ３０７は、画像２０２に含まれる黒画
素のうち、上記文字外接矩形内に位置するものを白画素
に変換する処理である。これによって、罫線２１０だけ
を残した画像２０３が得られる。次に、第３図の罫線認識ステップ３０８の詳細について
、第９Ａ図〜第２０図を参照して説明する。第９Ａ図は、画像入力装置１２を通る前の原帳票２００
上の原罫、１１２１０の拡大図を示す、原罫線２１０は
鮮明であり、線幅に乱れはない。第９Ｂ図は１画像入力装置１２により読み込まれ、文字
の除去処理を終えた後の画像２０３に含まれる罫線２１
０の拡大図である。この罫線２１０はノイズ等により若
干劣化しており、連続すべき黒画素の１部が欠けた状態
となっている。罫線認識処理３０８は、第９Ｂ図に示す劣化した罫線画
像から、第９Ａ図に示す劣化のない罫線を描画するため
のデータを得るためのものであり、本発明では、第１０
図に示す如く、罫線２１０の中の横、１ｌｌ（例えば、
ＬＨＩ、ＬＨ２・・・・・・）を認識するルーチン５ｏ
Ｏと、縦線（例えば、ＬＶＩ。ＬＶ２・・・・・・）を認識するルーチン５１０と、罫
線テーブル（実線ソフト）２２を作成するルーチン５２
０とからなっている。横線認識ルーチン５００の詳細を第１１図に示す。この
ルーチンでは、先ず、画像２０３に含まれる仮線を抽出
し、仮線テーブル２４を作成する（ステップ５０１）、
ここで言う“仮線”は、第９Ｂ図にＬＬ、Ｌ２．・・・
・・・で示すように、横方向の走査線上で連続する複数
の黒画素からなる線幅が１画素の線分を意味し、１本の
罫線は、その線幅に応じた複数本の仮線から形成される
。ステップ５０１では、画像２０３を水平方向に走査し
ながら、各走査線上に存在する複数の連続黒画素からな
る場合の始点（例えばＰ＾）と終点（例えばＰａ）を検
出し、これら２点の座標と、線幅（＝１画素）、線長（
Ｐ＾〜Ｐａの距離）の値を第１２図に示すテーブル２４
に順次に登録する。画像２０３の全体について走査が終
了すると横罫線を構成する仮線だけでなく、縦罫線を構
成する仮線も含めて、全ての仮線データ２４Ｂ〜２４Ｌ
が仮線の検出順の線番号２４を伴なってテーブル２４に
登録される。次に、横罫線を構成する仮線（横仮線）と縦罫線を構成
する仮線（縦仮線）とを見分けるために、仮線テーブル
２４から線長データ２４Ｌを読み出し、線長毎の仮線の
頻度（出現した本数）を表わす頻度リスト２６を作成す
る（ステップ５０２）。第１３図は頻度リスト２６の１例を示す。一般に、縦、
横罫線を含む画像で、横方向に長さを測って仮線の頻度
分布をとると、縦罫線は短い線長をもつ多数の線分に分
割されているため、縦罫線を構成している短い仮線が高
い頻度をもつことになる。例えば、各縦罫線が１画素分の線幅をもつ場合は、線長
が１（画素）の仮線の頻度が最大となり、縦罫線の線幅
が２画素ならば、線長が２の仮線の頻度が最大となる。従って、最大頻度をもつ線長Ｑを縦罫線の線幅とみなし
、上記線長Ｑ、あるいは、上記線長Ｑに所定の係数ｋ（
例えばに＝２）を掛けた値を、横仮線・縦仮線を識別す
るための閾値ＴＨとしてメモリ領域２７に記憶しておく
。仮線テーブル２４は、線長２４Ｌが上記閾値ＴＨより大
きい仮線データ、すなわち横仮綴データのみを残し、縦
仮線データをテーブルから消去した形に再編集してもよ
いが、この実施例では。縦仮線データを仮線テーブルに残したまま、次の仮線統
合処理ステップ５０４を実行する。仮線テーブル２４上では、各横罫線ＬＨＩ。ＬＨ２・・・・・・が、それぞれ複数の仮線データとし
て記憶されている。そこで、ステップ５０４では、。隣接関係にある複数の横仮線を統合し、複数画素分の線
幅をもつ１本の横罫線を表わす実線データに変換する。第１４図は、ステップ５０４で行なう横仮線統合処理の
詳細を示すフローチャートである。ここで、仮線テーブ
ル２４におけるに番目の仮線の始点座標２４Ｂの値を［
ｘｌ（ｋ）、ｙ　１（ｋ）コ、終点座標２４Ｅの値を［
ｘ２（ｋ）、ｙ　２（ｋ）］　、線幅２４Ｗの値をＷｉ
ｄｔｈ　（ｋ　）　、線長２４Ｌの値をＬｅｎｇｔｈ　
（ｋ　）でそれぞれ表わすことにする。第１４図のフローチャー１・の概要は、仮線リスト２４
の中で１つの横仮線を基準仮線に選び、これ以外の全て
の横仮線について順次に上記基準仮線と接するか否かを
チエツクし、もし、基準仮線と接するか重なる場合は、
第１５図と第１６図に示す定義に従って、基準仮線の始
点、終点、線幅。線長さの値を更新しく仮線と基準仮線との統合）、統合
された仮線のデータを仮線リスト２４から消去すること
にある。第１４図で、には基準仮線を示すパラメータ、Ｑは照合
対象となる仮線を示すパラメータであり、ステップ１１
０１と１１１３により１つのｋについてのループが形成
され、ステップ１１０３と１１１１とで１つのＱについ
てのループが形成されている。この例では、統合された
仮線は、リストから消去する代りに、始点のｘ１１ｉ標
に「−１」を代入している。また、ステップ１１０２゜
１１０４で基準仮線の長さＬｅｎｇｔｈ　（ｋ　）　、
照合板線の長さＬｅｎｇｔｈ　（Ｑ）を閾値ＴＨと比較
し、これがＴＨより小さい場合は処理対象からはずすよ
うにしている。事前に仮線テーブルから縦仮線のデータ
が消去されている場合は、閾値ＴＩ（どの比較動作を省
略すればよい。このルーチンでは、ステップ１１０１でｋに初期値を設
定し、ステップ１１０２でに番目の仮線データが基準仮
線として有効か否かを判定する。ｋ番目のデータが実質的に消去されたもの１．％−）あ
るいは縦仮線に該当する場合は、ステップ１１１２に分
岐し、ｋの値を１だけインクリメントする。インクリメ
ントされたｋの値が、仮線テーブル２４にストアしであ
る。データの個数ｋ　ａａＸを超えた場合、このルーチ
ンを終了する（ステップ１１１３）。もし、そうでなけ
ればステップ１１０２に戻る。ステップ１１０２で、ｋ
番目の仮線データが基準仮線として有効な場合、ステッ
プ１１０３で、照合板線を示すパラメータΩに初期値を
設定し、ステップ１１０４゜１１０５でΩ番目の仮線デ
ータが有効か否かを判定する。もし、有効データでなけ
れば、ステップ１１１０でＱの値を１だけインクリメン
トし、これが仮線リストのデータ個数Ｑ　−ａｘ　（＝
　ｋ−ａｘ）を超えていなければ、ステップ１１０４に
戻り、そうでなければ、ステップ１１１２に進む。２番
目のデータが有効な場合、ステップ１１０６で基準仮線
と照合板線との位置関係をチエツクし、もしこれら２本
の仮線が重なる場合、あるいは互いに接する場合、基準
仮線の始点、終点の座標変更（ステップ１１０７）と、
線幅の変更（ステップ１１０８）を行ない、照合板線デ
ータを消去することを意味する始点Ｘ座標のｒ−ＩＪへ
の書き換えを行なう。第１５図は、基準仮線（ｋ番目の仮線）と照合板線（ρ
番目の仮線）とが互いに接するか、あるいは互いに重な
る場合の、基準仮線の始点Ｘ座標ｘｉ（ｋ）と終点Ｘ座
標ｘ２　（ｋ）の変更の定義を示す。照合板線の始点ま
たは終点が、基準板−腺の外側に位置する場合は、基準
仮線の始点または終点のＸ座標が照合板線の始点または
終点のＸ座標に置き換えられる。基準仮線と照合板線と
が統合されると、基準仮線は、始点または終点のＸ座標
が変更されると同時に、線幅も変更されて、次第に太く
なって行く。例えば第１７図の画像において、Ｌｌが基準仮線に選ば
れた場合、仮線Ｌ２は重ならないため、そのまま仮線リ
ストに残る。仮線Ｌ３は基準仮線に重なるため、これが
基準仮線に統合され、基準仮線Ｌ１の終点座標がステッ
プ１１０７でｐａ工からＰａ、に変更される。また、基
準仮線Ｌ１の線幅がステップ１１０８でｒ２Ｊに変更さ
れ、仮線Ｌ３のデータがステップ１１０９で消去される
。仮線Ｌ４は、線幅が拡張された基準仮線に重ならない
ため、この時点では仮線リストに残されたままである。基準仮線Ｌ１と他の全ての仮線との照合動作が終了する
と、次に、仮線１４２が基準仮線に選ばれる。この基準
板ｍＬ２は、既にＬ３と統合済みの仮線Ｌ１と照合され
、両者が互いに重なっているため、Ｌ２の始点座＃ＡＰ
＾２がＰ＾１に変更される。また、Ｌ２の線幅が「２」に変更され、仮線Ｌ２は仮線
リストから消去される。次に、仮線Ｌ４が照合板線にな
り、これも基準仮線Ｌ２に統合され、結果的に仮ＩＬＩ
〜Ｌ４が統合されて１本の実線となる。第１６図は、基準仮線にと照合板線Ｑとが重なった場合
の線幅の変更の定義を示す。線［Ｗ（ｋ）とＷ　（Ｑ）
もつ２つの線分の重なり方には、図示された３通りがあ
り、照合板線が基準仮線に完全に隠れる第３ケースを除
いて、Ｘ座標で表わすと横仮線テーブル２４に記憶され
ている統合された横仮線データと、縦仮線テーブル２５
に記憶されている統合された縦仮線データとを罫線テー
ブル（実線リスト）２２に書き込む。上記処理は、横Ｗ
ｉｄｔｈ（ｋ）＝　ｙ　２　（Ｑ　）　−ｙ　１　（ｋ
）＋　１の関係にある。上述のデータ処理により、第１２図に示した横仮線テー
ブル２４の内容は、例えば第１８図の如く変更される。第１０図の縦線Ｌ！、識ルーチン５１０は、上述した横
線検呂ルーチンにおけるＸとｙとの関係を入れ換え、画
像２０３を縦方向に走査して得られる仮線データを縦仮
線テーブル２５に記憶し、これらの仮線データに対して
第１４図と同様の処理を施こせばよい。この場合、縦仮
線と横仮線とを識別するための閾値ＴＨ’はメモリ領域
２８に記憶しておく。第１０図の実線リスト作成ステップ５２０では、の、お
よび線長２４Ｗが閾値ＴＨより大きいものだけを選択し
て、第１９図の如く罫線テーブル２２にｊ＠次に書き移
す。次に縦仮線テーブル２５に記憶されている縦仮線デ
ータをｊ＠次に読み出し、上記と同様に、始点のＸ座標
の判定と、閾値ＴＨ’　との比較処理を行ない、有効デ
ータのみを罫線テーブル２２に順次に追加する。この場
合。罫線テーブル２２に記憶された横線データの個数を変数
ＨＮ○、縦線データの個数をＶＮＯ，合計のデータ個数
をＴＯＴＡＬとしてカウントしておく。罫線テーブル２
２において、横線データのグループと縦線データのグル
ープは、例えば始点と終点のＸ座標をチエツクすること
により識別できる。始点と終点のＸ座標が同じ値であれ
ば、縦線データである。第２０図は、罫線テーブル２２に記憶される始点データ
２２Ｂ、終点データ２２Ｅと、実際の罫線上の位置との
対応関係を示す、横罫ｆｉ２１０Ｈの場合は、始点デー
タ２２Ｂと終点データ２２Ｅは、最上位にある仮線の両
端Ｐ＾とＰａ＆指している。一方、縦罫線２１０ｖの場
合、これらのデータは、左側に位置する仮線の両端Ｐ＾
′とＰＢ′　を指している。第２ＬＡと第２１Ｂ図は、第３図に示す交点処理ルーチ
ン３１０の詳細を示す。罫線テーブル２２に得られた各
罫線データは、第２Ｅ図に符号２１３′で示す如く、枠
からはみ出した縦線、または横線のデータを含ζ交点処
理ルーチンは、縦線と横線との交点部分における異常を
検出し、はみ出した線の端点座標を修正するためのもの
であり、横線の修正処理（第２１Ａ図）と縦線の修正処
理（第２１Ｂ図）とからなる。横線の修正処理では、横方向にはみ出した線分の端点Ｘ
座標を、この横線を交差する縦線の位置に一致させる。すなわち、各横線の始点、終点のＸ座標は変更せず、Ｘ
座標だけを修正する。この処理は、罫線テーブル２２か
ら座標修正対象とする横線を順次に選択し、該横線の始
点Ｘ座標と近いＸ座標をもつ縦線を探す。「近い」か否
かの判断には、例えば、縦仮線と横仮線の識別の際に用
いた閾値ＴＨを１つの基準値として用い、対象となる横
線とＸ座標の距離がＴＨ以内にある縦線が見つかったら
、その縦線のＸ座標を上記横線の新しいＸ座標とする。終点についても同様に、近いＸ座標をもつ縦線を見つけ
、横線のＸ座標を上記縦線のＸ座標で置き換える。この
処理を全ての横線について繰り返すことにより、横罫線
のはみ出し部分を除去することができる。一方、縦線の修正処理では、Ｘ座標をそのままにして、
Ｘ座標だけを変更する。すなわち、修正対象となる縦線
を順次に選び、各縦線の始点と終点について、近いＸ座
標をもつ横線を見つけ出し。縦線Ｘ座標を横線のＸ座標で置き換える６第２１Ａ図は
、上述の横線の修正の流れ図である。ｉは横線用添字、
ｊは縦線用添字、ＴＨはステップ５０３で求めた閾値で
ある。ステップ１４０３では、ある横線に対して、その
始点ｘｉ　（ｉ）と近いＸ座標で定義される縦線を探し
ている。ｘｉ（ｊ）−Ｌ≦ｘｉ（ｉ）≦Ｘ１（ｊ）＋Ｌ上式の範
囲内に始点ｘｉ　（ｉ）があるときは、ステップ１４０
４で、ｘｉ　（ｉ）−ｘｉ　（ｊ）と変更する。ステッ
プ１４０５〜１４０６は、終点について始点と同様の操
作を行っている。ステップ１４０７は、始終点の変更に
伴なう長さの変更である。第２１Ｂ図は、前記縦線の修正処理の流れ図である。内
容的には第２１Ａ図におけるＸとｙが入換わるだけで、
アルゴリズムとしては同一である。すなわち、ステップ１４２３〜１４２４は始点の変更、
ステップ１４２５〜１４２６は終点の変更、ステップ１
４２７は長さの変更である。次に、第３図のａ認識処理３１２の詳細について説明す
る。欄は２例えば第２２図に示す如く、縦横２本ずつの
罫線２１０で囲まれたセル領域Ｃ１，Ｃ２，Ｃ３，Ｃ４
・・・・・・を意味し、各個の大きさと位置は、各セル
領域の左上画素（始点）Ｑ＾と右下画素（終点）Ｑａに
より定義される。本発明では、罫線の始点、終点と区別
するために、欄の始点ＱＡの座標を（ｃｅｌｌ−ｘｚ　
＃　””、’−ｚ、１）、終点ＱＢの座標を（ｃｅｌｌ
−ｘｚ　、　ｃｅｌｌ−ｙｚ　）の如く表わすことにす
る。第２３図は欄認識処理と具体的に説明するための図であ
り、罫線２１０が、上から順に番号付けられた横線Ｈ１
，Ｈ２・・・・・・Ｈ７と、左から順に番号付けられた
縦線Ｖｌ、Ｖ２・・・・・・ｖ５からなる。欄認識処理３１２は、これらの罫線で左右、上下を囲ま
れたセル領域Ｃ１〜Ｃ１３を順次に認識し、各領域の始
点と終点の座標を欄テーブル２３に記憶するものである
。セル領域の認識は、まず最初の横線Ｈ１を基準線に設
定して左側の縦線から順にチエツクし、上記基準線と交
じわる左辺、右辺となるべき２本の縦線ｖ１とｖ３を見
つけ、次にこれらの縦線Ｖｌ、Ｖ３と交じわり、上記基
準線２・Ｈｌに最も近い下辺となるべき横線ＨＶを探がし出し、
Ｈｌ、Ｖｌ、Ｖ３．Ｈ２１’囲まれる領域を第１の４１
１Ｉ（セル番号Ｃ１）と認識する。欄が認識されたら第
２２図で定義した始点Ｑ＾と終点Ｑａの座標を求め、こ
れを欄テーブル２３に登録する。次に、上記基準線Ｈ１を上辺、ｖ３を左辺とするセル領
域の右辺となるべき縦線ｖ５を見つけ、縦＆！ｖ３とｖ
５に交じわる下辺となるべき横線Ｈ２を探し出して、Ｈ
ｌ、Ｖ３．Ｖ５．Ｈ２で囲まれた領域を第２のａ＜セル
番号Ｃ２）と！！！識する。認識されたセル領域の右辺が最も右側の縦線であった場
合、上記基準１１Ｈ１を上辺とする欄はこれ以上存在し
ない。そこで、第２番目の横線を基準線に設定して、上
述したと同様のチエツク動作を繰り返し、これによりセ
ル領域Ｃ３，Ｃ４，・・・・・・Ｃ１ｌを認識する。基
準線が最下位の横線となった時、上記動作は終了する。第２４図は、上記第２３図の例におけるセル領域の認識
順序２４１と、各セル領域を定義する上辺２４２．左辺
２４３．右辺２４４．下辺２４５に該当する罫線との関
係を示す。第２５図は上記欄認識処理の具体的なプログラム・フロ
ーチャートを示す。このフローチャートでは、１本目の
横線用にｉ、１本目の縦線用にｊ。２本目の横線用にｋそして２本目の縦線用にＱを。それぞれ、添字として用いている。また、説明の簡単化
のため、罫線の線幅はすべてＷであるとし、！！Ｉｔｉ
号を示す添字をａ、ａ番目の欄の左上点を（ｃｅｌｌ−
ｘ、　（ａ　）　ｒ　ｃｅｌｌ−ｙｔ　（ａ　）　）　
、右下点を（ｃｅｌｌ−ｇ　（ａ　）　ｔ　ｃｅｌｌ−
ｙｚ　（ａ　）　）としている。第２５図において、ステップ１６０４〜１６０５は、１
本目の縦線、すなわち、欄の左辺候補を探すステップ、
ステップ１６０７〜１６０８は、２本目の縦線、すなわ
ち、欄の右辺候補を探すステップ、また、ステップ１６
１０は、２本目の横線、すなわち、欄の下辺候補を探す
ステップである。ステップ１６１１では、欄の左上点と
右下点を定義し、欄テーブル２３に座標データを記憶す
る。左上点のＸ座標は左辺のｘＰＩＩ標十線幅で、Ｘ座
標は上辺のｙ座標子線幅となる。また、右下点のＸ座標
は右辺のＸ座標−１、ｙｍｍは下辺のＸ座標−１となる
。第２６“図に欄テーブル２３の１例を示す。２３Ｎはａ（セル領域）の番号、２３Ｂは始点座標、２
３Ｅは終点座標である。以上説明した本発明の実施例によれば１文字と罫線とが
混在する帳票を画像として入力し、罫線のみを自動的に
抽出し、これをベクトルデータに変換している。また、
各罫線により形成される欄の大きさと位置を自動的に認
識し、種定義データをテーブルに記憶している。従って
、本発明によれば、画像入力装置において罫線が劣化し
た場合、あるいは帳票用紙自体が１例えば複写により劣
化した罫線を含む場合でも、上記ベクトルデータにより
鮮明な罫線を再生できる。また、各罫線がベクトルデー
タに変換されているため１通常の文書編集端末やワード
プロセッサが備える文書編集機カーソル操作に応答して
、任意の罫線の位置、長さ、線幅などを部分的に修正し
たり、新たな罫線の追加、既存罫線の削除などの加工を
施こすことができる。本発明の変形例としては、例えば第３図の交点処理ステ
ップ３１０あるいは欄認識処理ステップ３１２において
、全ての罫線のＩｌｌ、＠を所定の寸法に統一するよう
にしてもよい。線幅の決定方法としては、例えば、罫線
テーブル２２内の全ての罫線の線幅の頻度を求め、その
中で最大頻度をもつ１１Ａ＠に統一する方法、あるいは
頻度の大きいｎ種の標準線幅を選択し、各罫線の線幅を
最も近い標準線幅に一致させる方法など、種々の方法を
採用できる。また、第３図の文字外接矩形枠（文字枠）認識処理３０
６で抽出した文字枠データを、罫線テーブル２２と対応
して用意した、文字枠テーブルに保存しておき１表示ス
テップ３０９で、あるいはステップ３１２の後で行なう
表示ステップで、罫線と文字枠を重ねた形で表示するよ
うにしてもよい。このようにすると、オペレータは、原
入力画像中の文字位置と対応する位置に、カーソルを合
せながら、キーボードから文字や記号を入力できる。【発明の効果１以上の説明から明らかな如く、本発明によれば、罫線以
外の文字情報を含む原紙を用いて、画像処理により罫線
のベクトルデータを抽出しているため、入力文書画像上
の罫線が劣化していても鮮明な罫線を描くことができる
。また、これら罫線をキーボード操作により修正したり
、新たな罫線データを追加したりすることができるため
、文書処理の効率を大幅に向上させることができる。

【図面の簡単な説明】

ける文書画像の変化の様子を示す図、第３図は本発明に
よる文書処理を実行するためのプログラムのジェネラル
・フローチャート、第４図は、第３図における傾き検出
ルーチン３０２の詳細フローチャート、第５図は１文書
画像の傾き検出を説明するための図、第６図は第３図の
文書画像の傾き補正ルーチン３０３の説明図、第７Ａ図
と第７Ｂ図は、文書画像に含まれる文字領域の検出方法
を説明するための図、第８図は文字外接矩形テーブルを
示す図、第９Ａ図と第９Ｂ図は、それぞれ、文書の原稿
に含まれる罫線と、入力された文書画像に含まれる劣化
した罫線とを示す図、第１０図は第３図の罫線認識ルー
チン３０８の詳細フローチャート、第１１図は、第１０
図の横線認識ルーチン５００の詳細フローチャート、第
１２図は仮線定義データを記憶するためのテーブルを示
す図、第１３図は、仮線の長さと頻度との関係を示す頻
度分布図、第１４図は第１１図の仮線統合ルーチン５０
４の詳細フローチャート、第１５図と第１６図はそれぞ
れ仮線統合のためのルールの定義を示す図、第１７図は
、仮線統合の手順を具体的に説明するための図、第１８
図は、仮線統合処理の途中における仮線テーブル２４の
状態を示す図。第１９図は、複数の仮線を統合して得られる罫線（実＃
りの定義データを記憶するテーブルの内容を示す図、第
２０図は罫線の定義データにおける始点と終点を示す図
、第２１Ａ図と第２１Ｂ図は、それぞれ第３図の交点処
理ルーチン３１０を構成する接線修正ルーチンと縦線修
正ルーチンの詳細フローチャート、第２２図は欄の定義
データにおける始点と終点を示す図、第２３図は、表に
おける罫線と欄との関係を説明するための図、第２４図
は欄の検出順序を示す図、第２５図は、第３図における
欄認識ルーチン３１２の詳細フローチャート、第２６図
は欄定義テーブル２３の１例を示す図である。符号の説明１１・・・キーボード、１２・・・画像入力装置、１３
・・・表示装置、１４・・・プリンタ、１５・・・デー
タプロセッサ、１６・・・プログラム・メモリ、１７・
・・データ・ファイル、１８・・・入力画像メモリ、１
９・・・修正画像メモリ、２０・・・ワークメモリ、２
１０・・・入力画像上の罫線、２１５・・・描画された
罫線。Ｉ３図第（７ＡｌｊＪ冷デＢ図第７Ｂ図＄１５１ｆＪ拓／乙図鮪を久第２ｚ区 ”１）ｕＡ図半２／１１３図

Claims

【特許請求の範囲】１、複数の文字と縦横の複数の罫線からなる表とを含む
文書を画像入力手段により文書画像に変換する第１ステ
ップと、上記文書画像を複数の罫線のみを含む第２の文書画像に
変換する第２ステップと、上記第２の文書画像に含まれる罫線を認識して、各罫線
を定義する複数のベクトルデータを得る第３ステップと
、上記ベクトルデータに基づいて描かれた複数の罫線から
なる表を表示する第４ステップとからなることを特徴と
する文書処理方法。２、前記第２ステップが、文書画像に含まれる黒画素連
結領域の外接矩形を求めるステップと、文書画像上で所
定サイズ以下の外接矩形内に位置する黒画素を白画素に
置換するステップとからなることを特徴とする第１請求
項記載の文書処理方法。３、前記第３ステップが、前記第２の文書画像から複数
の横罫線を抽出して、各横罫線の始点と、終点と、線幅
とを示すベクトルデータを得るステップと、前記第２の
文書画像から複数の縦罫線を抽出して、各縦罫線の始点
と、終点と、線幅とを示すベクトルデータを得るステッ
プとからなることを特徴とする第１請求項記載の文書処
理方法。４、前記横罫線の抽出が、前記第２の文書画像を水平方
向に順次に走査することにより検出されるそれぞれ１以
上の黒画素からなる複数の線分のうち、所定の閾値より
も短い線分を除去することにより行なわれ、前記縦罫線
の抽出が、前記第２の文書画像を垂直方向に順次に走査
することにより検出される、それぞれ１以上の黒画素か
らなる複数の線分のうち、所定の閾値よりも短かい線分
を除外することにより行なわれることを特徴とする第３
請求項記載の文書処理方法。５、前記各横罫線のベクトルデータが、前記水平方向の
走査により検出される所定閾値より長い複数の線分のう
ち、互いに接する位置関係にあるものを統合して、線幅
または線長が大きくなった１つの線分にし、この統合さ
れた線分の始点、終点、線幅を検出することにより求め
られ、前記各縦罫線のベクトルデータが、前記垂直方向
の走査により検出される所定閾値より長い複数の線分の
うち、互いに接する位置関係にあるものを統合して、線
幅または線長が大きくなった１つの線分にし、この統合
された線分の始点、終点、線幅を検出することにより求
められることを特徴とする第４請求項記載の文書処理方
法。６、第３請求項記載の文書処理方法において、更に、前
記第３ステップで得られた複数のベクトルデータのうち
、縦罫線を示すベクトルデータと、横罫線を示すベクト
ルデータとを照合し、始点または終点の値を選択的に補
正するステップを有することを特徴とする文書処理方法
。７、第１請求項記載の文書処理方法において、更に、第
１ステップで得られた文書画像の傾きを検出し、傾きの
補正するステップを有し、前記第２ステップが上記傾き
補正された文書画像に対して行なわれるようにしたこと
を特徴とする文書処理方法。８、第１請求項記載の文書処理方法において、更に、前
記第３ステップで得られた各罫線のベクトルデータに基
づいて、それぞれ前記表を構成する上下、左右が罫線で
区切られた複数のセクションを検出し、各セクションを
定義するデータを得るステップを有することを特徴とす
る文書処理方法。９、表と文字とを含む文書画像を入力するための画像入
力装置と、文書画像を表示するための画面をもつ表示手段と、上記画像入力手段から入力された複数画素からなる文書
画像を記憶するための第１のメモリ手段と、傾きを補正された文書画像を記憶するための第２のメモ
リ手段と、罫線を定義するベクトルデータを記憶するための第３の
メモリ手段と、オペレータによって操作される指令と文字データを入力
するための手段と、上記入力手段からの指令に応答して動作するデータ処理
手段と、からなり、上記データ処理手段が、上記第１のメモリ手
段に記憶された文書画像の傾きを検出し、傾き補正され
た文書画像を上記第２のメモリ手段に書込む第１手段と
、文字を構成している黒画素を白画素に置換することに
より、上記第２のメモリ手段に記憶されている文書画像
を、複数の罫線が残されている第２の文書画像に変換す
るための第２手段と、上記第２の文書画像から、横罫線
のグループと縦罫線のグループとを別々に検出し、各罫
線の位置とサイズを定義する複数のベクトルデータを上
記第３のメモリ手段に書込む第３手段と、上記ベクトル
データに基づいて描かれた複数の罫線からなる表を、上
記表示手段に出力するための手段とを備えたことを特徴
とする文書処理装置。