JPH02138674A - 文書処理方法及び装置 - Google Patents
文書処理方法及び装置Info
- Publication number
- JPH02138674A JPH02138674A JP1214795A JP21479589A JPH02138674A JP H02138674 A JPH02138674 A JP H02138674A JP 1214795 A JP1214795 A JP 1214795A JP 21479589 A JP21479589 A JP 21479589A JP H02138674 A JPH02138674 A JP H02138674A
- Authority
- JP
- Japan
- Prior art keywords
- line
- ruled
- document image
- ruled lines
- lines
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012545 processing Methods 0.000 title claims description 28
- 238000003672 processing method Methods 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 26
- 230000006866 deterioration Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 16
- 238000012937 correction Methods 0.000 description 11
- 230000008859 change Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 8
- 230000010354 integration Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 241001655798 Taku Species 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
本発明は文書処理方法および装置に関し、更に詳しくは
、複数の罫線からなる表と文字とを含む文書画像から罫
線を認識して、表作成用のデータを得るようにした文書
データ処理方法および装置に関する。
、複数の罫線からなる表と文字とを含む文書画像から罫
線を認識して、表作成用のデータを得るようにした文書
データ処理方法および装置に関する。
ワードプロセッサやワークステーシミンなどの文書作成
装置において,表を含む文書を作成しようとすると、通
常は装置を罫線モードに設定し、罫線の始点と終点をそ
れぞれカーソルにより指定することにより罫線を引き、
この操作を縦,横の複数の罫線に繰り返している。また
、装置によっては、カーソルで始点を指定し、該始点か
ら右方向,または下方向に延びる罫線を引き、次に終点
をカーソルで指定し、終点より右、または下に延びた不
正な罫線部分を消去することにより、所望長さの罫線を
描いている。このようにして描かれた表の枠外や、表内
の所定の欄(セクション)に文字を記入する場合には、
罫線モードを解消して装置を文字入力モードに戻し、文
字キーとカーソル・キーの操作により文字を入力する。 表を描くための面倒なキー操作をなくすための1つの方
法として、例えば特開昭62−138988号公報にお
いて、白紙上にフリーハンドで比較的きれいに描いた表
を、画像入力装置により読取り9表認識のための特殊な
知識を蓄えている知識ベースを利用して、上記入力され
た表面像を認識し1表の枠を自動的に生成するアイディ
アが提案されている。
装置において,表を含む文書を作成しようとすると、通
常は装置を罫線モードに設定し、罫線の始点と終点をそ
れぞれカーソルにより指定することにより罫線を引き、
この操作を縦,横の複数の罫線に繰り返している。また
、装置によっては、カーソルで始点を指定し、該始点か
ら右方向,または下方向に延びる罫線を引き、次に終点
をカーソルで指定し、終点より右、または下に延びた不
正な罫線部分を消去することにより、所望長さの罫線を
描いている。このようにして描かれた表の枠外や、表内
の所定の欄(セクション)に文字を記入する場合には、
罫線モードを解消して装置を文字入力モードに戻し、文
字キーとカーソル・キーの操作により文字を入力する。 表を描くための面倒なキー操作をなくすための1つの方
法として、例えば特開昭62−138988号公報にお
いて、白紙上にフリーハンドで比較的きれいに描いた表
を、画像入力装置により読取り9表認識のための特殊な
知識を蓄えている知識ベースを利用して、上記入力され
た表面像を認識し1表の枠を自動的に生成するアイディ
アが提案されている。
然るに、入力画像を利用して表を生成する上記従来の装
置は、入力画像が複数の罫線からなる表のみを含むこと
を前提として表認識がなされており、例えば、既存の伝
票や文書の如く、文書と表とが混在する用紙を原稿とし
て用いることはできない。 本発明の目的は、複数の罫線からなる表と、表の内、あ
るいは外に記入された複数の文字とを含む文書を原稿と
して用い、画像入力装置により読込まれた文書画像から
罫線を認識して、自動的に罫線を描くようにした文書処
理方法、および装置を提供することにある。 本発明の他の目的は、罫線の一部が劣化したり、縦横の
罫線が正確に交っていない文書画像を処理して、鮮明で
正しい交点をもつ罫線からなる表を生成できるようにし
た文書の処理方法、および装とを含む文書画像から罫線
を認識し、ワードプロセッサ機能によりオペレータが罫
線を修正したり追加したりできる形の罫線データを自動
的に生成する文書処理方法、及び装置を提供することに
ある。 本発明の更に他の目的は、複数の罫線と文字列義データ
とを自動的に生成する文書処理方法、および装置を提供
することにある。
置は、入力画像が複数の罫線からなる表のみを含むこと
を前提として表認識がなされており、例えば、既存の伝
票や文書の如く、文書と表とが混在する用紙を原稿とし
て用いることはできない。 本発明の目的は、複数の罫線からなる表と、表の内、あ
るいは外に記入された複数の文字とを含む文書を原稿と
して用い、画像入力装置により読込まれた文書画像から
罫線を認識して、自動的に罫線を描くようにした文書処
理方法、および装置を提供することにある。 本発明の他の目的は、罫線の一部が劣化したり、縦横の
罫線が正確に交っていない文書画像を処理して、鮮明で
正しい交点をもつ罫線からなる表を生成できるようにし
た文書の処理方法、および装とを含む文書画像から罫線
を認識し、ワードプロセッサ機能によりオペレータが罫
線を修正したり追加したりできる形の罫線データを自動
的に生成する文書処理方法、及び装置を提供することに
ある。 本発明の更に他の目的は、複数の罫線と文字列義データ
とを自動的に生成する文書処理方法、および装置を提供
することにある。
上記目的を達成するために、本発明による文書処理方法
では、複数の文字と、縦横の複数の罫線からなる表とを
含む文書を1画像入力手段により文書画像に変換する第
1ステップと、上記文書画像を、複数の罫線のみを含む
第2の文書画像に変換する第2ステップと、上記第2の
文書画像に含まれる罫線を認識して、各罫線を定義する
複数のベクトルデータを得る第3ステップと、上記ベク
トルデータに基づいて描かれた複数の罫線からなる表を
表示する第4ステップとからなることを特徴とする。 更に詳述すると、上記第2ステップは、例えば、文書画
像に含まれる黒画素連結領域の外接矩形を求めるステッ
プと、文書画像上で所定サイズ以下の外接矩形内に位置
する黒画素を白画素に置換するステップとからなる。ま
た、上記第3ステップは、上記第2の文書画像から複数
の横罫線を抽出して、各横罫線の始点と、終点と、線幅
とを示すベクトルデータを得るステップと、上記第2の
文書画像から複数の縦罫線を抽出して、各縦罫線の始点
と、終点と、RIA@とを示すベクトルデータを得るス
テップとからなる。 本発明による文書処理装置は、表と文字とを含む文書画
像を入力するための画像入力装置と文書画像を表示する
ための画面をもつ表示手段と、上記画像入力手段から入
力された複数画素からなる文書画像を記憶するための第
1のメモリ手段と、傾きを補正された文書画像を記憶す
るための第2のメモリ手段と、罫線を定義するベクトル
データを記憶するための第3のメモリ手段と、m−←n
−オペレータによって操作される指令と文字データを入
力するための手段と、上記入力手段からの指令に応答し
て動作するデータ処理手段とからなり、上記データ処理
手段が、更に、上記第1のメモリ手段に記憶された文書
画像の傾きを検出し、傾き補正された文書画像を上記第
2のメモリ手段に書込む第1手段と、文字を構成してい
る黒画素を白画素に置換することにより、上記第2のメ
モリ手段に記憶されている文書画像を。 複数の罫線が残されている第2の文書画像に変換するた
めの第2手段と、上記第2の文書画像から、横罫線のグ
ループと縦罫線のグループとを別々に検出し、各罫線の
位置とサイズを定義する複数のベクトルデータを上記第
3のメモリ手段に書込む第3手段と、上記ベクトルデー
タに基づいて描かれた複数の罫線からなる表を上記表示
手段に出力するための手段とを備えることを特徴とする
。
では、複数の文字と、縦横の複数の罫線からなる表とを
含む文書を1画像入力手段により文書画像に変換する第
1ステップと、上記文書画像を、複数の罫線のみを含む
第2の文書画像に変換する第2ステップと、上記第2の
文書画像に含まれる罫線を認識して、各罫線を定義する
複数のベクトルデータを得る第3ステップと、上記ベク
トルデータに基づいて描かれた複数の罫線からなる表を
表示する第4ステップとからなることを特徴とする。 更に詳述すると、上記第2ステップは、例えば、文書画
像に含まれる黒画素連結領域の外接矩形を求めるステッ
プと、文書画像上で所定サイズ以下の外接矩形内に位置
する黒画素を白画素に置換するステップとからなる。ま
た、上記第3ステップは、上記第2の文書画像から複数
の横罫線を抽出して、各横罫線の始点と、終点と、線幅
とを示すベクトルデータを得るステップと、上記第2の
文書画像から複数の縦罫線を抽出して、各縦罫線の始点
と、終点と、RIA@とを示すベクトルデータを得るス
テップとからなる。 本発明による文書処理装置は、表と文字とを含む文書画
像を入力するための画像入力装置と文書画像を表示する
ための画面をもつ表示手段と、上記画像入力手段から入
力された複数画素からなる文書画像を記憶するための第
1のメモリ手段と、傾きを補正された文書画像を記憶す
るための第2のメモリ手段と、罫線を定義するベクトル
データを記憶するための第3のメモリ手段と、m−←n
−オペレータによって操作される指令と文字データを入
力するための手段と、上記入力手段からの指令に応答し
て動作するデータ処理手段とからなり、上記データ処理
手段が、更に、上記第1のメモリ手段に記憶された文書
画像の傾きを検出し、傾き補正された文書画像を上記第
2のメモリ手段に書込む第1手段と、文字を構成してい
る黒画素を白画素に置換することにより、上記第2のメ
モリ手段に記憶されている文書画像を。 複数の罫線が残されている第2の文書画像に変換するた
めの第2手段と、上記第2の文書画像から、横罫線のグ
ループと縦罫線のグループとを別々に検出し、各罫線の
位置とサイズを定義する複数のベクトルデータを上記第
3のメモリ手段に書込む第3手段と、上記ベクトルデー
タに基づいて描かれた複数の罫線からなる表を上記表示
手段に出力するための手段とを備えることを特徴とする
。
本発明において、前記横罫線の抽出は、例えば第2の文
書画像を水平方向に順次に走査することにより検出され
るそれぞれ1以上の黒画素からなる複数の線分のうち、
所定の閾値よりも短い線分を除外することにより行なわ
れ、前記縦罫線の抽出は、第2の文書画像を垂直方向に
順次に走査することにより検出されるそれぞれ1以上の
黒画素からなる複数の線分のうち、所定の閾値よりも短
かい線分を除外することにより行なわれる。また、前記
各横罫線のベクトルデータは、水平方向の走査により検
出される所定閾値より長い複数の線分のうち、互いに接
する位置関係にあるものを統合して、線幅あるいは線長
が大きくなった1つの線分にし、この統合された線分の
始点、終点、線幅を検出することにより求められる。同
様に、前記は 各縦罫線のベクトルデータ剤、垂直方向の走査により検
出される所定閾値より長い複数の線分のうち、互いに接
する位置関係にあるものを統合して、aSまたは線長が
大きくなった1つの線分にし、この統合された線分の始
点、終点、線幅を検出することにより求められる。 上述したベクトルデータに基づいて罫線を描くことによ
り、本発明によれば1表示画面およびプリンタに劣化の
ない罫線からなる鮮明な表を出力させることができる。 尚、表示された表内の任意のセクションを、オペレータ
がカーソルで指示し、このセクションに文字データを入
力できるようにするためには、カーソルがどのセクショ
ンに位置しているかを判断するためのセクション定義デ
ータが必要となる。 本発明によれば、表における各セクションの定義データ
を、前記第3ステップで得られた各罫線のベグ]・ルデ
ータ、または、罫線のはみ出し部分を補正したベクトル
データに基づいて5例えば最上位の横線を基準線として
、これと交わる縦線を順次見つけ、次にこれらの縦線と
交わる横線を順次にA、つける形で、上記基準線を上辺
とする第1行目の複数のセクションの位置データを算出
し、次に第2番目以降の横線をj順次に基準線として同
様の動作を繰り返すことにより求めることができる。
書画像を水平方向に順次に走査することにより検出され
るそれぞれ1以上の黒画素からなる複数の線分のうち、
所定の閾値よりも短い線分を除外することにより行なわ
れ、前記縦罫線の抽出は、第2の文書画像を垂直方向に
順次に走査することにより検出されるそれぞれ1以上の
黒画素からなる複数の線分のうち、所定の閾値よりも短
かい線分を除外することにより行なわれる。また、前記
各横罫線のベクトルデータは、水平方向の走査により検
出される所定閾値より長い複数の線分のうち、互いに接
する位置関係にあるものを統合して、線幅あるいは線長
が大きくなった1つの線分にし、この統合された線分の
始点、終点、線幅を検出することにより求められる。同
様に、前記は 各縦罫線のベクトルデータ剤、垂直方向の走査により検
出される所定閾値より長い複数の線分のうち、互いに接
する位置関係にあるものを統合して、aSまたは線長が
大きくなった1つの線分にし、この統合された線分の始
点、終点、線幅を検出することにより求められる。 上述したベクトルデータに基づいて罫線を描くことによ
り、本発明によれば1表示画面およびプリンタに劣化の
ない罫線からなる鮮明な表を出力させることができる。 尚、表示された表内の任意のセクションを、オペレータ
がカーソルで指示し、このセクションに文字データを入
力できるようにするためには、カーソルがどのセクショ
ンに位置しているかを判断するためのセクション定義デ
ータが必要となる。 本発明によれば、表における各セクションの定義データ
を、前記第3ステップで得られた各罫線のベグ]・ルデ
ータ、または、罫線のはみ出し部分を補正したベクトル
データに基づいて5例えば最上位の横線を基準線として
、これと交わる縦線を順次見つけ、次にこれらの縦線と
交わる横線を順次にA、つける形で、上記基準線を上辺
とする第1行目の複数のセクションの位置データを算出
し、次に第2番目以降の横線をj順次に基準線として同
様の動作を繰り返すことにより求めることができる。
以下、本発明の1実施例を図面を参照して説明する。
第1図は、本発明による文書処理方法を実施するシステ
ムの全体構成の1例を示す。このシステムは、オペレー
タがコマンドやデータを入力するためのキーボード11
と、帳票などの文書画像を入力するためのイメージスキ
ャナ12と、入力文書あるいは、このシステムにより認
識処理された文書データを表示するための表示装置13
.プリンタ14.プログラムメモリ16にストアされた
プログラムに従ってデータ処理動作を行なうデータプロ
セッサ159文書認識の結果得られたベクトルデータ(
線分データ、aデータ)や文字データをストアするため
の文書データファイル17゜画像入力装置12から入力
された画像データを1時的にストアするための入力バッ
ファメモリ]8、上記人力バッファメモリ18にストア
された画像データを処理して得られる補正画像データを
ス1〜アするためのメモリ19、および本発明による文
書認識処理に必要な各種のテーブルとワークデータをス
トアするためのメモリ20とからなる。メモリ20は、
文書画像から検出した黒画素連結領域の外接矩形枠を示
すデータをストアするためのテーブル領域21、文書に
含まれる罫線を定義するデータをストアするためのテー
ブル領域22、文書に含まれる表を構成する欄を定義す
るデータをストアするためのテーブル領域23、歪んだ
罫線を補正する処理に用いられる横仮線データテーブル
領域24および縦仮線データフ−プル25、横罫線と縦
罫線との識別のために用いら九る。fI長さ頻度テーブ
ル領域26、横線検出の閾値をストアすゐための領域2
7、縦線検出の閾値をストアするための領域28.外接
矩形枠検出に用いるラベルデータをストアするための領
域29、およびワークエリア30からなる。 第2A図〜第2G図は、本発明による文書認識処理の手
順を模式的に示した図である。 第2A図は、処理対象となる原帳票用紙200を示し、
この帳票は罫$210と、見出し文字列211と、a内
に記入された文字データ212とを含む。第2B図は、
画像入力装置12により入力画面バッファ18に読込ま
れた上記帳票の入力画像データ201を示す。入力画像
データ201は、オペレータによる入力装置12への紙
面セットの不正確さに起因して、水平(あるいは垂直)
方向に対して傾いた状態となる。第2C図は、入力画像
201に含まれる直線(罫線の1部)210を検出し、
傾きを補正して得られる画像データ202を示す。この
画像データ202は、原ippm用紙(H稿)20oに
存在する印刷のよごれ、および画像入力装置12におけ
る変換処理時に生ずるノイズなどにより、罫線の1部に
突起213や欠落214、などの欠陥が生じている。 第2D図は、入力画像202に含まれる黒画素の連結領
域を検出し、それぞれの黒画素連結領域の外接矩形枠を
求め、外接矩形枠のサイズから文字枠を識別し、文字情
報211,212を除去することにより得られた罫線情
報210のみを含む画像データ203を示す。 第2E図は、画像データ203から横線と縦線を検出し
た後、各線分のベクトルデータを求め、これらのベクト
ルデータに基づいて描画したグラフィックデータ画像2
04を示す。横線の検出は、例えば、画像データ203
を横方向に順次に走査することにより同一走査線上で連
続する複数画素からなる仮線を求め、連続画素数が所定
値以下のものは縦罫線要素とみなして除外し、残された
複数の仮線を横罫線構成要素と判断する。複数の互いに
隣接する仮線を1つの実線に統合し、その始点と終点と
から各横罫線のベクトルデータを求める。これと同様に
、縦線のベクトルデータは、画像データ203を縦方向
に走査し、同一走査線上で連続する所定個数以上の画素
からなる縦方向の仮線を求め、隣接仮線を統合すること
により求める。これらの画像処理により、罫線は円21
5′に示す如く、欠落の補正された直線となるが、21
3′で示すように、縦線と横線の交点が部分的に突出し
たり、未接続になってすした不完全な状態である。 第2F図は、上記グラフィックデータ画像204に対し
て補正処理を施し、突起がなく、縦線と横線が正しく交
わり、且つ、罫線が所定の線幅に統一された、修正され
たベクトルデータにより描かれたグラフィックデータ画
像205を示す。 第2G図は、縦、横の罫線により形成される欄(例えば
斜線で示した領域216は1つの欄である)を認識し、
オペレータがカーソルで指示した位置がどの欄に相当す
るかを判断するのに必要な欄定義データを求めた状態を
示す。 第3図は、上述した文書認識処理を行なうための処理プ
ログラムのフローチャートを示す。 このプログラムでは、先ず、画像入力装置12により入
力帳票200の画像情報を入力画像バッファメモリ18
に読み込む(ステップ301)。 次に、罫線210を利用して、第4図と第5図を参照し
て後述する入力画像201の傾きを検出処理を行ない(
ステップ302)、第6図で詳述するように傾き補正さ
れた画像データ202を画像データ領域19にストアす
る(ステップ303)。 傾き補正された画像データ202は表示装置13に出力
され(ステップ304)、オペレータ(ユーザ)は、上
記表示画像を視覚的にチエツクする。 オペレータは、表示画面をみて、@票画像を再入力する
か否かを判断し、もし、表示された傾き補正画像に問題
がなければOKを示すコマンドをキーボード11から入
力する。OKの入力があった場合(ステップ305)、
画像データ202に含まれる黒画素連続領域の外接矩形
を求めて、文字に外接する枠を認識しくステップ306
)、次に文字情報と罫、5liI(直線)情報とを分離
して、画像データ202から文字を消去した第2D図に
示す画像203を得る(ステップ307)。次に、第9
A図〜第20図で詳述するように、画像データ203に
含まれる罫線から縦線と横線を識別し、各線分のベクト
ルデータを得て(ステップ308)、これらのベクトル
データに基づいて描画される第2E図のグラフィックデ
ータ画像204を表示画面に表示する(ステップ309
)。更に、第21図で詳述するように、画像204に含
まれる罫線の各交点に対する補正処理と、線幅の統一処
理を行ない、第2F図に示す補正されたグラフィックデ
ータ205画像を得(ステップ310)、このグラフィ
ックデータ画像に対して、第22図〜第26図で説明す
る欄の認識処理を行なう(ステップ312)。尚、グラ
フィックデータ画像204または205に対しては、オ
ペレータは、ステップ313で示す如く、キーボードか
ら罫線の補正操作を加えることができ、この場合、オペ
レータの操作コマンドに応じて線分のベクトルデータが
修正、消去あるいは追加される。 以下、上記フローチャートの主たるステップの詳細につ
いて説明する。 ステップ302で行なう傾き検出では、入力画像201
に含まれる罫線(直線)の1つを検出し。 この直線の傾きを求める。画像に含まれる直線の検出は
、公知の種々の方法で行なうことができるが、ここでは
公知のHough変換のアルゴリズムを適用する。 第4図は、左辺に相当する罫線を検出するためが求める
直線の式であり、γは原点Oからの距離。 Δ θは直線の傾きを表わす。Hough変換方式の特徴は
、画像中の、例えば文字などの他の情報に影響されるこ
となく、直線を検出できることにある。 第4図のフローチャートにおいて、ステップ401.4
02はパラメータの初期化であり、ステップ40.3〜
406で直線上の1つの点の候補、例えば黒画素P□を
探索し、次にステップ407〜411で、この点P工を
通る全ての直線として。 γ=xsinθ+y cosθにおけるγとθとの組を
求め、更に、ステップ403〜412を繰り返すことに
より、頻度分布f(γ、0)を求める。ここでJ(γ、
θ)は、直線γ=xsino+y coso上てはf(
γ、θ)の値はN 411となるが、これ以外の直線(
γ、θ)に対しては、f(γ、θ)の値はO〜2の小さ
い値となる。従って、ステップ413でf(γ、θ)の
値が最大となるγ、θを求めることにより、最も多くの
候補点を通る直線のパラメータが得られる。 第3図のステップ303で行なう傾きの補正は、例えば
、第6図に示す如く、補正画像202上の点Aを入力画
像201上の点aの座標に変換し、点Aの画素濃度とし
て、例えば、点aに最も近い点a′の画素濃度を与える
操作を、補正画像上の全ての点(画素)について繰り返
すことにより行なう。点Aに対応する点aの座標値は、
ステップ302で求めた直線の傾き角度θを用いて計算
できる。尚、点aの濃度値は、点aを囲む4つの画素の
濃度値と、点aとこれらの画素の距離とに応じて計算し
てもよい。 第3図のステップ306に示した文字外接矩形枠の認識
は次のようにして行なう。 第7A図は、罫線210と5文字212A〜212Cを
含む画像202の拡大図である。本発明で言う文字外接
矩形枠(文字枠)は、220A〜220Cの如く1文字
を構成する互いに連結した複数の黒画素に外接する矩形
を意味し、これらの文字枠の始点と終点は、それぞれ左
上画素Psと右下画素PEで示す。各文字外接矩形枠は
1例えば、電子通信学会編、コロナ社発行、「パターン
情報処理」 (長尾真著)、P、84−85に記載され
た方法で検出できる。上記方法によれば、画像202を
上側の行から順に、各行では左から右に走査し、各行で
、連続する黒画素が互いに同−のラベル(識別符号)を
もつように順次にラベル付けをしていく。 例えば、第7B図に示す如く、画像202を矢印方向に
順に走査し、最初に検出された黒画素の位置にはラベル
Aを与え、これに連続する黒画素位置には同じラベルA
を与えていく、黒画素が途切れた後、同一の行内で別の
黒画素が現われたら、これには別ラベルBを与え、これ
に続く黒画素の位置に同一ラベルBを与えていく。これ
らの黒画素の位置とラベルとの関係はメモリ領域29に
記憶しておく。次の行からは、黒画素が検出される毎に
、その近傍に既にラベル付けされた点があるか否かを判
定し、もし有れば上記ラベルと同一のラベルを与え、な
ければ新たなラベルを与えていく。このようにラベル付
けを行なうと、第7B図に示す如く、同一ラベルをもつ
互いに連続する黒画素の集合S^〜SDが形成される。 ここで、例えばScとSDの如く、異なるラベルを持つ
複数の集合が連続している場合、ラベルを統一する必要
がある。そこで、画像202全体の走査を終えた時、メ
モリ領域29をチエツクし、他の集合SCと連結した集
合(So)について、ラベルの書替え(D→C)を行な
う。そして、同一ラベルを持つ各画素集合の外接矩形2
20を求め、それぞれの始点Psと終点PEの座標を外
接矩形枠テーブル21に、例えば第8図に示すように記
憶する。 第8図において、2LAは矩形番号、21Bは始点座標
、21Cは終点座標である。外接矩形テーブル21には
1文字を構成する黒画素の外接矩形データと、罫線を構
成する黒画素の外接矩形デ所定のサイズより小さい矩形
を文字外接矩形と判断する。 第3図のステップ307は、画像202に含まれる黒画
素のうち、上記文字外接矩形内に位置するものを白画素
に変換する処理である。これによって、罫線210だけ
を残した画像203が得られる。 次に、第3図の罫線認識ステップ308の詳細について
、第9A図〜第20図を参照して説明する。 第9A図は、画像入力装置12を通る前の原帳票200
上の原罫、11210の拡大図を示す、原罫線210は
鮮明であり、線幅に乱れはない。 第9B図は1画像入力装置12により読み込まれ、文字
の除去処理を終えた後の画像203に含まれる罫線21
0の拡大図である。この罫線210はノイズ等により若
干劣化しており、連続すべき黒画素の1部が欠けた状態
となっている。 罫線認識処理308は、第9B図に示す劣化した罫線画
像から、第9A図に示す劣化のない罫線を描画するため
のデータを得るためのものであり、本発明では、第10
図に示す如く、罫線210の中の横、1ll(例えば、
LHI、LH2・・・・・・)を認識するルーチン5o
Oと、縦線(例えば、LVI。 LV2・・・・・・)を認識するルーチン510と、罫
線テーブル(実線ソフト)22を作成するルーチン52
0とからなっている。 横線認識ルーチン500の詳細を第11図に示す。この
ルーチンでは、先ず、画像203に含まれる仮線を抽出
し、仮線テーブル24を作成する(ステップ501)、
ここで言う“仮線”は、第9B図にLL、L2.・・・
・・・で示すように、横方向の走査線上で連続する複数
の黒画素からなる線幅が1画素の線分を意味し、1本の
罫線は、その線幅に応じた複数本の仮線から形成される
。ステップ501では、画像203を水平方向に走査し
ながら、各走査線上に存在する複数の連続黒画素からな
る場合の始点(例えばP^)と終点(例えばPa)を検
出し、これら2点の座標と、線幅(=1画素)、線長(
P^〜Paの距離)の値を第12図に示すテーブル24
に順次に登録する。画像203の全体について走査が終
了すると横罫線を構成する仮線だけでなく、縦罫線を構
成する仮線も含めて、全ての仮線データ24B〜24L
が仮線の検出順の線番号24を伴なってテーブル24に
登録される。 次に、横罫線を構成する仮線(横仮線)と縦罫線を構成
する仮線(縦仮線)とを見分けるために、仮線テーブル
24から線長データ24Lを読み出し、線長毎の仮線の
頻度(出現した本数)を表わす頻度リスト26を作成す
る(ステップ502)。 第13図は頻度リスト26の1例を示す。一般に、縦、
横罫線を含む画像で、横方向に長さを測って仮線の頻度
分布をとると、縦罫線は短い線長をもつ多数の線分に分
割されているため、縦罫線を構成している短い仮線が高
い頻度をもつことになる。 例えば、各縦罫線が1画素分の線幅をもつ場合は、線長
が1(画素)の仮線の頻度が最大となり、縦罫線の線幅
が2画素ならば、線長が2の仮線の頻度が最大となる。 従って、最大頻度をもつ線長Qを縦罫線の線幅とみなし
、上記線長Q、あるいは、上記線長Qに所定の係数k(
例えばに=2)を掛けた値を、横仮線・縦仮線を識別す
るための閾値THとしてメモリ領域27に記憶しておく
。 仮線テーブル24は、線長24Lが上記閾値THより大
きい仮線データ、すなわち横仮綴データのみを残し、縦
仮線データをテーブルから消去した形に再編集してもよ
いが、この実施例では。 縦仮線データを仮線テーブルに残したまま、次の仮線統
合処理ステップ504を実行する。 仮線テーブル24上では、各横罫線LHI。 LH2・・・・・・が、それぞれ複数の仮線データとし
て記憶されている。そこで、ステップ504では、。 隣接関係にある複数の横仮線を統合し、複数画素分の線
幅をもつ1本の横罫線を表わす実線データに変換する。 第14図は、ステップ504で行なう横仮線統合処理の
詳細を示すフローチャートである。ここで、仮線テーブ
ル24におけるに番目の仮線の始点座標24Bの値を[
xl(k)、y 1(k)コ、終点座標24Eの値を[
x2(k)、y 2(k)] 、線幅24Wの値をWi
dth (k ) 、線長24Lの値をLength
(k )でそれぞれ表わすことにする。 第14図のフローチャー1・の概要は、仮線リスト24
の中で1つの横仮線を基準仮線に選び、これ以外の全て
の横仮線について順次に上記基準仮線と接するか否かを
チエツクし、もし、基準仮線と接するか重なる場合は、
第15図と第16図に示す定義に従って、基準仮線の始
点、終点、線幅。 線長さの値を更新しく仮線と基準仮線との統合)、統合
された仮線のデータを仮線リスト24から消去すること
にある。 第14図で、には基準仮線を示すパラメータ、Qは照合
対象となる仮線を示すパラメータであり、ステップ11
01と1113により1つのkについてのループが形成
され、ステップ1103と1111とで1つのQについ
てのループが形成されている。この例では、統合された
仮線は、リストから消去する代りに、始点のx11i標
に「−1」を代入している。また、ステップ1102゜
1104で基準仮線の長さLength (k ) 、
照合板線の長さLength (Q)を閾値THと比較
し、これがTHより小さい場合は処理対象からはずすよ
うにしている。事前に仮線テーブルから縦仮線のデータ
が消去されている場合は、閾値TI(どの比較動作を省
略すればよい。 このルーチンでは、ステップ1101でkに初期値を設
定し、ステップ1102でに番目の仮線データが基準仮
線として有効か否かを判定する。 k番目のデータが実質的に消去されたもの1.%−)あ
るいは縦仮線に該当する場合は、ステップ1112に分
岐し、kの値を1だけインクリメントする。インクリメ
ントされたkの値が、仮線テーブル24にストアしであ
る。データの個数k aaXを超えた場合、このルーチ
ンを終了する(ステップ1113)。もし、そうでなけ
ればステップ1102に戻る。ステップ1102で、k
番目の仮線データが基準仮線として有効な場合、ステッ
プ1103で、照合板線を示すパラメータΩに初期値を
設定し、ステップ1104゜1105でΩ番目の仮線デ
ータが有効か否かを判定する。もし、有効データでなけ
れば、ステップ1110でQの値を1だけインクリメン
トし、これが仮線リストのデータ個数Q −ax (=
k−ax)を超えていなければ、ステップ1104に
戻り、そうでなければ、ステップ1112に進む。2番
目のデータが有効な場合、ステップ1106で基準仮線
と照合板線との位置関係をチエツクし、もしこれら2本
の仮線が重なる場合、あるいは互いに接する場合、基準
仮線の始点、終点の座標変更(ステップ1107)と、
線幅の変更(ステップ1108)を行ない、照合板線デ
ータを消去することを意味する始点X座標のr−IJへ
の書き換えを行なう。 第15図は、基準仮線(k番目の仮線)と照合板線(ρ
番目の仮線)とが互いに接するか、あるいは互いに重な
る場合の、基準仮線の始点X座標xi(k)と終点X座
標x2 (k)の変更の定義を示す。照合板線の始点ま
たは終点が、基準板−腺の外側に位置する場合は、基準
仮線の始点または終点のX座標が照合板線の始点または
終点のX座標に置き換えられる。基準仮線と照合板線と
が統合されると、基準仮線は、始点または終点のX座標
が変更されると同時に、線幅も変更されて、次第に太く
なって行く。 例えば第17図の画像において、Llが基準仮線に選ば
れた場合、仮線L2は重ならないため、そのまま仮線リ
ストに残る。仮線L3は基準仮線に重なるため、これが
基準仮線に統合され、基準仮線L1の終点座標がステッ
プ1107でpa工からPa、に変更される。また、基
準仮線L1の線幅がステップ1108でr2Jに変更さ
れ、仮線L3のデータがステップ1109で消去される
。仮線L4は、線幅が拡張された基準仮線に重ならない
ため、この時点では仮線リストに残されたままである。 基準仮線L1と他の全ての仮線との照合動作が終了する
と、次に、仮線142が基準仮線に選ばれる。この基準
板mL2は、既にL3と統合済みの仮線L1と照合され
、両者が互いに重なっているため、L2の始点座#AP
^2がP^1に変更される。 また、L2の線幅が「2」に変更され、仮線L2は仮線
リストから消去される。次に、仮線L4が照合板線にな
り、これも基準仮線L2に統合され、結果的に仮ILI
〜L4が統合されて1本の実線となる。 第16図は、基準仮線にと照合板線Qとが重なった場合
の線幅の変更の定義を示す。線[W(k)とW (Q)
もつ2つの線分の重なり方には、図示された3通りがあ
り、照合板線が基準仮線に完全に隠れる第3ケースを除
いて、X座標で表わすと横仮線テーブル24に記憶され
ている統合された横仮線データと、縦仮線テーブル25
に記憶されている統合された縦仮線データとを罫線テー
ブル(実線リスト)22に書き込む。上記処理は、横W
idth(k)= y 2 (Q ) −y 1 (k
)+ 1の関係にある。 上述のデータ処理により、第12図に示した横仮線テー
ブル24の内容は、例えば第18図の如く変更される。 第10図の縦線L!、識ルーチン510は、上述した横
線検呂ルーチンにおけるXとyとの関係を入れ換え、画
像203を縦方向に走査して得られる仮線データを縦仮
線テーブル25に記憶し、これらの仮線データに対して
第14図と同様の処理を施こせばよい。この場合、縦仮
線と横仮線とを識別するための閾値TH’はメモリ領域
28に記憶しておく。 第10図の実線リスト作成ステップ520では、の、お
よび線長24Wが閾値THより大きいものだけを選択し
て、第19図の如く罫線テーブル22にj@次に書き移
す。次に縦仮線テーブル25に記憶されている縦仮線デ
ータをj@次に読み出し、上記と同様に、始点のX座標
の判定と、閾値TH’ との比較処理を行ない、有効デ
ータのみを罫線テーブル22に順次に追加する。この場
合。 罫線テーブル22に記憶された横線データの個数を変数
HN○、縦線データの個数をVNO,合計のデータ個数
をTOTALとしてカウントしておく。罫線テーブル2
2において、横線データのグループと縦線データのグル
ープは、例えば始点と終点のX座標をチエツクすること
により識別できる。始点と終点のX座標が同じ値であれ
ば、縦線データである。 第20図は、罫線テーブル22に記憶される始点データ
22B、終点データ22Eと、実際の罫線上の位置との
対応関係を示す、横罫fi210Hの場合は、始点デー
タ22Bと終点データ22Eは、最上位にある仮線の両
端P^とPa&指している。一方、縦罫線210vの場
合、これらのデータは、左側に位置する仮線の両端P^
′とPB′ を指している。 第2LAと第21B図は、第3図に示す交点処理ルーチ
ン310の詳細を示す。罫線テーブル22に得られた各
罫線データは、第2E図に符号213′で示す如く、枠
からはみ出した縦線、または横線のデータを含ζ交点処
理ルーチンは、縦線と横線との交点部分における異常を
検出し、はみ出した線の端点座標を修正するためのもの
であり、横線の修正処理(第21A図)と縦線の修正処
理(第21B図)とからなる。 横線の修正処理では、横方向にはみ出した線分の端点X
座標を、この横線を交差する縦線の位置に一致させる。 すなわち、各横線の始点、終点のX座標は変更せず、X
座標だけを修正する。この処理は、罫線テーブル22か
ら座標修正対象とする横線を順次に選択し、該横線の始
点X座標と近いX座標をもつ縦線を探す。「近い」か否
かの判断には、例えば、縦仮線と横仮線の識別の際に用
いた閾値THを1つの基準値として用い、対象となる横
線とX座標の距離がTH以内にある縦線が見つかったら
、その縦線のX座標を上記横線の新しいX座標とする。 終点についても同様に、近いX座標をもつ縦線を見つけ
、横線のX座標を上記縦線のX座標で置き換える。この
処理を全ての横線について繰り返すことにより、横罫線
のはみ出し部分を除去することができる。 一方、縦線の修正処理では、X座標をそのままにして、
X座標だけを変更する。すなわち、修正対象となる縦線
を順次に選び、各縦線の始点と終点について、近いX座
標をもつ横線を見つけ出し。 縦線X座標を横線のX座標で置き換える6第21A図は
、上述の横線の修正の流れ図である。iは横線用添字、
jは縦線用添字、THはステップ503で求めた閾値で
ある。ステップ1403では、ある横線に対して、その
始点xi (i)と近いX座標で定義される縦線を探し
ている。 xi(j)−L≦xi(i)≦X1(j)+L上式の範
囲内に始点xi (i)があるときは、ステップ140
4で、xi (i)−xi (j)と変更する。ステッ
プ1405〜1406は、終点について始点と同様の操
作を行っている。ステップ1407は、始終点の変更に
伴なう長さの変更である。 第21B図は、前記縦線の修正処理の流れ図である。内
容的には第21A図におけるXとyが入換わるだけで、
アルゴリズムとしては同一である。 すなわち、ステップ1423〜1424は始点の変更、
ステップ1425〜1426は終点の変更、ステップ1
427は長さの変更である。 次に、第3図のa認識処理312の詳細について説明す
る。欄は2例えば第22図に示す如く、縦横2本ずつの
罫線210で囲まれたセル領域C1,C2,C3,C4
・・・・・・を意味し、各個の大きさと位置は、各セル
領域の左上画素(始点)Q^と右下画素(終点)Qaに
より定義される。本発明では、罫線の始点、終点と区別
するために、欄の始点QAの座標を(cell−xz
# ””、’−z、1)、終点QBの座標を(cell
−xz 、 cell−yz )の如く表わすことにす
る。 第23図は欄認識処理と具体的に説明するための図であ
り、罫線210が、上から順に番号付けられた横線H1
,H2・・・・・・H7と、左から順に番号付けられた
縦線Vl、V2・・・・・・v5からなる。 欄認識処理312は、これらの罫線で左右、上下を囲ま
れたセル領域C1〜C13を順次に認識し、各領域の始
点と終点の座標を欄テーブル23に記憶するものである
。セル領域の認識は、まず最初の横線H1を基準線に設
定して左側の縦線から順にチエツクし、上記基準線と交
じわる左辺、右辺となるべき2本の縦線v1とv3を見
つけ、次にこれらの縦線Vl、V3と交じわり、上記基
準線2・ Hlに最も近い下辺となるべき横線HVを探がし出し、
Hl、Vl、V3.H21’囲まれる領域を第1の41
1I(セル番号C1)と認識する。欄が認識されたら第
22図で定義した始点Q^と終点Qaの座標を求め、こ
れを欄テーブル23に登録する。 次に、上記基準線H1を上辺、v3を左辺とするセル領
域の右辺となるべき縦線v5を見つけ、縦&!v3とv
5に交じわる下辺となるべき横線H2を探し出して、H
l、V3.V5.H2で囲まれた領域を第2のa<セル
番号C2)と!!!識する。 認識されたセル領域の右辺が最も右側の縦線であった場
合、上記基準11H1を上辺とする欄はこれ以上存在し
ない。そこで、第2番目の横線を基準線に設定して、上
述したと同様のチエツク動作を繰り返し、これによりセ
ル領域C3,C4,・・・・・・C1lを認識する。基
準線が最下位の横線となった時、上記動作は終了する。 第24図は、上記第23図の例におけるセル領域の認識
順序241と、各セル領域を定義する上辺242.左辺
243.右辺244.下辺245に該当する罫線との関
係を示す。 第25図は上記欄認識処理の具体的なプログラム・フロ
ーチャートを示す。このフローチャートでは、1本目の
横線用にi、1本目の縦線用にj。 2本目の横線用にkそして2本目の縦線用にQを。 それぞれ、添字として用いている。また、説明の簡単化
のため、罫線の線幅はすべてWであるとし、!!Iti
号を示す添字をa、a番目の欄の左上点を(cell−
x、 (a ) r cell−yt (a ) )
、右下点を(cell−g (a ) t cell−
yz (a ) )としている。 第25図において、ステップ1604〜1605は、1
本目の縦線、すなわち、欄の左辺候補を探すステップ、
ステップ1607〜1608は、2本目の縦線、すなわ
ち、欄の右辺候補を探すステップ、また、ステップ16
10は、2本目の横線、すなわち、欄の下辺候補を探す
ステップである。ステップ1611では、欄の左上点と
右下点を定義し、欄テーブル23に座標データを記憶す
る。左上点のX座標は左辺のxPII標十線幅で、X座
標は上辺のy座標子線幅となる。また、右下点のX座標
は右辺のX座標−1、ymmは下辺のX座標−1となる
。 第26“図に欄テーブル23の1例を示す。 23Nはa(セル領域)の番号、23Bは始点座標、2
3Eは終点座標である。 以上説明した本発明の実施例によれば1文字と罫線とが
混在する帳票を画像として入力し、罫線のみを自動的に
抽出し、これをベクトルデータに変換している。また、
各罫線により形成される欄の大きさと位置を自動的に認
識し、種定義データをテーブルに記憶している。従って
、本発明によれば、画像入力装置において罫線が劣化し
た場合、あるいは帳票用紙自体が1例えば複写により劣
化した罫線を含む場合でも、上記ベクトルデータにより
鮮明な罫線を再生できる。また、各罫線がベクトルデー
タに変換されているため1通常の文書編集端末やワード
プロセッサが備える文書編集機カーソル操作に応答して
、任意の罫線の位置、長さ、線幅などを部分的に修正し
たり、新たな罫線の追加、既存罫線の削除などの加工を
施こすことができる。 本発明の変形例としては、例えば第3図の交点処理ステ
ップ310あるいは欄認識処理ステップ312において
、全ての罫線のIll、@を所定の寸法に統一するよう
にしてもよい。線幅の決定方法としては、例えば、罫線
テーブル22内の全ての罫線の線幅の頻度を求め、その
中で最大頻度をもつ11A@に統一する方法、あるいは
頻度の大きいn種の標準線幅を選択し、各罫線の線幅を
最も近い標準線幅に一致させる方法など、種々の方法を
採用できる。 また、第3図の文字外接矩形枠(文字枠)認識処理30
6で抽出した文字枠データを、罫線テーブル22と対応
して用意した、文字枠テーブルに保存しておき1表示ス
テップ309で、あるいはステップ312の後で行なう
表示ステップで、罫線と文字枠を重ねた形で表示するよ
うにしてもよい。このようにすると、オペレータは、原
入力画像中の文字位置と対応する位置に、カーソルを合
せながら、キーボードから文字や記号を入力できる。 【発明の効果1 以上の説明から明らかな如く、本発明によれば、罫線以
外の文字情報を含む原紙を用いて、画像処理により罫線
のベクトルデータを抽出しているため、入力文書画像上
の罫線が劣化していても鮮明な罫線を描くことができる
。また、これら罫線をキーボード操作により修正したり
、新たな罫線データを追加したりすることができるため
、文書処理の効率を大幅に向上させることができる。
ムの全体構成の1例を示す。このシステムは、オペレー
タがコマンドやデータを入力するためのキーボード11
と、帳票などの文書画像を入力するためのイメージスキ
ャナ12と、入力文書あるいは、このシステムにより認
識処理された文書データを表示するための表示装置13
.プリンタ14.プログラムメモリ16にストアされた
プログラムに従ってデータ処理動作を行なうデータプロ
セッサ159文書認識の結果得られたベクトルデータ(
線分データ、aデータ)や文字データをストアするため
の文書データファイル17゜画像入力装置12から入力
された画像データを1時的にストアするための入力バッ
ファメモリ]8、上記人力バッファメモリ18にストア
された画像データを処理して得られる補正画像データを
ス1〜アするためのメモリ19、および本発明による文
書認識処理に必要な各種のテーブルとワークデータをス
トアするためのメモリ20とからなる。メモリ20は、
文書画像から検出した黒画素連結領域の外接矩形枠を示
すデータをストアするためのテーブル領域21、文書に
含まれる罫線を定義するデータをストアするためのテー
ブル領域22、文書に含まれる表を構成する欄を定義す
るデータをストアするためのテーブル領域23、歪んだ
罫線を補正する処理に用いられる横仮線データテーブル
領域24および縦仮線データフ−プル25、横罫線と縦
罫線との識別のために用いら九る。fI長さ頻度テーブ
ル領域26、横線検出の閾値をストアすゐための領域2
7、縦線検出の閾値をストアするための領域28.外接
矩形枠検出に用いるラベルデータをストアするための領
域29、およびワークエリア30からなる。 第2A図〜第2G図は、本発明による文書認識処理の手
順を模式的に示した図である。 第2A図は、処理対象となる原帳票用紙200を示し、
この帳票は罫$210と、見出し文字列211と、a内
に記入された文字データ212とを含む。第2B図は、
画像入力装置12により入力画面バッファ18に読込ま
れた上記帳票の入力画像データ201を示す。入力画像
データ201は、オペレータによる入力装置12への紙
面セットの不正確さに起因して、水平(あるいは垂直)
方向に対して傾いた状態となる。第2C図は、入力画像
201に含まれる直線(罫線の1部)210を検出し、
傾きを補正して得られる画像データ202を示す。この
画像データ202は、原ippm用紙(H稿)20oに
存在する印刷のよごれ、および画像入力装置12におけ
る変換処理時に生ずるノイズなどにより、罫線の1部に
突起213や欠落214、などの欠陥が生じている。 第2D図は、入力画像202に含まれる黒画素の連結領
域を検出し、それぞれの黒画素連結領域の外接矩形枠を
求め、外接矩形枠のサイズから文字枠を識別し、文字情
報211,212を除去することにより得られた罫線情
報210のみを含む画像データ203を示す。 第2E図は、画像データ203から横線と縦線を検出し
た後、各線分のベクトルデータを求め、これらのベクト
ルデータに基づいて描画したグラフィックデータ画像2
04を示す。横線の検出は、例えば、画像データ203
を横方向に順次に走査することにより同一走査線上で連
続する複数画素からなる仮線を求め、連続画素数が所定
値以下のものは縦罫線要素とみなして除外し、残された
複数の仮線を横罫線構成要素と判断する。複数の互いに
隣接する仮線を1つの実線に統合し、その始点と終点と
から各横罫線のベクトルデータを求める。これと同様に
、縦線のベクトルデータは、画像データ203を縦方向
に走査し、同一走査線上で連続する所定個数以上の画素
からなる縦方向の仮線を求め、隣接仮線を統合すること
により求める。これらの画像処理により、罫線は円21
5′に示す如く、欠落の補正された直線となるが、21
3′で示すように、縦線と横線の交点が部分的に突出し
たり、未接続になってすした不完全な状態である。 第2F図は、上記グラフィックデータ画像204に対し
て補正処理を施し、突起がなく、縦線と横線が正しく交
わり、且つ、罫線が所定の線幅に統一された、修正され
たベクトルデータにより描かれたグラフィックデータ画
像205を示す。 第2G図は、縦、横の罫線により形成される欄(例えば
斜線で示した領域216は1つの欄である)を認識し、
オペレータがカーソルで指示した位置がどの欄に相当す
るかを判断するのに必要な欄定義データを求めた状態を
示す。 第3図は、上述した文書認識処理を行なうための処理プ
ログラムのフローチャートを示す。 このプログラムでは、先ず、画像入力装置12により入
力帳票200の画像情報を入力画像バッファメモリ18
に読み込む(ステップ301)。 次に、罫線210を利用して、第4図と第5図を参照し
て後述する入力画像201の傾きを検出処理を行ない(
ステップ302)、第6図で詳述するように傾き補正さ
れた画像データ202を画像データ領域19にストアす
る(ステップ303)。 傾き補正された画像データ202は表示装置13に出力
され(ステップ304)、オペレータ(ユーザ)は、上
記表示画像を視覚的にチエツクする。 オペレータは、表示画面をみて、@票画像を再入力する
か否かを判断し、もし、表示された傾き補正画像に問題
がなければOKを示すコマンドをキーボード11から入
力する。OKの入力があった場合(ステップ305)、
画像データ202に含まれる黒画素連続領域の外接矩形
を求めて、文字に外接する枠を認識しくステップ306
)、次に文字情報と罫、5liI(直線)情報とを分離
して、画像データ202から文字を消去した第2D図に
示す画像203を得る(ステップ307)。次に、第9
A図〜第20図で詳述するように、画像データ203に
含まれる罫線から縦線と横線を識別し、各線分のベクト
ルデータを得て(ステップ308)、これらのベクトル
データに基づいて描画される第2E図のグラフィックデ
ータ画像204を表示画面に表示する(ステップ309
)。更に、第21図で詳述するように、画像204に含
まれる罫線の各交点に対する補正処理と、線幅の統一処
理を行ない、第2F図に示す補正されたグラフィックデ
ータ205画像を得(ステップ310)、このグラフィ
ックデータ画像に対して、第22図〜第26図で説明す
る欄の認識処理を行なう(ステップ312)。尚、グラ
フィックデータ画像204または205に対しては、オ
ペレータは、ステップ313で示す如く、キーボードか
ら罫線の補正操作を加えることができ、この場合、オペ
レータの操作コマンドに応じて線分のベクトルデータが
修正、消去あるいは追加される。 以下、上記フローチャートの主たるステップの詳細につ
いて説明する。 ステップ302で行なう傾き検出では、入力画像201
に含まれる罫線(直線)の1つを検出し。 この直線の傾きを求める。画像に含まれる直線の検出は
、公知の種々の方法で行なうことができるが、ここでは
公知のHough変換のアルゴリズムを適用する。 第4図は、左辺に相当する罫線を検出するためが求める
直線の式であり、γは原点Oからの距離。 Δ θは直線の傾きを表わす。Hough変換方式の特徴は
、画像中の、例えば文字などの他の情報に影響されるこ
となく、直線を検出できることにある。 第4図のフローチャートにおいて、ステップ401.4
02はパラメータの初期化であり、ステップ40.3〜
406で直線上の1つの点の候補、例えば黒画素P□を
探索し、次にステップ407〜411で、この点P工を
通る全ての直線として。 γ=xsinθ+y cosθにおけるγとθとの組を
求め、更に、ステップ403〜412を繰り返すことに
より、頻度分布f(γ、0)を求める。ここでJ(γ、
θ)は、直線γ=xsino+y coso上てはf(
γ、θ)の値はN 411となるが、これ以外の直線(
γ、θ)に対しては、f(γ、θ)の値はO〜2の小さ
い値となる。従って、ステップ413でf(γ、θ)の
値が最大となるγ、θを求めることにより、最も多くの
候補点を通る直線のパラメータが得られる。 第3図のステップ303で行なう傾きの補正は、例えば
、第6図に示す如く、補正画像202上の点Aを入力画
像201上の点aの座標に変換し、点Aの画素濃度とし
て、例えば、点aに最も近い点a′の画素濃度を与える
操作を、補正画像上の全ての点(画素)について繰り返
すことにより行なう。点Aに対応する点aの座標値は、
ステップ302で求めた直線の傾き角度θを用いて計算
できる。尚、点aの濃度値は、点aを囲む4つの画素の
濃度値と、点aとこれらの画素の距離とに応じて計算し
てもよい。 第3図のステップ306に示した文字外接矩形枠の認識
は次のようにして行なう。 第7A図は、罫線210と5文字212A〜212Cを
含む画像202の拡大図である。本発明で言う文字外接
矩形枠(文字枠)は、220A〜220Cの如く1文字
を構成する互いに連結した複数の黒画素に外接する矩形
を意味し、これらの文字枠の始点と終点は、それぞれ左
上画素Psと右下画素PEで示す。各文字外接矩形枠は
1例えば、電子通信学会編、コロナ社発行、「パターン
情報処理」 (長尾真著)、P、84−85に記載され
た方法で検出できる。上記方法によれば、画像202を
上側の行から順に、各行では左から右に走査し、各行で
、連続する黒画素が互いに同−のラベル(識別符号)を
もつように順次にラベル付けをしていく。 例えば、第7B図に示す如く、画像202を矢印方向に
順に走査し、最初に検出された黒画素の位置にはラベル
Aを与え、これに連続する黒画素位置には同じラベルA
を与えていく、黒画素が途切れた後、同一の行内で別の
黒画素が現われたら、これには別ラベルBを与え、これ
に続く黒画素の位置に同一ラベルBを与えていく。これ
らの黒画素の位置とラベルとの関係はメモリ領域29に
記憶しておく。次の行からは、黒画素が検出される毎に
、その近傍に既にラベル付けされた点があるか否かを判
定し、もし有れば上記ラベルと同一のラベルを与え、な
ければ新たなラベルを与えていく。このようにラベル付
けを行なうと、第7B図に示す如く、同一ラベルをもつ
互いに連続する黒画素の集合S^〜SDが形成される。 ここで、例えばScとSDの如く、異なるラベルを持つ
複数の集合が連続している場合、ラベルを統一する必要
がある。そこで、画像202全体の走査を終えた時、メ
モリ領域29をチエツクし、他の集合SCと連結した集
合(So)について、ラベルの書替え(D→C)を行な
う。そして、同一ラベルを持つ各画素集合の外接矩形2
20を求め、それぞれの始点Psと終点PEの座標を外
接矩形枠テーブル21に、例えば第8図に示すように記
憶する。 第8図において、2LAは矩形番号、21Bは始点座標
、21Cは終点座標である。外接矩形テーブル21には
1文字を構成する黒画素の外接矩形データと、罫線を構
成する黒画素の外接矩形デ所定のサイズより小さい矩形
を文字外接矩形と判断する。 第3図のステップ307は、画像202に含まれる黒画
素のうち、上記文字外接矩形内に位置するものを白画素
に変換する処理である。これによって、罫線210だけ
を残した画像203が得られる。 次に、第3図の罫線認識ステップ308の詳細について
、第9A図〜第20図を参照して説明する。 第9A図は、画像入力装置12を通る前の原帳票200
上の原罫、11210の拡大図を示す、原罫線210は
鮮明であり、線幅に乱れはない。 第9B図は1画像入力装置12により読み込まれ、文字
の除去処理を終えた後の画像203に含まれる罫線21
0の拡大図である。この罫線210はノイズ等により若
干劣化しており、連続すべき黒画素の1部が欠けた状態
となっている。 罫線認識処理308は、第9B図に示す劣化した罫線画
像から、第9A図に示す劣化のない罫線を描画するため
のデータを得るためのものであり、本発明では、第10
図に示す如く、罫線210の中の横、1ll(例えば、
LHI、LH2・・・・・・)を認識するルーチン5o
Oと、縦線(例えば、LVI。 LV2・・・・・・)を認識するルーチン510と、罫
線テーブル(実線ソフト)22を作成するルーチン52
0とからなっている。 横線認識ルーチン500の詳細を第11図に示す。この
ルーチンでは、先ず、画像203に含まれる仮線を抽出
し、仮線テーブル24を作成する(ステップ501)、
ここで言う“仮線”は、第9B図にLL、L2.・・・
・・・で示すように、横方向の走査線上で連続する複数
の黒画素からなる線幅が1画素の線分を意味し、1本の
罫線は、その線幅に応じた複数本の仮線から形成される
。ステップ501では、画像203を水平方向に走査し
ながら、各走査線上に存在する複数の連続黒画素からな
る場合の始点(例えばP^)と終点(例えばPa)を検
出し、これら2点の座標と、線幅(=1画素)、線長(
P^〜Paの距離)の値を第12図に示すテーブル24
に順次に登録する。画像203の全体について走査が終
了すると横罫線を構成する仮線だけでなく、縦罫線を構
成する仮線も含めて、全ての仮線データ24B〜24L
が仮線の検出順の線番号24を伴なってテーブル24に
登録される。 次に、横罫線を構成する仮線(横仮線)と縦罫線を構成
する仮線(縦仮線)とを見分けるために、仮線テーブル
24から線長データ24Lを読み出し、線長毎の仮線の
頻度(出現した本数)を表わす頻度リスト26を作成す
る(ステップ502)。 第13図は頻度リスト26の1例を示す。一般に、縦、
横罫線を含む画像で、横方向に長さを測って仮線の頻度
分布をとると、縦罫線は短い線長をもつ多数の線分に分
割されているため、縦罫線を構成している短い仮線が高
い頻度をもつことになる。 例えば、各縦罫線が1画素分の線幅をもつ場合は、線長
が1(画素)の仮線の頻度が最大となり、縦罫線の線幅
が2画素ならば、線長が2の仮線の頻度が最大となる。 従って、最大頻度をもつ線長Qを縦罫線の線幅とみなし
、上記線長Q、あるいは、上記線長Qに所定の係数k(
例えばに=2)を掛けた値を、横仮線・縦仮線を識別す
るための閾値THとしてメモリ領域27に記憶しておく
。 仮線テーブル24は、線長24Lが上記閾値THより大
きい仮線データ、すなわち横仮綴データのみを残し、縦
仮線データをテーブルから消去した形に再編集してもよ
いが、この実施例では。 縦仮線データを仮線テーブルに残したまま、次の仮線統
合処理ステップ504を実行する。 仮線テーブル24上では、各横罫線LHI。 LH2・・・・・・が、それぞれ複数の仮線データとし
て記憶されている。そこで、ステップ504では、。 隣接関係にある複数の横仮線を統合し、複数画素分の線
幅をもつ1本の横罫線を表わす実線データに変換する。 第14図は、ステップ504で行なう横仮線統合処理の
詳細を示すフローチャートである。ここで、仮線テーブ
ル24におけるに番目の仮線の始点座標24Bの値を[
xl(k)、y 1(k)コ、終点座標24Eの値を[
x2(k)、y 2(k)] 、線幅24Wの値をWi
dth (k ) 、線長24Lの値をLength
(k )でそれぞれ表わすことにする。 第14図のフローチャー1・の概要は、仮線リスト24
の中で1つの横仮線を基準仮線に選び、これ以外の全て
の横仮線について順次に上記基準仮線と接するか否かを
チエツクし、もし、基準仮線と接するか重なる場合は、
第15図と第16図に示す定義に従って、基準仮線の始
点、終点、線幅。 線長さの値を更新しく仮線と基準仮線との統合)、統合
された仮線のデータを仮線リスト24から消去すること
にある。 第14図で、には基準仮線を示すパラメータ、Qは照合
対象となる仮線を示すパラメータであり、ステップ11
01と1113により1つのkについてのループが形成
され、ステップ1103と1111とで1つのQについ
てのループが形成されている。この例では、統合された
仮線は、リストから消去する代りに、始点のx11i標
に「−1」を代入している。また、ステップ1102゜
1104で基準仮線の長さLength (k ) 、
照合板線の長さLength (Q)を閾値THと比較
し、これがTHより小さい場合は処理対象からはずすよ
うにしている。事前に仮線テーブルから縦仮線のデータ
が消去されている場合は、閾値TI(どの比較動作を省
略すればよい。 このルーチンでは、ステップ1101でkに初期値を設
定し、ステップ1102でに番目の仮線データが基準仮
線として有効か否かを判定する。 k番目のデータが実質的に消去されたもの1.%−)あ
るいは縦仮線に該当する場合は、ステップ1112に分
岐し、kの値を1だけインクリメントする。インクリメ
ントされたkの値が、仮線テーブル24にストアしであ
る。データの個数k aaXを超えた場合、このルーチ
ンを終了する(ステップ1113)。もし、そうでなけ
ればステップ1102に戻る。ステップ1102で、k
番目の仮線データが基準仮線として有効な場合、ステッ
プ1103で、照合板線を示すパラメータΩに初期値を
設定し、ステップ1104゜1105でΩ番目の仮線デ
ータが有効か否かを判定する。もし、有効データでなけ
れば、ステップ1110でQの値を1だけインクリメン
トし、これが仮線リストのデータ個数Q −ax (=
k−ax)を超えていなければ、ステップ1104に
戻り、そうでなければ、ステップ1112に進む。2番
目のデータが有効な場合、ステップ1106で基準仮線
と照合板線との位置関係をチエツクし、もしこれら2本
の仮線が重なる場合、あるいは互いに接する場合、基準
仮線の始点、終点の座標変更(ステップ1107)と、
線幅の変更(ステップ1108)を行ない、照合板線デ
ータを消去することを意味する始点X座標のr−IJへ
の書き換えを行なう。 第15図は、基準仮線(k番目の仮線)と照合板線(ρ
番目の仮線)とが互いに接するか、あるいは互いに重な
る場合の、基準仮線の始点X座標xi(k)と終点X座
標x2 (k)の変更の定義を示す。照合板線の始点ま
たは終点が、基準板−腺の外側に位置する場合は、基準
仮線の始点または終点のX座標が照合板線の始点または
終点のX座標に置き換えられる。基準仮線と照合板線と
が統合されると、基準仮線は、始点または終点のX座標
が変更されると同時に、線幅も変更されて、次第に太く
なって行く。 例えば第17図の画像において、Llが基準仮線に選ば
れた場合、仮線L2は重ならないため、そのまま仮線リ
ストに残る。仮線L3は基準仮線に重なるため、これが
基準仮線に統合され、基準仮線L1の終点座標がステッ
プ1107でpa工からPa、に変更される。また、基
準仮線L1の線幅がステップ1108でr2Jに変更さ
れ、仮線L3のデータがステップ1109で消去される
。仮線L4は、線幅が拡張された基準仮線に重ならない
ため、この時点では仮線リストに残されたままである。 基準仮線L1と他の全ての仮線との照合動作が終了する
と、次に、仮線142が基準仮線に選ばれる。この基準
板mL2は、既にL3と統合済みの仮線L1と照合され
、両者が互いに重なっているため、L2の始点座#AP
^2がP^1に変更される。 また、L2の線幅が「2」に変更され、仮線L2は仮線
リストから消去される。次に、仮線L4が照合板線にな
り、これも基準仮線L2に統合され、結果的に仮ILI
〜L4が統合されて1本の実線となる。 第16図は、基準仮線にと照合板線Qとが重なった場合
の線幅の変更の定義を示す。線[W(k)とW (Q)
もつ2つの線分の重なり方には、図示された3通りがあ
り、照合板線が基準仮線に完全に隠れる第3ケースを除
いて、X座標で表わすと横仮線テーブル24に記憶され
ている統合された横仮線データと、縦仮線テーブル25
に記憶されている統合された縦仮線データとを罫線テー
ブル(実線リスト)22に書き込む。上記処理は、横W
idth(k)= y 2 (Q ) −y 1 (k
)+ 1の関係にある。 上述のデータ処理により、第12図に示した横仮線テー
ブル24の内容は、例えば第18図の如く変更される。 第10図の縦線L!、識ルーチン510は、上述した横
線検呂ルーチンにおけるXとyとの関係を入れ換え、画
像203を縦方向に走査して得られる仮線データを縦仮
線テーブル25に記憶し、これらの仮線データに対して
第14図と同様の処理を施こせばよい。この場合、縦仮
線と横仮線とを識別するための閾値TH’はメモリ領域
28に記憶しておく。 第10図の実線リスト作成ステップ520では、の、お
よび線長24Wが閾値THより大きいものだけを選択し
て、第19図の如く罫線テーブル22にj@次に書き移
す。次に縦仮線テーブル25に記憶されている縦仮線デ
ータをj@次に読み出し、上記と同様に、始点のX座標
の判定と、閾値TH’ との比較処理を行ない、有効デ
ータのみを罫線テーブル22に順次に追加する。この場
合。 罫線テーブル22に記憶された横線データの個数を変数
HN○、縦線データの個数をVNO,合計のデータ個数
をTOTALとしてカウントしておく。罫線テーブル2
2において、横線データのグループと縦線データのグル
ープは、例えば始点と終点のX座標をチエツクすること
により識別できる。始点と終点のX座標が同じ値であれ
ば、縦線データである。 第20図は、罫線テーブル22に記憶される始点データ
22B、終点データ22Eと、実際の罫線上の位置との
対応関係を示す、横罫fi210Hの場合は、始点デー
タ22Bと終点データ22Eは、最上位にある仮線の両
端P^とPa&指している。一方、縦罫線210vの場
合、これらのデータは、左側に位置する仮線の両端P^
′とPB′ を指している。 第2LAと第21B図は、第3図に示す交点処理ルーチ
ン310の詳細を示す。罫線テーブル22に得られた各
罫線データは、第2E図に符号213′で示す如く、枠
からはみ出した縦線、または横線のデータを含ζ交点処
理ルーチンは、縦線と横線との交点部分における異常を
検出し、はみ出した線の端点座標を修正するためのもの
であり、横線の修正処理(第21A図)と縦線の修正処
理(第21B図)とからなる。 横線の修正処理では、横方向にはみ出した線分の端点X
座標を、この横線を交差する縦線の位置に一致させる。 すなわち、各横線の始点、終点のX座標は変更せず、X
座標だけを修正する。この処理は、罫線テーブル22か
ら座標修正対象とする横線を順次に選択し、該横線の始
点X座標と近いX座標をもつ縦線を探す。「近い」か否
かの判断には、例えば、縦仮線と横仮線の識別の際に用
いた閾値THを1つの基準値として用い、対象となる横
線とX座標の距離がTH以内にある縦線が見つかったら
、その縦線のX座標を上記横線の新しいX座標とする。 終点についても同様に、近いX座標をもつ縦線を見つけ
、横線のX座標を上記縦線のX座標で置き換える。この
処理を全ての横線について繰り返すことにより、横罫線
のはみ出し部分を除去することができる。 一方、縦線の修正処理では、X座標をそのままにして、
X座標だけを変更する。すなわち、修正対象となる縦線
を順次に選び、各縦線の始点と終点について、近いX座
標をもつ横線を見つけ出し。 縦線X座標を横線のX座標で置き換える6第21A図は
、上述の横線の修正の流れ図である。iは横線用添字、
jは縦線用添字、THはステップ503で求めた閾値で
ある。ステップ1403では、ある横線に対して、その
始点xi (i)と近いX座標で定義される縦線を探し
ている。 xi(j)−L≦xi(i)≦X1(j)+L上式の範
囲内に始点xi (i)があるときは、ステップ140
4で、xi (i)−xi (j)と変更する。ステッ
プ1405〜1406は、終点について始点と同様の操
作を行っている。ステップ1407は、始終点の変更に
伴なう長さの変更である。 第21B図は、前記縦線の修正処理の流れ図である。内
容的には第21A図におけるXとyが入換わるだけで、
アルゴリズムとしては同一である。 すなわち、ステップ1423〜1424は始点の変更、
ステップ1425〜1426は終点の変更、ステップ1
427は長さの変更である。 次に、第3図のa認識処理312の詳細について説明す
る。欄は2例えば第22図に示す如く、縦横2本ずつの
罫線210で囲まれたセル領域C1,C2,C3,C4
・・・・・・を意味し、各個の大きさと位置は、各セル
領域の左上画素(始点)Q^と右下画素(終点)Qaに
より定義される。本発明では、罫線の始点、終点と区別
するために、欄の始点QAの座標を(cell−xz
# ””、’−z、1)、終点QBの座標を(cell
−xz 、 cell−yz )の如く表わすことにす
る。 第23図は欄認識処理と具体的に説明するための図であ
り、罫線210が、上から順に番号付けられた横線H1
,H2・・・・・・H7と、左から順に番号付けられた
縦線Vl、V2・・・・・・v5からなる。 欄認識処理312は、これらの罫線で左右、上下を囲ま
れたセル領域C1〜C13を順次に認識し、各領域の始
点と終点の座標を欄テーブル23に記憶するものである
。セル領域の認識は、まず最初の横線H1を基準線に設
定して左側の縦線から順にチエツクし、上記基準線と交
じわる左辺、右辺となるべき2本の縦線v1とv3を見
つけ、次にこれらの縦線Vl、V3と交じわり、上記基
準線2・ Hlに最も近い下辺となるべき横線HVを探がし出し、
Hl、Vl、V3.H21’囲まれる領域を第1の41
1I(セル番号C1)と認識する。欄が認識されたら第
22図で定義した始点Q^と終点Qaの座標を求め、こ
れを欄テーブル23に登録する。 次に、上記基準線H1を上辺、v3を左辺とするセル領
域の右辺となるべき縦線v5を見つけ、縦&!v3とv
5に交じわる下辺となるべき横線H2を探し出して、H
l、V3.V5.H2で囲まれた領域を第2のa<セル
番号C2)と!!!識する。 認識されたセル領域の右辺が最も右側の縦線であった場
合、上記基準11H1を上辺とする欄はこれ以上存在し
ない。そこで、第2番目の横線を基準線に設定して、上
述したと同様のチエツク動作を繰り返し、これによりセ
ル領域C3,C4,・・・・・・C1lを認識する。基
準線が最下位の横線となった時、上記動作は終了する。 第24図は、上記第23図の例におけるセル領域の認識
順序241と、各セル領域を定義する上辺242.左辺
243.右辺244.下辺245に該当する罫線との関
係を示す。 第25図は上記欄認識処理の具体的なプログラム・フロ
ーチャートを示す。このフローチャートでは、1本目の
横線用にi、1本目の縦線用にj。 2本目の横線用にkそして2本目の縦線用にQを。 それぞれ、添字として用いている。また、説明の簡単化
のため、罫線の線幅はすべてWであるとし、!!Iti
号を示す添字をa、a番目の欄の左上点を(cell−
x、 (a ) r cell−yt (a ) )
、右下点を(cell−g (a ) t cell−
yz (a ) )としている。 第25図において、ステップ1604〜1605は、1
本目の縦線、すなわち、欄の左辺候補を探すステップ、
ステップ1607〜1608は、2本目の縦線、すなわ
ち、欄の右辺候補を探すステップ、また、ステップ16
10は、2本目の横線、すなわち、欄の下辺候補を探す
ステップである。ステップ1611では、欄の左上点と
右下点を定義し、欄テーブル23に座標データを記憶す
る。左上点のX座標は左辺のxPII標十線幅で、X座
標は上辺のy座標子線幅となる。また、右下点のX座標
は右辺のX座標−1、ymmは下辺のX座標−1となる
。 第26“図に欄テーブル23の1例を示す。 23Nはa(セル領域)の番号、23Bは始点座標、2
3Eは終点座標である。 以上説明した本発明の実施例によれば1文字と罫線とが
混在する帳票を画像として入力し、罫線のみを自動的に
抽出し、これをベクトルデータに変換している。また、
各罫線により形成される欄の大きさと位置を自動的に認
識し、種定義データをテーブルに記憶している。従って
、本発明によれば、画像入力装置において罫線が劣化し
た場合、あるいは帳票用紙自体が1例えば複写により劣
化した罫線を含む場合でも、上記ベクトルデータにより
鮮明な罫線を再生できる。また、各罫線がベクトルデー
タに変換されているため1通常の文書編集端末やワード
プロセッサが備える文書編集機カーソル操作に応答して
、任意の罫線の位置、長さ、線幅などを部分的に修正し
たり、新たな罫線の追加、既存罫線の削除などの加工を
施こすことができる。 本発明の変形例としては、例えば第3図の交点処理ステ
ップ310あるいは欄認識処理ステップ312において
、全ての罫線のIll、@を所定の寸法に統一するよう
にしてもよい。線幅の決定方法としては、例えば、罫線
テーブル22内の全ての罫線の線幅の頻度を求め、その
中で最大頻度をもつ11A@に統一する方法、あるいは
頻度の大きいn種の標準線幅を選択し、各罫線の線幅を
最も近い標準線幅に一致させる方法など、種々の方法を
採用できる。 また、第3図の文字外接矩形枠(文字枠)認識処理30
6で抽出した文字枠データを、罫線テーブル22と対応
して用意した、文字枠テーブルに保存しておき1表示ス
テップ309で、あるいはステップ312の後で行なう
表示ステップで、罫線と文字枠を重ねた形で表示するよ
うにしてもよい。このようにすると、オペレータは、原
入力画像中の文字位置と対応する位置に、カーソルを合
せながら、キーボードから文字や記号を入力できる。 【発明の効果1 以上の説明から明らかな如く、本発明によれば、罫線以
外の文字情報を含む原紙を用いて、画像処理により罫線
のベクトルデータを抽出しているため、入力文書画像上
の罫線が劣化していても鮮明な罫線を描くことができる
。また、これら罫線をキーボード操作により修正したり
、新たな罫線データを追加したりすることができるため
、文書処理の効率を大幅に向上させることができる。
ける文書画像の変化の様子を示す図、第3図は本発明に
よる文書処理を実行するためのプログラムのジェネラル
・フローチャート、第4図は、第3図における傾き検出
ルーチン302の詳細フローチャート、第5図は1文書
画像の傾き検出を説明するための図、第6図は第3図の
文書画像の傾き補正ルーチン303の説明図、第7A図
と第7B図は、文書画像に含まれる文字領域の検出方法
を説明するための図、第8図は文字外接矩形テーブルを
示す図、第9A図と第9B図は、それぞれ、文書の原稿
に含まれる罫線と、入力された文書画像に含まれる劣化
した罫線とを示す図、第10図は第3図の罫線認識ルー
チン308の詳細フローチャート、第11図は、第10
図の横線認識ルーチン500の詳細フローチャート、第
12図は仮線定義データを記憶するためのテーブルを示
す図、第13図は、仮線の長さと頻度との関係を示す頻
度分布図、第14図は第11図の仮線統合ルーチン50
4の詳細フローチャート、第15図と第16図はそれぞ
れ仮線統合のためのルールの定義を示す図、第17図は
、仮線統合の手順を具体的に説明するための図、第18
図は、仮線統合処理の途中における仮線テーブル24の
状態を示す図。 第19図は、複数の仮線を統合して得られる罫線(実#
りの定義データを記憶するテーブルの内容を示す図、第
20図は罫線の定義データにおける始点と終点を示す図
、第21A図と第21B図は、それぞれ第3図の交点処
理ルーチン310を構成する接線修正ルーチンと縦線修
正ルーチンの詳細フローチャート、第22図は欄の定義
データにおける始点と終点を示す図、第23図は、表に
おける罫線と欄との関係を説明するための図、第24図
は欄の検出順序を示す図、第25図は、第3図における
欄認識ルーチン312の詳細フローチャート、第26図
は欄定義テーブル23の1例を示す図である。 符号の説明 11・・・キーボード、12・・・画像入力装置、13
・・・表示装置、14・・・プリンタ、15・・・デー
タプロセッサ、16・・・プログラム・メモリ、17・
・・データ・ファイル、18・・・入力画像メモリ、1
9・・・修正画像メモリ、20・・・ワークメモリ、2
10・・・入力画像上の罫線、215・・・描画された
罫線。 I3図 第(7AljJ 冷デB図 第7B図 $151fJ 拓/乙図 鮪を久 第2z区 ”1)uA図 半2/113図
よる文書処理を実行するためのプログラムのジェネラル
・フローチャート、第4図は、第3図における傾き検出
ルーチン302の詳細フローチャート、第5図は1文書
画像の傾き検出を説明するための図、第6図は第3図の
文書画像の傾き補正ルーチン303の説明図、第7A図
と第7B図は、文書画像に含まれる文字領域の検出方法
を説明するための図、第8図は文字外接矩形テーブルを
示す図、第9A図と第9B図は、それぞれ、文書の原稿
に含まれる罫線と、入力された文書画像に含まれる劣化
した罫線とを示す図、第10図は第3図の罫線認識ルー
チン308の詳細フローチャート、第11図は、第10
図の横線認識ルーチン500の詳細フローチャート、第
12図は仮線定義データを記憶するためのテーブルを示
す図、第13図は、仮線の長さと頻度との関係を示す頻
度分布図、第14図は第11図の仮線統合ルーチン50
4の詳細フローチャート、第15図と第16図はそれぞ
れ仮線統合のためのルールの定義を示す図、第17図は
、仮線統合の手順を具体的に説明するための図、第18
図は、仮線統合処理の途中における仮線テーブル24の
状態を示す図。 第19図は、複数の仮線を統合して得られる罫線(実#
りの定義データを記憶するテーブルの内容を示す図、第
20図は罫線の定義データにおける始点と終点を示す図
、第21A図と第21B図は、それぞれ第3図の交点処
理ルーチン310を構成する接線修正ルーチンと縦線修
正ルーチンの詳細フローチャート、第22図は欄の定義
データにおける始点と終点を示す図、第23図は、表に
おける罫線と欄との関係を説明するための図、第24図
は欄の検出順序を示す図、第25図は、第3図における
欄認識ルーチン312の詳細フローチャート、第26図
は欄定義テーブル23の1例を示す図である。 符号の説明 11・・・キーボード、12・・・画像入力装置、13
・・・表示装置、14・・・プリンタ、15・・・デー
タプロセッサ、16・・・プログラム・メモリ、17・
・・データ・ファイル、18・・・入力画像メモリ、1
9・・・修正画像メモリ、20・・・ワークメモリ、2
10・・・入力画像上の罫線、215・・・描画された
罫線。 I3図 第(7AljJ 冷デB図 第7B図 $151fJ 拓/乙図 鮪を久 第2z区 ”1)uA図 半2/113図
Claims (1)
- 【特許請求の範囲】 1、複数の文字と縦横の複数の罫線からなる表とを含む
文書を画像入力手段により文書画像に変換する第1ステ
ップと、 上記文書画像を複数の罫線のみを含む第2の文書画像に
変換する第2ステップと、 上記第2の文書画像に含まれる罫線を認識して、各罫線
を定義する複数のベクトルデータを得る第3ステップと
、 上記ベクトルデータに基づいて描かれた複数の罫線から
なる表を表示する第4ステップとからなることを特徴と
する文書処理方法。 2、前記第2ステップが、文書画像に含まれる黒画素連
結領域の外接矩形を求めるステップと、文書画像上で所
定サイズ以下の外接矩形内に位置する黒画素を白画素に
置換するステップとからなることを特徴とする第1請求
項記載の文書処理方法。 3、前記第3ステップが、前記第2の文書画像から複数
の横罫線を抽出して、各横罫線の始点と、終点と、線幅
とを示すベクトルデータを得るステップと、前記第2の
文書画像から複数の縦罫線を抽出して、各縦罫線の始点
と、終点と、線幅とを示すベクトルデータを得るステッ
プとからなることを特徴とする第1請求項記載の文書処
理方法。 4、前記横罫線の抽出が、前記第2の文書画像を水平方
向に順次に走査することにより検出されるそれぞれ1以
上の黒画素からなる複数の線分のうち、所定の閾値より
も短い線分を除去することにより行なわれ、前記縦罫線
の抽出が、前記第2の文書画像を垂直方向に順次に走査
することにより検出される、それぞれ1以上の黒画素か
らなる複数の線分のうち、所定の閾値よりも短かい線分
を除外することにより行なわれることを特徴とする第3
請求項記載の文書処理方法。 5、前記各横罫線のベクトルデータが、前記水平方向の
走査により検出される所定閾値より長い複数の線分のう
ち、互いに接する位置関係にあるものを統合して、線幅
または線長が大きくなった1つの線分にし、この統合さ
れた線分の始点、終点、線幅を検出することにより求め
られ、前記各縦罫線のベクトルデータが、前記垂直方向
の走査により検出される所定閾値より長い複数の線分の
うち、互いに接する位置関係にあるものを統合して、線
幅または線長が大きくなった1つの線分にし、この統合
された線分の始点、終点、線幅を検出することにより求
められることを特徴とする第4請求項記載の文書処理方
法。 6、第3請求項記載の文書処理方法において、更に、前
記第3ステップで得られた複数のベクトルデータのうち
、縦罫線を示すベクトルデータと、横罫線を示すベクト
ルデータとを照合し、始点または終点の値を選択的に補
正するステップを有することを特徴とする文書処理方法
。 7、第1請求項記載の文書処理方法において、更に、第
1ステップで得られた文書画像の傾きを検出し、傾きの
補正するステップを有し、前記第2ステップが上記傾き
補正された文書画像に対して行なわれるようにしたこと
を特徴とする文書処理方法。 8、第1請求項記載の文書処理方法において、更に、前
記第3ステップで得られた各罫線のベクトルデータに基
づいて、それぞれ前記表を構成する上下、左右が罫線で
区切られた複数のセクションを検出し、各セクションを
定義するデータを得るステップを有することを特徴とす
る文書処理方法。 9、表と文字とを含む文書画像を入力するための画像入
力装置と、 文書画像を表示するための画面をもつ表示手段と、 上記画像入力手段から入力された複数画素からなる文書
画像を記憶するための第1のメモリ手段と、 傾きを補正された文書画像を記憶するための第2のメモ
リ手段と、 罫線を定義するベクトルデータを記憶するための第3の
メモリ手段と、 オペレータによって操作される指令と文字データを入力
するための手段と、 上記入力手段からの指令に応答して動作するデータ処理
手段と、 からなり、上記データ処理手段が、上記第1のメモリ手
段に記憶された文書画像の傾きを検出し、傾き補正され
た文書画像を上記第2のメモリ手段に書込む第1手段と
、文字を構成している黒画素を白画素に置換することに
より、上記第2のメモリ手段に記憶されている文書画像
を、複数の罫線が残されている第2の文書画像に変換す
るための第2手段と、上記第2の文書画像から、横罫線
のグループと縦罫線のグループとを別々に検出し、各罫
線の位置とサイズを定義する複数のベクトルデータを上
記第3のメモリ手段に書込む第3手段と、上記ベクトル
データに基づいて描かれた複数の罫線からなる表を、上
記表示手段に出力するための手段とを備えたことを特徴
とする文書処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1214795A JPH02138674A (ja) | 1988-08-24 | 1989-08-23 | 文書処理方法及び装置 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20997588 | 1988-08-24 | ||
JP63-209975 | 1988-08-24 | ||
JP1214795A JPH02138674A (ja) | 1988-08-24 | 1989-08-23 | 文書処理方法及び装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH02138674A true JPH02138674A (ja) | 1990-05-28 |
Family
ID=26517787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1214795A Pending JPH02138674A (ja) | 1988-08-24 | 1989-08-23 | 文書処理方法及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH02138674A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05342408A (ja) * | 1991-04-04 | 1993-12-24 | Fuji Xerox Co Ltd | 文書画像ファイリング装置 |
US6917706B2 (en) | 1996-12-20 | 2005-07-12 | Fujitsu Limited | Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof |
JP2007156841A (ja) * | 2005-12-05 | 2007-06-21 | Canon Inc | 画像処理方法及び画像処理装置 |
JP2017215946A (ja) * | 2016-05-31 | 2017-12-07 | コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド | 表の線を追跡するためのロバスト法 |
-
1989
- 1989-08-23 JP JP1214795A patent/JPH02138674A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05342408A (ja) * | 1991-04-04 | 1993-12-24 | Fuji Xerox Co Ltd | 文書画像ファイリング装置 |
US6917706B2 (en) | 1996-12-20 | 2005-07-12 | Fujitsu Limited | Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof |
US6928188B2 (en) | 1996-12-20 | 2005-08-09 | Fujitsu Limited | Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof |
US6975762B2 (en) | 1996-12-20 | 2005-12-13 | Fujitsu Limited | Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof |
US7039235B1 (en) | 1996-12-20 | 2006-05-02 | Fujitsu Limited | Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof |
JP2007156841A (ja) * | 2005-12-05 | 2007-06-21 | Canon Inc | 画像処理方法及び画像処理装置 |
JP2017215946A (ja) * | 2016-05-31 | 2017-12-07 | コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド | 表の線を追跡するためのロバスト法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5101448A (en) | Method and apparatus for processing a document by utilizing an image | |
JP2930612B2 (ja) | 画像形成装置 | |
US5416849A (en) | Data processing system and method for field extraction of scanned images of document forms | |
JP3996579B2 (ja) | 機械可読フォームのアクティブ領域を識別するためのフォーム処理システム | |
JP2536966B2 (ja) | テキスト編集システム | |
US7194144B1 (en) | Document image processing device, document image merging method, and storage medium recording a document image merging program | |
US5856877A (en) | Apparatus and method for processing and reproducing image information | |
US6327384B1 (en) | Character recognition apparatus and method for recognizing characters | |
US5448692A (en) | Digital image processing device involving processing of areas of image, based on respective contour line traces | |
CN102289667A (zh) | 对经历光学字符识别(ocr)过程的文本文档中出现的错误的用户纠正 | |
JPH08305796A (ja) | パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置 | |
JP2010009509A (ja) | 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体 | |
US7149352B2 (en) | Image processing device, program product and system | |
US7983485B2 (en) | System and method for identifying symbols for processing images | |
JP3936436B2 (ja) | 表認識方法 | |
JP2021044803A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JPH02138674A (ja) | 文書処理方法及び装置 | |
JP2001126010A (ja) | 帳票処理装置、帳票定義作成方法、領域抽出方法及び記憶媒体 | |
JP2000187705A (ja) | 文書読取装置および方法および記憶媒体 | |
JPH11219409A (ja) | 文書読取装置 | |
JP2003046746A (ja) | 画像処理方法及び画像処理装置 | |
JP7532124B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JPH09147105A (ja) | 図面閉領域の抽出方法 | |
JPH0728934A (ja) | 文書画像処理装置 | |
JP2023046687A (ja) | 情報処理装置、情報処理方法、およびプログラム |