JPH04155483A - 文字領域区切り検出方法 - Google Patents
文字領域区切り検出方法Info
- Publication number
- JPH04155483A JPH04155483A JP2279431A JP27943190A JPH04155483A JP H04155483 A JPH04155483 A JP H04155483A JP 2279431 A JP2279431 A JP 2279431A JP 27943190 A JP27943190 A JP 27943190A JP H04155483 A JPH04155483 A JP H04155483A
- Authority
- JP
- Japan
- Prior art keywords
- length
- area
- line
- delimitation
- delimiter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title description 5
- 238000001514 detection method Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 4
- 238000000926 separation method Methods 0.000 description 3
- 238000003079 width control Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000002789 length control Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
Landscapes
- Character Input (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は、wp(ワープロ)、DTP(ディスクトップ
パブリッシング装置)等の文書編集装置の入力部となる
文字認識装置の文字、図形等の文字領域区切り検出方法
に関する。
パブリッシング装置)等の文書編集装置の入力部となる
文字認識装置の文字、図形等の文字領域区切り検出方法
に関する。
(従来の技術)
近年、文字、図形等が混在する文書をスキャナ等の画像
読み取り装置によって、2値化したビットマツプデータ
として取り込み、自動的に文字及び図形領域を認識する
文字認識装置が利用されるようになり、文字及び図形領
域を分割するための領域区切り検出方法が提案されてい
る。
読み取り装置によって、2値化したビットマツプデータ
として取り込み、自動的に文字及び図形領域を認識する
文字認識装置が利用されるようになり、文字及び図形領
域を分割するための領域区切り検出方法が提案されてい
る。
第6図は、そのような従来の領域区切り検出方法を説明
するフローチャートである。
するフローチャートである。
領域の認識対象の文書データを、スキャナによって2値
化して読取り、ピットマットデータとして記憶させる(
ステップ(以後、Sと略す)1)。
化して読取り、ピットマットデータとして記憶させる(
ステップ(以後、Sと略す)1)。
次に、そのビットマツプデータがら、水平方向の白画素
と黒画素の長さを各行毎に検出して記憶しくS2)、白
画素の長さが、あらかじめ定めた閾値TH−LEN以上
の場合は、その白画素の開始座標と終了座標を算出しく
S3)、算出した開始座標と終了座標が前ラインまでの
領域区切り候補の座標と等しければ、同一領域区切りと
しくS4)、等しくない場合は、別の領域区切りとして
、新たに記憶格納する(S5)。その際、前ラインまで
の領域区切り候補の幅が閾値TH−WID以上のときは
、水平領域区切りとして確定し登録する(S6)。
と黒画素の長さを各行毎に検出して記憶しくS2)、白
画素の長さが、あらかじめ定めた閾値TH−LEN以上
の場合は、その白画素の開始座標と終了座標を算出しく
S3)、算出した開始座標と終了座標が前ラインまでの
領域区切り候補の座標と等しければ、同一領域区切りと
しくS4)、等しくない場合は、別の領域区切りとして
、新たに記憶格納する(S5)。その際、前ラインまで
の領域区切り候補の幅が閾値TH−WID以上のときは
、水平領域区切りとして確定し登録する(S6)。
垂直方向の領域区切りについても上記水平領域区切りと
全く同様に領域を検出する(S7ないしS 11)。
全く同様に領域を検出する(S7ないしS 11)。
第7図は、上記の処理を後出第2図の文書例について行
なった結果を示し、図(a)は水平領域区切り候補、図
(b)は垂直領域区切り候補、そして図(c)は最終の
領域区切りを示している。
なった結果を示し、図(a)は水平領域区切り候補、図
(b)は垂直領域区切り候補、そして図(c)は最終の
領域区切りを示している。
(発明が解決しようとする課題)
従来、以上のように領域区切りを検出していたが、しか
しながら、ライン前後の白画素の長さが等しい場合のみ
、同一領域区切りとして検出しており、そのため新聞の
見出しのように文字領域が多段にまたがっている文書等
は、本文領域の区切りの端部が見出し文字と重なるため
にライン前後の白画素の長さが異なることになる。した
がって、正確な文書の領域区切りの検出は不可能な問題
があった。
しながら、ライン前後の白画素の長さが等しい場合のみ
、同一領域区切りとして検出しており、そのため新聞の
見出しのように文字領域が多段にまたがっている文書等
は、本文領域の区切りの端部が見出し文字と重なるため
にライン前後の白画素の長さが異なることになる。した
がって、正確な文書の領域区切りの検出は不可能な問題
があった。
本発明は上記の問題点を排除した領域区切り検出方法の
提供を目的とする。
提供を目的とする。
(課題を解決するための手段)
本発明は上記の目的を、2値化された認識対象文書を、
文字、画像、図形等の文書構成要素領域ごとに分割する
、文字認識装置における文字領域の区切りを検出する場
合において、走査ラインごとに白画素の連続する長さを
測定し、その測定した長さが予め設定した閾値以上であ
る白画素を記憶する手段と、上記測定した長さと、前走
査ラインで測定した白画素の長さとを比較し、その結果
により文書領域の区切りを検出、確定する手段とを備え
て、白画素の長さが前後の走査ライン間で異なる場合で
も、同一区切りとして検出、確定することを特徴とする
文字領域区切り検出方法によって達成する。
文字、画像、図形等の文書構成要素領域ごとに分割する
、文字認識装置における文字領域の区切りを検出する場
合において、走査ラインごとに白画素の連続する長さを
測定し、その測定した長さが予め設定した閾値以上であ
る白画素を記憶する手段と、上記測定した長さと、前走
査ラインで測定した白画素の長さとを比較し、その結果
により文書領域の区切りを検出、確定する手段とを備え
て、白画素の長さが前後の走査ライン間で異なる場合で
も、同一区切りとして検出、確定することを特徴とする
文字領域区切り検出方法によって達成する。
(作 用)
本発明は前記の構成により、ライン前後の白画素の長さ
が異なる場合でも、同一領域区切りとして検出すること
が可能であるから、正確な文書の領域区切りが検出され
ることになる。
が異なる場合でも、同一領域区切りとして検出すること
が可能であるから、正確な文書の領域区切りが検出され
ることになる。
(実施例)
以下、本発明を実施例により図面を用いて説明する。
第1図は本発明の方法を達成する一実施例装置のブロッ
ク図による構成図である。1は文書の画像データ取り込
み部で、認識する対象文書を2値のビットマツプデータ
に変換する。2は実行制御部であり、その白画素の長さ
検出部2.により白画素の連続部を検出し、開始座標及
び終了座標を白画素長さ情報格納部3に格納記憶させる
。
ク図による構成図である。1は文書の画像データ取り込
み部で、認識する対象文書を2値のビットマツプデータ
に変換する。2は実行制御部であり、その白画素の長さ
検出部2.により白画素の連続部を検出し、開始座標及
び終了座標を白画素長さ情報格納部3に格納記憶させる
。
次に上記検出した白画素の長さが、長さの閾値TH−L
EN以上の箇所を領域の区切り候補と判断して、前ライ
ンまでの領域区切り候補と白画素長さ比較部2、におい
て比較する。それにより対象ラインの白画素の長さが前
ラインの白画素の長さよりも長い時は、上記検出した対
象ラインの白画素の長さ情報を、同一領域区切り候補と
して前ラインまでの情報に、領域区切り候補格納部2.
に追加格納する。
EN以上の箇所を領域の区切り候補と判断して、前ライ
ンまでの領域区切り候補と白画素長さ比較部2、におい
て比較する。それにより対象ラインの白画素の長さが前
ラインの白画素の長さよりも長い時は、上記検出した対
象ラインの白画素の長さ情報を、同一領域区切り候補と
して前ラインまでの情報に、領域区切り候補格納部2.
に追加格納する。
また、対象ラインの白画素の長さが前ラインの白画素の
長さよりも短く、領域区切り候補の幅が閾値TH−WI
D以上であれ、ば、前ラインまでの領域の区切り候補と
は別個の領域区切り候補と判定し、前ラインまでの領域
区切り候補を領域区切り確定部2.で領域区切りとして
確定する。また、幅が幅間値以下であれば前ラインまで
の領域区切り候補と同一の領域区切り候補とみなし、前
ラインまでの白画素開始座標及び終了座標を、領域区切
り候補格納部2.に対象ラインの開始座標、終了座標と
して格納する。
長さよりも短く、領域区切り候補の幅が閾値TH−WI
D以上であれ、ば、前ラインまでの領域の区切り候補と
は別個の領域区切り候補と判定し、前ラインまでの領域
区切り候補を領域区切り確定部2.で領域区切りとして
確定する。また、幅が幅間値以下であれば前ラインまで
の領域区切り候補と同一の領域区切り候補とみなし、前
ラインまでの白画素開始座標及び終了座標を、領域区切
り候補格納部2.に対象ラインの開始座標、終了座標と
して格納する。
以上のようにして、確定された水平及び垂直の領域区切
り情報は領域区切り情報格納部4に格納される。
り情報は領域区切り情報格納部4に格納される。
第2図は第1[1fflの動作を具体的に説明するため
の、例えば新聞記事等を想定した文書例で、白丸は見出
し文字、黒小丸は本文の文字で、認識対象範囲は縦40
×横35とする。なお、以下の説明は長さの閘値TH−
LENは2o、幅の閘値T)(−WIDは3として説明
する。
の、例えば新聞記事等を想定した文書例で、白丸は見出
し文字、黒小丸は本文の文字で、認識対象範囲は縦40
×横35とする。なお、以下の説明は長さの閘値TH−
LENは2o、幅の閘値T)(−WIDは3として説明
する。
第3図は上記第2図の領域区切り動作を説明するフロー
チャートで、そのステップをSと略記して以下括弧書き
して動作を説明する。
チャートで、そのステップをSと略記して以下括弧書き
して動作を説明する。
まず、第2図の文書をビットマツプデータとして、第1
図の画像取り込み部1から取り込む(Sl)。この時、
ビットマツプデータのサイズは縦40X横35となる。
図の画像取り込み部1から取り込む(Sl)。この時、
ビットマツプデータのサイズは縦40X横35となる。
次に、ビットマツプデータから水平領域区切り検出(S
2)、垂直領域区切り検出(S3)を行ない、第4図に
示すように文書を構成する文書及び図形領域等の各領域
に分割する(S4)。その領域区切り情報として、領域
区切り開始行、終了行、開始座標及び終了座標が第1図
の領域区切り情報格納部4に格納される。
2)、垂直領域区切り検出(S3)を行ない、第4図に
示すように文書を構成する文書及び図形領域等の各領域
に分割する(S4)。その領域区切り情報として、領域
区切り開始行、終了行、開始座標及び終了座標が第1図
の領域区切り情報格納部4に格納される。
第5図は上記の水平領域区切り検出について、さらに詳
細に説明するフローチャートである。
細に説明するフローチャートである。
まず、ビットマツプデータから、水平方向の白画素また
は黒画素が連続している長さを計数した水平ランレング
スを取得する(Sl)。初期値として領域区切り対象ラ
インのカウンタをO行目に設定する(S2)。対象ライ
ンのカウンタをインクリメントして、1行目の処理に入
る(S3)。Slで取得した水平ランレングスを使用し
て白画素の長さを比較する(S4)。白画素の長さが長
さの閾値TH−LEN以上であれば、それを領域区切り
候補としてS5以降の処理を行い、閘値TH−LE\未
満のときは、領域区切り確定処理をするためにS14に
ジャンプする。第2図の文書では、第1表に示すように
10個の領域区切り候補が検出される。
は黒画素が連続している長さを計数した水平ランレング
スを取得する(Sl)。初期値として領域区切り対象ラ
インのカウンタをO行目に設定する(S2)。対象ライ
ンのカウンタをインクリメントして、1行目の処理に入
る(S3)。Slで取得した水平ランレングスを使用し
て白画素の長さを比較する(S4)。白画素の長さが長
さの閾値TH−LEN以上であれば、それを領域区切り
候補としてS5以降の処理を行い、閘値TH−LE\未
満のときは、領域区切り確定処理をするためにS14に
ジャンプする。第2図の文書では、第1表に示すように
10個の領域区切り候補が検出される。
第1表
対象ラインで、領域区切り候補が検出されると、次に前
ラインの領域区切り候補の検索を行う(S5)。前ライ
ンに領域区切り候補がない場合は、上記で新規に検出し
た領域区切り候補を新規に登録し、ステップ14にジャ
ンプする。この時、領域区切り開始行と終了行に対象ラ
インを設定する前ラインに領域区切り候補が存在する場
合は、領域区切りの開始・終了座標の比較を対象ライン
と前ラインとの間で行う(S6及びS8,5IO)。
ラインの領域区切り候補の検索を行う(S5)。前ライ
ンに領域区切り候補がない場合は、上記で新規に検出し
た領域区切り候補を新規に登録し、ステップ14にジャ
ンプする。この時、領域区切り開始行と終了行に対象ラ
インを設定する前ラインに領域区切り候補が存在する場
合は、領域区切りの開始・終了座標の比較を対象ライン
と前ラインとの間で行う(S6及びS8,5IO)。
ここで、S6.S8.SIOの場合をそれぞれケース1
.ケース2.及びケース3とすると、動作は次のように
なる。
.ケース2.及びケース3とすると、動作は次のように
なる。
(ケース1)ラインの領域区切り候補と対象ラインの開
始・終了座標が等しければ、同一領域区切り候補として
領域区切り候補の終了行を対象ラインにする(S7)。
始・終了座標が等しければ、同一領域区切り候補として
領域区切り候補の終了行を対象ラインにする(S7)。
第2図の文書例で、領域区切り検出の対象ラインを3行
目とした時、開始行は1、終了行は3、開始座標は1、
終了座標は35の領域区切り候補が検出される。
目とした時、開始行は1、終了行は3、開始座標は1、
終了座標は35の領域区切り候補が検出される。
(ケース2)前ラインの領域区切り候補座標が対象ライ
ンの座標を含む場合も上記ケース1同様、前ラインの領
域区切り候補と同一領域区切りとみなしくS9)、前ラ
インの領域区切り情報に対象ラインの情報を追加する。
ンの座標を含む場合も上記ケース1同様、前ラインの領
域区切り候補と同一領域区切りとみなしくS9)、前ラ
インの領域区切り情報に対象ラインの情報を追加する。
(ケース3)前記ラインの領域区切り候補座標が対象ラ
インの座標に含まれる場合、次の処理を行う。
インの座標に含まれる場合、次の処理を行う。
前ラインの領域区切り候補の幅(終了行から開始行)が
幅閾値TH−WID以上の場合は、前ラインの領域区切
り候補とは別の領域区切り候補として、新規に登録する
(S12)。上記幅閘値未満であれば同一領域区切り候
補とみなして、前ラインの座標を対象ラインの座標に再
設定し、終了行を対象ラインに設定する(S13)。第
2図の文書例では、対象ラインが22行目の時にあたる
。従来例では、21行目と22行目の長さが異なるため
、同一領域区切りとして検出されない。21行目では領
域区切り候補情報は、開始行は2o、終了行は21、開
始座標は1、終了座標は35であったが、22行目では
、幅が幅間値T)(−WID 3未満であるため、領域
区切り候補情報は、開始行が20、終了行が22、開始
座標が1終了座標が30となる。
幅閾値TH−WID以上の場合は、前ラインの領域区切
り候補とは別の領域区切り候補として、新規に登録する
(S12)。上記幅閘値未満であれば同一領域区切り候
補とみなして、前ラインの座標を対象ラインの座標に再
設定し、終了行を対象ラインに設定する(S13)。第
2図の文書例では、対象ラインが22行目の時にあたる
。従来例では、21行目と22行目の長さが異なるため
、同一領域区切りとして検出されない。21行目では領
域区切り候補情報は、開始行は2o、終了行は21、開
始座標は1、終了座標は35であったが、22行目では
、幅が幅間値T)(−WID 3未満であるため、領域
区切り候補情報は、開始行が20、終了行が22、開始
座標が1終了座標が30となる。
次に、領域区切りの確定処理を行う。前ラインの領域区
切り候補が対象ラインの領域区切り候補と別個のもので
、かつ、領域区切り候補の幅が幅間値TH−WrD以上
であれば、上記領域区切り候補は領域区切りとして確定
される。幅間値未満であれば領域区切りから削除する。
切り候補が対象ラインの領域区切り候補と別個のもので
、かつ、領域区切り候補の幅が幅間値TH−WrD以上
であれば、上記領域区切り候補は領域区切りとして確定
される。幅間値未満であれば領域区切りから削除する。
領域区切り候補がビットマツプデータの上端と下端に接
している場合は、それが幅間値未満であっても領域区切
りとする(S14. S15.516)。
している場合は、それが幅間値未満であっても領域区切
りとする(S14. S15.516)。
以上のようにして、すべてのラインの処理を続け(S1
7)、3つの水平領域区切りが第2表のように検出され
る。
7)、3つの水平領域区切りが第2表のように検出され
る。
第2表
垂直領域区切り検出についても、上記水平領域、 区
切りと同様の処理を行うことにより、2つの垂直領域区
切りを検出することが可能となる。
切りと同様の処理を行うことにより、2つの垂直領域区
切りを検出することが可能となる。
以上のようにして検出された水平及び垂直領域区切りか
ら、第1図の文書は第4図のように3つの領域1,2.
3に分割される。
ら、第1図の文書は第4図のように3つの領域1,2.
3に分割される。
(発明の効果)
本発明によれば、従来の方式で検出不可能であった多段
抜き見出しのある新聞等の文書における文書構成領域の
区切り検出が正しく可能な効果がある。
抜き見出しのある新聞等の文書における文書構成領域の
区切り検出が正しく可能な効果がある。
第1図は本発明の一実施例装置の構成ブロック図、第2
図は本発明の説明補助としての文書例を示す図、第3図
は本発明の概略フローチャート、第4図は実施例による
領域区切りを示す図、第5図は実施例の詳細フローチャ
ート、第6図は従来例を説明するフローチャート、第7
図は従来例による領域区切りを示す図である。 ■ ・・・画像データ取り込み部、 2 ・・・実行制
御部、 2.・・・白画素長さ検出部、2、・・・白画
素長さ比較部、 2.・・・領域区切り確定部、 24
・・・領域区切り候補格納部、 3 ・・・白画素長さ
情報格納部、4 ・・・領域区切り情報格納部。 特許出願人 松下電器産業株式会社
図は本発明の説明補助としての文書例を示す図、第3図
は本発明の概略フローチャート、第4図は実施例による
領域区切りを示す図、第5図は実施例の詳細フローチャ
ート、第6図は従来例を説明するフローチャート、第7
図は従来例による領域区切りを示す図である。 ■ ・・・画像データ取り込み部、 2 ・・・実行制
御部、 2.・・・白画素長さ検出部、2、・・・白画
素長さ比較部、 2.・・・領域区切り確定部、 24
・・・領域区切り候補格納部、 3 ・・・白画素長さ
情報格納部、4 ・・・領域区切り情報格納部。 特許出願人 松下電器産業株式会社
Claims (1)
- 2値化された認識対象文書を、文字、画像、図形等の文
書構成要素領域ごとに分割する、文字認識装置における
文字領域の区切りを検出する場合において、走査ライン
ごとに白画素の連続する長さを測定し、その測定した長
さが予め設定した閾値以上である白画素を記憶する手段
と、上記測定した長さと、前走査ラインで測定した白画
素の長さとを比較し、その結果により文書領域の区切り
を検出、確定する手段とを備えて、白画素の長さが前後
の走査ライン間で異なる場合でも、同一区切りとして検
出、確定することを特徴とする文字領域区切り検出方法
。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2279431A JP3000480B2 (ja) | 1990-10-19 | 1990-10-19 | 文字領域区切り検出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2279431A JP3000480B2 (ja) | 1990-10-19 | 1990-10-19 | 文字領域区切り検出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04155483A true JPH04155483A (ja) | 1992-05-28 |
JP3000480B2 JP3000480B2 (ja) | 2000-01-17 |
Family
ID=17610974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2279431A Expired - Fee Related JP3000480B2 (ja) | 1990-10-19 | 1990-10-19 | 文字領域区切り検出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3000480B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100238029B1 (ko) * | 1997-07-04 | 2000-03-02 | 윤종용 | 원고스캔방법 |
-
1990
- 1990-10-19 JP JP2279431A patent/JP3000480B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100238029B1 (ko) * | 1997-07-04 | 2000-03-02 | 윤종용 | 원고스캔방법 |
Also Published As
Publication number | Publication date |
---|---|
JP3000480B2 (ja) | 2000-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH07141463A (ja) | 2値画像内の機械印刷された金額の検出方法 | |
JPH07220026A (ja) | 画像処理装置および方法 | |
JPH04155483A (ja) | 文字領域区切り検出方法 | |
JP3171626B2 (ja) | 文字認識の処理領域・処理条件指定方法 | |
JPH07152857A (ja) | 運転免許証認識装置 | |
JP3095470B2 (ja) | 文字認識装置 | |
JP3019897B2 (ja) | 行切出し方法 | |
JPH07160810A (ja) | 文字認識装置 | |
JP2982221B2 (ja) | 文字読み取り装置 | |
JPH04260980A (ja) | 図形認識装置 | |
JPS603676B2 (ja) | 交差点抽出方式 | |
JP2859307B2 (ja) | 文字切出し装置 | |
JP3027232B2 (ja) | 文字認識装置 | |
JP3190794B2 (ja) | 文字切り出し装置 | |
JP2803735B2 (ja) | 罫線を含んだ文字認識装置 | |
JP2882056B2 (ja) | 特定パターンの識別方法 | |
JP3071479B2 (ja) | 行間スペース検出方法 | |
JP2963532B2 (ja) | 行方向判定装置 | |
JP4136913B2 (ja) | 帳票認識装置および帳票認識方法 | |
JPH03250387A (ja) | 文字切出し方式 | |
JP2020194491A (ja) | 情報処理装置、制御方法、及びプログラム | |
JPH04309191A (ja) | 領域属性識別装置 | |
JPH0573714A (ja) | 文字認識装置 | |
JPH05128305A (ja) | 領域分割方法 | |
JPH04156694A (ja) | 文字認識方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |