JP3000480B2 - 文字領域区切り検出方法 - Google Patents

文字領域区切り検出方法

Info

Publication number
JP3000480B2
JP3000480B2 JP2279431A JP27943190A JP3000480B2 JP 3000480 B2 JP3000480 B2 JP 3000480B2 JP 2279431 A JP2279431 A JP 2279431A JP 27943190 A JP27943190 A JP 27943190A JP 3000480 B2 JP3000480 B2 JP 3000480B2
Authority
JP
Japan
Prior art keywords
line
area
length
document
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2279431A
Other languages
English (en)
Other versions
JPH04155483A (ja
Inventor
由美子 池牟禮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2279431A priority Critical patent/JP3000480B2/ja
Publication of JPH04155483A publication Critical patent/JPH04155483A/ja
Application granted granted Critical
Publication of JP3000480B2 publication Critical patent/JP3000480B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、WP(ワープロ)、DTP(ディスクトップパ
ブリッシング装置)等の文書編集装置の入力部となる文
字認識装置の文字、図形等の文字領域区切り検出方法に
関する。
(従来の技術) 近年、文字、図形等が混在する文書をスキャナ等の画
像読み取り装置によって、2値化したビットマップデー
タとして取り込み、自動的に文字及び図形領域を認識す
る文字認識装置が利用されるようになり、文字及び図形
領域を分割するための領域区切り検出方法が提案されて
いる。
第6図は、そのような従来の領域区切り検出方法を説
明するフローチャートである。
領域の認識対象の文書データを、スキャナによって2
値化して読取り、ビットマットデータとして記憶させる
(ステップ(以後、Sと略す)1)。
次に、そのビットマップデータから、水平方向の白画
素と黒画素の長さを各行毎に検出して記憶し(S2)、白
画素の長さが、あらかじめ定めた閾値TH−LEN以上の場
合は、その白画素の開始座標と終了座標を算出し(S
3)、算出した開始座標と終了座標が前ラインまでの領
域区切り候補の座標と等しければ、同一領域区切りとし
(S4)、等しくない場合は、別の領域区切りとして、新
たに記憶格納する(S5)。その際、前ラインまでの領域
区切り候補の幅が閾値TH−WID以上のときは、水平領域
区切りとして確定し登録する(S6)。
垂直方向の領域区切りについても上記水平領域区切り
と全く同様に領域を検出する(S7ないしS11)。
第7図は、上記の処理を後出第2図の文書例について
行なった結果を示し、図(a)は水平領域区切り候補、
図(b)は垂直領域区切り候補、そして図(c)は最終
の領域区切りを示している。
(発明が解決しようとする課題) 従来、以上のように領域区切りを検出していたが、し
かしながら、ライン前後の白画素の長さが等しい場合の
み、同一領域区切りとして検出しており、そのため新聞
の見出しのように文字領域が多段にまたがっている文書
等は、本文領域の区切りの端部が見出し文字と重なるた
めにライン前後の白画素の長さが異なることになる。し
たがって、正確な文書の領域区切りの検出は不可能な問
題があった。
本発明は上記の問題点を排除した領域区切り検出方法
の提供を目的とする。
(課題を解決するための手段) 本発明は上記の目的を、2値化された認識対象文書
を、文字、画像、図形等の文書構成要素領域ごとに分割
する、文字認識装置における文字領域の区切りを検出す
る場合において、走査ラインごとに白画素の連続する長
さを測定し、その測定した長さが予め設定した閾値以上
である白画素を記憶する手段と、上記測定した長さと、
前走査ラインで測定した白画素の長さとを比較し、その
結果により文書領域の区切りを検出、確定する手段とを
備えて、白画素の長さが前後の走査ライン間で異なる場
合でも、同一区切りとして検出、確定することを特徴と
する文字領域区切り検出方法によって達成する。
(作 用) 本発明は前記の構成により、ライン前後の白画素の長
さが異なる場合でも、同一領域区切りとして検出するこ
とが可能であるから、正確な文書の領域区切りが検出さ
れることになる。
(実施例) 以下、本発明を実施例により図面を用いて説明する。
第1図は本発明の方法を達成する一実施例装置のブロ
ック図による構成図である。1は文書の画像データ取り
込み部で、認識する対象文書を2値のビットマップデー
タに変換する。2は実行制御部であり、その白画素の長
さ検出部21により白画素の連続部を検出し、開始座標及
び終了座標を白画素長さ情報格納部3に格納記憶させ
る。
次に上記検出した白画素の長さが、長さの閾値TH−LE
N以上の箇所を領域の区切り候補と判断して、前ライン
までの領域区切り候補と白画素長さ比較部22において比
較する。それにより対象ラインの白画素の長さが前ライ
ンの白画素の長さよりも長い時は、上記検出した対象ラ
インの白画素の長さ情報を、同一領域区切り候補として
前ラインまでの情報に、領域区切り候補格納部24に追加
格納する。
また、対象ラインの白画素の長さが前ラインの白画素
の長さよりも短く、領域区切り候補の幅が閾値TH−WID
以上であれば、前ラインまでの領域の区切り候補とは別
個の領域区切り候補と判定し、前ラインまでの領域区切
り候補を領域区切り確定部23で領域区切りとして確定す
る。また、幅が幅閾値以下であれば前ラインまでの領域
区切り候補と同一の領域区切り候補とみなし、前ライン
までの白画素開始座標及び終了座標を、領域区切り候補
格納部24に対象ラインの開始座標,終了座標として格納
する。
以上のようにして、確定された水平及び垂直の領域区
切り情報は領域区切り情報格納部4に格納される。
第2図は第1図の動作を具体的に説明するための、例
えば新聞記事等を想定した文書例で、白丸は見出し文
字、黒小丸は本文の文字で、認識対象範囲は縦40×横35
とする。なお、以下の説明は長さの閾値TH−LENは20、
幅の値TH−WIDは3として説明する。
第3図は上記第2図の領域区切り動作を説明するフロ
ーチャートで、そのステップをSと略記して以下括弧書
きして動作を説明する。
まず、第2図の文書をビットマップデータとして、第
1図の画像取り込み部1から取り込む(S1)。この時、
ビットマップデータのサイズは縦40×横35となる。
次に、ビットマップデータから水平領域区切り検出
(S2)、垂直領域区切り検出(S3)を行ない、第4図に
示すように文書を構成する文書及び図形領域等の各領域
に分割する(S4)。その領域区切り情報として、領域区
切り開始行、終了行、開始座標及び終了座標が第1図の
領域区切り情報格納部4に格納される。
第5図は上記の水平領域区切り検出について、さらに
詳細に説明するフローチャートである。
まず、ビットマップデータから、水平方向の白画素ま
たは黒画素が連続している長さを計数した水平ランレン
グスを取得する(S1)。初期値として領域区切り対象ラ
インのカウンタを0行目に設定する(S2)。対象ライン
のカウンタをインクリメントして、1行目の処理に入る
(S3)。S1で取得した水平ランレングスを使用して白画
素の長さを比較する(S4)。白画素の長さが長さの閾値
TH−LEN以上であれば、それを領域区切り候補としてS5
以降の処理を行い、閾値TH−LEN未満のときは、領域区
切り確定処理をするためにS14にジャンプする。第2図
の文書では、第1表に示すように10個の領域区切り候補
が検出される。
対象ラインで、領域区切り候補が検出されると、次に
前ラインの領域区切り候補の検索を行う(S5)。前ライ
ンに領域区切り候補がない場合は、上記で新規に検出し
た領域区切り候補を新規に登録し、ステップ14にジャン
プする。この時、領域区切り開始行と終了行に対象ライ
ンを設定する前ラインに領域区切り候補が存在する場合
は、領域区切りの開始・終了座標の比較を対象ラインと
前ラインとの間で行う(S6及びS8,S10)。
ここで、S6,S8,S10の場合をそれぞれケース1,ケース
2,及びケース3とすると、動作は次のようになる。
(ケース1)ラインの領域区切り候補と対象ラインの開
始・終了座標が等しければ、同一領域区切り候補として
領域区切り候補の終了行を対象ラインにする(S7)。
第2図の文書例で、領域区切り検出の対象ラインを3
行目とした時、開始行は1、終了行は3、開始座標は
1、終了座標は35の領域区切り候補が検出される。
(ケース2)前ラインの領域区切り候補座標が対象ライ
ンの座標を含む場合も上記ケース1同様、前ラインの領
域区切り候補と同一領域区切りとみなし(S9)、前ライ
ンの領域区切り情報に対象ラインの情報を追加する。
(ケース3)前記ラインの領域区切り候補座標が対象ラ
インの座標に含まれる場合、次の処理を行う。
前ラインの領域区切り候補の幅(終了行から開始行)
が幅閾値TH−WID以上の場合は、前ラインの領域区切り
候補とは別の領域区切り候補として、新規に登録する
(S12)。上記幅閾値未満であれば同一領域区切り候補
とみなして、前ラインの座標を対象ラインの座標に再設
定し、終了行を対象ラインに設定する(S13)。第2図
の文書例では、対象ラインが22行目の時にあたる。従来
例では、21行目と22行目の長さが異なるため、同一領域
区切りとして検出されない。21行目では領域区切り候補
情報は、開始行は20、終了行は21、開始座標は1、終了
座標は35であったが、22行目では、幅が幅閾値TH−WID3
未満であるため、領域区切り候補情報は、開始行が20、
終了行が22、開始座標が1、終了座標が30となる。
次に、領域区切りの確定処理を行う。前ラインの領域
区切り候補が対象ラインの領域区切り候補と別個のもの
で、かつ、領域区切り候補の幅が幅閾値TH−WID以上で
あれば、上記領域区切り候補は領域区切りとして確定さ
れる。幅閾値未満であれば領域区切りから削除する。
領域区切り候補がビットマップデータの上端と下端に
接している場合は、それが幅閾値未満であっても領域区
切りとする(S14,S15,S16)。
以上のようにして、すべてのラインの処理を続け(S1
7)、3つの水平領域区切りが第2表のように検出され
る。
垂直領域区切り検出についても、上記水平領域区切り
と同様の処理を行うことにより、2つの垂直領域区切り
を検出することが可能となる。
以上のようにして検出された水平及び垂直領域区切り
から、第1図の文書は第4図のように3つの領域1,2,3
に分割される。
(発明の効果) 本発明によれば、従来の方式で検出不可能であった多
段抜き見出しのある新聞等の文書における文書構成領域
の区切り検出が正しく可能な効果がある。
【図面の簡単な説明】 第1図は本発明の一実施例装置の構成ブロック図、第2
図は本発明の説明補助としての文書例を示す図、第3図
は本発明の概略フローチャート、第4図は実施例による
領域区切りを示す図、第5図は実施例の詳細フローチャ
ート、第6図は従来例を説明するフローチャート、第7
図は従来例による領域区切りを示す図である。 1……画像データ取り込み部、2……実行制御部、21
…白画素長さ検出部、22……白画素長さ比較部、23……
領域区切り確定部、24……領域区切り候補格納部、3…
…白画素長さ情報格納部、4……領域区切り情報格納
部。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】2値化された認識対象文書を、文字、画
    像、図形等の文書構成要素領域ごとに分割する、文字認
    識装置における文字領域の区切りを検出する場合におい
    て、走査ラインごとに白画素の連続する長さを測定し、
    その測定した長さが予め設定した閾値以上である白画素
    を記憶する手段と、上記測定した長さと、前走査ライン
    で測定した白画素の長さとを比較し、その結果により文
    書領域の区切りを検出、確定する手段とを備えて、白画
    素の長さが前後の走査ライン間で異なる場合でも、同一
    区切りとして検出、確定することを特徴とする文字領域
    区切り検出方法。
JP2279431A 1990-10-19 1990-10-19 文字領域区切り検出方法 Expired - Fee Related JP3000480B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2279431A JP3000480B2 (ja) 1990-10-19 1990-10-19 文字領域区切り検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2279431A JP3000480B2 (ja) 1990-10-19 1990-10-19 文字領域区切り検出方法

Publications (2)

Publication Number Publication Date
JPH04155483A JPH04155483A (ja) 1992-05-28
JP3000480B2 true JP3000480B2 (ja) 2000-01-17

Family

ID=17610974

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2279431A Expired - Fee Related JP3000480B2 (ja) 1990-10-19 1990-10-19 文字領域区切り検出方法

Country Status (1)

Country Link
JP (1) JP3000480B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100238029B1 (ko) * 1997-07-04 2000-03-02 윤종용 원고스캔방법

Also Published As

Publication number Publication date
JPH04155483A (ja) 1992-05-28

Similar Documents

Publication Publication Date Title
US6356655B1 (en) Apparatus and method of bitmap image processing, storage medium storing an image processing program
US6798906B1 (en) Image processing apparatus and method including line segment data extraction
JPH1139428A (ja) 文書映像の方向修正方法
JP2000112599A (ja) 文書画像処理装置及び文書画像処理方法
JP3006466B2 (ja) 文字入力装置
JP3000480B2 (ja) 文字領域区切り検出方法
JP3303246B2 (ja) 画像処理装置
KR19980058361A (ko) 한글 문자 인식 방법 및 시스템
US7103220B2 (en) Image processing apparatus, method and program, and storage medium
JPH04352295A (ja) 文字列方向判別装置
JP3190794B2 (ja) 文字切り出し装置
JPH07160810A (ja) 文字認識装置
JP3095470B2 (ja) 文字認識装置
JP2982221B2 (ja) 文字読み取り装置
JPS63101983A (ja) 文字列抽出方式
JPH10187886A (ja) 文字認識装置および文字認識方法
JPH04260980A (ja) 図形認識装置
JP3712825B2 (ja) 画像処理方法、装置および記録媒体
JPH09179982A (ja) 特定パターン検出方法
JPH0573714A (ja) 文字認識装置
JP3100825B2 (ja) 線認識方法
JPH07168911A (ja) 文書認識装置
JPH04309191A (ja) 領域属性識別装置
KR20220168787A (ko) 만주어의 글자 추출 방법 및 이를 수행하는 시스템
JPH0855185A (ja) 文字認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees