JP2917394B2 - 文字認識装置及び文字切り出し方法 - Google Patents

文字認識装置及び文字切り出し方法

Info

Publication number
JP2917394B2
JP2917394B2 JP2101311A JP10131190A JP2917394B2 JP 2917394 B2 JP2917394 B2 JP 2917394B2 JP 2101311 A JP2101311 A JP 2101311A JP 10131190 A JP10131190 A JP 10131190A JP 2917394 B2 JP2917394 B2 JP 2917394B2
Authority
JP
Japan
Prior art keywords
line
character
rectangle
document image
rectangles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2101311A
Other languages
English (en)
Other versions
JPH04585A (ja
Inventor
由美子 池牟禮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2101311A priority Critical patent/JP2917394B2/ja
Publication of JPH04585A publication Critical patent/JPH04585A/ja
Application granted granted Critical
Publication of JP2917394B2 publication Critical patent/JP2917394B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、ワードプロセッサ、デスクトップパブリッ
シングシステム等の文字編集装置の入力装置として用い
られる文字認識装置及び文字切り出し方法に関するもの
である。
[従来の技術] 近年、論文、雑誌等の印刷文書や手書き文書をスキャ
ナ等の画像読み取り装置でビットマップデータとして取
り込み、ビットマップデータから文字位置を検出して文
字を切り出し、その切り出されたデータから文字を認識
する文字認識装置が利用されるようになってきており、
文字サイズや書式の異なる文書の文字切り出しを行なう
ための文字切り出し方法が提案されている。
以下、従来の文字切り出し方法について説明する。ス
キャナより取り込んだビットマップデータに対して水平
走査ライン毎に、黒画素の個数を計数し、白画素のみか
らなる走査ラインを行の区切りとする。次に、行の区切
り毎に、ビットマップ上の黒画素が8近傍で連結してい
る領域の外接矩形を検出する。検出された外接矩形を文
字あるいは文字の一部(以下、文字セグメントとする)
と見なし、外接矩形の左上の座標と右下の座標等を格納
した矩形リストを作成する。矩形リストを出現順にソー
ト、統合して、文字列リストを作成する。そして、文字
列リストより、「i」や「j」のように2つ以上の文字
セグメントから構成される分離文字の統合を行い、文字
を切り出す。
[発明が解決しようとする課題] しかしながら前記の従来例の構成では、ビットマップ
データ取り込み時に被文字切り出し文書が傾いたり、被
文字切り出し文書自体が傾いている場合には、第7図に
示すようにビットマップデータを水平方向に走査しても
上下の行が重なる部分が存在するため、行の区切りが検
出されず、行単位の正確な文字切り出しが行えない、と
いったような問題を有していた。
[課題を解決するための手段] 本発明は、この課題を解決するため、原稿をドットマ
トリクス形態で記憶した後、原稿中の文字の外接矩形を
求め、マトリクスの各行毎にそれに含まれる外接矩形の
数を計数し、その数が他の行より少ない行を行の区切と
する。
[作用] 本発明はこの構成により、1行中の文時の種類に拘ら
ず、文字の外接矩形によってその行と次の行との間を検
出する。
[実施例] 以下、本発明の一実施例における文字切り出し方法に
ついて図面を参照しながら説明する。
第1図は本発明の一実施例における文字切り出し方法
を用いた装置の機能ブロック図である。1はスキャナ等
の画像読み取り装置からの画像データをドットマトリク
スの形態で記憶する画像データ記憶部である。2は画像
データ記憶部1に記憶された画像データ中の文字に対し
て各文字の外接矩形を求める矩形リスト作成部である。
矩形リスト作成部2はビットマップデータ上の黒画素連
結領域より、文字セグメント情報となる矩形リストを作
成する。3は矩形リスト作成部2で求められた外接矩形
のリストから行区切を求める行区切り検出部である。行
区切り検出部3は各走査ライン毎に作成した矩形リスト
の個数を計数し、計数値が前走査ラインの計数値と比較
する。比較結果が「減少」から「増加」へと変化する走
査ライン位置を検出し、その位置を行の区切りとする。
4は行区切検出部3が検出された行区切から文字列リス
トを作成する文字列リスト作成部である。文字列リスト
作成部4は、行区切りに基づき、矩形の上辺から上区切
り線までの距離と矩形リストの下辺から上区切り線まで
の距離とを比較し、矩形の上辺からの距離が小さい場合
に統合し、矩形の出現順にソートを行い、文字列リスト
を作成する。5は文字列リスト作成部4で作成された文
字列リストを参照して画像データ記憶部1内の文字デー
タを切り出す文字切り出し部である。文字切り出し部5
は正確に文字に切り出す手段として、分離文字の各文字
セグメントが上下の行に別れていないか、検査する。そ
して分離文字が前後の行に別れている場合は文字列リス
トを変更し、文字の切り出しを行なう。
第2図は本発明の文字切り出し方法を用いた装置の回
路ブロック図である。ここで21は中央処理装置(以下CP
Uと略称する)で各種演算や論理判断を行なう。22はス
キャナ等で構成される画像読み取り装置で、原稿上の画
像データをドットマトリクス形態の画像データに変換す
る。23はイメージメモリで画像読み取り装置22によって
読み取られたドットマトリクス形態の画像データを記憶
する。24は表示装置、25は印字装置である。26はランダ
ムアクセスメモリ(以下RAMと略称する)で各種記憶領
域を有している。27は読み出し専用メモリで第3図に示
すフローチャートに従った制御プログラムを記憶するプ
ログラム記憶領域PAを備える。
処理1は、ビットマップデータを画像読み取り装置2
よりイメージメモリ3に取り込む(S1)。処理2は、ビ
ットマップデータ上の黒画素が8近傍で連結している領
域の外接矩形を検出し、ビットマップデータの左上っを
原点とする各矩形の左上の座標(X1,Y1)と右下の座標
(X2,Y2)をY2値が同一である矩形毎にまとめY2値に対
して昇順に、RAM6のrectに格納する(S2)。本実施例で
は第5図に示すように、17個の矩形が検出され、番号順
に格納される。処理3は、行の区切りを検出するため、
第5図のグラフに示すように各走査ライン毎の矩形数を
矩形カウンタhistogramにセットする(S3〜7)。処理
4である行区切り処理(S8)について以下に詳細に述べ
る。まず、行数検出のための行カウンタを0にクリア
し、行区切り検出のためのフラグを区切りなしにセット
する(S8,1,8.2)。そして、垂直走査ライン順に矩形の
数をチェックし(S8.4)、矩形数が0の場合はS8.19へ
分岐し、それ以外は以下の処理を行う。フラグが区切り
なしかチェックし、区切りなしの場合に現ラインの矩形
数が次ラインの矩形数より少なければフラグを区切りあ
りとセットして次ラインの矩形数を最小矩形数として格
納する(S8.5〜8.8)。続いて、フラグが区切りありか
チェックし、区切りありの場合に現ラインの矩形数が次
ラインの矩形数より多ければフラグを区切りなしにセッ
トして、現行の下区切り線に現走査ライン位置をセット
し、次行の上区切り線に次走査ライン位置をセットする
(S8.10〜8.13)。そして、前走査ラインが空白ライン
の場合、または、1行目の場合は、行カウンタを1進め
て、上区切り線をセットする(S8.15〜8.17)。最後
に、現走査ラインの矩形数が0以外では現行の下区切り
線に走査ライン位置をセットし(S8.20)、矩形数が0
の場合はフラグを区切りなしにする(8.19)。以上の処
理を走査ラインが終了するまで続ける。
本実施例では、第5図の表に示すように、行数3、1
行目の上区切り線4、1行目の下区切り線17、2行目の
上区切り線18、2行目の下区切り線29、3行目の上区切
り線33、3行目の下区切り線47、という結果が得られ
た。処理5では、第6図に示すように、行区切りに従っ
て、Y2値に対して昇順に格納されている矩形情報を行順
の文字列リストに統合する(S9〜20)。文字列リスト作
成のための対象行を1行目、矩形のY2値チェックのため
の垂直ラインカウンタを1ラインにセットする(S9,1
0)。つぎに、行の下区切り線と矩形のY2値と比較し
て、Y2値が大きい場合は次の行を対象行とする(S12,1
3)。各矩形に対して、対象行の上区切り線から矩形上
辺までの距離と上区切り線から矩形下辺までの距離を比
較して、矩形下辺までの距離が大きい場合は現在行に、
矩形上辺までの距離が大きい場合は前行に統合する(S1
4〜16)。以上のようにして得られた文字列リストをRAM
6のlineBuff領域に行単位に格納する。最後の処理6で
は、文字切り出し処理(S21〜31)を行う。まず、各行
毎に作成された文字列リストをX1値に対して昇順にソー
トする(S22)。そして、「i」や「j」のような分離
文字の文字セグメントを結合するために、前後の矩形の
高さを検出して、矩形の高さと位置を比較する(S23〜2
5)。後矩形の高さがしきい値Th(=(上区切り線−下
区切り線+1)÷3)より小さくて、かつ、後矩形下辺
の値が前矩形下辺に3倍の後矩形高さを足した値よりも
大きい場合は、後矩形は次行の分離文字の一部であると
見なし、後矩形を次行に再統合する(S28)。Th以外の
場合は、前後の矩形が分離文字を形成する文字セグメン
トであるかチェックし、分離文字である場合は矩形の合
成を行う(S26,27)。以上の処理を行終了まで続ける。
以上のようにして切り出された結果を表示装置4または
印字装置5に出力する。
[発明の効果] 本発明は、文字によって変化する黒画素数でなく、矩
形個数による行の区切りを検出するようにしたので、傾
いた文書についても傾き検出、補正を行うことなく容易
に行単位の文字切り出しが行える。処理速度の面でも傾
き検出、補正処理を行わないため、高速に処理を行うこ
とが可能である。
【図面の簡単な説明】
第1図は本発明の一実施例における文字切り出し方法を
用いた装置の機能ブロック図、第2図は本実施例の文字
切り出し方法を用いた装置の回路ブロック図、第3図
(a)〜第3図(e)は本実施例の装置での制御手順を
示すフローチャート、第4図は本実施例での文字切り出
し方法を示す説明図、第5図は文字列リスト作成部で作
成されたリストの例を示す図、第6図は従来の文字切り
出し方法を示す説明図である。 1……画像データ記憶部、2……矩形リスト作成部、3
……行区切検出部、4……文字列リスト作成部、5……
文字切り出し部、i,j……ループカウンタ、histogram…
…矩形カウンタ、rect……外接矩形情報格納領域、line
Buff……文字列情報格納領域

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】画像読み取り装置により読み取った原稿画
    像をドットマトリクスデータとして記憶する画像データ
    記憶手段と、 前記画像データ記憶手段に記憶された画像データから文
    字の外接矩形を抽出する矩形抽出手段と、 原稿画像の主走査ライン毎に、前記矩形抽出手段により
    抽出された外接矩形の数をカウントする矩形数カウント
    手段と、 前記矩形数カウント手段によりカウントされた数によ
    り、原稿画像中の文字列の行区切り位置を決定する行区
    切り決定手段と、 前記行区切り決定手段によって決定された行区切り位置
    に基づいて、原稿画像中の文字を切り出す文字切り出し
    手段と、を有することを特徴とする文字認識装置。
  2. 【請求項2】ドットマトリクスデータとして記憶された
    原稿画像から文字の外接矩形を抽出し、 記憶された原稿画像の主走査方向のライン毎に、当該ラ
    インに含まれる外接矩形の数をカウントし、 ライン毎にカウントした外接矩形の数により、前記原稿
    画像中の文字列の行区切り位置を決定し、 決定した行区切り位置に基づいて前記原稿画像中の文字
    を切り出す、ことを特徴とする文字切り出し方法。
JP2101311A 1990-04-17 1990-04-17 文字認識装置及び文字切り出し方法 Expired - Fee Related JP2917394B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2101311A JP2917394B2 (ja) 1990-04-17 1990-04-17 文字認識装置及び文字切り出し方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2101311A JP2917394B2 (ja) 1990-04-17 1990-04-17 文字認識装置及び文字切り出し方法

Publications (2)

Publication Number Publication Date
JPH04585A JPH04585A (ja) 1992-01-06
JP2917394B2 true JP2917394B2 (ja) 1999-07-12

Family

ID=14297270

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2101311A Expired - Fee Related JP2917394B2 (ja) 1990-04-17 1990-04-17 文字認識装置及び文字切り出し方法

Country Status (1)

Country Link
JP (1) JP2917394B2 (ja)

Also Published As

Publication number Publication date
JPH04585A (ja) 1992-01-06

Similar Documents

Publication Publication Date Title
US5613016A (en) Area discrimination system for text image
US5774580A (en) Document image processing method and system having function of determining body text region reading order
US6970601B1 (en) Form search apparatus and method
EP0854434B1 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
JP3278471B2 (ja) 領域分割方法
JPH1139428A (ja) 文書映像の方向修正方法
US5502777A (en) Method and apparatus for recognizing table and figure having many lateral and longitudinal lines
JP3411472B2 (ja) パターン抽出装置
JP2917394B2 (ja) 文字認識装置及び文字切り出し方法
Lehal et al. A technique for segmentation of Gurmukhi text
JPH0410087A (ja) 基本ライン抽出方法
JP2868134B2 (ja) 画像処理方法及び装置
JP3607753B2 (ja) 文書画像の領域分割方法および装置、並びに段組種類判別方法および装置
CN1983302A (zh) 行方向判定程序、方法以及装置
JPH06180771A (ja) 英文字認識装置
JPH06187489A (ja) 文字認識装置
JP2000113106A (ja) 文書画像処理装置
JPH07160810A (ja) 文字認識装置
JPH117493A (ja) 文字認識処理装置
JPH0581475A (ja) 文字領域抽出方法
JPH0573718A (ja) 領域属性識別方式
JP3190794B2 (ja) 文字切り出し装置
KR20220168787A (ko) 만주어의 글자 추출 방법 및 이를 수행하는 시스템
JP2000339408A (ja) 文字切り出し装置
JPH0528301A (ja) 文書認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees