JPH03198177A - 行切出し方法 - Google Patents

行切出し方法

Info

Publication number
JPH03198177A
JPH03198177A JP1339789A JP33978989A JPH03198177A JP H03198177 A JPH03198177 A JP H03198177A JP 1339789 A JP1339789 A JP 1339789A JP 33978989 A JP33978989 A JP 33978989A JP H03198177 A JPH03198177 A JP H03198177A
Authority
JP
Japan
Prior art keywords
rectangle
line
data
rectangles
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1339789A
Other languages
English (en)
Other versions
JP2895122B2 (ja
Inventor
Michiyoshi Tachikawa
道義 立川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP1339789A priority Critical patent/JP2895122B2/ja
Publication of JPH03198177A publication Critical patent/JPH03198177A/ja
Application granted granted Critical
Publication of JP2895122B2 publication Critical patent/JP2895122B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、文字認識装置における行切出しに関する。
〔従来の技術及び発明が解決しようとする課題〕文字認
識装置においては、入力画像に対し行画像の切出しを行
い、その行画像より1文字の画像を切出して認識処理を
行う、この行切出し及び文字切出しの方法は次の2方法
に大別される。
一つは画像上の黒画素の水平及び垂直方向の射影を用い
る方法であり、もう一つは画素の黒連結外接矩形を用い
る方法である。
射影を用いる方法は、高速処理が可能であるという利点
があるが、スキューした行の切出しが難しく、また文字
としては分離しているが射影では重なるような文字の切
出しが難しい欠点がある。
スキューのある行の切出しに関しては、特公昭61−3
3233号公報に述べられているように。
行を複数の領域に分割し、各領域毎に水平射影をとるこ
とが有効であるが、領域の境界部分に存在する文字等、
領域でのデータの扱いが複雑になるという欠点がある。
矩形が用いる方法は、処理社は多いがスキューした行の
切出しを比較的簡単に行うことができ、また分離した文
字を確実に切出しできるという利点がある。
しかし、矩形を用いる方法においても、下線(アンダー
ライン)がある文書の場合、スキューがあると、第7図
に例示する如く、下線の矩形と行内の文字の矩形の範囲
が重なってしまい、行切出しが不可能になる。
よって本発明の目的は、下線等の長い線分がある文書が
スキューした場合であっても、行切出しが可能な行切出
し方法を提供することである。
〔課題を解決するための手段〕
本発明は、画像上の黒連結外接矩形を抽出し、抽出した
矩形の座標から矩形相互の水平及び垂直方向の距離を求
め、水平及び垂直方向の距離がそれぞれある閾値以下の
矩形を統合することによって画像上の行のデータを作成
する。
〔作 用〕
このように矩形の局所的な(狭い範囲での)統合処理に
よって行を切り出すため、スキューした行も高精度に切
出し可能となり、また下線が含まれた行も複数の行を統
合することなく切出しを行うことができる。
〔実施例〕
第1図は本発明の一実施例に係るOCRの概略ブロック
図であり、10はスキャナ、11は行切出し部、12は
文字切出し部、13は文字認識部である。
スキャナ10は行切出し部11内の制御部15からの命
令で入力原稿の画像を読取り、その画像データを画像メ
モリ16に格納する。
行切出し部11において、矩形抽出部17は、画像メモ
リ16内の画像データより黒連結外接矩形(以下、単に
矩形と呼ぶ)を抽出し、その始点座標及び終点座標を矩
形データとして矩形メモリ18に書き込む。なお、この
矩形抽出は入力画像の全面または指定された部分領域に
ついて行う。
また、この抽出処理は、入力画像データそのものに対し
て行う代りに、入力画像を圧縮(間引き。
OR圧縮など)した画像データに対して行うこともでき
る。
行生成部19では、矩形メモリ18より矩形データを読
み出し、矩形と矩形の距離を計算し、その距離がある閾
値以下ならば統合し行メモリ20上の行データを更新す
る。
文字切出し部12は、行切出し部11によって切り出さ
れた行に対して文字切出しを行い、切り出した文字の画
像を文字認識部13へ送る0文字認識部13では1文字
画像を正規化してから特徴抽出を行い、辞書との照合に
よって認識候補を決定する。
次に、行生成部19の処理内容について詳細に説明する
。第2図はその処理フローチャートである。
初期設定の処理ステップSTIの後、処理ステップST
2で注目している矩形iすなわち処理上では矩形データ
Riが、どの行にも所属していないか否かをチエツクす
る。どの行にも所属していないとき、すなわちR1on
i==Oのときには、処理ステップST3で矩形データ
Riを行Ionの行データとして新規登録し、行番号で
あるionをインクリメントする。
次に処理ステップST4.ST5でjを初期設定してi
とjの比較を行い、処理ステップST6で、注目してい
る矩形iと他の矩形j (ただしi≠j)との水平方向
距離Dx及び垂直方向の距離Dyを算出する。第3図は
この距離Dx、Dyの説明図である。具体的には、各矩
形の始点座標及び終点座標の差として距離を求める。
そして、処理ステップST7.ST8の判定の結果、D
x≦THxかつDy≦’rHyであって、矩形データR
jがある行に所属済みであるとき、すなわちRton 
j≠0のときは処理ステップ10でRion iとRi
on jの行データを統合し、Dx≦THxかつDy≦
’rayであるがR1onj=Oのとき、すなわち矩形
jがどの行にも所属していないときには、処理ステップ
9でRloniとR1injの行データを更新する。
ここで、処理ステップS ’1’ 3での新規登録とは
、行データの始点座標(Xs、Ys)及び終点座標(X
e、Ye)として矩形データRiのそれを代入すること
である。処理ステップST9での行データの更新とは、
行データの始点座標及び終点座標と矩形データのそれと
を比較し、広い範囲となるように行データの値を変更す
ることである。また、処理ステップ5TIOでの行デー
タの統合とは、Ion iの行データとIon jの行
データの始点座標及び終点座標を比較し、広い範囲とな
るように行データの値を更新することである。
このような処理を処理ステップS T 11でjをイン
クリメントしつつ繰り返し、処理ステップ5T12でj
が矩形データ数Rnumを越えたと判断すると、処理ス
テップ5T13でiをインクリメントしつつ処理ステッ
プST5からの処理を、処理ステップ5T14でiがR
nu−を越えたと判断するまで繰り返す。
なお、本発明の好ましい他の実施例によれば、行生成部
19において、注目している矩形iあるいは比較される
矩形jの高さがある閾値以下かつ幅がある閾値以上なら
ば下線であると判断し、その矩形iまたはjの垂直方向
の座標の中点を用いて垂直方向の距離Dyを算出する。
この実施例においては、第2図中の処理ステップST6
.ST7の処理内容は第4図に示すように変更される。
処理ステップ5T21から5T23によって、矩形iの
始点と矩形jの終点までの距離または矩形jの始点から
矩形iの終点までの水平距離がある値T Hx以下であ
るかが判定される。この判定条件が成立した場合、処理
ステップ5T24または5T26によって、矩形iまた
は矩形jの幅が閾値T Hw以上かつ高さが閾値THh
以下であるかが判定され、その条件を満たす矩形i、j
の一方または両方について処理ステップ5T25,5T
27で垂直方向の中点座標衣が算出され、次の処理ステ
ップ5T28から5T30によって、中点座標より垂直
方向の距離が算出され、これが閾値THyであるか判定
される。
以上説明した本発明の二つの実施例によれば、局所的な
矩形統合処理によって行切出しを行うため、スキューし
た行の切出しも高精度に行うことができ、また、下線等
が含まれた行に対しても複数行を統合することなく切出
しを行うことができる。
第5図は本発明の他の実施例に係るOCRの概略ブロッ
ク図である。この実施例においては、行切出し部11に
ソート部21が追加され、このソート部21によって、
矩形メモリ18上の矩形データは始点または終点のY座
標の昇順にソートされ、このソート後の矩形データに対
して行生成部19の処理が実行される。この以外は前記
各実施例と同様である。
ソート部21及び行生成部19の処理のフローチャート
を第6図に示す、ソートの処理ステップ5T41が追加
されているが、その後の行生成部19の処理内容は第2
図に示した処理内容と等価である。なお、この例では矩
形の始点のY座標をキーとしてソートが行われる。
本実施例によれば、予めソートした矩形データに対して
処理を行うので、矩形の座標の比較の回数を大幅に減ら
し行切出し処理を高速化にすることが可能である。
〔発明の効果〕
以上詳細に説明した如く、本発明によれば、入力原稿が
スキューしていても、下線が付加された文字を含む行ま
でも高精度に切出しが可能となり、また処理の高速化が
可能となる。
【図面の簡単な説明】
第1図及び第2図はそれぞれ本発明の一実施例に係るO
CRの概略ブロック図及び処理の概略フローチャート、
第3図は矩形の距離の説明図、第4図は本発明の他の実
施例における矩形間距離の算出及び比較判定処理の概略
フローチャート、第5図及び第6図はそれぞれ本発明の
他の実施例に係るOCRの概略フローチャート及び処理
の概略フローチャート、第7図は下線で付加された文字
を含む行の切出し失敗の説明図である。 10・・・スキャナ、  11・・・行切出し部。 2・・・文字切出し部、  13・・・文字認識部。 5・・・制御部、  16・・・画像メモリ、7・・・
矩形抽出部、  18・・・矩形メモリ、9・・・行生
成部、  20・・・行メモリ、0・・・ソート部。 第5図

Claims (3)

    【特許請求の範囲】
  1. (1)画像上の黒連結外接矩形を抽出し、抽出した矩形
    の座標から矩形相互の水平及び垂直方向の距離を求め、
    水平及び垂直方向の距離がそれぞれある閾値以下の矩形
    を統合することによって画像上の行のデータを作成する
    ことを特徴とする行切出し方法。
  2. (2)高さがある閾値以下で且つ幅がある閾値以上の矩
    形については、その垂直方向の中点を用いて垂直方向の
    距離を求め、それ以外の矩形については、その垂直方向
    の始点または終点の座標を用いて垂直方向の距離を求め
    ることを特徴とする請求項(1)記載の行切出し方法。
  3. (3)矩形の統合のための処理の前に、予め矩形のデー
    タを垂直方向または水平方向の始点の座標をキーとして
    ソートすることを特徴とする請求項(1)または(2)
    記載の行切出し方法。
JP1339789A 1989-12-27 1989-12-27 行切出し方法 Expired - Lifetime JP2895122B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1339789A JP2895122B2 (ja) 1989-12-27 1989-12-27 行切出し方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1339789A JP2895122B2 (ja) 1989-12-27 1989-12-27 行切出し方法

Publications (2)

Publication Number Publication Date
JPH03198177A true JPH03198177A (ja) 1991-08-29
JP2895122B2 JP2895122B2 (ja) 1999-05-24

Family

ID=18330821

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1339789A Expired - Lifetime JP2895122B2 (ja) 1989-12-27 1989-12-27 行切出し方法

Country Status (1)

Country Link
JP (1) JP2895122B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013068982A (ja) * 2011-09-20 2013-04-18 Fuji Xerox Co Ltd 筆記情報生成装置、筆記情報生成システム及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013068982A (ja) * 2011-09-20 2013-04-18 Fuji Xerox Co Ltd 筆記情報生成装置、筆記情報生成システム及びプログラム

Also Published As

Publication number Publication date
JP2895122B2 (ja) 1999-05-24

Similar Documents

Publication Publication Date Title
US5956422A (en) Processor based method for extracting tablets from printed documents
US5335290A (en) Segmentation of text, picture and lines of a document image
US6006240A (en) Cell identification in table analysis
JP2940936B2 (ja) 表領域識別方法
US5075895A (en) Method and apparatus for recognizing table area formed in binary image of document
KR970017047A (ko) 문서 화상으로부터의 타이틀 추출 장치 및 방법
Hori et al. Robust table-form structure analysis based on box-driven reasoning
JP2926066B2 (ja) 表認識装置
JPH03198177A (ja) 行切出し方法
JPH0991453A (ja) 画像処理方法およびその装置
Chai et al. Extraction of text boxes from engineering drawings
JP4159071B2 (ja) 画像処理方法,画像処理装置および該処理方法を実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0452783A (ja) 図面読取装置
JP3197441B2 (ja) 文字認識装置
JPH06215183A (ja) 文字認識装置
JPH0954813A (ja) 文字切り出し装置
JPH03126188A (ja) 文字認識装置
Hori et al. Table-form structure analysis based on box-driven reasoning
JP2974167B2 (ja) 文字の大分類認識方法
JPH05108880A (ja) 英文字認識装置
JPH04289989A (ja) 英文字認識装置
JPH05114047A (ja) 文字切り出し装置
JPH05114048A (ja) 文字認識方法及びその装置
JPH09138838A (ja) 文字認識方法およびその装置
KR19980068924A (ko) 선과 겹친문자 영상복원을 이용한 필기체 인식 방법

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090305

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100305

Year of fee payment: 11

EXPY Cancellation because of completion of term