JPH04267494A - 文字切り出し方法および文字認識装置 - Google Patents

文字切り出し方法および文字認識装置

Info

Publication number
JPH04267494A
JPH04267494A JP3028442A JP2844291A JPH04267494A JP H04267494 A JPH04267494 A JP H04267494A JP 3028442 A JP3028442 A JP 3028442A JP 2844291 A JP2844291 A JP 2844291A JP H04267494 A JPH04267494 A JP H04267494A
Authority
JP
Japan
Prior art keywords
character
scanning
line
document
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3028442A
Other languages
English (en)
Inventor
Takashi Nitta
新田隆志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP3028442A priority Critical patent/JPH04267494A/ja
Publication of JPH04267494A publication Critical patent/JPH04267494A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文字切り出し方法および
文字認識装置に関する。
【0002】
【従来の技術】従来の文字認識装置の文字切り出し方法
は、特公平1−47828に示されている様に文書画像
を文書の行方向に走査し、画素の存在する領域を決定す
ることにより文字行を切り出し、その切り出した文字行
に対してその列方向の射影をとることによって文字を切
り出すというものであった。
【0003】
【発明が解決しようとする課題】しかし、前述の従来技
術では 1)同じ文字行の並びの途中で文字行の幅が変化する場
合に、その変化を検出することが出来ず、間違った文字
行を切り出してしまい、フリーフォーマット原稿の認識
が出来ない。
【0004】2)文字行の切り出しと文字の切り出しを
同時に行なうことが出来ず、別の手順を踏まなければな
らない。
【0005】3)文書画像を1画素ごとに走査するため
時間がかかる。
【0006】4)1)の課題を有するためにフリーフォ
マット原稿の認識が正確に出来る文字認識装置が作成出
来ない。
【0007】5)処理速度を上げるためには文字認識装
置自体が高価になる。
【0008】という課題を有する。
【0009】そこで、本発明はこのような問題点を解決
するもので、その目的とするところは同じ文字行の並び
の途中で文字行の幅が変化する場合にもこの変化を検出
することによって、正確な文字行を切り出すことが可能
で、同時に同じ手順で文字を切り出すことが出来、処理
時間の短縮も実現できる文字切り出し方法及び正確で高
速に文字を切り出し認識し、かつ安価な文字認識装置を
提供することにある。
【0010】
【課題を解決するための手段】本発明の文字切り出し方
法および文字認識装置は、既定の画素数を持つ走査画素
列を用いて文書画像を文書の列方向に走査し、この走査
画素列に対応する文書画像の領域中の画素の有無を判別
することによって文字行を切り出し、同時にこの走査画
素列を既定の分割数で分割した分割走査画素列を用いて
文字を切り出すことを特徴とする文字切り出し方法、及
びこの文字切り出し方法を用いた文字切り出し部を構成
要素とすることを特徴とする文字認識装置。
【0011】
【実施例】(実施例1)以下、本発明を実施例に基づい
て詳細に説明する。
【0012】図1は本発明の文字切り出し方法を示した
図である。図2は本発明の文字切り出し方法を用いた文
書の傾き検出を示した図である。図3は本発明の文字認
識装置の構成図である。図4、図5、図6、図7は本発
明の文字切り出し方法のフローチャートである。
【0013】以下、図面を用いて本発明の文字切り出し
方法を詳細に説明する。本実施例では横書き文書を例に
とって説明するが、縦書き文書にも同様に本発明を適用
できる。まず、フローチャートを用いて実際の処理を順
をおって説明する。図4はメインルーチンのフローチャ
ートである。(1)では走査画素列の画素数を2のn乗
と定める、画素数を2のn乗に定める理由はコンピュー
タ処理上便利だからである。このnは文書画像の解像度
、要求される処理速度、読み取る文書の種類や文字の大
きさ等によって適宜決定される。(2)では走査画素列
を用いて文書画像を列方向に走査し、この走査画素列に
対応する列ごとに行スタート位置、行エンド位置を決定
し、部分行を決定する。(3)では(2)で決定した列
ごとの行スタート位置、行エンド位置から同じ行に属す
る部分行を判定し、この部分行集合を統合し同じ行とす
る。(4)では(3)で決定した行から個々の文字を切
り出す。(5)では文書画像の走査がすべて終了した場
合には処理を終了し、終了していない場合には(2)に
戻って処理を繰り返す。図5は(2)の列方向走査ルー
チンのフローチャートである。図1(a)には行の幅が
異なる2つの文書画像102,103が同じ行方向に重
なって存在する場合の列方向走査の様子を示す。まず、
(6)では文書のを列方向に走査する。ここで図1(a
)のように文書画像の左端の走査列を0列、1つ右隣の
走査列を1列、以後順次2、3、…、l、…、NROW
 −1列(NROW =文書画像の行方向の画素数/走
査画素列の画素数+1)とすると、0列目の走査は走査
画素列101を用いて文書の列方向である走査方向11
0へ順次走査し、(7)の”画素が走査画素列中に存在
するか?”を判定し、この走査方向110に対して最初
に画素が出現した位置を行スタート位置S(m,0)1
04と決定する(8)。(9)では文字切り出しのため
に走査画素列101を適宜分割した(例えば2分の1、
8分の1、16分の1)分割走査画素列中の画素の有無
を示す情報を取り出す。この分割走査画素列は異なった
分割数のものを同時に持つことで、適応的に種々の大き
さの文字を切り出すことが可能となる。(10)では”
画素が走査画素列中に存在するか?”を判定し、画素が
存在する間は走査方向110へ(9)を繰り返し、最初
に画素が存在しなくなった位置を行エンド位置E(m,
0)105と決定する(11)。(12)では走査列が
まだ残っているか判定し、残っている場合には(6)に
戻って1つ右隣の走査列の列方向走査を繰り返す。列方
向に走査することにより図1(a)に示すように、行の
幅が異なる2つの文書画像102,103が同じ行方向
に重なって存在する場合でも同じ列方向走査によって行
の切り出しが可能となる。ここで、行スタート位置S(
m,l)と行エンド位置E(m,l)に挟まれた部分を
部分行と呼び、部分行の幅はE(m,l)−S(m,l
)となる。もし、部分行の幅が既定の値(例えば3)よ
りも小さかったならばこの部分行はノイズ成分と考えて
却下し、再度列方向に走査する。また、本実施例では列
方向走査を文書画像の左側から右側へ順序的に処理して
いるが、この順序は限定されるものではなくどの位置の
走査列からでも走査することが可能であり、しかも順序
的に処理する必要はなく並列的に全ての列を同時に処理
する事により処理時間の大幅な短縮が可能となる。図6
は(3)の行統合ルーチンのフローチャートである。(
13)では”隣合う部分行の行スタート位置S(m,l
)、行エンド位置E(m,l)のずれが許容範囲内か?
”を判定し、許容範囲内ならばこの2つの部分行を1つ
の行として統合する(14)。この判定(13)をすべ
ての部分行に対して行い、1つの行に統合可能な部分行
をすべて統合する(15)。図7は行中文字切り出しル
ーチンのフローチャートである。図1(b)は分割走査
画素列を用いた文字切り出しの様子を示した図である。 (16)では文字を切り出すために必要な分割数に対応
する(9)で求めた分割走査画素列106を決定する。 分割数は行の幅を参考に決定する。(17)では”部分
行の行スタート位置S(m,l)と行エンド位置E(m
,l)の間に画素が存在しない分割走査列が存在するか
?”、言いかえれば、”分割走査列の行スタート位置1
08と行エンド位置109が存在しない分割走査列が存
在するか?”を判定し、もし存在するならばその位置を
文字切り出し位置107とする(18)。この判定を全
ての部分行に対して行う(19)。分割数を変えて処理
する必要がある場合には(16)に戻って処理を繰り返
す(20)。この(2)〜(4)までの処理を文書画像
の走査がすべて終了するまで繰り返す。また、(2)〜
(4)の処理は順序的に行う必要はなく、お互いにデー
タを交換しながら並列的に動作させることが可能となり
、処理時間の短縮が可能となる。
【0014】次に本発明の文字切り出し方法を用いた文
書画像が傾いている場合の傾き検出について図2を用い
て説明する。上記の文書画像の列方向走査を行なう中で
、図2のように文書画像202が傾いている場合に、走
査画素列201を用いて走査方向203へ列走査を行な
うと図2のように同じ傾向で部分行の行スタート位置S
(m,l)、行エンド位置E(m,l)がずれることに
なる。このずれを検出することにより文書画像の傾きθ
204が検出可能となる。
【0015】次に、本発明の文字切り出し方法を用いた
文字認識装置の構成図を図3に示す。文書301は画像
読み取り装置302で読み取られ2値化されて画像用メ
モリー303に記憶される。次に、画像用メモリー30
3に記憶された文書画像を読みだし、文字切り出し部3
04において文字を切り出し、切り出した文字画像を文
字認識部305へ送る。文字認識部305は文字切り出
し部304から送られてきた文字画像を認識し文字コー
ド化し、認識結果を出力する。認識が成功しなかった場
合、文字認識部305はこの結果を文字切り出し部30
4へフィードバックし、文字切り出し部304はこの結
果を用いて再切り出しする。
【0016】以上のように、本発明の文字切り出し方法
は文書画像を既定の画素数の走査画素列を用いて文書の
列方向に走査することにより部分行を抽出し、この部分
行を統合し1つの行として行を切り出し、同時に走査画
素列を既定の分割数で分割した分割走査画素列を用いて
文字を切り出す。また、部分行抽出の途中で文書画像の
傾き検出が可能である。この結果、文字を切り出すため
に1画素づつ画像を走査する必要がなく処理の大幅な高
速化が実現可能であり、さらに同時に文字を切り出すこ
とが可能なためここでも処理の高速化が可能となる。ま
た、行を切り出すために従来の方法とは違って列方向へ
の走査によって行を切り出しているため、行の幅が異な
る2つの行が同じ行方向に重なって存在する場合でも正
確に行を切り出すことが可能であり、文字行の幅や、文
字ピッチが決まっていないフリーフォーマット文書に対
しても正確な文字の切り出しが可能となる。また、分割
数の決め方によって辺や造り、冠などの漢字の特徴も抽
出可能である。
【0017】よって、本発明によると文字行の幅や、文
字ピッチが決まっていないフリーフォーマット文書に対
しても正確でしかも大変高速な文字切り出し方法を提供
することが可能となる。また、この文字切り出し方法を
用いた文字切り出し部を構成要素とすることによって、
読み取る文書の種類を限定されなく、正確で高速、装置
構成も簡単で安価な文字認識装置を提供することが可能
となる。
【0018】また、本発明の文字切り出し方法は図形認
識にも応用可能なものである。
【0019】
【発明の効果】以上のように、本発明の文字切り出し方
法は文書画像を既定の画素数の走査画素列を用いて文書
の列方向に走査することにより行を抽出し、同時に走査
画素列を分割した分割走査画素列を用いて文字を切り出
すため、1画素づつ文書画像を走査する場合に比べて大
幅な処理の高速化が出来、文書を列方向へ走査するため
に行の幅が異なる2つの行が同じ行方向に重なって存在
する場合でも正確な行を切り出すことが可能となり、文
字行の幅や、文字ピッチが決まっていないフリーフォー
マット文書に対しても正確な文字の切り出しが可能とな
る。また、本発明の文字切り出し方法を用いた文字切り
出し部を構成要素とする文字認識装置は、読み取る文書
の種類を限定されなく、正確で高速、装置構成も簡単で
安価なものとなる。
【図面の簡単な説明】
【図1】本発明の文字切り出し方法の説明図。
【図2】本発明の文字切り出し方法を用いた文書画像の
傾き検出の説明図。
【図3】本発明の文字認識装置の構成図。
【図4】本発明の文字切り出し方法のフローチャート。
【図5】本発明の文字切り出し方法のフローチャート。
【図6】本発明の文字切り出し方法のフローチャート。
【図7】本発明の文字切り出し方法のフローチャート。
【符号の説明】
101、201  走査画素列 104、108  行スタート位置 105、109  行エンド位置 106  分割走査画素列 107  文字切り出し位置 110、203  画像走査方向 204  文書画像の傾きθ 304  文字切り出し部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】  少なくとも文書画像読み取り装置によ
    って取り込まれた文書画像から、文字行および文字を切
    り出す文字切り出し方法において、既定の画素数を持つ
    走査画素列を用いて文書画像を文書の列方向に走査し、
    この走査画素列に対応する文書画像の領域中の画素の有
    無を判別することによって文字行を切り出し、同時にこ
    の走査画素列を既定の分割数で分割した分割走査画素列
    を用いて文字を切り出すことを特徴とする文字切り出し
    方法。
  2. 【請求項2】  少なくとも「請求項1」記載の文字切
    り出し方法を用いた文字切り出し部を構成要素とするこ
    とを特徴とする文字認識装置。
JP3028442A 1991-02-22 1991-02-22 文字切り出し方法および文字認識装置 Pending JPH04267494A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3028442A JPH04267494A (ja) 1991-02-22 1991-02-22 文字切り出し方法および文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3028442A JPH04267494A (ja) 1991-02-22 1991-02-22 文字切り出し方法および文字認識装置

Publications (1)

Publication Number Publication Date
JPH04267494A true JPH04267494A (ja) 1992-09-24

Family

ID=12248795

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3028442A Pending JPH04267494A (ja) 1991-02-22 1991-02-22 文字切り出し方法および文字認識装置

Country Status (1)

Country Link
JP (1) JPH04267494A (ja)

Similar Documents

Publication Publication Date Title
US5539841A (en) Method for comparing image sections to determine similarity therebetween
JPH05242292A (ja) 分離方法
JPH0519753B2 (ja)
JPH0757051A (ja) パターン認識装置
JPH05233873A (ja) 領域分割方法
JPS63158678A (ja) 単語間スペ−ス検出方法
EP0750415B1 (en) Image processing method and apparatus
KR100383858B1 (ko) 문자인식장치의 문자추출방법 및 장치
CA1316605C (en) Method of searching binary images to find search regions in which straight lines may be found
JP3058791B2 (ja) 画像認識装置の図形の切出し方法
JPH04267494A (ja) 文字切り出し方法および文字認識装置
JP2000113106A (ja) 文書画像処理装置
JPH07230525A (ja) 罫線認識方法及び表処理方法
EP0601730A1 (en) Image processing method for correcting character slant
JP3019897B2 (ja) 行切出し方法
JPH0373916B2 (ja)
JP3710164B2 (ja) 画像処理装置及び方法
JP3071479B2 (ja) 行間スペース検出方法
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JPS6343788B2 (ja)
JPH05266250A (ja) 文字列検出装置
JP4439054B2 (ja) 文字認識装置及び文字枠線の検出方法
JPH02294791A (ja) 文字パターン切り出し装置
JPS5932077A (ja) 文字切出し装置
JPH10233930A (ja) 画像処理装置