JPH0731712B2 - 文字読取装置 - Google Patents

文字読取装置

Info

Publication number
JPH0731712B2
JPH0731712B2 JP59081999A JP8199984A JPH0731712B2 JP H0731712 B2 JPH0731712 B2 JP H0731712B2 JP 59081999 A JP59081999 A JP 59081999A JP 8199984 A JP8199984 A JP 8199984A JP H0731712 B2 JPH0731712 B2 JP H0731712B2
Authority
JP
Japan
Prior art keywords
pattern
valued
character
handwritten
case
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59081999A
Other languages
English (en)
Other versions
JPS60225983A (ja
Inventor
好勝 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP59081999A priority Critical patent/JPH0731712B2/ja
Publication of JPS60225983A publication Critical patent/JPS60225983A/ja
Publication of JPH0731712B2 publication Critical patent/JPH0731712B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】 〔発明の技術分野〕 この発明は、光学的文字読取装置に関する。
〔発明の技術的背景とその問題点〕
光学的文字読取装置(以下OCRと略す)は印刷文字から
始まり手書きの数字,英字,カタカナさらには数千字種
に及ぶ印刷漢字または手書き漢字までがその読取対象文
字となり、商品化も積極的に進められている。
数千字種に及ぶ漢字が読取れることで、日本語入力の新
しい展開が期待される一方、より低価格へのニーズも高
いものがある。これまで漢字認識OCRとしては手書き漢
字読取り専用機と印刷漢字、手書き漢字を同一の装置で
読取る装置があるが、前記2つの漢字体を読取る装置に
あっては、印刷,手書共に大きなニーズを持っているこ
とで特に優れた装置として、漢字入力の多様なニーズを
開拓しつつある。
このような印刷漢字、手書き漢字を読取るに際しての最
初の技術的問題点は光学的走査系の解像度、つまりどれ
程精細に観測すれば良いかといことである。
第1図は従来のOCRにおける例を説明するもので、印刷
漢字10は、種々の大きさ、線幅のものがあり、最も多く
用いられる号数の印字にあっては20本/mm程度の解像度
が必要であり、この解像度を粗にすると、特に横線を消
失してしまう場合がある。一方手書き漢字入力の場合で
は、データエントリーとしてのニーズが多く、住所、性
名などの記入を、8〜10mm角の記入枠に0.5mm以上のシ
ャープペンシル、ボールペン等によって記入をしてもら
っている。
したがって、手書き漢字11を読取る場合の解像度は文字
のカスレ等が起ったとしても、印刷漢字よりさらに粗な
大約半分程の解像度10本/mmで充分であり、汎用OCRとし
て手書き英数字、カナ文字などにおいて実積ある解像度
となっている。
これらのことから、印刷漢字10と手書き漢字11を同一の
装置12で読取る要求に対しては、その走査解像度を印刷
漢字の高精細解像度に設定し、手書き漢字の読取時は、
1ビットおきに間引いて、その文字イメージ信号を得る
方法、または印刷漢字と手書き漢字は同時に読取対象と
しないという限定条件をOCRに付けることで、光学系の
解像度をメカニカルに光学的に切換を行い、同一センサ
ーを共用する方法がとられている。
これら従来OCRは前者については、手書き漢字読取り時
にセンサーが半分しか機能せず、後者については手書
き、印刷漢字が同時に読取れないという欠点をもち、い
ずれも回路機構を複雑にしその装置価格を高いものにし
ている。
〔発明の目的〕
この発明は上述した従来装置の欠点を改良したもので、
低解像度のセンサを用い高品質の認識面像を得、簡易に
実現することのできる光学的文字読取装置を提供するこ
とを目的とする。
〔発明の概要〕 本発明は、走査用センサの出力が多値情報であることに
着目し、印刷漢字と手書き漢字を同一の低解像度センサ
を用いて走査する。そして印刷漢字読取時はセンサ出力
に対して多値情報のままで標本化パターンを生成して認
識処理を行ない、手書き漢字読取時はセンサ出力の多値
情報をバイナリー情報に変換した後に標本化パターンを
生成して認識処理を行う文字認識装置である。
〔発明の効果〕
本発明によれば、印刷漢字に対しても手書き漢字用の低
解像度センサを兼用するため、従来用いていた印刷漢字
用の高解像度センサに比べてセンサの走査本数・ビット
数が少なくでき、低価格化に役立つ。更にセンサ解像切
換の必要がなく、電気的な信号処理が簡易に実現でき、
光学的、機構部の構造が簡単になり低価格な装置となる
と伴に切換え処理が高速化され、同一帳票に印刷漢字,
手書き漢字がある場合でも、高速な帳票処理を可能とす
る。
〔発明の実施例〕
第2図は本発明の一実施例における処理の過程を説明す
るものである。手書き漢字11の走査系解像度を8本/mm
とすると、手書き漢字・印刷漢字の各れについてもこの
8本/mmの解像度のセンサで光電変換信号を得る。手書
き漢字入力時は、得られた光電変換信号を先ず多値信号
として量子化する(ここは印刷漢字の場合と同様であ
る)。手書き漢字の場合は次にバイナリー信号として変
換する。そしてバイナリー信号としての手書き漢字に対
し、一定の大きさ・傾きに正規化する。そのイメージを
25に表わす。また印刷漢字10の場合にあってより高精細
に走査信号を得るときは、上述した様に光電変換信号を
多値信号として量子化する。そして正規化パターンをそ
のまま多値の信号として記憶しそのイメージを26に示
す。前処理回路は別に用意される制御情報によって処理
方法を2種に切換え、手書き漢字、印刷漢字を同一の識
別空間次元数(標本化パターンの縦・横サイズ)に変換
する。つまり手書き漢字、印刷漢字共に所定の大きさの
標本化パターンに変換される。このようにして得られる
入力パターンは22に標本化パターンとして24識別処理回
路に入力する。あらかじめ用意された漢字標準パターン
23も識別処理回路24に入力され、入力パターンの照合演
算を行い、答を出力する。
上述した処理をより具体的説明する図を第3図に示す。
ここで30は走査系から得られる光電変換アナログ信号、
であり31A/D変換器を用いてイメージバッファ32に多値
パターンとして記憶する。制御部から手書,印刷の切換
制御信号ならびに動作開始信号37が検切部33、正規化部
36へ与えられると、検切部33はイメージバッファ32中の
文字の検出を行い、文字毎の文字枠情報(イメージバッ
ファ32上の文字領域アドレス)を正規化部36に転送す
る。手書きの切換制御信号が与えられた場合、正規化部
36は文字枠情報に従ってイメージバッファ32から多値パ
ターンとしての手書き漢字を切り出し、バイナリーパタ
ーン(2値パターン)に変換して所定の大きさ・傾きに
正規化する。つまり様々な大きさ・傾きの手書き漢字に
対して正規化されたバイナリーパターン35が得られる。
一方、印刷の切換制御信号が与えられた場合、正規化部
36は文字枠情報に従ってイメージバッファ32から多値パ
ターンとしての印刷漢字を切り出し、そのまま正規化パ
ターン34とする。この時、印刷漢字にあっても複数種の
大きさの字体を扱う場合は、イメージバッファ32からの
領域転送だけでなく、補間処理によって大きさを正規化
してもよいことは云うまでもない。同様にして手書き漢
字の場合はイメージバッファ32のアドレス制御によって
読み出された文字イメージはイメージバッファ32の多値
データと抽出点の最近傍データ出力などの近傍処理によ
って1ビットのバイナリーパターンとしてあらかじめ定
められた正規化サイズに正規化し、そのイメージを35の
パターンバッファに記憶する。
ここで第3図でイメージバッファ32が2枚分存在するこ
とから明らかな様に、多値パターンの各画素は2ビット
で濃度表現されている。このイメージバッファ32から印
刷漢字の多値パターンを切り出すと、これも2枚分の正
規化パターン34に示す様に各画素が2ビットで濃度表現
される(つまり、この正規化パターン34の大きさを縦n
画素、横n画素とすると、n×n個の各画素は2ビット
の濃度を有する)。一方、イメージバッファ32から手書
き漢字の多値パターンを切り出すと、これも各画素が2
ビットで濃度表現されている。これを近傍処理によって
各画素が1ビットで2値表現されたバイナリーパターン
(2値パターン)に変換する。この1枚分のバイナリー
パターンを所定の大きさに正規化することにより、正規
化バイナリーパターン35を得る(つまり、このパターン
35の大きさを縦2n画素、横2n画素とすると、2n×2n個の
各画素は1ビットの濃度を有する)。
手書き漢字の場合は、その多値パターンをバイナリーパ
ターンに変換する理由は、手書き漢字は印刷漢字に比べ
て大きさ・傾きが不規則である。このため、多値パター
ンのままでは字体の正確な大きさ・傾きの検出が困難で
あり、正規化が難しい。そこで一度バイナリーパターン
に変換して字体の正確な大きさ・傾きを検出した上で、
バイナリーパターンとして正規化パターン35を生成す
る。一方、印刷漢字はその大きさ・傾きが固定されてい
るため、多値パターンのままで字体の正確な大きさ・傾
きが検出でき、多値パターンとして正規化パターン34を
生成する。
このようにして正規化された文字パターンは、さらに第
4図に示す標本化処理が施される。第4図の41は、手書
漢字正規化パターンバッファ(第3図の35)からの出力
であり2×2加算マスクを通過する。この2×2加算マ
スクは、手書き漢字のバイナリーパターン35(2n×2n個
の画素数を有し、各画素は1ビットで濃度表現される)
から、順に縦2画素、横2画素の大きさである2×2個
の画素パターンを読み出し、この4個の画素位置毎に対
応する重み(第4図の2×2加算マスクの4個の重みは
全て1である)を乗算してその総和をとるのに用いられ
る(第4図の2×2加算マスクを用いると、総和の最大
値は4となる)。この総和は新たな多値パターンの1画
素(最大値4となるため2ビットで濃度表現されたも
の)になる。こうして2n×2n画素のバイナリーパターン
35に対し、2×2画素パターンを順次読出して(但し、
2n×2nのバイナリーパターン上で、読出した2×2画素
パターンとラスタスキャンの順序で次に読出す2×2画
素パターンとは重複した画素がないものとする)、この
2×2画素パターン毎に2ビット表現された1画素を得
て、これらを集積して新たな多値パターンとする。つま
り2n×2nの正規化バイナリーパターン35に対し、上述し
た演算を行なうことでn×nの正規化多値パターン(各
画素は2ビットで濃度表現されている)を得ることがで
きる。これは印刷漢字の正規化パターン34と同じ情報密
度(縦n画素、横n画素の大きさで、このn×nの各画
素は2ビットで濃度表現されている)となる。42は印刷
漢字正規化パターンバッファ(第3図34)からの出力で
あり、手書,印刷切換制御信号37によって選択回路43が
いずれかを選択し、シフトレジスタからなる3×3の荷
重加算マスクをもったウインド回路44を構成しそのウイ
ンドウに対して45の荷重テーブルをもって荷重加算を行
い識別回路又は標準パターンの次元数に一致した標本化
パターンを得る。ここで3×3の荷重加算マスク44は、
手書き漢字のバイナリーパターン41に2×2加算マスク
を演算して得られた正規化多値パターン、或いは印刷漢
字の正規化多値パターン42に対し、順に3×3の多値パ
ターンを読み出して、この9個の画素位置毎に荷重テー
ブル45の9個の対応した重みを乗算して総和を取るのに
用いられる(第4図の荷重テーブル45を用いると、3×
3の多値パターンの9個の画素値が全て2ビット表現の
最大値4であれば、重みを乗算した総和は64となる)。
そして、この総和は標本化パターンの1画素となる(最
大値として64を表現できればよいため6ビットにな
る)。
つまり、手書き漢字の正規化多値パターン・印刷漢字の
正規化多値パターンは各れもn×nの大きさで各画素が
2ビット表現されたものであるが、ここから3×3の9
個の画素パターンが順に読み出される(但し、n×nの
正規化多値パターン上で、読み出した3×3の画素パタ
ーンに対し、次に読み出すべき3×3の画素パターンは
ラスタスキャンの順序で1画素分ずつシフトされたもの
である)。この3×3の画素パターン毎に6ビット表現
された1画素を得て、これらを集積して標本化パターン
とする。こうしてn×nの正規化多値パターンに対し、
上述した演算を行なうことで(n−2)×(n−2)画
素の標本化パターン(各画素は6ビットで濃度表現され
る)を得ることができる。この(n−2)×(n−2)
は第2図23に示す標準パターンの次元数((縦の画素
数)×(横の画素数))に一致したものである。要する
に、正規化多値パターンに対して荷重テーブル45を用い
て圧縮処理を行なうのは、標準パターンの次元数に一致
した標本化パターンを作成するためである。
上述した様に選択回路43への入力として、印刷漢字の場
合は多値の正規化パターン42(第3図の多値パターン34
では、大きさがn×nで各画素が2ビット表現されたも
の)が入力されるが、手書き漢字の場合はバイナリーの
正規化パターン41(第3図のバイナリーパターン35では
大きさが2n×2nで各画素が1ビット表現されたもの)に
対し2×2加算マスクで圧縮処理を行なうことで、多値
の正規化パターン(第4図の2×2加算マスクを用いる
と、大きさがn×nで各画素が2ビット表現されたも
の)となって入力される。
つまり選択回路43へ入力される時点の、手書き漢字の多
値パターンと印刷漢字の多値パターンとは、縦・横サイ
ズ及び1画素当たりのビット数が同一となる。
第5図は前述の標本化回路の周辺回路を説明するもの
で、正規化パターンを入力として標本化演算回路52が動
作し、標本化バッファ53へ格納し、制御コントローラ56
の指令によって識別回路54が動作して56標準パターンと
の類似度計算など識別演算を行いその結果を制御コント
ローラ56に返送する。
ここで、標本化バッファ53内の標本化パターンと、標準
パターン56とは、上述した様に次元数((縦の画素数)
×(横の画素数))が一致しているため、類似度計算が
効率良く行なえる。
タイミング発生回路55は制御コントローラから手書・印
刷漢字のフォーマットコントロール信号と起動信号を受
け、標本化回路52の各種シフトレジスタ、レシジスタヘ
タイミング信号を出力するものである。
〔発明の他の実施例〕
前述した実施例では手書漢字と印刷漢字が混在するOCR
を例にとったが、印刷漢字専用のOCRにあってもその適
用は何不足なく可能である。
例に於て印刷漢字の場合を2ビット多値化することで説
明したが、さらに多数のビットで記憶してもよく、その
方が正規化、標本化精度がさらに向上することは当然考
えられる。(コストを無視すれば) またこの考えは、認識リジエクト時の入力文字イメージ
を多値情報としてCATに出力したり、低解像度センサー
によって高品質の画像入力を行うことが同様に実施でき
る。
【図面の簡単な説明】
第1図は、従来技術の手書き,印刷漢字OCRを説明する
図である。第2図は本発明の実施例概要を説明する図で
ある。第3図は本発明の実施例における検切・正規化部
を説明する図である。第4図は本発明の実施例における
標本化回路を説明する図である。第5図は第4図標本化
回路の周辺回路の機能を説明する図である。 30…アナログビデオ信号、31…アナログ/デジタル変換
器、32…多値イメージバッファ、33…検切制御部、34…
印刷漢字正規化パターンバッファ、35…手書き漢字正規
化パターンバッファ、36…正規化回路、37…手書,印刷
制御線。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】光学的に帳票上を走査し文字を読取る文字
    読取装置において、 走査によって得られた文字の電気信号を多値パターンと
    してデジタイズする手段と、 この手段によりデジタイズされた多値パターンを記憶す
    るイメージバッファと、前記文字が印刷か手書きかの制
    御信号に従って前記イメージバッファ内の多値パターン
    毎の文字枠を検出する検切手段と、 この検切手段からの文字枠情報に従って前記イメージバ
    ッファ内の該多値パターンに対し、前記制御信号が印刷
    の場合は多値パターンのままで正規化し、前記制御信号
    が手書きの場合はバイナリーパターンに変換して正規化
    する正規化手段と、 この正規化手段より得られた印刷の場合の正規化多値パ
    ターンに対し荷重テーブルを用いて荷重加算を行なって
    予め記憶された標準パターンと同一次元数である印刷の
    場合の標本化パターンを生成し、手書きの場合の正規化
    バイナリーパターンに対し加算マスクを用いて圧縮して
    前記印刷の場合の正規化多値パターンと情報密度が同一
    の多値パターンを生成し、この多値パターンに対し前記
    荷重テーブルを用いて荷重加算を行なって前記予め記憶
    された標準パターンと同一次元数である手書きの場合の
    標本化パターンを生成する標本化手段と、 この標本化手段より生成された標本化パターンに対し前
    記予め記憶された標準パターンを用いて識別処理する識
    別手段と、 を備えたことを特徴とする文字読取装置。
JP59081999A 1984-04-25 1984-04-25 文字読取装置 Expired - Lifetime JPH0731712B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59081999A JPH0731712B2 (ja) 1984-04-25 1984-04-25 文字読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59081999A JPH0731712B2 (ja) 1984-04-25 1984-04-25 文字読取装置

Publications (2)

Publication Number Publication Date
JPS60225983A JPS60225983A (ja) 1985-11-11
JPH0731712B2 true JPH0731712B2 (ja) 1995-04-10

Family

ID=13762170

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59081999A Expired - Lifetime JPH0731712B2 (ja) 1984-04-25 1984-04-25 文字読取装置

Country Status (1)

Country Link
JP (1) JPH0731712B2 (ja)

Also Published As

Publication number Publication date
JPS60225983A (ja) 1985-11-11

Similar Documents

Publication Publication Date Title
EP0472313B1 (en) Image processing method and apparatus therefor
EP0629970B1 (en) Method for detecting monetary amounts in binary images
JP3139521B2 (ja) 自動言語決定装置
US5119437A (en) Tabular document reader service
CA2704830C (en) Method for image analysis especially, for mobile stations
JP3204259B2 (ja) 文字列抽出方法、手書き文字列抽出方法、文字列抽出装置、および画像処理装置
CN100568265C (zh) 字符识别装置、字符识别方法
US4684997A (en) Machine for the reading, processing and compression of documents
EP0524797B1 (en) Image processing method and apparatus
EP0516576A2 (en) Method of discriminating between text and graphics
US5854860A (en) Image filing apparatus having a character recognition function
JP3268552B2 (ja) 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置
JPH0333990A (ja) マスク処理を用いる光学式文字認識装置及び方法
JPH0731712B2 (ja) 文字読取装置
JPS6141029B2 (ja)
US6259814B1 (en) Image recognition through localized interpretation
KR100315428B1 (ko) 다국어 인쇄체 문서인식을 위한 문자 특징 추출 장치 및그 방법
JPH07120393B2 (ja) 文字認識・図形処理装置
JP3253201B2 (ja) 画像処理装置と画像種類判定方法
JPH11161738A (ja) 楽譜認識方法及びその装置並びに楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2747136B2 (ja) 文字認識装置
KR930007083B1 (ko) 문자인식에서의 후보문자 분류방법
JP3090928B2 (ja) 文字認識装置
JP2708604B2 (ja) 文字認識方法
JP2616995B2 (ja) 文字認識装置