JPS60116078A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPS60116078A
JPS60116078A JP58223561A JP22356183A JPS60116078A JP S60116078 A JPS60116078 A JP S60116078A JP 58223561 A JP58223561 A JP 58223561A JP 22356183 A JP22356183 A JP 22356183A JP S60116078 A JPS60116078 A JP S60116078A
Authority
JP
Japan
Prior art keywords
character
line
characters
kanji
lines
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58223561A
Other languages
English (en)
Other versions
JPH0632070B2 (ja
Inventor
Kunio Sakai
坂井 邦夫
Kenichi Maeda
賢一 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP58223561A priority Critical patent/JPH0632070B2/ja
Publication of JPS60116078A publication Critical patent/JPS60116078A/ja
Publication of JPH0632070B2 publication Critical patent/JPH0632070B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は文字の種類に応じた適応的な文字認識処理を可
能とする文字認識装置に関する。
〔発明の技術的背景とその問題点〕
文字認識を行う上で、その文字種を予め知ることは、認
識処理効率の向上、および認識率の向上を図る上で非常
に重要である。例えば郵便区分用の文字認識装置では、
その認識対象が数字で示される郵便番号であることが判
っているが、一般事務処理用の文字認識装置にあっては
、入力帳票の種別毎に文字記載様式が異っている。
そζで従来、この種事務処理用の装置にあっては、上記
人力帳票の種別毎に定められた文字記載様式(フォーマ
ット型式)を予め記憶しておき、その文字認識に際して
は、最初に入力帳票の帳票番号を読取ってその文字記載
様式を識別したのち、これに続いて前記入力帳票に記載
された文字を認識処理するようにしている。
ところが最近、認識対象とする文字種が英数字、片仮各
から漢字にまで拡がってきておシ、更にはその記載型式
も多様化している。そして特に、書状郵便物に印刷或い
は手書きされた宛先住所、宛名等の記載文字についても
、これを直接読取って文字認識しようとすることが試み
られている。ととろが書状郵便物における上記宛先住所
等は、漢字で記載されることが多いが、片仮名で記載さ
れることも多い。更には海外の所謂中国文化圏では、漢
字と英字とによって上記宛先住所等を一行おきに記載す
るととも多い。
このような多様な文字記載様式に対しては、前述した事
務処理用の装置にみられるように、その様式の情報を予
め登録して文字認識に対処することは、極めて実現性に
乏しい。
然し乍ら、英数字や片仮名に対する文字認識処理に比較
して、漢字の認識処理は、漢字特有の文脈情報の活用が
必要となる等、極めて複雑である。従って、その処理効
率の向上を図る上では、このような場合にあっても、何
らかの手段によって、認識処理に供する文字が漢字であ
るか、或いは非漢字であるか等を知ることが重要な意味
を持つことになる。また、その認識を正確に行う為には
、例えば(カー力)、(工−工)、(ローロ)、(二一
二)等の同形異字様の文字をそれぞれ正確に認識するこ
とが必要でアシ、この場合にあってもその文字種を予め
知ることが重要となる。
〔発明の目的〕
本発明はこのような事情を考慮してなされたもので、そ
の目的とすするところは、文書面に記載された文字の種
類をその文字行またはフィールド毎に判別し、その判別
された文字種に従ってその文字認識を適応的に効出良く
行うことを可能とする文字認識装置を提供することにあ
る。
〔発明の概要〕
本発明は、文書面を走査し、光電変換・量子化された骨
子化信号から上記文書面中の文字記載領域を抽出し、こ
の文字記載領域における文字・母ターンを分析してその
文字行またはフィールド毎に文字種の判別を行い、この
判別された文字種に従ってその文字列またはフィールド
を形成する各文字についてそれぞれ認識処理を行うよう
にしたものである。
特に上記文字種の判別を、例えば文字行における文字と
文字との間の余白および各文字の大きさを正規化したの
ち、その文字の構造的複雑さを検出して行うようにした
ものである。
〔発明の効果〕
かくして本発明によれば、例えば郵便物に記載された宛
先住所等を、その文字行またはフィールド毎に文字種を
判別し、例えばその文字行の文字種が漢字であるか、非
漢字であるかを判別した上で、文字認識処理を適応的に
行うことができる。従って、漢字からなる文字行につい
ては漢字特有の文脈情報を活用する等して効率良く、し
かも高精度に認識処理を行い、一方弁漢字からなる文字
行については従来の認識処理技術を利用して簡易にその
認識ケ行うことが可能となる。
しかも文字行毎に、その文字種を文字の構造的複雑さか
ら検出しているので、文字種判別の精度が高く、文字認
識における処理効率向上に大きく寄与する。また漢字と
英字とが一行おきに記載された書状郵便物に対する文字
認識をも効果的に行い得る等の実用上多大なる効果が奏
せられる。
〔発明の実施例〕
以下、図面全参照して本発明の一実施例につき説明する
第1図は実施例装置の概略構成図である。印刷または手
書きによシ文字を記載してなる書状郵便物等の文書は、
その文書面を走査光電変換量子化器1によ多走査され、
且つ光電変換されたのち量子化されて読取り入力される
。この際、第2図に示すように文書面A中の文字記載領
域Bを基準位置データ(、、v)、大きさの情報(χ、
y)に従って予想して、その領域Bの画像情報のみを読
込む。この予想文字記載領域Bは住所・宛名等の記載領
域として、書状郵便物の文書面Aに対して、成る程度の
余裕を見込んで定められるものである。しかして、この
ようにして読込まれた領域Bの画像情報(パターンデー
タ)は、一旦走査・ぐターンメモリ2に蓄えられたのち
、その後の処理に供せられる。走査器3は、上記メモリ
2に格納された画像情報を、例えば第3図に示すように
粗い走査線にて走査して、その射影パターンをめている
。この射影パターンは、文字行が存在する部分で濃度レ
ベルが高くなシ、行間においては濃度レベルが低くなる
ことから、これに従って前記領域B中に存在する文字行
C,Dの位置を、それぞれ座標データ(3’−1172
〜ya )として検出することが可能となる。尚、この
射影パターンにおいて明確な濃度レベル変化が認められ
ない場合には、その文字行方向に走査が行われていない
と着像すことができ、この場合には上記走査方向を変え
るようにすればよい。このようにして走査方向を変える
ことによって、縦書きされた文字行、および横書きされ
た文字行をそれぞれ検出することができる。
また前記文字行C,Dの始端位置、および終端位置につ
いては、各走査線上における信号検出位置等として、そ
の座標データ(Xl 、X2〜x4 )をめることがで
きる。
このような文字行C,Dの位置検出については、従来の
文字認識処理において種々提唱されている技術を適宜用
いることができる。
しかして、上記の如く位置検出された文字行C,Dの画
像情報は、圧縮文字行メモリ5に選択的に抽出されて格
納される。仁の際、走査器6の制御を受けて、文字行C
,D−i構成する各文字に対して正規化処理が行われる
。即ち、文字行C,Dを構成する文字は、例えば第4図
および第5図にそれぞれ示すように、一般的には文字と
文字との間の余白が不規則であシ、且つ各文字の大きさ
が様々で不揃いである。そこで、前記メモリ2に格納さ
れた文字行C,Dを為す画像を走査器3にて走査したと
きの情報をコントローラ6に与え、その文字行C,D全
体の篩さく文字幅)■を測定する。この文字幅Vに所定
の係数αを乗じて、各文字間の正規化すべき余白の長さ
αVを設定する。この余白長αVに基づいて、走査器5
は、圧縮文字行メモリ4に対する文字行C,Dの画像の
書込みを制御し、文字量余白長を一定化した圧縮文字行
を得ている。
このとき、文字の大きさについても、後述する処理に適
した成る一定の大きさに正規化する。
これによって文字認識に不要な情報である冗長な余白部
が除去され、且つ文字の大きさが一定化されることにな
る。
この文字行の圧縮による正規化操作は、その文字行が第
4図に示すように漢字を主体とするものであっても、或
いは第5図に示すように片仮名を主体とするものであっ
ても同様に行われる。
しかるのち、複雑度計算回路7は、上記圧縮文字行メモ
リ4に格納された文字行画像を細い走査線にて横走査お
よび縦走査を行い、その走査線と文字線部との交差回数
を販nyとしてそれぞれめている。また同時に、該文字
行の長さ請求めている。これらの情報nz + n y
 + Lに従って、複雑度計算回路7は、その文字行全
体に対する文字線構造の複雑さを、 横方向 ex == nxA 縦方向 ”y =ny/V として計算している。前記交差回数n X l n y
は、文字線構造の複雑さを示すもので、一般に片仮名等
の非漢字に比較して、漢字の方が複雑であシ、漢字の方
が大きな値を示す。しかし、上記交差回数nx、nyは
、文字行全体についてめられたものであるから、その行
を構成する文字数が多い程、大きな値をとる。そこで前
記圧縮によシ正規化した文字列の長さを以って、上記交
差回数を正規化すれば、ここにその文字列を構成する各
文字の平均的な文字線構造の複雑さ力((!z+eyと
してめられることになる。
しかして、このようにしてめられた情報e X l e
 yを総括し、(cX十〇y)なる値を文字構造の複雑
度を示す評価値とする。この評価値は、文字構造が複雑
である程、っまシ横方向については文字構造が簡単であ
るが、縦方向については文字構造が複雑である等の文字
全体に対する複雑度を示すものとなる。従って、この評
価値(cX+ Oy )について成る所定の閾値aに従
って弁別すれば、第6図にその関係を示すように、極め
て簡単にその文字行を構成する文字が漢字であるか、非
漢字であるかを判別することができる。この判別は判定
回路8にょシ行われ、c z + ey > a なる条件で漢字、 CX十cy<a なる条件で非漢字である等として行われる。
文字認識装置本体9は、以上の如くして判別された漢字
、非漢字の情報に従って漢字認識部10a1または非漢
字認識部iobを用い、前記走査パターンメモリ2から
その文字行の画像ノ4ターンを読出して認識処理を実行
する。
このように本装置によれば、文書面上から文字列を切出
し、その文字列の冗長な余白部分全除去し、且つその文
字め大きさく高さ)Vk一定化したのち、横方向および
縦方向の走査による文字線との交差回数n、ny 請求
め、且つこれを文字行の長さLによって正規化している
ので、前記文字行の各文字の平均的な文字構造の複雑さ
を良く反映した評価値ez+(!yTj:得ることがで
きる。そして、その評価値Cx、Cyが、文字種が漢字
であるときには大きな値をとり、非漢字であるときには
小さな値をとることを有効に利用して、前記文字行が漢
字であるか非漢字であるかを簡易に判別することができ
る。そして、この情報に従って、その文字行に対する文
字認識を適応的に行うことを可能々らしめる、ので、極
めて効率良く文字認識を行うことが可能となる。
尚、本発明は上記実施例に限定されるものではない。例
えば文字構造の文字種固有の特性を上述した交差回数以
外の情報からめるようにしてもよい。つ壕シ、その文字
線の画数や、はね等の文字個有の情報全検出するように
してもよい。このよう力文字個有の特徴パターンを検出
するようにすれば、例えばギリシャ文字と英字との識別
等も可能となる。また実施例では評価値としてcx”y
の和をめたが、その荷重和や積等を評価値とすることも
可能である。要するに本発明はその要旨を逸脱しない範
囲で種々変形して実施することが可能である0
【図面の簡単な説明】
第1図は本発明の一実施例装置の概略構成久第2図乃至
第6図は実施例装置の作用を説明する為の図である。 1・・・走査光電変換量子化器、2・・・走査パターン
メモリ、3.5・・・走査器、4・・・圧縮文字列メモ
リ、6・・・コントローラ、7・・・複雑度計算回路、
8・・・判定回路、9・・・文字認識装置本体、10a
・・・漢字認識部、10b・・・非漢字認識部。

Claims (3)

    【特許請求の範囲】
  1. (1)文字が印刷または手書きされた文書面を走査して
    光電変換・量子化する手段と、この量子化された信号中
    からM記文書面上の文字記載領域を抽出する手段と、こ
    の文字記載領域における文字パターンを分析してその文
    字行またはフィールド毎に文字種の判別を行う手段と、
    これらの判別された文字種に従って上記文字行またはフ
    ィールドを形成する各文字をそれぞれ認識処理する手段
    とを具備したことを特徴とする文字認識装置。
  2. (2)文字パターンを分析して文字種の判別を行う手段
    は、文字行またはフィールド毎にその文字行を形成する
    文字の文字種に固有な特性を検出して行うものである特
    許請求の範囲第1項記載の文字認識装置。
  3. (3)文字の文字種に固有々特性は、文字行またはフィ
    ールドにおける文字と文字との間の余白および各文字の
    大きさをそれぞれ正規化したのちに検出されるものであ
    る特許請求の範囲第2項記載の文字認識装置。
JP58223561A 1983-11-28 1983-11-28 文字認識装置 Expired - Lifetime JPH0632070B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58223561A JPH0632070B2 (ja) 1983-11-28 1983-11-28 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58223561A JPH0632070B2 (ja) 1983-11-28 1983-11-28 文字認識装置

Publications (2)

Publication Number Publication Date
JPS60116078A true JPS60116078A (ja) 1985-06-22
JPH0632070B2 JPH0632070B2 (ja) 1994-04-27

Family

ID=16800085

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58223561A Expired - Lifetime JPH0632070B2 (ja) 1983-11-28 1983-11-28 文字認識装置

Country Status (1)

Country Link
JP (1) JPH0632070B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS636687A (ja) * 1986-06-27 1988-01-12 Canon Inc 文字認識装置
JPH022041A (ja) * 1988-06-15 1990-01-08 Sharp Corp 画像処理装置
JPH0296885A (ja) * 1988-10-03 1990-04-09 Ricoh Co Ltd 画像処理装置
JPH02100189A (ja) * 1988-10-07 1990-04-12 Fuji Electric Co Ltd 全角,半角文字の決定方法
JPH05104810A (ja) * 1991-03-28 1993-04-27 Brother Ind Ltd テープ印字装置
KR100658119B1 (ko) * 1998-12-16 2006-12-15 후지쯔 가부시끼가이샤 문자 인식 장치 및 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57157379A (en) * 1981-03-24 1982-09-28 Ricoh Co Ltd Discriminating device of kind of image

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57157379A (en) * 1981-03-24 1982-09-28 Ricoh Co Ltd Discriminating device of kind of image

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS636687A (ja) * 1986-06-27 1988-01-12 Canon Inc 文字認識装置
JPH022041A (ja) * 1988-06-15 1990-01-08 Sharp Corp 画像処理装置
JPH0296885A (ja) * 1988-10-03 1990-04-09 Ricoh Co Ltd 画像処理装置
JPH02100189A (ja) * 1988-10-07 1990-04-12 Fuji Electric Co Ltd 全角,半角文字の決定方法
JPH05104810A (ja) * 1991-03-28 1993-04-27 Brother Ind Ltd テープ印字装置
KR100658119B1 (ko) * 1998-12-16 2006-12-15 후지쯔 가부시끼가이샤 문자 인식 장치 및 방법

Also Published As

Publication number Publication date
JPH0632070B2 (ja) 1994-04-27

Similar Documents

Publication Publication Date Title
JP3453134B2 (ja) 複数の記号ストリングの等価性を判定する方法
JP4607633B2 (ja) 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法
JP3259993B2 (ja) 語形測定方法及び画像信号処理方法
JP4065460B2 (ja) 画像処理方法及び装置
JP3204259B2 (ja) 文字列抽出方法、手書き文字列抽出方法、文字列抽出装置、および画像処理装置
JP4098845B2 (ja) テキストのバイナリー画像から抽出されたシンボルを比較する方法
JPH01253077A (ja) 文字列検出方法
CN106778717A (zh) 一种基于图像识别和k近邻的测评表识别方法
JP3238504B2 (ja) 書類分類方法
CN112364834A (zh) 一种基于深度学习和图像处理的表格识别的还原方法
CN108052955B (zh) 一种高精度盲文识别方法及系统
JPS60116078A (ja) 文字認識装置
JPH04502526A (ja) 像認識
JPH0430070B2 (ja)
CN108062548B (zh) 一种盲文方自适应定位方法及系统
JP3268552B2 (ja) 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置
US20030123730A1 (en) Document recognition system and method using vertical line adjacency graphs
EP0923045A2 (en) Image recognition through localized interpretation
JP2894111B2 (ja) 光学式活字文字認識装置における認識結果の総合判定方式
KR100317653B1 (ko) 대용량인쇄체문자인식을위한특징추출방법
JPH0916715A (ja) 文字認識装置および方法
JPS5949671A (ja) 光学的文字読取装置
JP2918363B2 (ja) 文字分類方法及び文字認識装置
JP2832035B2 (ja) 文字認識装置
JPH0632074B2 (ja) 正規化方法