JPS60110089A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPS60110089A
JPS60110089A JP58219029A JP21902983A JPS60110089A JP S60110089 A JPS60110089 A JP S60110089A JP 58219029 A JP58219029 A JP 58219029A JP 21902983 A JP21902983 A JP 21902983A JP S60110089 A JPS60110089 A JP S60110089A
Authority
JP
Japan
Prior art keywords
character
kanji
hanks
recognition
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58219029A
Other languages
English (en)
Inventor
Hideaki Ueda
上田 秀明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, Nippon Electric Co Ltd filed Critical NEC Corp
Priority to JP58219029A priority Critical patent/JPS60110089A/ja
Publication of JPS60110089A publication Critical patent/JPS60110089A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は文字認識装置に関し、特に日本語文書を入力す
るだめの光学的文字認識装置(以下OCRと称す)−に
関するものである。
従来、日本語文書を入力する方式としては、漢字タブレ
ット、漢字キーボードによる入力方式、カナ漢字変換方
式、連想方式、オンライン認識入力方式等がある。この
丙、前者の3方式はその操作法に習熟するのに数10時
間以上の訓練が必要であり、入力速度は数10〜150
字/分程度である。またオンライン認識入力方式は、訓
練はほとんど不要であるが、入力速度は30字/分程度
が限界である。
このため、装置に習熟するための訓練も必要とせず、入
力速度が1000字/分以上が見込まれる日本語入力O
CRの開発が望まれている。しかし日本語入力OCRは
従来のOCR,と比較して認識対象文字が約20倍以上
になるため、従来のOCRと同程度の認識精度のOCR
を構築でき外かった。また新しく開発された漢字認識方
式で、ひらがな、英字、数字、カナ文字、記号(以下H
ANK8と略記する)を認識すると、従来のHANKS
認識方式で認識した場合と比較して認識精度が低下する
傾向がある、 本発明の目的は、従来のOCRが認識対象としていた文
字種(HANKS)の認識精度を保持しつつ日本語文書
入力用OCRで新たに認識対象とする漢字の認識精度も
、T(A N K S文字上同程度の特性を有する日本
語文書入力用OCRを提供することである。
本発明によれば、日本語文書中の各文字について、まず
、パターンの複雑度を検出し、該複雑度によってI−T
 A N K S認識方式か漢字認識方式かのいずれか
の認識方式に決定し、該方式による特徴を夫々抽出する
特命抽出手段の1方を択一的に起動活性化せしめ、該特
徴抽出手段によって得る特徴とあらかじめ登録している
HANKS辞書または漢字辞書の(・ずれかの辞書とを
照合し出力カテゴリを決定する判定手段を有することで
、漢字認識方式で全文字種のパターンを認識する場合に
比較して、HANKS文字の認識精度の高い日本語文書
入力用OCRを得ることができる。
以下に図面を用いて本発明を説明する。
第1図は不発の一実施例のブロック図である。
以下このブロック図の動作について説明する。原画]は
、光電変換手段2によって原画1の濃淡に応じて電気信
号に変換される。A/D変換手段3は光電、変換手段2
の出力である電気信号をディジタル信号に変じて画像メ
モリ手段4に格納する。
文字切出し手段5は画像メモリ手段4がら1文字毎にパ
ターンを切出し、入カバターンメモリ手段6に格納する
。複雑度抽出手段7は入カバターンメモリ手段6に格納
されているパターンの複雑度を抽出し、該複雑度を認識
方式決定手段8に出力する。認識方式決定手段8はある
閾値を持ち、該閾値によってHANKS認識方式かまた
は漢字認識方式かを決定し、HA N K S認識方式
で入カバターンを認識する場合はHANKS%徴抽出手
段9を起動せしめる信号を出力し、漢字認識方式で入カ
バターンを認識する場合は漢字特徴抽出手段IOを起動
せしめる信号を出力する。HANK8特徴抽出手段9は
入カバターンメモリ手段6に格納されている入カバター
ンからHANKS認識に必要カ特徴を抽出し、判定手段
11に出力する。
漢字特徴抽出手段10は漢字認識に必要ガ特徴を抽出し
1判定十段11に出力する。判定手段11はHANK8
特徴抽出手段9または漢字特徴抽出手段10から出力さ
れる特徴によって起動され、該入力特徴がHANKS特
徴の場合はHANKS辞書12と照合して入カバターン
のカテゴリ名を決定し出力し、該入力%像が漢字特徴の
場合は漢字辞書13と照合して入カバターンのカテゴリ
名を決定し出力する。
ここで具体的な日本語文書を例にして動作を説明する。
第2図を原画1とすると、光電変換手段2によって電気
信号に変換され、A/D変換手段3によってディジタル
信号に変換された後、画像メモリ手段4に格納される。
文字切出し手段5は画像メモリ手段4より、最初にIf
 %i nの文字ノくターンを切出して、入カバターン
メモリ手段6に格納する。複雑度抽出手段7は入カバタ
ーンメモリ手段6に格納された文字パターン”簡”の複
雑度を検出し、認識力式決定手段8に出力する。複雑度
は例えば第3図のビ)、(ロ)の例のように、漢字がH
A N K Sに比較して、縦、横、斜めの線分が多く
、入力文字パターンを囲む矩形の中で白地の占める割合
が低いことに着目して、 「複雑度−文字を囲む矩形内の白地の面積」と定義して
もよい。
じたがって、この場合複雑度抽出手段7は文字を囲む矩
形内の白地の面積を抽出して認識方式決定手段8に出力
する。認識力式決定手段8Fi入力文字パターン11簡
11の白地の面積(複雑度)をあらかじめ設定されてい
る閾値と比較し、桧雑な文字パターンであることを確定
して漢字%像抽出手段を起動する。漢字%像抽出手段l
Oは入カッくターンメモリ手段6に格納されている11
簡・11の文字パターンから漢字認識に必要ガ特徴を抽
出し、判定手段11に出力する。判定手段11は抽出さ
れたI 濯j I+の文字パターンの特徴と漢字辞書1
3を一照合して、最も照合度の高いカテゴリ名を出力す
る。
次に切出される文字11単0も同様に処理される。
n単11の文字の次に″表6が画像メモリ手段4から、
文字切出し手段5によって切出されて、入カバターンメ
モリ手段6に格納されると、前記の2文字の場合と同様
に複雑度抽出手段7によって文字を囲む矩形内の白地の
面積(′0雑度)を抽出して認識方式決定手段8に出力
する。認識方式決定手段8は入力文字パターン−一の複
雑度をあらかじめ設定されている閾値と比較して、複雑
でカイ文字パターンであることを確定して、1−IAN
KS特徴抽出手段9を起動する。HANKS特徴抽出手
段9は入カバターンメモリ手段6に格納されている鶴な
11の文字パターンからHANKS認識に必要な特徴を
抽出し、判定手段11に出力する。
判定手段l]は抽出された11力“の文字パターンの特
徴とHANKS辞書12を照合して最も照合度の高いカ
テゴリ名を出力する 以下、その後に記入されて(・る”操胃以後の文字パタ
ーンにつ(・ても同様の処理が実施される。
斜上の如く、本発明によれば、日本語文書に起される文
字を、文字パターンの複雑度によってHANKS認識方
式か又は湧字認識方式かに分類して特徴を抽出し認識す
るようにしているので。
HANK8文字に対し高い認識精度を有する日本語文書
入力用OCRを構桑し得ることになる、尚、本発明は前
述の実施例に限定されるものではなく、文字パターンの
複雑度については、例えば文字パターンを栴成する線分
数の大小、線文により囲 される白地の領域の数の大小
等を使用して判定しても良く、更には、これら複雑度の
判定方式を複数組合せても良(・ものである1、
【図面の簡単な説明】
第1図は本発明の実施例のブロック図、裁2図は具体的
な日本語文書入力例を示す図、第3図は文字パターンの
複雑度を説明する図である7、主要部分の符号の説明 5・・・・・・文字切り出し手段、6・・・・・・入カ
バターンモリ手段、7・・・・・・:?v雑度抽出手段
、8・・・・・・認識方式決定手段、9・・・・・・H
kNKS%9抽出手段、10・・・・・・漢字%徴抽出
手段、11・・・・・・判定手段、12・・・・・・I
(A N K S i書、13・・・・・・漢字辞書昏
/図 擬/ソ 第づ図

Claims (1)

    【特許請求の範囲】
  1. 漢字の特徴を抽出する第1の特徴抽出手段と、漢字以外
    の残余の文字、記号の特徴を抽出する第2の特徴抽出手
    段と、各入カバターンの複雑度に応じて文字認識方式を
    夫々決定して前記第1及び第2の特徴抽出手段の1方を
    択一的に活性化する認識方式決定手段と、予め漢字登録
    された第1の辞書手段と、予め漢字以外の残余の文字、
    記号登録された第2の辞書手段と、前記第1及び第2の
    特徴抽出手段による各特徴と前記第1及び第2の辞書手
    段の各内容とを夫々照合して出力カテゴリ名を決定する
    判定手段とを有することを特徴とする文字認識装置。
JP58219029A 1983-11-21 1983-11-21 文字認識装置 Pending JPS60110089A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58219029A JPS60110089A (ja) 1983-11-21 1983-11-21 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58219029A JPS60110089A (ja) 1983-11-21 1983-11-21 文字認識装置

Publications (1)

Publication Number Publication Date
JPS60110089A true JPS60110089A (ja) 1985-06-15

Family

ID=16729134

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58219029A Pending JPS60110089A (ja) 1983-11-21 1983-11-21 文字認識装置

Country Status (1)

Country Link
JP (1) JPS60110089A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6222186A (ja) * 1985-07-22 1987-01-30 Toshiba Corp 図面読取り装置
JP2014203339A (ja) * 2013-04-08 2014-10-27 京セラドキュメントソリューションズ株式会社 画像処理装置、画像形成装置、及び画像処理プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6222186A (ja) * 1985-07-22 1987-01-30 Toshiba Corp 図面読取り装置
JPH0586585B2 (ja) * 1985-07-22 1993-12-13 Tokyo Shibaura Electric Co
JP2014203339A (ja) * 2013-04-08 2014-10-27 京セラドキュメントソリューションズ株式会社 画像処理装置、画像形成装置、及び画像処理プログラム

Similar Documents

Publication Publication Date Title
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
JP2713622B2 (ja) 表形式文書読取装置
JPS62221088A (ja) 光学式文字読取装置
JPS58103075A (ja) 文字読取装置
JPS60110089A (ja) 文字認識装置
JPS6120180A (ja) 光学的文字認識装置
JPS592191A (ja) 手書き日本語文の認識処理方式
Zia et al. A Novel Procedure for Font Recognition through Deep Learning
JPS59158482A (ja) 文字認識装置
JPS6336389A (ja) 文字読取装置
JP2894111B2 (ja) 光学式活字文字認識装置における認識結果の総合判定方式
JPS6146573A (ja) 文字認識装置
JP2985243B2 (ja) 文字認識方法
KR100210492B1 (ko) 영문 접촉문자 분리기능을 개선한 문서 인식장치 및 그 방법
JPS6160189A (ja) 光学的文字読取装置
JP2746345B2 (ja) 文字認識の後処理方法
JPS61114388A (ja) 文字入力装置
JP2995825B2 (ja) 日本語文字認識装置
Gorgevik et al. Word candidate generation in cyrillic OCR based on ALN classifiers
JP2972443B2 (ja) 文字認識装置
JPH10319939A (ja) 文字フォント作成装置
JPH07104911B2 (ja) パタ−ン認識装置
JPS60160481A (ja) 文字読取装置
JPS6318483A (ja) 光学的情報入力装置用文字認識方法
Thakur et al. Offline Recognition of Image for content Based Retrieval