JPH04318687A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH04318687A
JPH04318687A JP3085365A JP8536591A JPH04318687A JP H04318687 A JPH04318687 A JP H04318687A JP 3085365 A JP3085365 A JP 3085365A JP 8536591 A JP8536591 A JP 8536591A JP H04318687 A JPH04318687 A JP H04318687A
Authority
JP
Japan
Prior art keywords
character
similar
characters
dissimilar
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3085365A
Other languages
English (en)
Inventor
Katsumi Futagawa
二川 克美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Group Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP3085365A priority Critical patent/JPH04318687A/ja
Publication of JPH04318687A publication Critical patent/JPH04318687A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字認識装置に関し、
特に、英字、数字、カナ、記号等の複数の字種が混在す
る文字列を認識するために好適な文字認識装置に関する
ものである。
【0002】
【従来の技術】従来の文字認識装置は、イメージ情報と
して切り出された文字パターンを英字、数字、カナ、記
号に対応した4種類の辞書と照合し、それぞれの辞書か
ら該文字パターンに最も近い文字コードと、該文字コー
ドの確からしさを出力するものである。この文字認識装
置では、英字、数字、カナ、記号等のいづれかを使用す
る単一字種を対象とした文字認識では、高い認識が得ら
れている。
【0003】
【発明が解決しようとする課題】しかし、前記従来の文
字認識装置では、商品コード、住所フリガナのように複
数の字種を扱う認識において高認識率を得るのは難しい
。その理由は、『ソ』と『リ』の様に単一字種内での類
似性の高い文字による誤認識ばかりでなく、『1』と『
ノ』、『7』と『ク』の様に字種間で類似性の高い文字
による誤認識が加わり、認識率を低下させる原因となっ
ている。
【0004】複数字種を認識する場合、次の2つの方法
が考えられる。
【0005】■.複数字種混在専用の辞書を作成する方
法 ■.字種ごとに単一辞書として認識し、各字種の候補の
中から選択する方法 前記■.の方法では、上記の同一字種内及び多字種間の
類似文字による原因は解決されておらず、認識対象のカ
テゴリ数が多くなる分、高い認識率は望めない。■.で
は、各字種の候補は、単一辞書を使用したものであるた
め、英字、数字、カナ、記号のいづれかの文字コード内
に正解となる文字コードが存在する確率は高いが、候補
の中から正解とする文字コードを選択する有効的な方法
がなく、単一辞書ごとの高い認識率を活かしきれていな
いのが現状である。
【0006】本発明の目的は、各字種の辞書からの候補
の中に正しい解が得られている状況下で、単一字種内及
び多字種間での類似文字に影響されずに文字種を判別し
、正しい文字コードを出力することができる技術を提供
することにある。
【0007】
【課題を解決するための手段】上記目的を達成するため
に、本発明においては、イメージ情報として切り出され
た文字パターンを英字、数字、カナ、記号に対応した4
種類の辞書と照合し、それぞれの辞書から該文字パター
ンに最も近い文字コードと、該文字コードの確からしさ
を出力する文字認識装置において、複数個の文字からな
る文字列を英字、数字、カナ、記号として認識して得ら
れる文字コード列からキーワードを検出するキーワード
検出手段と、該文字列の中から類似文字と非類似文字を
判定し、非類似文字に対する文字コードを識別する非類
似文字判定手段と、該非類似文字判定手段で識別不能と
なった類似文字に対応する文字コードを識別する類似文
字判定手段と、該類似文字判定手段と前記非類似判定手
段の出力結果に基づいて文字コード列を再構成する文字
列構成手段を備えたことを最も主要な特徴とする。
【0008】
【作用】上記の手段によれば、複数個の文字からなる文
字列を英字、数字、カナ、記号として認識して得られる
文字コード列からキーワードを検出し、該文字列の中か
ら類似文字と非類似文字を判定し、非類似文字に対する
文字コードを識別し、識別不能となった類似文字に対応
する文字コードを識別し、その結果に基づいて文字コー
ド列を再構成するので、認識率の低下の原因である類似
文字によって誤認識及びリジェクトの発生を抑えること
が可能となり、正しい文字コードを出力することができ
る。
【0009】
【実施例】以下、本発明の実施例を図面を用いて詳細に
説明する。
【0010】図1は、本発明の一実施例の文字認識装置
の概略機能構成を示すブロック図、図2は、本実施例の
文字認識装置を適用した情報処理装置の概略構成を示す
ブロック図である。
【0011】本実施例の文字認識装置を適用した情報処
理装置は、図2に示すように、文字画像を入力するため
のイメージリーダ等からなる入力装置1、該入力装置1
からの情報を種々処理する処理装置2、文字画像,各種
データ,辞書等を格納するファイル装置3、処理結果を
出力する出力装置4を備えている。
【0012】本実施例の文字認識装置は、前記処理装置
2の中に内蔵され、図1に示すように、文字画像入力部
21、文字認識部22、処理部23を備えている。
【0013】処理部23は、キーワード検出部23A、
非類似文字判定部23B、類似文字判定部23C、文字
列構成部23Dを備えている。同図1では主メモリ、制
御部は、省略している。
【0014】図1において、矢印は制御およびデータの
流れを示す。本実施例では、本発明を、住所フリガナに
適用した例を示す。
【0015】文字画像入力部21は、住所フリガナを手
書きした文字画像を入力装置1により読み取られた文字
パターンを処理装置2に入力する。その例を図4に示す
【0016】文字認識部22は、前記文字画像入力部2
1で入力された任意の文字に対して各辞書に対応する4
つの文字コードおよびその文字コードの確からしさを出
力する。
【0017】処理部23のキーワード検出部23Aは、
図3に示すように、住所フリガナにおけるキーワードと
、そのキーワードに関する付随情報(例えば、数字位置
、数字の最大長、キーワードパターン等)を格納し、文
字認識部22から得られた文字コード列と登録されてい
るキーワードパターンとの文字列照合によりキーワード
候補を検出する。その検出を図5に示す。前記図3内の
キーワードパターンの*は任意の文字コードを示し、キ
ーワードの意味的特徴を消失しない範囲で自由度をもた
せることによって単一辞書内での誤認識、リジェクトが
存在してもキーワードを検出することが可能である。
【0018】図5内の下線で示すように、文字コード列
から登録されているキーワード候補『チヨウメ』、『バ
ンチ』を検出し、検出されたキーワード候補の中から数
字の制約条件『数字位置』、『数字の最大長』を満たす
ものをキーワードとする。
【0019】非類似文字判定部23Bは、入力文字列の
任意の文字に対して類似文字か非類似文字かを判定する
。前記文字認識部22は、任意の文字に対して各辞書に
対応する4つの文字コードおよびその文字コードの確か
らしさを出力するが、該非類似文字判定部23Bは、そ
の確からしさを使用し、ある文字コードの確からしさが
他の文字コードの確からしさに比べ優位性がある場合、
他の文字種と類似性が低いとし、非類似文字と判定する
。その判定結果を図6に示す。
【0020】図6内の網掛けは、非類似文字判定部23
Bによって非類似文字と判定された文字を示す。
【0021】類似文字判定部23Cは、非類似文字判定
部23Bで残された類似文字を判定するために、以下の
キーワードと文字コードの関係を規定する規則を適用し
、類似文字の字種を判定する。図7内の中抜き文字が類
似文字判定部23Cで判定した文字を示す。
【0022】(規則1)もし、類似文字がキーワード内
の文字ならば、字種をキーワード内の文字の字種とする
【0023】(規則2)もし、類似文字が前方に数字を
持つキーワードの範囲内にあり、かつ、類似文字がキー
ワード直前ならば、字種を数字とする。
【0024】(規則3)もし、類似文字が前方に数字を
持つキーワードの範囲内にあり、かつ、類似文字の直前
の文字が「数字」ならば、字種を数字とする。
【0025】(規則4)もし、規則3で判別不可能、か
つ、類似文字の直前の文字が「数字」でないならば、字
種を最大の確からしさを持つ字種とする。
【0026】(規則5)もし、類似文字が後方に数字を
持つキーワードの範囲内にあり、かつ、類似文字がキー
ワード直後ならば、字種を数字とする。
【0027】(規則6)もし、類似文字が後方に数字を
持つキーワードの範囲内にあり、かつ、類似文字の直後
の文字が「数字」ならば、字種を数字とする。
【0028】(規則7)もし、規則7で判別不可能、か
つ、類似文字の直後の文字が「数字」でないならば、字
種を最大の確からしさを持つ字種とする。
【0029】(規則8)もし、類似文字がキーワードの
持つ数字の制約範囲外にあり、かつ、類似文字の直前の
文字が「カナ」ならば、字種を「カナ」とする。
【0030】(規則9)もし、上記の規則において判別
できない文字ならば、字種を最大の確からしさを持つ字
種とする。
【0031】非類似文字判定部33で判定されなかった
類似文字、例えば、図6で、2,8,10,11,15
,17,21,22,26について、上記規則を適用す
る。文字位置2、8、10、11の文字では規則8を、
文字位置15、22では規則2を、文字位置17、26
では規則1を、文字位置21では規則3をそれぞれ適用
する。
【0032】文字列構成部23Dは、非類似文字判定部
23Bと類似文字判定部23Cで判定した結果に従い文
字コード列を再構成する。図8に示すように、単に最大
の確からしさを認識と結果する場合は、類似文字により
誤認識、リジェクト文字の存在の数を減少することがで
きる。
【0033】以上の説明からわかるように、各字種の候
補には正常の認識が得られているにもかかわらず、文字
の持つ特徴や書き方において類似性の高い文字は、判定
が曖昧であり認識率を下げる要因となっていたが、本実
施例によれば、多字種間での類似文字による誤認識を削
減し、本来認識されるべき文字種の判定を行うことがで
きる。また、判定した文字種にしたがって該当する文字
コードを選択することによって文字認識装置への入力文
字列に対応する正しい文字列を構成することができる。
【0034】以上、本発明を実施例に基づき具体的に説
明したが、本発明は、前記実施例に限定されることなく
、その要旨を逸脱しない範囲において、種々変更し得る
ことはいうまでもない。
【0035】
【発明の効果】以上、説明したように、本発明によれば
、多字種間での類似文字による誤認識を削減し、本来認
識されるべき文字種の判定を行うことができる。また、
判定した文字種にしたがって該当する文字コードを選択
することによって文字認識装置への入力文字列に対応す
る正しい文字列を構成することが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施例の文字認識装置の概略機能構
成を示すブロック図。
【図2】本実施例の文字認識装置を適用した情報処理装
置の概略構成を示すブロック図。
【図3】本実施例の住所フリガナを処理対象とした場合
のキーワード情報を説明するための図。
【図4】本実施例で用いた住所フリガナの入力例を説明
するための図。
【図5】本実施例のキーワード検出結果を説明するため
の図。
【図6】本実施例の非類似文字判定部の識別結果を説明
するための図。
【図7】本実施例の類似文字判定部の識別結果を説明す
るための図。
【図8】本実施例の文字認識装置の効果を説明するため
の図。
【符号の説明】
1…入力装置、2…処理装置、3…ファイル装置、4…
出力装置、21…文字画像入力部、22…文字認識部、
23…処理部、23A…キーワード検出部、23B…非
類似文字判定部、23C…類似文字判定部、23D…文
字列構成部。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】  イメージ情報として切り出された文字
    パターンを英字、数字、カナ、記号に対応した4種類の
    辞書と照合し、それぞれの辞書から該文字パターンに最
    も近い文字コードと、該文字コードの確からしさを出力
    する文字認識装置において、複数個の文字からなる文字
    列を英字、数字、カナ、記号として認識して得られる文
    字コード列からキーワードを検出するキーワード検出手
    段と、該文字列の中から類似文字と非類似文字を判定し
    、非類似文字に対する文字コードを識別する非類似文字
    判定手段と、該非類似文字判定手段で識別不能となった
    類似文字に対応する文字コードを識別する類似文字判定
    手段と、該類似文字判定手段と前記非類似判定手段の出
    力結果に基づいて文字コード列を再構成する文字列構成
    手段を備えたことを特徴とする文字認識装置。
JP3085365A 1991-04-17 1991-04-17 文字認識装置 Pending JPH04318687A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3085365A JPH04318687A (ja) 1991-04-17 1991-04-17 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3085365A JPH04318687A (ja) 1991-04-17 1991-04-17 文字認識装置

Publications (1)

Publication Number Publication Date
JPH04318687A true JPH04318687A (ja) 1992-11-10

Family

ID=13856692

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3085365A Pending JPH04318687A (ja) 1991-04-17 1991-04-17 文字認識装置

Country Status (1)

Country Link
JP (1) JPH04318687A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH076212A (ja) * 1993-06-21 1995-01-10 Nec Corp 光学文字読取装置の知識処理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH076212A (ja) * 1993-06-21 1995-01-10 Nec Corp 光学文字読取装置の知識処理装置

Similar Documents

Publication Publication Date Title
US9875254B2 (en) Method for searching for, recognizing and locating a term in ink, and a corresponding device, program and language
US5161245A (en) Pattern recognition system having inter-pattern spacing correction
JP2000353215A (ja) 文字認識装置および文字認識プログラムを記録した記録媒体
JPS6262387B2 (ja)
Gilloux et al. Strategies for handwritten words recognition using hidden Markov models
JPS5854433B2 (ja) 相違度検出装置
WO2000036530A1 (fr) Methode de recherche et dispositif correspondant, support enregistre
CN108564086A (zh) 一种字符串的识别校验方法及装置
JPH04318687A (ja) 文字認識装置
JP7338158B2 (ja) 情報処理装置及びプログラム
JPS6239793B2 (ja)
JPS6262388B2 (ja)
JP3151866B2 (ja) 英文字認識方法
JPS6083185A (ja) オンライン文字認識方式
JPH0944604A (ja) 文字認識処理方法
JPS646514B2 (ja)
JPH11120294A (ja) 文字認識装置および媒体
JPH08249427A (ja) 文字認識方法および装置
JPS60138689A (ja) 文字認識方法
JP2746899B2 (ja) 文字認識装置
JP2851102B2 (ja) 文字切出し方法
JPH056464A (ja) 文字列認識方法及びその装置
JPH0546806A (ja) 文字認識方法
JPH0614375B2 (ja) 文字入力装置
JPH0255825B2 (ja)