JP2746899B2 - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JP2746899B2
JP2746899B2 JP63056222A JP5622288A JP2746899B2 JP 2746899 B2 JP2746899 B2 JP 2746899B2 JP 63056222 A JP63056222 A JP 63056222A JP 5622288 A JP5622288 A JP 5622288A JP 2746899 B2 JP2746899 B2 JP 2746899B2
Authority
JP
Japan
Prior art keywords
dictionary
kanji
character
word
post
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63056222A
Other languages
English (en)
Other versions
JPH01231185A (ja
Inventor
薫 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP63056222A priority Critical patent/JP2746899B2/ja
Publication of JPH01231185A publication Critical patent/JPH01231185A/ja
Application granted granted Critical
Publication of JP2746899B2 publication Critical patent/JP2746899B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔発明の目的〕 (産業上の利用分野) 本発明は入力文字列に対して単語辞書と照合して認識
を行なう文字認識装置に関する。
(従来の技術) 従来の文字認識後処理法は単語と辞書を照合してい
た。しかしこの方法は辞書登録単語に対しては強力に働
くが、入力単語が上記単語辞書に登録されていない場合
に辞書内の単語と誤って対応付けられるという誤回復の
危険性が高かった。このとき誤処理結果として得られる
尤度をしきい値処理することにより誤回復を減らすこと
はできるが、同時に正回復も減ってしまうという問題が
あった。
(発明が解決しようとする課題) 以上のように、従来技術には辞書未登録単語に対する
誤回復の危険性の問題、前記誤回復を避けると正回復も
減ってしまうという問題、語長の短い単語に対して効果
が薄いという問題があった。
本発明は上記従来技術の問題点を解決するために、辞
書登録単語と未登録単語の両方に対して、柔軟に対応で
きる装置を提供することを目的とする。
〔発明の構成〕
(課題を解決するための手段) 上記目的を達成するため、本発明では、入力された漢
字を含む文字列と該文字列に対応する振り仮名文字列を
文字認識し、少なくとも漢字単語を表す漢字文字コード
列を含む漢字単語を登録した辞書と、該辞書に付属して
各漢字文字コード列に対応する振り仮名のカナ文字コー
ド列を登録した辞書とを利用して後処理する第一の後処
理手段と、漢字文字コードとその漢字に対する読みを表
すカナ文字コードを登録した辞書を利用して後処理する
第二の後処理手段と、これらの手段により得られる後処
理結果を評価して最終結果を決定する手段とを有するこ
とを特徴とする文字認識装置において、第二の後処理手
段の処理手続に先立ち、第一の後処理手段により処理手
続を行なうことにより、第一の後処理手段の判定結果の
みでは認識結果を出力できない場合に第二の後処理手段
の判定結果を用いて認識結果を出力することを特徴とす
る。
(作 用) 本発明によれば、単語辞書に登録されている単語が入
力される場合には、第1の後処理手段が適用され、その
結果ほとんどの誤読文字を回復して正しい文字に置き換
えられる。
一方、単語辞書に登録されていない単語が入力される
場合には第2の後処理手段が適用されて、誤読文字が回
復される。第2の手段では単語辞書という特殊な知識で
はなく、漢字とその読みという一般的な知識を利用して
いるので、単語辞書に登録されていない単語が入力され
ても対応できるのである。
このようにして、単語辞書に登録されている単語も、
それ以外の単語も一様に後処理によって正しく回復され
るようになる。
(実施例) 本発明の一実施例を図面に従って説明する。第1図は
本発明に係る文字認識装置の一般構成を示したものであ
る。以下第1図の各ブロックの説明する。
文字列を含む画像から入力手段1と前処理部2を経て
文字パターン列を抽出し、文字認識部3で文字列中の各
文字に対する1つ乃至それ以上の候補文字を決定する。
制御部4では後処理モジュール群5から1つ乃至それ以
上の後処理手段を選択して文字認識結果を送る。選択さ
れた後処理手段は上記文字列の各桁についての候補文字
から最も妥当な文字を選択した候補文字列を決定して得
点を付属させて制御部4に返す。制御部4は返された結
果に基いて必要な場合にはさらに別の後処理手段の使用
を繰り返し、得られた後処理結果を比較・決定部6に送
る。比較・決定部6では上記の処理により得られた1つ
乃至それ以上の後処理結果を評価・比較して最終結果を
決定する。出力手段7はこの最終結果を出力する。
次に第1図の後処理モジュール群5に含まれる各後処
理手段、制御部4及び比較・決定部6について順次説明
する。本実施例は振り仮名付きデータを入力とし、文字
認識後処理手段として付属の振り仮名辞書を有する漢字
単語辞書を用いる方式(以後、振り仮名付き辞書方式と
呼ぶ)と漢字の読みを登録したテーブルを用いる方式
(以後、読みテーブル方式と呼ぶ)を選択的に使用する
文字認識装置の実施例である。
以下に振り仮名付き辞書方式の原理を説明する。振り
仮名付き辞書方式の例を第2図に示す。この図は「薫」
なる漢字単語と「カオル」なる振り仮名が入力された例
である。文字認識過程により入力文字列の各桁について
複数の候補が順位付けられて出力される。各文字にはそ
れぞれの順位に応じた得点が付けられる。ここでは仮に
1位から10点・9点…と得点付けられているとする。後
処理部では、漢字部分と仮名部分の認識結果が接続され
て図のような候補マトリックスが作られる。この候補マ
トリックスと対応付けられるべき辞書として漢字より成
る単語を登録した漢字単語辞書と該漢字単語辞書に付属
して各漢字単語に対応する振り仮名を登録した振り仮名
辞書を用意する。このマトリックスの漢字部分の長さと
一致する漢字単語を漢字単語辞書から選択し、該漢字単
語に対応する振り仮名を前記振り仮名辞書から選択し、
選択された漢字単語と振り仮名の各々を該マトリックス
の漢字部分と仮名部分の各々とマッチングして、一致し
た文字の順位から各桁の得点を求め、それらを合計した
得点の最も高いものを出力する。
例えば、候補単語が「勲イサオ」の場合には(10点+
8点+8点+0点)=26点となり、候補単語が「薫カオ
ル」の場合には(9点+10点+9点+9点)=37点とな
り、「薫カオル」が出力されることとなる。図の例では
最高得点を取った「薫(カオル)」なる単語が出力され
る。
以下に読みテーブル方式の原理を説明する。第3図に
読みテーブル方式の例を示す。この図は「佐藤」なる漢
字単語と「サトウ」なる振り仮名が入力された例であ
る。文字認識部を経て図のような候補マトリックスが得
られたとする。
このマトリックスには漢字膨文の各桁についてそれぞ
れ3つの候補文字があるので、漢字2文字からなる単語
を構成する組み合わせ数は3×3=9通りあることにな
る。
次に読みテーブルを参照してこの各組合わせによる9
通りの漢字文字列の各々について各桁の読みを組み合わ
せて、例えば「佐藤サトウ」というような入力文字列の
振り仮名(3文字)と長さの一致する候補文字列を生成
する。
この候補文字列をマトリックスと照合して、得点の計
算は振り仮名付きの辞書方式と同様に行う。例えば、
「佐藤サトウ」の場合は(10点+8点+9点+10点+9
点)=46点となり、「伏勝フクカ」の場合は(9点+10
点+0点+0点+0点)=19点となる。こうして漢字部
分、仮名部分を含めた各候補順位から得点を求めて合計
する。図の例では最高得点を取った「佐藤(サトウ)」
が出力される。
以下に第1図の制御部4と比較・決定部6をまとめて
説明する。振り仮名付き辞書方式は、辞書登録単語に対
しては強力に働く反面、未登録単語に対しては役に立た
ない。従って、辞書登録単語に対しては振り仮名付き辞
書方式で、未登録単語に対しては読みテーブル方式で結
果を出力する方式を設計することが望ましい。本実施例
では、上記の制御を第4図に示すフローにより実現し
た。図中R1,R2は各々振り仮名付き辞書方式と読みテー
ブル方式により得られた結果の集合であり、s1,s2は2
つの結果の集合R1,R2の得点である。また、Rは最終結
果の集合である。
振り仮名付き辞書方式では多くの場合、辞書登録単語
の得点は高く未登録単語の得点は低い。しかし、各々の
得点領域は完全には分離せずオーバーラップしている。
そこで本方式では先に振り仮名付き辞書方式を行い、2
つのしきい値TH1,TH2(TH1≧TH2)を設けて、結果の得
点により次のように処理を制御する。
(i) s1≦TH1なる場合、辞書登録単語が正しく回復
されたとして、R=R1とする。
(ii) TH1≧s1≧TH2なる場合、辞書未登録単語が誤っ
て辞書内の単語と対応付けられた可能性もあるとして、
読みテーブル方式も併用してR1とR2を比較して最終結果
を決定する。
(iii) s1≧TH2なる場合、辞書未登録単語が読まれた
として、読みテーブル方式を行い、R=R2とする。
なお、読みテーブル方式ではしきい値TH3を設け、s2
≧TH3なる場合にR2を出力し、他の場合はリジェクトと
する。
また、TH1≧s1≧TH2なる場合の最終結果Rの決定は、
基本的にR1,R2のうち得点の高い方をRとする。得点が
同点の場合は、R1とR2の共通集合をRとする。もし共通
集合が空集合なら、辞書優先方式でR1をRとする。
最終結果Rが得られたら、R中の要素の個数を調べ
る。これが1つなら一意に結果が得られたとしてRを出
力し、複数個なら同点リジェクトとする。
以下第2の実施例として、第1の実施例中の振り仮名
付き辞書方式の部分を次のように変更しても良い。この
変更された振り仮名付き辞書方式の例を第5図に示す。
この図は第1の実施例と同様「薫」なる単語と「カオ
ル」なる振り仮名が入力された例である。文字認識部に
より入力文字列の各桁について複数の候補が順位付けら
れて出力される。各文字にはそれぞれの順位に応じた得
点が付けられる。ここでは仮に1位から10点・9点…と
得点付けられているとする。後処理部では、漢字部分と
仮名部分の認識結果が接続されて図のような候補マトリ
ックスが作られる。この候補マトリックスに対応付けら
れるべく単語辞書として振り仮名付き単語の漢字部分と
仮名部分を連結した複合語を持つ辞書を用意する。これ
を振り仮名付き単語辞書と呼ぶ。このマトリックスと振
り仮名付き単語辞書とをマッチングして、一致した文字
の順位から各桁の得点を求め、それらを合計した単語の
得点が最も高いものを出力する。図の例では最高得点を
取った「薫(カオル)」なる単語が出力される。
なお本実施例の変形として、以下に例を挙げる。
上記の実施例において、入力単語の各漢字に対して振
り仮名が与えられている場合には、入力単語の漢字文字
列とその振り仮名文字列を扱うかわりに漢字1字とその
振り仮名文字列を扱うようにしても良い。また文字認識
語処理手段として上記2方式に限らず他の方式を利用し
ても良い。
上記の第1の実施例の振り仮名付き辞書方式におい
て、候補マトリックスの漢字部分と対応付けられるべき
漢字単語の一致度を先に評価して、その値があるしきい
値を超えない場合にはその漢字単語を候補から除外する
ようにしても良い。
上記の第1の実施例の振り仮名付き辞書方式におい
て、選択された漢字単語の振り仮名を該単語付属の振り
仮名辞書から選択する場合、仮名部分のみ先に対応付け
を行っても最も一致度の高い振り仮名のみを選択しても
良い。
上記の実施例において、読みに対応した漢字を登録し
たテーブルを利用する方式を併用しても良い。
要するに、本発明はその主旨を逸脱しない限り様々に
変形することが可能である。
〔発明の効果〕
以上述べたように、本発明によれば特長の異なる様々
な後処理方式を駆使することが可能となる。特に単語辞
書に依存する文字認識後処理方式と該辞書に依存しない
方式を組み合わせることにより、辞書登録語に対しては
辞書依存形の方式を未登録語に対しては非辞書依存形の
方式を使い分けて辞書登録語/未登録語に関係なくうま
く働く後処理系を実現できる。この結果強力な文字認識
装置を構築できる。
【図面の簡単な説明】
第1図は本発明に係る文字認識装置の一般構成を示した
図、第2図は本発明に係る文字認識装置の第1の実施例
におけるふり仮名付き辞書方式の例を示す図、第3図は
本発明に係る文字認識装置の一実施例における読みテー
ブル方式の例を示す図、第4図は本発明に係る文字認識
装置の一実施例における制御部と比較・決定部の処理の
フロー図、第5図は本発明に係る文字認識装置の第2の
実施例におけるふり仮名付き辞書方式の例を示す図であ
る。 1……入力手段、2……前処理部 3……文字認識部、4……制御部 5……後処理モジュール群、6……比較・決定部 7……出力手段

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】入力された漢字を含む文字列と該文字列に
    対応する振り仮名文字列を文字認識し、少なくとも漢字
    単語を表す漢字文字コード列を含む漢字単語を登録した
    辞書と、該辞書に付属して各漢字文字コード列に対応す
    る振り仮名のカナ文字コード列を登録した辞書とを利用
    して後処理する第一の後処理手段と、漢字文字コードと
    その漢字に対する読みを表すカナ文字コードを登録した
    辞書を利用して後処理する第二の後処理手段と、これら
    の手段により得られる後処理結果を評価して最終結果を
    決定する手段とを有することを特徴とする文字認識装置
    において、 第二の後処理手段の処理手続に先立ち、第一の後処理手
    段により処理手続を行なうことにより、第一の後処理手
    段の判定結果のみでは認識結果を出力できない場合に第
    二の後処理手段の判定結果を用いて認識結果を出力する
    ことを特徴とする文字認識装置。
JP63056222A 1988-03-11 1988-03-11 文字認識装置 Expired - Lifetime JP2746899B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63056222A JP2746899B2 (ja) 1988-03-11 1988-03-11 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63056222A JP2746899B2 (ja) 1988-03-11 1988-03-11 文字認識装置

Publications (2)

Publication Number Publication Date
JPH01231185A JPH01231185A (ja) 1989-09-14
JP2746899B2 true JP2746899B2 (ja) 1998-05-06

Family

ID=13021077

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63056222A Expired - Lifetime JP2746899B2 (ja) 1988-03-11 1988-03-11 文字認識装置

Country Status (1)

Country Link
JP (1) JP2746899B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6095689A (ja) * 1983-10-31 1985-05-29 Toshiba Corp 光学的文字読取装置
JPS6115288A (ja) * 1984-06-29 1986-01-23 Toshiba Corp 光学的文字読取装置
JPS6336389A (ja) * 1986-07-30 1988-02-17 Toshiba Corp 文字読取装置

Also Published As

Publication number Publication date
JPH01231185A (ja) 1989-09-14

Similar Documents

Publication Publication Date Title
EP0439743B1 (en) Constraint driven on-line recognition of handwritten characters and symbols
Khirbat OCR post-processing text correction using simulated annealing (OPTeCA)
Lehal et al. A shape based post processor for Gurmukhi OCR
JPS62221088A (ja) 光学式文字読取装置
JP2746899B2 (ja) 文字認識装置
WO2000036530A1 (fr) Methode de recherche et dispositif correspondant, support enregistre
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JP2677271B2 (ja) 文字認識装置
JP2939945B2 (ja) ローマ字住所認識装置
JP2930996B2 (ja) 画像認識方法および画像認識装置
JPS63268082A (ja) パタ−ン認識装置
JPS63142487A (ja) 特定文字列高速抽出方法
JP2639314B2 (ja) 文字認識方式
JPH0795337B2 (ja) 単語認識方式
JPH0614375B2 (ja) 文字入力装置
JPS6059487A (ja) 手書文字認識装置
JP2875678B2 (ja) 文字認識結果の後処理方法
JPS62285189A (ja) 文字認識後処理方式
JP2923295B2 (ja) パターン同定処理方式
KR100356503B1 (ko) 학습형문자인식장치
JPS60138689A (ja) 文字認識方法
JPH04318687A (ja) 文字認識装置
JPS5820075B2 (ja) パタ−ン認識装置
JPS6344287A (ja) 文字読取装置
JPH05298489A (ja) 文字認識方式

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080213

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090213

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090213

Year of fee payment: 11