JPH0632090B2 - パタ−ン認識装置 - Google Patents

パタ−ン認識装置

Info

Publication number
JPH0632090B2
JPH0632090B2 JP60247043A JP24704385A JPH0632090B2 JP H0632090 B2 JPH0632090 B2 JP H0632090B2 JP 60247043 A JP60247043 A JP 60247043A JP 24704385 A JP24704385 A JP 24704385A JP H0632090 B2 JPH0632090 B2 JP H0632090B2
Authority
JP
Japan
Prior art keywords
pattern
recognition
word
candidate
word length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60247043A
Other languages
English (en)
Other versions
JPS62107390A (ja
Inventor
修 国崎
彰三 門田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP60247043A priority Critical patent/JPH0632090B2/ja
Publication of JPS62107390A publication Critical patent/JPS62107390A/ja
Publication of JPH0632090B2 publication Critical patent/JPH0632090B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明はパターン認識装置に係り、特に文字または音声
を対象とし、単語辞書を用いた照合を併用する方式にお
ける性能向上に好適なパターン認識装置に関する。
〔発明の背景〕
従来より、文字または音声を対象としたパターン認識装
置において、最終的な認識性能を向上するため、対象と
する単語の情報を格納した単語辞書を併用する方式が用
いられている。(特開昭58−39378公報)すなわち、入
力パターンと標準パターンとの整合による認識性能の不
確実性を、対象とする単語を限定し、文字系列としての
情報を援用することにより、解消するものである。
しかしながら、従来の方法では単語辞書に格納されてい
る単語は全て均等に扱われており、単語あたりの冗長度
を考慮していないため、例えば単語長1の場合には、パ
ターン認識結果が誤りの場合の訂正能力が低く、誤り率
が高くなるという欠点があった。
単語長が1でなく、仮に単語長が3であるとして、その
場合の例として「日本語」なるパターンの認識対象とす
る場合を考えると、認識結果が「目本語」が第1位、
「日本語」が第2位と出ても、単語辞書には「日本語」
しか登録されておらず、「目本語」のような本来、意味
不明な文は登録されていないので、単語辞書を参照する
ことにより、認識結果の誤り訂正が可能となる。
これに対し、単語長が1の場合には、単語辞書に単語長
1の単語が複数個登録されていると、認識結果が第1位
にAという単語(長さ1)、第2位にBという単語とな
ってBが正解の場合、もし単語Aが単語辞書に登録され
ておれば、単語Aがそのまま答として出力され、誤り訂
正の機能はなく、誤った結果となる。もし単語Aが単語
辞書に登録されていなければ、第2位の単語Bが答とし
て正しく出力される。この場合でも正解が第3位以下の
場合は誤りとなる。このように、単語長が1の場合には
特に単語としての冗長性がないため、パターン認識の性
能に大きく影響され、誤り率が大きくなり、修正の手間
が大きくなるといった欠点があった。
〔発明の目的〕
本発明の目的は、認識結果の性能向上を単語照合によっ
て行うパターン認識において、単語長に依存して誤り訂
正能力が低下することを防ぎ、全体的な誤り修正の手間
を減少するに好適なパターン認識方式を提供することに
ある。
〔発明の概要〕
本発明の概要を、以後、対象を文字認識に限定して説明
する。なお、対象を音声とした場合も、認識対象が異な
るのみで、原理的には適用可能である。
第1図は本発明の原理を示している。すなわち張票に書
かれた文字をスキャナで入力し、1文字毎の文字パター
ンに切り出したものの系列を入力パターンと呼ぶ。この
入力パターンはパターン認識部1において順次、標準パ
ターンと整合を行い、複数候補系列を出力する。得られ
た複数候補系列に対し、入力パターンの文字数、すなわ
ち入力単語長をチェック部2においてチェックし、予め
設定した単語長に関する条件(具体的には単語長が1で
あるか否か)に合致するか否かを調べる。条件に合致し
た場合には、つまり単語長が1のときには候補系列に対
して、書換え規則を適用して、修正部3で異なる候補系
列を作成し、認識結果を修正する。ここで書換え規則と
いうのは、パターン認識部1の誤認識の傾向(例えば、
日が正しいのに、何時も目と誤認識する)を予め調べて
おき、それを修正するように作った規則(例えばパター
ン認識部1で目と認識したら、それは日に修正するとい
う規則)のことである。一方、条件に合致しない場合、
つまり単語長が2以上の場合には、複数候補系列に対し
て、単語照合部4で単語辞書との照合を行い、単語候補
を作成する。このようにして得られた単語候補に対し
て、候補選択修正部5において結果をオペレータに呈示
し、必要な文字または単語に対しては予め候補を表示し
て選択させるようにし、またオペレータの要求に従っ
て、文字または単語の候補を表示して選択させるか、ま
たは仮名漢字変換等の手段で、文字または単語を修正さ
せて、最終的な単語としての答を出力する。
第2図はパターン認識結果の複数候補系列の例を示して
いる。すなわち、入力パターンとして「日本語」という
単語が入力されたとし、認識結果として、図に示すよう
に複数の候補が、すなわち日に対しては4通り、本に対
しては3通り、語に対しては2通りの候補が第1位乃至
第4位の順位をもって出力された場合を示している。こ
の例では丸で囲んだ候補文字が正解であり、単語照合に
おいて例えば候補順位を距離として、単語辞書中の正解
単語との間で0+1+1=2の距離で整合する。この例
のように単語長が3の単語では、候補系列に出てくる文
字の組合せの単語は一般に少なく、この例では単語辞書
の中に「日本語」しか存在しないから正解に達すること
ができる。
一方、第3図に示すように入力パターンの単語長が1の
場合には、(a)の例のように正解が第1位の候補の場合
はそのまま答となるが、(b)の例のように正解が第2位
候補となった場合で、単語辞書に第1位候補の「男」が
存在すると、そのまま答となり、誤り訂正の機能がない
ので誤りが生ずる。また第3図(c)の場合には、第1位
の候補が単語辞書に登録されていないため、自動的に第
2位の候補「男」が答となり、(b)の場合と同様に誤り
を生ずる。この例のように、単語長が1の場合には冗長
性がないため、単語照合によるメリットがない。すなわ
ち、単語辞書に登録してあり、認識結果の順位が高い単
語が自動的に答となり、パターン認識の性能が悪いと、
そのまま誤りが発生する可能性がある。
なお、一般語,姓名,地名など約34000単語の分析によ
れば、単語長1の単語が約6%、単語長2の単語、単語
長3の単語がそれぞれ85%,9%であり、単語長4以
上の単語はほとんど存在していないことが知られてい
る。
したがって、単語長1の場合には単語照合をせず、例え
ば認識性能の統計的性質から決定した以下の書換え規
則、つまりパターン認識手段の誤認識のくせを調べてそ
れを修正するように作った規則を適用することにより、
正解が第1位となる。
勇男単→勇男単 (1) 男勇単→勇男単 (2) 単男勇→勇男単 (3) 上記の規則は、「勇男単」と認識結果が出たら、そのま
ま「勇男単」とするというのが第1の規則であり、「男
勇単」と出たら「勇男単」に修正するというのが第2の
規則であり、「単男勇」と出たら「勇男単」に修正する
というのが第3の規則である。
以上説明したように、本発明は単語長が1の場合には単
語照合をしないためこれらの単語辞書は不要であり、代
りに書換え規則を用いて認識結果を修正するため、単語
照合の弊害を解消することが出来ることに特徴がある。
〔発明の実施例〕
以下、本発明を実施例により詳細に説明する。第4図
は、本発明の一実施例を示すブロック図である。全体の
制御は制御部100で行われ、これは通常のマイクロコ
ンピュータにより実現される。まず入力された文字パタ
ーンは、観測部10において観測され、スキャナによっ
てディジタルパターンに変換され、単語単位で文字切出
し、正規化など文字認識に必要な前処理が施される。1
文字毎に切り出された文字パターン系列11は順次認識
部20に入る。ここでは認識に使用する特徴が抽出され
た後、標準特徴パターン辞書25との整合および判定を
行う。これまでの処理は公知の技術で実現可能である。
文字認識の結果、複数候補文字系列21が得られ、単語
長チェック部30に入る。ここでは入力単語長をチェッ
クし、予め与えられた条件に合致するか否かを調べる。
条件に合致する場合には、複数候補文字系列31を認識
結果修正部50に入力する。ここでは複数文字候補系列
31の各文字候補の順序情報に関して、書換え規則のリ
スト55の中から合致するものがあるかをチェックし、
合致するものがある場合には規則に従って認識結果を書
き換え、新しい複数文字候補系列51を得る。
一方、単語長チェック部30にて、条件に合致しなかっ
た場合には、複数文字候補系列32を単語照合部40に
入力する。ここでは複数文字候補系列32と単語辞書4
5との間で、例えば候補順位を距離として用いて照合を
行い、最も距離の小さい単語から順にソートしておき、
第1位単語からの距離差が予め設定した値以下のものを
候補単語41として表示・選択・修正部60に入力す
る。表示・選択・修正部60では、入力された複数候補
41又は51を入力として、まず第1位の候補を表示す
る。候補として複数存在する場合には、それらを表示
し、オペレータに選択させて、最終結果61を得る。ま
たオペレータが指示した文字または単語に対しては、候
補を表示し選択できるモードを設定することは、誤りの
修正の際に効率向上が可能となり有効である。また、オ
ペレータが、仮名漢字変換などキー入力を用いて誤りを
修正することは当然の手段として活用できる。以上述べ
た単語照合、書換え規則による修正および表示・選択・
修正手段は、公知の技術を用いて実現可能である。
以上述べた実施例においては、入力パターンの単語長を
チェックしているが、予め帳票毎に設定してある記入文
字枠数を用いてチェックしても同様の効果があることは
言うまでもない。
また、認識対象を文字でなく、音声としても同様に処理
できることは言うまでもない。
本実施例によれば、単語単位の認識を行うパターン認識
において、認識性能向上をねらいとして用いる単語照合
を伴用した場合、例えば1文字の姓名を対象とした場
合、誤りが発生することを防ぎ、人間による修正が容易
となる効果がある。
第5図は別の実施例を示すブロック図である。本実施例
において各記号は第4図のものと同一であり、また制御
部100,観測部10,認識部20までは同一である。
認識部20で得られた複数文字候補系列21は認識結果
修正部50に入力され、書換え規則55に従って修正さ
れた複数文字候補系列51を生成する。ここで書換え規
則は、認識部20の性能を反映させたものであり、例え
ば、門がまえの文字「間」「問」「聞」「関」などの区
別がつきにくい性能であったとすると、門がまえの候補
が現われたら、候補に必ず上記の4文字が入るように候
補文字の追加・修正を行なうことが含まれる。次に単語
長チェック部30で、予め設定した条件を満たす場合に
はすぐ表示・選択・修正部60に入る。一方、条件を満
たさない場合は、単語照合部40で候補単語を絞り込
み、次に表示・選択・修正部60に入る。
本実施例によれば、認識部の性能に応じて認識結果の修
正を行なうため、単語照合の対象となる候補文字系列に
正解が入る確率が高くなり、その結果、単語照合の性能
も向上することが期待できる。更に、認識結果の修正に
よって正解候補を上位に集めることが可能となるため、
候補数を少なく絞り込め、処理速度の向上およびオペレ
ータの負担軽減が実現できる効果がある。
〔発明の効果〕
本発明によれば、単語照合を併用するパターン認識方式
において、出現頻度6%前後存在する単語長1の場合に
発生する誤りを回避し、認識方式の特性および使用対象
に適合して最適な結果を得ることができる。このため、
人間の手による誤り修正の手間が省け、入力効率の向上
が実現できる。
【図面の簡単な説明】
第1図は本発明の概略を示す説明図、第2図,第3図は
本発明の動作原理を説明する図、第4図は本発明の一実
施例のブロック図、第5図は別の実施例のブロック図で
ある。 10……パターン観測部 20……パターン認識部 30……単語長チェック部 40……単語照合部 25……標準パターン辞書 45……単語辞書 50……認識結果修正部 55……書換え規則 100……制御部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】認識対象である未知パターンを入力され、
    該未知パターンと標準パターンを照合することにより認
    識候補パターンを出力するパターン認識手段と、入力さ
    れた前記未知パターンを構成する単語長が予め定めた長
    さより長いか否かチェックする手段と、前記未知パター
    ンを構成する単語長が前記予め定めた単語長以上のと
    き、当該未知パターンに対する前記認識候補パターンに
    ついて単語辞書を参照して単語照合を行ない、その結果
    を出力する単語照合手段と、前記未知パターンを構成す
    る単語長が前記予め定めた単語長より短いときは、当該
    未知パターンに対する前記認識候補パターンについて書
    換え規則を適用して候補の順位を修正する手段と、を具
    備し、前記単語照合手段ならびに修正手段の両出力から
    前記未知パターンの認識結果を得るようにしたことを特
    徴とするパター認識装置。
  2. 【請求項2】特許請求の範囲第1項記載のパターン認識
    装置において、前記修正手段による修正を、前記チェッ
    ク手段によるチェック結果にかかわりなく、前記パター
    ン認識手段からの認識候補出力に対して直接行なうこと
    を特徴とするパターン認識装置。
  3. 【請求項3】特許請求の範囲第1項または第2項記載の
    パターン認識装置において、前記書換え規則が、前記パ
    ターン認識手段の認識性能に起因した一定の誤認識傾向
    を改善する経験則からなることを特徴とするパターン認
    識装置。
JP60247043A 1985-11-06 1985-11-06 パタ−ン認識装置 Expired - Lifetime JPH0632090B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60247043A JPH0632090B2 (ja) 1985-11-06 1985-11-06 パタ−ン認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60247043A JPH0632090B2 (ja) 1985-11-06 1985-11-06 パタ−ン認識装置

Publications (2)

Publication Number Publication Date
JPS62107390A JPS62107390A (ja) 1987-05-18
JPH0632090B2 true JPH0632090B2 (ja) 1994-04-27

Family

ID=17157560

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60247043A Expired - Lifetime JPH0632090B2 (ja) 1985-11-06 1985-11-06 パタ−ン認識装置

Country Status (1)

Country Link
JP (1) JPH0632090B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02195489A (ja) * 1989-01-25 1990-08-02 Hitachi Ltd 文字認識の後処理装置

Also Published As

Publication number Publication date
JPS62107390A (ja) 1987-05-18

Similar Documents

Publication Publication Date Title
US8489388B2 (en) Data detection
EP0415000B1 (en) Method and apparatus for spelling error detection and correction
US7016827B1 (en) Method and system for ensuring robustness in natural language understanding
CN111859921A (zh) 文本纠错方法、装置、计算机设备和存储介质
Theeramunkong et al. Non-dictionary-based Thai word segmentation using decision trees
JP2020190970A (ja) 文書処理装置およびその方法、プログラム
US20110229036A1 (en) Method and apparatus for text and error profiling of historical documents
JP2000089786A (ja) 音声認識結果の修正方法および装置
JPH0632090B2 (ja) パタ−ン認識装置
JP3080066B2 (ja) 文字認識装置、方法及び記憶媒体
Takeuchi et al. Japanese OCR error correction using stochastic morphological analyzer and probabilistic word N-gram model
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
JPH0619962A (ja) テキスト分割装置
JP3274014B2 (ja) 文字認識装置および文字認識方法
JP2003280903A (ja) ソースプログラム比較情報生成システム
CN112084777B (zh) 一种实体链接方法
EP0553745A2 (en) Character recognition apparatus
JP2908460B2 (ja) 誤認識修正方法及び装置
JPS6097477A (ja) 誤読文字修正方式
US20240135089A1 (en) Text error correction method, system, device, and storage medium
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JP2908132B2 (ja) 文字認識結果の後処理方法
GUEDDAH Efficient Weighted Edit Distance and N-gram Language Models to Improve Spelling Correction of Segmentation Errors
KR20230048686A (ko) 한글로 표현된 숫자 표현 추출 방법 및 시스템
JP3139624B2 (ja) 形態素解析装置