JP2845463B2 - パターン認識装置 - Google Patents

パターン認識装置

Info

Publication number
JP2845463B2
JP2845463B2 JP63302692A JP30269288A JP2845463B2 JP 2845463 B2 JP2845463 B2 JP 2845463B2 JP 63302692 A JP63302692 A JP 63302692A JP 30269288 A JP30269288 A JP 30269288A JP 2845463 B2 JP2845463 B2 JP 2845463B2
Authority
JP
Japan
Prior art keywords
word
pattern
keyword
search
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP63302692A
Other languages
English (en)
Other versions
JPH02148277A (ja
Inventor
桂子 高部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP63302692A priority Critical patent/JP2845463B2/ja
Priority to DE3938627A priority patent/DE3938627A1/de
Publication of JPH02148277A publication Critical patent/JPH02148277A/ja
Application granted granted Critical
Publication of JP2845463B2 publication Critical patent/JP2845463B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は、例えば光学式文字読取装置や音声認識装置
等において用いられるパターン認識装置に関する。
(従来の技術) 近年、文字や音声等のパターン認識技術の分野では、
パターン認識の結果得たデータを基に単語辞書用のデー
タベースの検索を行うことにより、最終的な入力パター
ンの認識結果を得る方式が多用されている。
第10図はこのようなパターン認識方式を採用した郵便
番号読取装置の一例を示すブロック図である。
同図に示すように、この装置は、住所や郵便番号等が
記録された郵便書状P面を光学的に走査してその書状P
面上の文字パターンイメージを読取る読取部1と、読取
部1により読取られた文字パターンイメージから複合類
似度法等の認識方法を用いて文字候補(文字コード)を
得る文字認識部2と、予め単語が登録された単語辞書3
と、文字認識部2で得た文字候補群と単語区切情報から
単語検索のためのキーワードを作成し、このキーワード
に基づいて単語辞書3の検索を行う単語検索部4と、住
所に対応する住所コードが保存された住所データベース
5と、単語検索部4により検索された単語に基づいて住
所データベース5の検索を行うデータベース検索部6と
を備えて構成されている。
次にこの装置の動作を説明する。
まず読取部1は郵便書状P面上の文字パターンイメー
ジを光学的に読取り、読取ったデータをA/D変換を介し
て文字認識部2に転送する。
この後、文字認識部2は、複合類似度法等により入力
文字パターンと標準パターンとの類似度を示す評価点を
算出して各文字毎の認識を行い、その認識結果である第
1から第4までの文字候補群と単語区切情報とをそれぞ
れ単語検索部4に送る。
次に、単語検索部4は、各文字の第1候補と単語区切
情報を基に、単語検索のためのキーワードを作成し、こ
のキーワードと単語辞書3内の単語とを例えば3文字列
毎に照合して、その文字列で一致した全ての単語を単語
辞書3から抽出する。
この後、検索結果として得られた各単語はそれぞれ単
語IDコードに変換されて住所データベース検索部6に出
力される。
データベース検索部6は、その単語IDコードをキーワ
ードとして住所データベース5の検索を行い、これによ
り郵便書状Pに記載された住所に対応するつまり郵便番
号に相当する住所コードを最終的な認識結果として得
る。
ところで、このような従来からの装置では次のような
課題があった。
すなわち、郵便書状Pに記録された文字が全体的に薄
い場合等では、文字認識部2において条件の整った状態
で良好な文字認識を行うことができず、入力文字パター
ンの特徴を持つ文字候補を忠実に引出すことが困難であ
った。しかも文字認識段階における誤読は、全体の処理
において多大な悪影響を及ぼし、信頼性の大幅な低下を
招くという問題があった。
また、単語検索部4においては、3文字列毎にキーワ
ードと一致した全ての単語を単語辞書3から抽出してい
るので、抽出された単語候補が大量の場合、これらをキ
ーワードとして行われる住所データベース5の検索に非
常に長時間を要するという問題があった。
さらに従来からの装置では、文字認識の結果得た各文
字毎の評価点から単語単位の累計を求め、さらにこれを
単語の文字数で割ったものを単語評価値とし、各単語候
補の中でその単語評価値が最も高いものから順にこれを
IDコードに変換した後、これを用いて住所データベース
5に対するデータ検索を行っていた。
ところがこのような方法で単語評価値を決定すると次
のような弊害が生じていた。
例えば「JOHN」というキーワードに対する単語検索の
結果、「JOHNS」という単語が得られた場合、この単語
に対して得られた文字評価点の累計が98×4=260HEXと
すると、単語評価値はこれを単語文字数5で割って得た
79HEXとなる。
しかしその逆の場合、すなわち「JOHNS」というキー
ワードに対して得られた単語が「JOHN」の場合、その単
語評価値としては本来前記の値と等しくなることが好ま
しいものの、ここでは累計を4で割ることよりそれ以上
の値(98HEX)となってしまう。また、この単語評価値
は、キーワード「JOHN」の場合において得られた値と一
致してしまったり、さらにはキーワード「JOHNS」と等
しい単語「JOHNS」に対して算出された評価値が、「JOH
N」という単語に対して算出された評価値より字数が多
いということで低くなってしまうおそれもあった。
この様に従来からの装置では、信頼性の高い単語評価
値が安定して得られないという問題があった。
さらには、従来において単語辞書3には、単語を構成
する文字コード列がデータベース検索用の単語IDコード
とともにASCIIコードで昇順となるよう登録されている
ことから、単語の検索は、常にバイナリサーチにより単
語辞書3内の全ての単語を対象にして行っていた。
したがって、単語辞書3内の登録単語数が増加するに
つれ単語検索時間も長くかかるようになるという問題も
あった。
(発明が解決しようとする課題) このように従来からのパターン認識装置では、パター
ン認識処理や単語検索における精度上の問題、単語検索
の効率上の問題等が多々残されており、高い信頼性の下
でのパターン認識を安定して行うことが困難であった。
本発明は上述した課題を解決するためのもので、パタ
ーン認識精度や単語検索精度の向上、さらには単語検索
効率の向上を効果的に図って信頼性を大幅アップさせる
ことのできるパターン認識装置の提供を目的としてい
る。
[発明の構成] (課題を解決するための手段) 第1の発明は上記した目的を達成するために、入力パ
ターンを読取るパターン読取手段と、このパターン読取
手段により読取られた入力パターンと標準パターンとの
類似度を示す評価点を算出して該入力パターンの認識を
行うパターン認識手段と、予め単語が格納された単語格
納手段と、前記パターン認識手段の認識結果から単語検
索のためのキーワードを作成し、このキーワードに基づ
いて前記単語格納手段を検索する第1の単語検索手段
と、この第1の単語検索手段により検索された各単語に
おける各文字毎の該評価点の累計を、それぞれ検索単語
文字数とキーワード文字数との多い方の数で割り、その
値が高い方を最終的な単語検索結果として優先して出力
する第2の単語検索手段とを具備したものである。
第2の発明は、入力パターンを読取るパターン読取手
段と、このパターン読取手段により読取られた入力パタ
ーンを認識するパターン認識手段と、予め単語が格納さ
れた単語格納手段と、前記パターン認識手段の認識結果
から単語検索のためのキーワードを作成し、このキーワ
ードと前記単語格納手段に格納された単語とを所定数の
文字列毎に照合して、その照合一致回数が高い単語を優
先して出力する第1の単語検索手段と、この第1の単語
検索手段により検索された各単語における各文字毎の該
評価点の累計を、それぞれ検索単語文字数とキーワード
文字数との多い方の数で割り、その値が高い方を最終的
な単語検索結果として優先して出力する第2の単語検索
手段とを具備したものである。
第3の発明は、入力パターンを読取るパターン読取手
段と、このパターン読取手段により読取られた入力パタ
ーンと標準パターンとの類似度を示す評価点を算出して
該入力パターンの認識を行うパターン認識手段と、予め
単語が格納された単語格納手段と、前記パターン認識手
段の認識結果から単語検索のためのキーワードを作成
し、このキーワードと前記単語格納手段に格納された単
語とを所定数の文字列毎に照合して、その照合一致回数
が高い単語を優先して出力する第1の単語検索手段と、
この第1の単語検索手段より出力された各単語と前記キ
ーワードとを各文字毎にそれぞれ照合し、一致した文字
数の多い単語を優先して出力する第2の単語検索手段
と、この第2の単語検索手段により検索された各単語に
おける各文字毎の該評価点の累計を、それぞれ検索単語
文字数とキーワード文字数との多い方の数で割り、その
値が高い方を最終的な単語検索結果として優先して出力
する第3の単語検索手段とを具備したものである。
第4の発明は、入力パターンを読取るパターン読取手
段と、このパターン読取手段により読取られた入力パタ
ーンと標準パターンとの類似度を示す評価点を算出して
該入力パターンの認識を行うパターン認識手段と、予め
単語が格納された単語格納手段と、前記パターン認識手
段の認識結果から単語検索のためのキーワードを作成す
るキーワード作成手段と、このキーワード作成手段によ
り作成されたキーワードと前記単語格納手段に格納され
ている各単語における各文字毎の該評価点の累計を、そ
れぞ検索単語文字数とキーワード文字数との多い方の数
で割り、その値が高い方を最終的な単語検索結果として
優先して出力する単語検索手段とを具備したものであ
る。
(作用) 第1の発明のパターン認識装置では、第1の単語検索
手段において、パターン認識手段の認識結果から単語検
索のためのキーワードを作成し、このキーワードに基づ
いて単語格納手段から短語を検索した後、第2の単語検
索手段が、この第1の単語検索手段により検索された各
単語とキーワードとを各文字毎にそれぞれ照合し、一致
した文字数の多い単語を最終的な単語検索結果として優
先して出力するので、単語格納手段から最適単語をさら
に絞って抽出することが可能となる。また、検索された
単語からさらに別のデータ検索等を行う場合においては
余分なデータ検索時間を短縮することも可能である。
第2の発明のパターン認識装置では、第1の単語検索
手段において、まず、パターン認識手段の認識結果から
単語検索のためのキーワードを作成した後、このキーワ
ードと単語格納手段に格納された単語とを所定数の文字
列毎に照合し、その照合一致回数が高い単語を優先して
出力する。この後、第2の単語検索手段において、第1
の単語検索手段により検索された各単語における各文字
毎の評価点の累計を、それぞれ検索単語文字列数とキー
ワード文字数との多い方の数で割り、その値が高い方を
最終的な単語検索結果として優先して出力するので、信
頼性の高い単語評価値を安定して得ることが可能になる
とともに、より一致度の高い単語を絞って単語格納手段
から抽出することができ、パターン認識性能の向上を図
れる。
第3の発明のパターン認識装置では、第1の単語検索
手段において、まずパターン認識手段の認識結果から単
語検索のためのキーワードを作成した後、このキーワー
ドと単語格納手段に格納された単語とを所定数の文字列
毎に照合し、その照合一致回数が高い単語を優先して出
力する。この後、第2の単語検索手段において、第1の
単語検索手段により検索された各単語とキーワードとを
各文字毎にそれぞれ照合し、一致した文字数の多い単語
を検索結果として優先して出力する。続いて第3の単語
検索手段は、第2の単語検索手段により検索された各単
語における各文字毎の評価点の累計を、それぞれ検索単
語文字列数とキーワード文字数との多い方の数で割り、
その値が高い方を最終的な単語検索結果として優先して
出力するので、信頼性の高い単語評価値を安定して得る
ことが可能になるとともに、より一致度の高い単語を絞
って単語格納手段から抽出することができ、パターン認
識性能の向上を図れる。
第4の発明のパターン認識装置では、まずパターン認
識手段が、パターン読取手段により読取られた入力パタ
ーンをに認識し、この後、パターン認識手段の認識結果
から、キーワード作成手段が単語検索のためのキーワー
ドを作成する。そして、単語検索手段が、このキーワー
ド作成手段により作成されたキーワードと単語格納手段
に格納されている各単語における各文字毎の評価点の累
計を、それぞれ検索単語文字数とキーワード文字数との
多い方の数で割り、その値が高い方を最終的な単語検索
結果として優先して出力する。
よって本発明によれば、信頼性の高い評価値を安定し
て得ることが可能になり、優れた正解率で単語検索を行
うことが可能となる。
(実施例) 以下、本発明の実施例を図面に基づいて詳細に説明す
る。
第1図は本発明に係る一実施例のパターン認識装置を
採用した郵便番号読取装置の構成を示すブロック図であ
る。
同図に示すように、この郵便番号読取装置は、住所や
郵便番号等の記録された郵便書状Pを光学的に走査して
その書状P面上の文字パターンイメージを読取る読取部
11と、読取部11からの入力文字パターンと標準パターン
との類似度を示す評価点を文字の濃淡等に関係して予め
設定された複数のスライスレベルで算出しつつ文字認識
を行う文字認識部12と、予め文字列からなる単語が格納
された単語辞書13と、文字認識部12で得た文字候補群と
単語区切情報から各文字毎に評価点の高い文字候補を選
択し、これらの文字候補を組合せて文字列からなるキー
ワードを作成し、このキーワードに基づいて単語辞書13
に対する単語検索を行う単語検索部14と、各住所毎のコ
ードデータが保存された住所データベース15と、単語検
索部14で得た単語に基づいて住所データベース15の検索
を行うデータベース検索部16とを備えてパターン認識機
構が構成されている。
さらにこの実施例装置は、読取部11において読取られ
た郵便書状Pを住所コード毎に仕訳して格納するための
スタッカ部18と、読取り後の郵便書状Pをスタッカ部18
に搬送する書状搬送部19と、データベース検索部16から
出力された住所コードに基づいて搬送中の郵便書状Pを
該当するスタッカに格納すべく書状搬送部19を制御する
搬送制御部17とを、上述したパターン認識機構に付加装
備してなっている。
次にこの実施例装置の動作を第2図のフローチャート
を用いて説明する。
まず読取部11は郵便書状P面上の文字パターンイメー
ジを光学的に読取り、そのパターンイメージデータをA/
D変換を介して文字認識部12に転送する(ステップ20
1)。
この後、文字認識部12は、文字の濃淡等に関係して予
め設定された複数のスライスレベルで、入力文字パター
ンと標準パターンとの類似度を示す評価点を算出しつつ
各文字毎の認識を行い、その認識結果である第1から第
4までの文字コードデータと単語区切情報をそれぞれ単
語検索部14に送る(ステップ202)。
第3図は郵便書状Pに「ROOM」という単語文字列が表
記されていた場合の文字認識結果である第1から第4ま
での文字候補と各候補に付された評価点を示している。
なお、この図において、パターン1群はそれぞれ通常
の評価レベルで得た文字候補とこれらの評価点、パター
ン2群はそれぞれ文字が薄い場合を想定した評価レベル
において得た文字候補とこれらの評価点を示している。
文字認識後、単語検索部14は、このようにして得た文
字候補群から、各文字毎に評価点の高い文字候補をそれ
ぞれ優先的に抽出して、単語区切情報に基づいて単語の
切出しを行って単語検索のためのキーワードを作成する
(ステップ203)。その際、同じ文字候補が第1候補と
して存在する場合は高い方の評価点のみを残してこれを
以降の処理に生かすようにする。
第4図は第3図に示した認識結果から作成された第1
から第4までの文字列候補を示している。
この図に示すように、第3図に示した文字候補群から
の文字列候補作成の結果、ここでは第1候補として「RO
ON」の文字列が得られる。
この後単語検索部14は、この文字列を単語検索のため
のキーワードとして、このキーワードと単語辞書13内の
単語とを3文字列毎にマッチングし(ステップ204)、
一致した単語を順次単語辞書13から抽出して所定のバッ
ファメモリ上に蓄える(ステップ205)。
なおこの単語検索は一般にトリグラム検索と呼ばれる
ものである。
すなわち、「ROON」という文字列に対しては、「RO
O」「OON」「ONR」「NRO」の4種類の3文字列を含む単
語の検索が行われる。
そして単語辞書13に格納された全ての単語とのマッチ
ングが終了すると(ステップ206)、続いて単語検索部1
4は、バッファリングされた全ての単語についてそれぞ
れ評価値を求める(ステップ207)。
この単語評価値は、各文字の評価点の累計を単語の文
字数で割ることにより得られる。
例えば、単語候補として「ROOM」という単語がバッフ
ァリングされた場合、この単語について単語評価値を計
算すると、 (90+98+98+88)/4=92HEXとなる。
このようにして、単語検索部14は、単語辞書13から抽
出された全ての単語について単語評価値を算出した後、
これらの中からその単語評価値の高い上位8単語を検索
結果として出力する(ステップ208)。
こうして選ばれた単語候補はデータベース検索部16に
送られ、このベースデータ検索部16において、各単語候
補に対応するそれぞれの単語IDコードをキーワードとし
て住所データベース15の検索を行う(ステップ209)。
この後、住所データベース15の検索結果として出力さ
れた住所コードは、搬送制御部17に出力され、続いてこ
の搬送制御部17から当該住所コードに対応するスタッカ
制御信号がスタッカ部18に出力される。
スタッカ部18は、このスタッカ制御信号に基づいて書
状搬送部19により搬送されてきた郵便書状Pを該当する
スタッカに格納する(ステップ210)。
かくしてこの第1の発明に係る実施例装置によれば、
文字の濃淡等に関係して予め設定された複数のスライス
レベルで入力文字パターンと標準パターンとの類似度を
示す評価点を算出しつつ各文字毎の認識を行い、これら
各文字毎の文字候補群から評価点の高いものを優先して
集めて単語検索のためのキーワードを作成するようにし
たので、郵便書状Pに表記された文字の濃淡に係わらず
正確に入力文字パターンの認識を行うことができる。
次に第2の実施例を説明する。
この実施例の郵便番号読取装置は、上述した実施例装
置に、新たな単語検索機能を有する単語検索部14を備え
てなっており、その他の構成部については第1図と同一
である。
すなわちこの実施例装置における単語検索部14は、文
字認識部12より得られた文字候補群から単語検索用のキ
ーワードを作成し、このキーワードと単語辞書13の単語
とを所定数の文字列毎に照合し、その照合一致回数が多
い単語を最終的な検索結果として優先して出力するよう
構成されている。
この実施例の動作を第5図のフローチャートを用いて
説明する。
まず読取部11は郵便書状P面上の文字パターンイメー
ジを光学的に読取り、そのデータをA/D変換を介して文
字認識部12に転送する(ステップ501)。
文字認識部12は、入力した文字パターンと標準パター
ンとの類似度を示す評価点を、例えば上述した複数の評
価レベルによる複合類似度法等により算出しつつ各文字
毎の認識を行い、その認識結果である第1から第4候補
までの文字コードデータと単語区切情報をそれぞれ単語
検索部14に送る(ステップ502)。
この後、単語検索部14は、文字認識部12により得られ
た文字候補群と単語区切情報から単語検索のための第1
から第4候補までのキーワードを作成する(ステップ50
3)。
続いて単語検索部14は、第1候補であるキーワードと
単語辞書13内の単語とを3文字列毎にマッチングし(ス
テップ504)、一致した全ての単語を順次単語辞書13か
ら抽出して所定のデータバッファ上に蓄えるとともに
(ステップ505)、各単語毎の一致回数をカウントバッ
ファを用いてカウントする(ステップ506)。
なお、ここで検索の対象となる単語辞書13内の単語
は、キーワードの文字数に対し±1の範囲の文字数から
なるものに限られる。
ここで、例えば「ANGLES」という文字列が単語検索の
ためのキーワードとして得られた場合、このキーワード
から3文字列毎に単語辞書13の単語とのマッチングを行
うと、第6図に示すように、キーワードにおける「AN
G」「NGL」「GLE」「LES」「ESA」「SAN」の各3文字列
で例えば「ANGELES」や「BNGELES」という単語と4回一
致し、キーワードと完全に等しい単語で6回一致する。
すなわち、こうしてカウンタされた一致回数は、キー
ワードとこれに基づいてバッファリングされた各単語と
の一致度の高さを示している。
このようにして単語検索部14は単語辞書13内の全ての
単語とのマッチングを行って各単語毎の一致回数をカウ
ントした後(ステップ507)、一致回数に基づく各単語
候補の評価を行い(ステップ508)、これらの単語候補
の中から一致回数の多いものから順に上位所定数番目ま
での単語を抽出して、単語IDコードに変換後、これらを
データベース検索部16に出力する(ステップ509)。
この後、データベース検索部16において、各単語IDコ
ードをキーワードとして住所データベース15の検索を行
う(ステップ510)。
住所データベース15の検索結果として出力された住所
コードは、搬送制御部17に出力され、続いてこの搬送制
御部17から当該住所コードに対応するスタッカ制御信号
がスタッカ部18に出力される。
スタッカ部18は、このスタッカ制御信号に基づいて書
状搬送部19により搬送されてきた郵便書状Pを該当する
スタッカに格納する(ステップ511)。
かくしてこの第2の実施例装置によれば、単語検索の
ためのキーワードと単語辞書13内の単語とを3文字列毎
にマッチングして、その一致回数の多い単語候補を最終
的な検索単語として優先して出力するので、単語辞書13
の中からより一致度の高い単語候補をさらに絞って抽出
することができ、これにより住所データベース15に対す
るデータ検索効率の大幅な向上が図れる。
次に第3の実施例を説明する。
この実施例装置は、上述した第2の実施例装置に、さ
らに新たな単語検索機能を有する単語検索部14を備えて
なっており、その他の構成部については第1図に示した
通りである。
すなわちこの単語検索部14は、キーワードと単語辞書
13の単語とを所定数の文字列毎にマッチングし、一致回
数の最も高い各単語候補を、さらにキーワードと各文字
列毎に照合して、一致した文字数の高い単語を最終的な
検索単語として優先して出力するよう構成されている。
次に、この実施例装置における単語検索の流れを第7
図のフローチャートを用いて説明する。
なお、このフローチャートにおけるステップ709まで
の処理は第5図におけるステップ509までの処理と同一
であるため説明を省略する。
ステップ709において、キーワードと単語辞書13内の
単語との3文字列毎のマッチングの結果から、一致回数
の高い単語候補が単語辞書13から抽出された後、次に単
語検索部14は、これらの単語候補の中からさらに一致度
の高い単語候補を選択するため、キーワードと各単語候
補との1文字毎のマッチングを行う(ステップ710)。
この後、単語検索部14はこのマッチングの結果から、
一致文字数が高い上位所定数番目までの単語候補をデー
タベース検査のためのキーワードとして最終的に残し
て、その他の単語候補を足切りする(ステップ711)。
例えば、郵便書状Pに「SUITE」という文字列が表記
されているとき、「SULTE」等の誤った文字がキーワー
ドとして得られた場合、3文字列毎の単語辞書13の単語
とのマッチングの結果、2回の一致回数が最大となり、
その単語候補として「SUITE」を始めとして「ULTERA」
「RALTES」等の非常に多くの単語が抽出される。
これらの単語候補とキーワードとをさらに1文字毎に
マッチングすると、「ULTERA」「RALTES」等の単語とは
1文字も一致せず、「SUITE」という単語と4文字で一
致するという結果が得られる。
したがって、この場合、最終的に「SUITE」という単
語を含む上位所定数番目までの単語がデータベース検索
のためのキーワードとして単語検索部14から出力され
る。
かくしてこの第3の実施例によれば、トリグラム検索
から得た単語候補の中からさらに一致度の高い単語候補
を最終的な検索単語として絞り込めるので、以降のデー
タベース検索における余分な検索時間を短縮することが
できる。
なおこの実施例では、トリグラム検索で得た単語候補
の中からさらに一致度の高い単語候補を絞り込む装置に
ついて説明したが、トリグラム検索は行わずに文字認識
結果の組合せにより得られたキーワードと単語辞書13の
単語とを直接各文字毎に照合して最終的な最適単語を選
別するようにしもよい。
次に第4の実施例を説明する。
この実施例装置は、上述した第2の実施例の装置に、
新たな単語評価値算出機能を持つ単語検索部14を備えて
なっており、その他の構成部については第1図と同一で
ある。
すなわち、この実施例における単語検索部14は、単語
候補における各文字毎の評価点の累計を、単語文字数と
キーワード文字数の多い方の数で割り、その値が高い方
の単語候補を最終的な検索単語としてデータベース検索
部16に優先して出力するよう構成されている。
次にこの実施例装置における単語評価値算出の流れを
説明する。
まず、キーワードと単語辞書13内の単語との3文字列
毎のトリグラム検索により、複数の単語候補が単語辞書
13から抽出される。
この後、各単語候補における各文字毎の評価点の累計
からそれぞれの単語評価値を求める。
これらの単語評価値の求め方は次の通りである。
例えば、「ROON」というキーワードに対し単語辞書13
から[ROOM」という単語候補が抽出された場合、両者の
文字数は等しいので、この単語の各文字の評価点の累計
を文字数で割り、これを当該単語候補の単語評価値とす
る。
すなわち、この場合、 (90+98+98+88)/4=92HEXとなる。
また単語候補として「ROOMS」が抽出された場合、両
者の文字数が違うことから次のようにして単語評価値を
求める。
まずキーワード「ROON」と単語候補「ROOMS」とをそ
れぞれ先頭文字を合せて各文字間の評価点を求める。
この場合、 R:R…90 HEX O:O…98 HEX O:O…98 HEX N:M…88 HEX となる。
次に先頭の評価点から後方の文字の評価点を順次加算
して行く。この場合は短い文字長分加算する。
この結果、 R:R…90 HEX…90 HEX O:O…98 HEX…128 HEX O:O…98 HEX…1C0 HEX N:M…88 HEX…248 HEX 次にキーワード「ROON」と単語候補「ROOMS」のそれ
ぞれの最後の文字を合せて各文字の評価点を求める。
この場合、 R:O…50 HEX O:O…98 HEX O:M…50 HEX N:S…50 HEX となる。
次に最後の評価点から前方の文字の評価点を順次加算
して行く。
この結果、 R:O…50 HEX…188 HEX O:O…98 HEX…138 HEX O:M…50 HEX…A0 HEX N:S…50 HEX…50 HEX となる。
次に、これら2通りの方法で得た値のうち、先頭を合
せて求められた側の値をそれぞれ後方に1列ずらして、
これらを最後の文字を合せて求められた側の各値と1対
1で対応付けてそれぞれの和を求める。
すなわち、 188 HEX=188 HEX 90 HEX+138 HEX=1C8 HEX 128 HEX+A0 HEX=1C8 HEX 1C0 HEX+50 HEX=210 HEX 248 HEX =248 HEX となる。
そしてこの中の最大値(248 HEX)を評価点の累計と
する。
この累計に対する単語評価値の算出は、まず「ROOM
S」の文字数で累計を割り、この値に補正点としてA HEX
を加えて行われる。
なお補正点とは異なる単語長の評価点を平等に比較す
るために加える点数である。
したがって、この場合の単語評価値は、248HEX/5+A
HEX=7E HEXとなる。
この後、この単語評価値と上述した「ROOM」に対して
算出された評価値(92 HEX)とを比較し、高い方の単語
候補を最終的な検索単語とする。
上述した単語評価値の算出方法をまとめると次のよう
になる。
候補文字長=キーワード長の場合 評価値=(各文字の評価点の総和)/(文字長) *第1〜4候補の中に文字候補がなかった場合、デフォ
ルト値(50 HEX)を与える。
候補文字長=キーワード長±1の場合 *1 評価値=Sum(候補文字長、キーワード長)/ Max(候補文字長、キーワード長) +補正点(A HEX) *1 前方と後方それぞれ2方向から、評価点をMin
(候補文字長、キーワード長)分加えて行き、その前方
からの累計を後方に1文字分ずらして加えたときの最大
Sum(候補文字長、キーワード長) =Max PS(i) (1≦i≦M+1) 但し M=Min(Lng(候補)、Lng(キーワード)) Lng(*):*列の文字長 S(n)=n文字目の評価点 PS(i)=PS1(i−1)+PS2(i) 2≦i≦M =PS2(i) i=1 =PS1(i) i=M+1 かくしてこの実施例装置によれば、単語候補の各文字
の評価点の累計を、キーワード文字数と単語文字数の多
い方の数で割ってこれを単語評価値とすることにより、
各単語候補の的確な単語評価値を安定して得ることが可
能となり、正確な単語検索結果を得ることができる。
なおこの実施例における単語検索は、トリグラム検索
を行う装置のみに限定されるものではなく、その他の装
置、例えば第1の実施例と組合せて用いることも可能で
ある。
次に第5の実施例を説明する。
この実施例の郵便番号読取装置は、前記第1図の構成
において、単語辞書13は、単語登録領域がトリグラム検
索単語テーブル、直接単語テーブル、数字単語テーブ
ル、特殊単語テーブル等の複数のグループに分けられて
なっており、単語検索部14は、キーワードを構成する文
字列の文字数と文字種類を識別し、これらの識別結果に
基づいて単語辞書13内の対応する種類の単語テーブルを
決定して、その単語テーブルを対象にキーワードに基づ
く単語検索を行うよう構成されている。
なお、上述したトリグラム検索単語テーブルは、同一
の3文字列を含んだ単語群で1つのグループを構成して
おり、さらにその3文字列部分が単語のどの位置に含ま
れているかによってもグループ分けされている。
次にこの実施例装置における単語検索処理を第8図の
フローチャートを用いて説明する。
まず文字認識部12より各文字毎の認識結果である文字
候補群と単語区切情報が入力されると、単語検索部14
は、これらの文字候補群の中から各文字毎に評価点の高
い文字コードを抽出し、さらに単語区切情報に基づいて
1単語分のキーワードを作成する(ステップ801)。
第9図はその文字認識結果の一例を示している。
この図に示されるように、文字認識部12から出力され
る文字コードは、数字、英字文字、英小文字、特殊文字
の4種類であり、しかも各文字毎の候補はそれぞれ第1
から第4候補からなっている。そしてこれらの各文字候
補はそれぞれ標準パターンとの類似度を示す評価点を持
っている。
そしてこれらの文字候補群から作成される各キーワー
ドは、それぞれ4文字以上の英字列からなるトリグラム
検索単語、3文字以下の英字列からなる直接単語、6桁
以下の数字列や序数からなる数字単語、それ以外の特殊
単語のいずれかに属するものとされている。
さてキーワード作成後、次に単語検索部14はこのキー
ワードからその文字数と文字種類を識別し、このキーワ
ードが上述したトリグラム検索単語、直接単語、数字単
語、特殊単語のいずれに属するものかを判断する(ステ
ップ802)。
そしてキーワードがトリグラム検索単語であると判断
された場合(ステップ803)、単語辞書13内のトリグラ
ム検索単語テーブルを対象に単語のトリグラム検索を行
う(ステップ804)。
なおここでのトリグラム検索は、まずキーワードと単
語との間で一致する3文字列部分が、各文字列の同一位
置に存在する単語候補を全てトリグラム検索単語テーブ
ルから抽出し、さらに照合する3文字列の位置をキーワ
ードにおいて1つずつずらして各単語候補とマッチング
し、それぞれの一致回数を各単語毎にカウントして、そ
の一致回数が最も多い単語を第1候補として得ることで
なされる。
またステップ805において当該キーワードが直接単語
であると判断された場合、単語辞書13内の直接単語テー
ブルを対象に単語の検索を行う(ステップ806)。
なお、この直接単語は3文字以下の英字列であるた
め、構成可能な文字列の種類は合計27の3乗個である。
このことから、検索結果として得られるべき単語IDコー
ドは27種類の英字コードから計算により直接求められ
る。したがって直接単語の検索はこの単語IDコードが直
接単語テーブルに存在するか否かを調べ、存在した場合
にその単語IDコードを単語候補として出力する。
またステップ807において当該キーワードが数字単語
であると判断された場合(ステップ806)、単語辞書13
内の数字単語テーブルを対象にこの数字単語の検索を行
う(ステップ807)。
なお、この数字単語の検索結果として得られるべき単
語IDコードも「0」から「9」までの数字コードから計
算によって直接求められる。
以上のようにしてトリグラム検索単語、直接単語、数
字単語の検索を行う。
一方、特殊単語の検索は、出現頻度が低いので、ステ
ップ809〜812の如く上述した各単語の検索処理を全て終
えた後まとめて行うようにする。
この特殊単語はそれぞれの文字コードがASCIIコード
で昇順となるよう単語IDコードとともに特殊単語テーブ
ルに登録されており、検索はバイナリサーチで行う。
かくしてこの実施例装置によれば、キーワードを構成
する文字列の文字数や文字種類等の種類に応じて、単語
辞書13内において検索対象となる単語テーブルを判断
し、それぞれの単語テーブルに応じた単語検索を行うよ
うにしたので、単語検索速度の大幅なアップを効果的に
図ることができる。
また出現頻度の低い特殊単語等については、出現頻度
の高いその他の種類の単語検索を終えた後まとめて行う
ようにしたので、限られた時間内において処理を行う場
合等において、重要な単語についての処理残しを減すこ
とができる。
なお、この実施例では、特殊単語の検索をトリグラム
検索単語、直接単語および数字単語の検索終了後に行う
ようにしたが、例えば1文書中に単語の種類に偏りがあ
る場合等、必要に応じてその他の種類の単語にもそれぞ
れ優先順位を付け、それぞれの優先順位に従って各種類
毎に単語検索を行ってもよい。
また、以上の実施例では文字パターンの認識について
説明したが、本発明はこれに限定されるものではなく、
例えば音声等により入力されたパターンを認識する装置
においても同様に用いることができる。
以上幾つかの実施例を述べたが、これら各実施例は様
々な組合せで用いることが可能である。
[発明の効果] 以上説明したように本発明のパターン認識装置によれ
ば、パターン認識精度や単語検索精度の向上、さらには
単語検索効率の向上を効果的に図って信頼性を大幅アッ
プさせることができる。
【図面の簡単な説明】
第1図は第1の実施例のパターン認識装置を採用した郵
便番号読取装置の構成を説明するためのブロック図、第
2図は第1図の郵便番号読取装置におけるパターン認識
処理の流れを示すフローチャート、第3図は第1図にお
ける文字認識部で得られた文字候補群と評価点の例を示
す図、第4図は第3図の文字認識結果から作成されたキ
ーワードを示す図、第5図は第2の実施例の単語検索処
理の流れを示すフローチャート、第6図はその実施例に
おけるトリグラム検索の結果を示す図、第7図は第3の
実施例の単語検索処理の流れを示すフローチャート、第
8図は第4の実施例における単語検索処理の流れを示す
フローチャート、第9図はその実施例における文字認識
結果を示す図、第10図は従来の郵便番号読取装置の構成
を説明するためのブロック図である。 11……読取部、12……文字認識部、13……単語辞書、14
……単語検索部。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G06K 9/72 G06K 9/62

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】入力パターンを読取るパターン読取手段
    と、 このパターン読取手段により読取られた入力パターンと
    標準パターンとの類似度を示す評価点を算出して該入力
    パターンの認識を行うパターン認識手段と、 予め単語が格納された単語格納手段と、 前記パターン認識手段の認識結果から単語検索のための
    キーワードを作成し、このキーワードに基づいて前記単
    語格納手段を検索する第1の単語検索手段と、 この第1の単語検索手段により検索された各単語におけ
    る各文字毎の該評価点の累計を、それぞれ検索単語文字
    数とキーワード文字数との多い方の数で割り、その値が
    高い方を最終的な単語検索結果として優先して出力する
    第2の単語検索手段と を具備したことを特徴とするパターン認識装置。
  2. 【請求項2】入力パターンを読取るパターン読取手段
    と、 このパターン読取手段により読取られた入力パターンを
    認識するパターン認識手段と、 予め単語が格納された単語格納手段と、 前記パターン認識手段の認識結果から単語検索のための
    キーワードを作成し、このキーワードと前記単語格納手
    段に格納された単語とを所定数の文字列毎に照合して、
    その照合一致回数が高い単語を優先して出力する第1の
    単語検索手段と、 この第1の単語検索手段により検索された各単語におけ
    る各文字毎の該評価点の累計を、それぞれ検索単語文字
    数とキーワード文字数との多い方の数で割り、その値が
    高い方を最終的な単語検索結果として優先して出力する
    第2の単語検索手段と を具備したことを特徴とするパターン認識装置。
  3. 【請求項3】入力パターンを読取るパターン読取手段
    と、 このパターン読取手段により読取られた入力パターンと
    標準パターンとの類似度を示す評価点を算出して該入力
    パターンの認識を行うパターン認識手段と、 予め単語が格納された単語格納手段と、 前記パターン認識手段の認識結果から単語検索のための
    キーワードを作成し、このキーワードと前記単語格納手
    段に格納された単語とを所定数の文字列毎に照合して、
    その照合一致回数が高い単語を優先して出力する第1の
    単語検索手段と、 この第1の単語検索手段より出力された各単語と前記キ
    ーワードとを各文字毎にそれぞれ照合し、一致した文字
    数の多い単語を優先して出力する第2の単語検索手段
    と、 この第2の単語検索手段により検索された各単語におけ
    る各文字毎の該評価点の累計を、それぞれ検索単語文字
    数とキーワード文字数との多い方の数で割り、その値が
    高い方を最終的な単語検索結果として優先して出力する
    第3の単語検索手段と を具備したことを特徴とするパターン認識装置。
  4. 【請求項4】入力パターンを読取るパターン読取手段
    と、 このパターン読取手段により読取られた入力パターンと
    標準パターンとの類似度を示す評価点を算出して該入力
    パターンの認識を行うパターン認識手段と、 予め単語が格納された単語格納手段と、 前記パターン認識手段の認識結果から単語検索のための
    キーワードを作成するキーワード作成手段と、 このキーワード作成手段により作成されたキーワードと
    前記単語格納手段に格納されている各単語における各文
    字毎の該評価点の累計を、それぞれ検索単語文字数とキ
    ーワード文字数との多い方の数で割り、その値が高い方
    を最終的な単語検索結果として優先して出力する単語検
    索手段と を具備したことを特徴とするパターン認識装置。
JP63302692A 1988-11-30 1988-11-30 パターン認識装置 Expired - Fee Related JP2845463B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP63302692A JP2845463B2 (ja) 1988-11-30 1988-11-30 パターン認識装置
DE3938627A DE3938627A1 (de) 1988-11-30 1989-11-21 Mustererkennungsvorrichtung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63302692A JP2845463B2 (ja) 1988-11-30 1988-11-30 パターン認識装置

Publications (2)

Publication Number Publication Date
JPH02148277A JPH02148277A (ja) 1990-06-07
JP2845463B2 true JP2845463B2 (ja) 1999-01-13

Family

ID=17912045

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63302692A Expired - Fee Related JP2845463B2 (ja) 1988-11-30 1988-11-30 パターン認識装置

Country Status (2)

Country Link
JP (1) JP2845463B2 (ja)
DE (1) DE3938627A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19836767C1 (de) 1998-08-13 1999-11-18 Siemens Ag Verfahren und Vorrichtung zum Bearbeiten von an den Absender zurückzuschickenden Sendungen

Also Published As

Publication number Publication date
DE3938627A1 (de) 1990-05-31
JPH02148277A (ja) 1990-06-07

Similar Documents

Publication Publication Date Title
US5982929A (en) Pattern recognition method and system
US7623715B2 (en) Holistic-analytical recognition of handwritten text
JPH0664631B2 (ja) 文字認識装置
JPH10105655A (ja) 光学文字認識のための検証および訂正の方法およびシステム
Gilloux et al. Strategies for handwritten words recognition using hidden Markov models
JPS62221088A (ja) 光学式文字読取装置
Huang et al. Mapping transcripts to handwritten text
JP2845463B2 (ja) パターン認識装置
JP2002063548A (ja) 手書き文字認識方法
El Yacoubi et al. Conjoined location and recognition of street names within a postal address delivery line
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JP3188154B2 (ja) 文字認識処理方法
JPS646514B2 (ja)
JP4584507B2 (ja) 住所認識装置、記録媒体及びプログラム
JP2996823B2 (ja) 文字認識装置
JP3100786B2 (ja) 文字認識後処理方式
JPH0795337B2 (ja) 単語認識方式
JP2851865B2 (ja) 文字認識装置
JPH0816729A (ja) 文字認識後処理方式
JP2000251017A (ja) 単語辞書作成装置および単語認識装置
JP2001043318A (ja) 住所読取装置
JPH0812683B2 (ja) 特定文字列高速抽出方法
JPH076213A (ja) 文字列認識装置
JPH0540854A (ja) 文字認識結果の後処理方法
JPH08167007A (ja) 記号列読み取り装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081030

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees