JPH11143893A

JPH11143893A - 単語照合装置

Info

Publication number: JPH11143893A
Application number: JP9305452A
Authority: JP
Inventors: Kenji Kondo; 堅司近藤; Makoto Hirai; 誠平井; Tsuyoshi Megata; 強司目片; Yoshihiko Matsukawa; 善彦松川
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1997-11-07
Filing date: 1997-11-07
Publication date: 1999-05-28

Abstract

(57)【要約】【課題】曖昧さを含む文字列から効率よく単語照合を
行う。【解決手段】単語辞書部中の単語情報へのポインタ
と、次の状態へ遷移可能な文字と前記次の状態へのポイ
ンタとの対応関係を格納した遷移可能文字テーブルと、
を有する状態の集合から構成されるオートマトンであ
り、前記文字が、現在の状態の遷移可能文字テーブルに
存在すれば対応する次の状態へ遷移する動作を繰り返す
過程において、濁点付加可能な清音文字と前記清音文字
に濁点を付加した濁音文字に対しては同一の状態へ遷移
するように対応関係を格納し、半濁点付加可能な清音文
字と前記清音文字に半濁点を付加した半濁音文字に対し
ては同一の状態へ遷移するように対応関係を格納する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文字列と単語辞書
中の単語を照合する装置に関し、特に、文字認識後処理
のため、文字認識で得られた曖昧さを含む文字コードか
ら単語の検索を効率よく行う単語照合装置に関する。

【０００２】

【従来の技術】従来、帳票の記入において、カナ文字を
記入する際には、濁点「゛」・半濁点「゜」も１文字と
して記入することが原則となっていた。しかし、最近は
濁点・半濁点を１文字として記入せず、濁点・半濁点を
含めた濁音文字・半濁音文字として記入された帳票も読
み取りの対象となることが少なくない。

【０００３】このような帳票の記述に対して、単語辞書
には濁点・半濁点を１文字として単語の表記の記憶を行
い、文字認識の前処理において、文字イメージが清音文
字か濁音・半濁音文字であるか判定し、濁音・半濁音文
字と判定したときは、その文字イメージを清音文字のイ
メージと濁点・半濁点文字のイメージに分離する処理が
行われていた。しかしながら、清音文字の右上に文字以
外のノイズ（ゴミ、汚れ）が付着し、濁音・半濁音文字
と誤って判定された場合、上記の分離処理によって文字
数が変化してしまい、単語辞書中の正解単語と照合でき
ない。

【０００４】上記の問題に対して、特開平7-85220号公
報では、単語辞書は濁音文字・半濁音文字を１文字とし
て記憶しておき、濁点・半濁点を分離した形で書かれて
いる文字列を認識した場合、文字認識部で認識して得ら
れた複数の候補文字マトリクスから清音文字と濁点文字
の合成を行い、候補マトリクスを修正して単語照合を行
う手法が提案されている。

【０００５】

【発明が解決しようとする課題】しかし、この方法で
は、濁点・半濁点文字が誤認織され候補文字中に存在し
ない、または認識候補の中に入っていても上位候補では
ない場合は、濁音文字・半濁音文字の合成に失敗してし
まう。また、清音文字が濁点文字・半濁点文字に誤認識
された場合は、誤った合成がなされてしまい正解単語と
うまく照合できない。

【０００６】本発明は上記従来の問題点を解決するもの
で、認識部において濁点・半濁点が誤認識された場合な
ども、正解単語を柔軟に照合する単語照合装置を提供す
ることを目的とする。

【０００７】

【課題を解決するための手段】この目的を達成するため
に本発明の単語照合装置は、単語辞書部と単語照合部と
から構成され、前記単語辞書部は、カナ表記を含む単語
情報を格納し、前記単語照合部は、前記単語辞書部中の
単語情報へのポインタと、次の状態へ遷移可能な文字と
前記次の状態へのポインタとの対応関係を格納した遷移
可能文字テーブルと、を有する状態の集合から構成され
るオートマトンであり、単語照合対象である文字列中の
各文字について、前記文字が、現在の状態の遷移可能文
字テーブルに存在すれば対応する次の状態へ遷移する動
作を繰り返す過程において、前記単語辞書部中の単語情
報へのポインタを出力することにより単語を照合し、任
意の状態の遷移可能文字テーブルにおいて、濁点付加可
能な清音文字と前記清音文字に濁点を付加した濁音文字
に対しては同一の状態へ遷移するように対応関係を格納
し、半濁点付加可能な清音文字と前記清音文字に半濁点
を付加した半濁音文字に対しては同一の状態へ遷移する
ように対応関係を格納し、濁点付加可能な清音文字に対
応して遷移する遷移先の状態の遷移可能文字テーブルに
おいて、濁点文字に対しては前記遷移先の状態自らへ遷
移するように対応関係を格納し、半濁点付加可能な清音
文字に対応して遷移する遷移先の状態の遷移可能文字テ
ーブルにおいて、半濁点文字に対しては前記遷移先の状
態自らへ遷移するように対応関係を格納する構造を有し
ている。

【０００８】この構成によって、帳票に、濁点・半濁点
が独立した１文字として記入されていても、濁点・半濁
点付きの濁音文字・半濁音文字として記入されていて
も、またはその両方の表記が混在して記入されていて
も、濁点・半濁点合成等の処理をする事なしに、正解単
語と照合することが出来る。また、濁点・半濁点が誤認
識され、清音文字として認識されている場合も、認識候
補の中に濁点・半濁点文字が存在すれば、あるいは、認
識候補の中に濁点・半濁点文字が存在しなくても認識ス
コアなどの導入により、認識スコアがあまりにも低い場
合は全ての次の状態に遷移することにより、正解単語の
照合が可能になる。また、地名単語の中には、同じ地名
でも濁点の有無などによる読み方の違いが存在するが、
辞書と認識対象の文字の濁点の有無に関わらず正解単語
と照合可能になる。

【０００９】

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。

【００１０】（実施の形態１）図１は、本発明の第１の
実施の形態における単語照合装置の構成図である。図１
において、単語照合部１，単語辞書部２とで単語照合装
置を構成し、単語照合部１は状態Ｓiの集合で構成され
るオートマトンである。ここで、ｉは状態番号であり、
状態の総数をＮとする時、１≦ｉ≦Ｎである。また単語
辞書には、単語照合を行うインデックスを作成するため
の濁音文字及び半濁音文字を１文字で表したカタカナ表
記と、付加情報として漢字表記を格納してある。

【００１１】図２は、図１におけるｎ番目の状態Ｓnを
詳細に表した図である。図２において、状態Ｓnは、単
語辞書部内の単語情報を指すポインタと遷移可能文字テ
ーブルＴnを有している。ここで、ある１つの状態から
単語情報を指すポインタは１つであるとは限らない。ま
た、遷移可能文字テーブルＴnには、次の状態に遷移す
ることの出来る文字コードと次の状態へのポインタとの
組み合わせが格納してある。図１において、状態間を結
んでいる矢印とその矢印の側に書いてあるカタカナは、
それぞれ、次の状態へのポインタと対応する文字であ
る。

【００１２】以上を踏まえると、図１の単語照合装置
は、任意の状態の遷移可能文字テーブルにおいて、濁点
付加可能な清音文字と前記清音文字に濁点を付加した濁
音文字に対しては同一の状態へ遷移するように対応関係
を格納し、半濁点付加可能な清音文字と前記清音文字に
半濁点を付加した半濁音文字に対しては同一の状態へ遷
移するように対応関係を格納し、濁点付加可能な清音文
字に対応して遷移する遷移先の状態の遷移可能文字テー
ブルにおいて、濁点文字に対しては前記遷移先の状態自
らへ遷移するように対応関係を格納し、半濁点付加可能
な清音文字に対応して遷移する遷移先の状態の遷移可能
文字テーブルにおいて、半濁点文字に対しては前記遷移
先の状態自らへ遷移するように対応関係を格納する構造
を有していることがわかる。

【００１３】次にこのような構成のカタカナ文字列を単
語照合対象とする単語照合装置の動作について詳細に説
明する。

【００１４】まず、単語照合部１の構築時であるが、最
初は状態数を初期状態のみの１とする。ここで、各単語
の最初の文字に対応して遷移する前に共通して存在する
状態を特に初期状態と呼び、ある単語の最後の文字に対
応して遷移した後の状態を最終状態と呼ぶ。これは、以
下の実施の形態についても同様である。

【００１５】そして、単語辞書部２の単語数をＷとした
とき、１番目の単語からＷ番目の単語まで次のような方
法で状態Ｓiを生成する。単語辞書部２の１番目の単語
を「ミヤザキ」であるとする。最初は図３のように初期
状態Ｓ1のみであり初期状態Ｓ1の遷移可能文字テーブル
Ｔ1は空である。

【００１６】まず、初期状態Ｓ1において１文字目の
「ミ」に注目する。遷移可能文字テーブルＴ1に「ミ」
の文字コードが格納されているかどうか調べ、格納され
ていないので、図４のように新たに状態Ｓ2を生成し、
初期状態Ｓ1の遷移可能文字テーブルＴ1に「ミ」の文字
コードと状態Ｓ2を指すポインタとの対応関係を格納す
る。そして、状態Ｓ2まで遷移して、２番目の文字
「ヤ」に注目する。状態Ｓ2の遷移可能文字テーブルＴ2
も空であるので、図５のように新たに状態Ｓ3を生成
し、もとの状態Ｓ2の遷移可能文字テーブルＴ2に「ヤ」
の文字コードと状態Ｓ3を指すポインタとの対応関係を
格納する。そして、状態Ｓ3まで遷移して、３番目の文
字「ザ」に注目する。

【００１７】状態Ｓ3の遷移可能文字テーブルＴ3も空で
あるので、新たに状態Ｓ4を生成する。今、注目してい
る文字「ザ」は濁音文字であるので、遷移可能文字テー
ブルＴ3に、この濁音文字「ザ」の文字コードと状態Ｓ4
へのポインタとの対応関係に加えて、この「ザ」から濁
点を取り去った「サ」の文字コードと状態Ｓ4へのポイ
ンタとの対応関係も格納する。この時、同時に、状態Ｓ
4の遷移可能文字テーブルＴ4にも、濁点文字「゛」の文
字コードと状態Ｓ4を指すポインタとの対応関係を格納
しておく。現時点では、状態は図６のようになる。そし
て、状態Ｓ4まで遷移して、最後の文字「キ」に注目す
る。

【００１８】状態Ｓ4の遷移可能文字テーブルＴ4も空で
あるので、新たに状態Ｓ5を生成する。今、注目してい
る文字「キ」は濁点付加可能な清音文字であるので、
「キ」の文字コードと状態Ｓ5へのポインタとの対応関
係に加えて、この「キ」に濁点を付加した「ギ」の文字
コードと状態Ｓ5へのポインタとの対応関係も格納す
る。この時、状態Ｓ5の遷移可能文字テーブルＴ5にも、
濁点文字「゛」の文字コードと状態Ｓ5を指すポインタ
との対応関係を格納しておく。この時、状態Ｓ5は単語
「ミヤザキ」の最終状態に相当するので、状態Ｓ5に単
語辞書部内の単語「ミヤザキ」の単語情報へのポインタ
をセットする。すると現時点では、この単語照合装置の
構成は図７のようになる。

【００１９】次に、２番目の単語「ミヤザワ」について
考える。まず１文字目の「ミ」の文字コードが初期状態
Ｓ1の遷移可能文字テーブルＴ1に存在するかどうかチェ
ックし、この場合は存在するので、「ミ」の文字コード
に対応づけられた次の状態Ｓ2に遷移する。状態Ｓ2で
は、遷移可能文字テーブルＴ2に「ヤ」の文字コードが
存在するかどうかチェックし、存在するので「ヤ」の文
字コードに対応づけられた次の状態Ｓ3に遷移する。状
態Ｓ3では、遷移可能文字テーブルＴ3に「ザ」の文字コ
ードが存在するかどうかチェックし、存在するので
「ザ」の文字コードに対応づけられた次の状態Ｓ4に遷
移する。状態Ｓ4では、遷移可能文字テーブルＴ4に
「ワ」の文字コードが存在するかどうかチェックし、存
在しないので、新たな状態Ｓ6を生成し、「ワ」の文字
コードと新たに生成した状態Ｓ6へのポインタとの対応
関係を格納する。この時、状態Ｓ6は単語「ミヤザワ」
の最終状態に相当するので、状態Ｓ6に単語辞書部内の
単語「ミヤザワ」の単語情報へのポインタをセットす
る。すると現時点では、この単語照合装置の構成は図８
のようになる。

【００２０】以上、最初の２単語について詳細に説明し
たが、残りの単語についても全て上記の様に、任意の状
態Ｓiの遷移可能文字テーブルには、濁点付加可能な清
音文字とその清音文字に濁点を付加した濁音文字、また
はその逆の、濁音文字とその濁音文字から濁点を除去し
た清音文字は同一の状態に遷移するように格納し、遷移
先の状態の遷移可能文字テーブルには、濁点の文字コー
ドとその状態自身へのポインタとの対応関係を格納し、
また、半濁点付加可能な清音文字とその清音文字に半濁
点を付加した半濁音文字、またはその逆の、半濁音文字
とその半濁音文字から半濁点を除去した清音文字は、同
一の状態に遷移するように格納し、遷移先の状態の遷移
可能文字テーブルには、半濁点の文字コードとその状態
自身へのポインタとの対応関係を格納することにより、
図１のような状態群からなる単語照合部１が得られる。

【００２１】また、単語照合時の動作であるが、各状態
Ｓiにおいて図９のフローチャートで表された処理を行
う。帳票に書かれた図１０のようなカナ文字列を文字認
識した結果得られる図１１の認識候補マトリクスＲijか
ら正解単語を照合する方法を述べる。図１１の認識候補
マトリクスは横方向（ｉ方向）が文字列方向、縦方向
（ｊ方向）が認識候補方向であり上になるほど認識スコ
アが高いものとする。この例では、５文字の文字列の各
文字に対して第３候補までの認識結果を求めている。ま
た、図１１を見ると４文字目の濁点が清音文字の「ハ」
に誤認識されている。

【００２２】まず、初期状態Ｓ1で図９の処理を行う。
すなわち、ある単語の最終状態であるかどうかチェック
するが、この条件には該当しないので、１文字目の文字
の第１候補「ミ」（Ｒ11）の文字コードが遷移可能文字
テーブルＴ1に存在するかどうかチェックを行う。これ
は存在するので「ミ」の文字コードに対応する次の状態
Ｓ2に遷移し、注目する文字位置をｉ＝２に進め、状態
Ｓ2において次の処理を行う。この時、遷移できた文字
コードに対応する認識スコアを保持しておく。ここで注
意しなければならないのは、図９中の「注目する文字列
を１つ進め、対応する次の状態へ遷移して処理」が終わ
れば、元の状態において処理を続行する、つまりこの手
続きの再帰呼び出しを行っているということである。

【００２３】遷移した状態Ｓ2においても、ある単語の
最終状態であるかどうかチェックするが、条件には該当
しないので、２文字目の文字の第１候補「ヤ」（Ｒ21）
の文字コードが遷移可能文字テーブルＴ2に存在するか
どうかチェックを行う。これも存在するので「ヤ」の文
字コードに対応する次の状態Ｓ3に遷移し、注目する文
字位置をｉ＝３に進め、状態Ｓ3において次の処理を行
う。状態Ｓ3では、ある単語の最終状態であるかチェッ
クするが、単語「ミヤ」の最終状態であることが分かっ
たので、次のステップに進み、入力文字列の最後の文字
についても状態遷移が終わっているかどうかのチェック
を行う。今は、５文字の文字列のうち２文字目の文字ま
でしか状態遷移が終わってないので、単語情報へのポイ
ンタを出力せずに次のステップに進む。３文字目の文字
の第１候補「サ」（Ｒ31）の文字コードが遷移可能文字
テーブルＴ3に存在するかどうかチェックを行う。これ
も存在するので「サ」の文字コードに対応する次の状態
Ｓ4に遷移し、注目する文字位置をｉ＝４に進め、状態
Ｓ4において次の処理を行う。遷移した状態Ｓ4において
も、ある単語の最終状態であるかどうかチェックする
が、条件には該当しないので、４文字目の文字の第１候
補「ハ」（Ｒ41）の文字コードが遷移可能文字テーブル
Ｔ4に存在するかどうかチェックを行う。これは存在し
ないので、次の認識候補Ｒ42が存在するかどうか調べ、
存在するので、４文字目の第２候補「゛」の文字コード
が遷移可能文字テーブルＴ4に存在するかどうかチェッ
クを行う。これは存在するので、「゛」の文字コードに
対応する次の状態Ｓ4（同じ状態であるが）に遷移し、
注目する文字位置をｉ＝５に進め、状態Ｓ4において次
の処理を行う。状態Ｓ4は、どの単語の最終状態にもな
っていないので、次のステップに進み、５文字目の文字
の第１候補「キ」（Ｒ51）の文字コードが遷移可能文字
テーブルＴ4に存在するかどうかチェックを行う。これ
は存在するので「キ」の文字コードに対応する次の状態
Ｓ5に遷移する。この時、注目する文字位置はこれ以上
進めない（ｉ＝５）。そして状態Ｓ5は単語「ミヤザ
キ」の最終状態であり、入力文字列の最後の文字までも
状態遷移が終わっているので、単語「ミヤザキ」の単語
辞書２内の単語情報へのポインタを出力して終了する。
この時、保持しておいた各文字の認識スコアの和を、単
語のスコアとして同時に出力する。

【００２４】また、再帰を行う前の処理が残っているの
で、５文字目の文字の第２候補「イ」（Ｒ52）の文字コ
ードが遷移可能文字テーブルＴ4に存在するかどうかチ
ェックを行う。これは存在しないので、５文字目の文字
の第３候補「テ」（Ｒ53）の文字コードが遷移可能文字
テーブルＴ4に存在するかどうかチェックを行う。これ
も存在しないので次のステップに進む。

【００２５】このように全ての再帰処理を終了させ、出
てきた全ての単語のうち、単語のスコアが最も高いもの
を単語の第１候補とする。

【００２６】また、この単語照合部に図１２のように、
濁点（半濁点）分離しない濁音（半濁音）文字が帳票の
１マスに書かれているカナ文字列について考え、この文
字列を文字認識した結果得られる図１３の認識候補マト
リクスＲijから正解単語を照合することについても、図
９のフローチャートで表される処理を行うと単語「ミヤ
ザキ」を得ることが出来る。

【００２７】このように、各状態において、濁点付加可
能な清音文字は、その清音文字に濁点を付加した濁音文
字と同じ状態に遷移し、または、濁音文字は、その濁音
文字から濁点を除去した清音文字と同じ状態に遷移し、
その遷移先の状態においては、濁点文字に対してその状
態自身に遷移し、半濁点付加可能な清音文字は、その清
音文字に半濁点を付加した半濁音文字と同じ状態に遷移
し、または半濁音文字は、その半濁音文字から半濁点を
除去した清音文字と同じ状態に遷移し、その遷移先の状
態においては、半濁点文字に対してその状態自身に遷移
する構造を採ることにより、濁点・半濁点を分離した形
で表現されている文字列も、濁点・半濁点を一緒に濁音
文字・半濁音文字として表現されている文字列も、濁点
分離・統合などの付加処理なしに、正しく照合する事が
出来る。また、濁点が誤認識されて第１候補にない場合
でも正しく照合できる。

【００２８】また、正解文字が図１１、図１３のような
認識候補マトリクスの中に含まれていない場合でも、認
識スコアが非常に悪い場合は、認識結果の文字コードに
関わらず、遷移可能な全ての状態へ遷移することによ
り、正解単語と照合することが出来る。

【００２９】また、地名単語などの中には、同じ地名を
表す漢字表記でも濁点の有無による読み方の相違が存在
する場合が少なくない。例えば、「上菅田」は「カミス
ゲタ」とも「カミスゲダ」とも使われ、「江古田」は
「エゴタ」とも「エコダ」とも読まれる。従来の方法で
は、辞書に「カミスゲタ」としか登録されていないにも
関わらず「カミスゲダ」と表記された場合は照合に失敗
していたが、本実施の形態では、正しく照合出来る。

【００３０】ただ、本実施の形態の単語照合装置では、
柔軟な単語照合が出来る代わりに照合結果で複数の単語
が出てきた場合に特定しにくいという問題がある。特
に、人名等のように、同じ漢字表記（例：宮崎）に対す
る複数の読み（例：ミヤザキ、ミヤサキ）を特定しなけ
ればならない場合や、また、異なる漢字表記（例：長
沢、中沢）でさえも、この単語照合装置を使用すること
により単語の特定しにくいカナ表記の単語（例：ナガサ
ワ、ナカザワ、ナカサワ）などが存在する場合である。
よって、それらをさらに限定しようとすれば、状態遷移
をしてきた文字コードを保持しておいてそれらの情報を
用いるか、または、住所などのように接続情報などの補
助知識を用いることにより、それらの単語からさらに限
定を行えばよい。

【００３１】なお、この装置をソフトウェアで実現して
もよい。なお、単語辞書には、単語照合を行うためのイ
ンデックスをカタカナとしたが、ひらがなでもよい。ま
た、付加情報として漢字表記を格納したが、その他の情
報でもよい。

【００３２】なお、単語のスコアは、上記のように、各
文字の認識スコアの和でもよいし、文字数で割った認識
スコアの平均でもよい。

【００３３】なお、認識候補の数は３としているが、任
意の自然数でもよい。また、本実施の形態では、ある単
語の最終状態となっている場合でも入力文字列の最後の
文字まで状態遷移し終えてなければ、その単語を照合出
来たとして出力していないが、入力文字長と長さの異な
る単語も出力させたい場合は出力しても良い。

【００３４】なお、カナの「ア」と「ァ」、アルファベ
ットの「Ｃ」と「ｃ」のように、同一形状で大きさが異
なる文字の場合、同一の状態へ遷移するように状態群を
構築すれば、大きさの違いによる誤認識も吸収し、正解
単語を照合できる。

【００３５】また、漢字の「力」とカタカナの「カ」の
ような類似文字に関しても、同一の状態に遷移するよう
に状態群を構築すれば、類似文字による誤認識も吸収
し、正解単語を照合出来る。

【００３６】（実施の形態２）図１４は、本発明の第２
の実施の形態における単語照合装置の構成図である。図
１４において、単語照合部１，単語辞書部２とで単語照
合装置を構成し、単語照合部１は状態Ｓiの集合で構成
されるオートマトンである。ここで、ｉは状態番号であ
り、状態の総数をＮとする時、１≦ｉ≦Ｎである。また
単語辞書には、単語照合を行うインデックスを作成する
ための濁音文字及び半濁音文字を１文字で表したカタカ
ナ表記と、付加情報として漢字表記を格納してある。

【００３７】図２は、図１４におけるｎ番目の状態Ｓn
を詳細に表した図である。図２において、状態Ｓnは、
単語辞書部内の単語情報を指すポインタと遷移可能文字
テーブルＴnを有している。ここで、ある１つの状態か
ら単語情報を指すポインタは１つであるとは限らない。
また、遷移可能文字テーブルＴnには、次の状態に遷移
することの出来る文字コードと次の状態へのポインタと
の組み合わせが格納してある。図１４において、状態間
を結んでいる矢印とその矢印の側に書いてあるカタカナ
は、それぞれ、次の状態へのポインタと対応する文字で
ある。

【００３８】以上を踏まえると、図１４の単語照合装置
は、ある状態の遷移可能文字テーブルに濁音文字と次の
状態へのポインタとの対応関係が格納されている場合、
前記遷移可能文字テーブルに、前記濁音文字から濁点を
除去した清音文字と、前記濁音文字に対応して遷移する
遷移先の状態とは異なる状態へのポインタとの対応関係
も格納されると共に、前記清音文字に対応して遷移する
遷移先の状態の遷移可能文字テーブルに濁点文字と前記
濁音文字に対応して遷移する遷移先の状態へのポインタ
との対応関係が格納され、ある状態の遷移可能文字テー
ブルに半濁音文字と次の状態へのポインタとの対応関係
が格納されている場合、前記遷移可能文字テーブルに、
前記半濁音文字から半濁点を除去した清音文字と、前記
半濁音文字に対応して遷移する遷移先の状態とは異なる
状態へのポインタとの対応関係も格納されると共に、前
記清音文字に対応して遷移する遷移先の状態の遷移可能
文字テーブルに半濁点文字と前記半濁音文字に対応して
遷移する遷移先の状態へのポインタとの対応関係が格納
されている構造を有していることがわかる。

【００３９】次にこのような構成のカタカナ文字列を単
語照合対象とする単語照合装置の動作について詳細に説
明する。

【００４０】まず、単語照合部１の構築時であるが、最
初は状態数を初期状態のみの１とする。そして単語辞書
部２の単語数をＷとしたとき、１番目の単語からＷ番目
の単語まで次のような方法で状態Ｓiを生成する。単語
辞書部２の１番目の単語を「ミヤザキ」であるとする。
最初は図３のように初期状態Ｓ1のみであり初期状態Ｓ1
の遷移可能文字テーブルＴ1は空である。１文字目の
「ミ」の文字コードが初期状態Ｓ1の遷移可能文字テー
ブルＴ1に格納されていないので、図４のように新たに
状態Ｓ2を生成し、初期状態Ｓ1の遷移可能文字テーブル
Ｔ1に「ミ」の文字コードと状態Ｓ2を指すポインタとの
対応関係を格納する。そして、状態Ｓ2まで遷移して、
２番目の文字「ヤ」に注目する。状態Ｓ2の遷移可能文
字テーブルＴ2も空であるので、図５のように新たに状
態Ｓ3を生成し、もとの状態Ｓ2の遷移可能文字テーブル
Ｔ2に「ヤ」の文字コードと状態Ｓ3を指すポインタとの
対応関係を格納する。そして、状態Ｓ3まで遷移して、
３番目の文字「ザ」に注目する。状態Ｓ3の遷移可能文
字テーブル１ｄも空であるので、新たに状態Ｓ4を生成
する。

【００４１】今、注目している文字「ザ」は濁音文字で
あるので、もう１個、新たに状態Ｓ5を生成し、状態Ｓ3
の遷移可能文字テーブルＴ3に「ザ」の文字コードと状
態Ｓ4へのポインタとの対応関係と、この「ザ」から濁
点を取り去った「サ」の文字コードと状態Ｓ5へのポイ
ンタとの対応関係とを格納し、状態Ｓ5の遷移可能文字
テーブルＴ5に濁点「゛」の文字コードと状態Ｓ4へのポ
インタとの対応関係を格納する。現時点では、状態は図
１５のようになる。そして、状態Ｓ4まで遷移して、最
後の文字「キ」に注目する。

【００４２】状態Ｓ4の遷移可能文字テーブルＴ4も空で
あるので、新たに状態Ｓ6を生成し、遷移可能文字テー
ブルＴ4に「キ」の文字コードと状態Ｓ6へのポインタと
の対応関係を格納する。この時、状態Ｓ6は単語「ミヤ
ザキ」の最終状態に相当するので、状態Ｓ6に単語辞書
部内の単語「ミヤザキ」の単語情報へのポインタをセッ
トする。すると現時点では、この単語照合装置の構成は
図１６のようになる。

【００４３】次に、２番目の単語「ミヤサキ」について
考える。まず１文字目の「ミ」の文字コードが初期状態
Ｓ1の遷移可能文字テーブルＴ1に存在するかどうかチェ
ックし、この場合は存在するので、「ミ」の文字コード
に対応づけられた次の状態Ｓ2に遷移する。状態Ｓ2で
は、遷移可能文字テーブルＴ2に「ヤ」の文字コードが
存在するかどうかチェックし、存在するので「ヤ」の文
字コードに対応づけられた次の状態Ｓ3に遷移する。状
態Ｓ3では、遷移可能文字テーブルＴ3に「サ」の文字コ
ードが存在するかどうかチェックし、存在するので
「サ」の文字コードに対応づけられた次の状態Ｓ5に遷
移する。状態Ｓ5では、遷移可能文字テーブルＴ5に
「キ」の文字コードが存在するかどうかチェックし、存
在しないので、新たに状態Ｔ7を生成し、「キ」の文字
コードと状態Ｔ7へのポインタとの対応関係を格納す
る。この時、状態Ｓ7は単語「ミヤサキ」の最終状態に
相当するので、状態Ｓ7に単語辞書部内の単語「ミヤサ
キ」の単語情報へのポインタをセットする。すると現時
点では、この単語照合装置の構成は図１７のようにな
る。

【００４４】以上、最初の２単語について詳細に説明し
たが、残りの単語についても全て上記の様に、ある状態
Ａから濁音文字（半濁音文字）に対応して次の状態Ｂに
遷移する場合は、その状態Ａから、その濁音文字（半濁
音文字）から濁点（半濁点）を除去した清音文字に対応
して別のある状態Ｃへ遷移することができ、その状態Ｃ
から濁点（半濁点）に対応して状態Ｂに遷移できるよう
な構造で、単語照合部を構築することにより、図１４の
ような状態群からなる単語照合部１が得られる。

【００４５】また、単語照合時の動作は第１の実施の形
態と同様であり、各状態Ｓiにおいて図９のフローチャ
ートで表される処理を行うと、濁点分離形で書かれた図
１０のような文字列も濁音文字が１マスに書かれた図１
２のような文字列も、濁点分離・統合などの付加処理な
しで正しく照合することができる。

【００４６】また、正解文字が図１１、図１３のような
認識候補マトリクスの中に含まれていない場合でも、認
識スコアが非常に悪い場合は、認識結果の文字コードに
関わらず、遷移可能な全ての状態へ遷移することによ
り、正解単語と照合することが出来る。

【００４７】なお、この装置をソフトウェアで実現して
もよい。なお、単語辞書には、単語照合を行うためのイ
ンデックスをカタカナとしたが、ひらがなでもよい。ま
た、付加情報として漢字表記を格納したが、その他の情
報でもよい。

【００４８】なお、単語のスコアは、上記のように、各
文字の認識スコアの和でもよいし、文字数で割った認識
スコアの平均でもよい。

【００４９】なお、認識候補の数は３としているが、任
意の自然数でもよい。また、本実施の形態では、ある単
語の最終状態となっている場合でも入力文字列の最後の
文字まで状態遷移し終えてなければ、その単語を照合出
来たとして出力していないが、入力文字長と長さの異な
る単語も出力させたい場合は出力しても良い。

【００５０】なお、カナの「ア」と「ァ」、アルファベ
ットの「Ｃ」と「ｃ」のように、同一形状で大きさが異
なる文字の場合、同一の状態へ遷移するように状態群を
構築すれば、大きさの違いによる誤認識も吸収し、正解
単語を照合できる。

【００５１】また、漢字の「力」とカタカナの「カ」の
ような類似文字に関しても、同一の状態に遷移するよう
に状態群を構築すれば、類似文字による誤認識も吸収
し、正解単語を照合出来る。

【００５２】（実施の形態３）図１８は、本発明の第３
の実施の形態における単語照合装置の構成図である。図
１８において、単語照合部１，単語辞書部２とで単語照
合装置を構成し、単語照合部１は状態Ｓiの集合で構成
されるオートマトンである。ここで、ｉは状態番号であ
り、状態の総数をＮとする時、１≦ｉ≦Ｎである。また
単語辞書には、単語照合を行うインデックスを作成する
ための単語表記を格納してある。

【００５３】図２は、図１８におけるｎ番目の状態Ｓn
を詳細に表した図である。図２において、状態Ｓnは、
単語辞書部内の単語情報を指すポインタと遷移可能文字
テーブルＴnを有している。ここで、ある１つの状態か
ら単語情報を指すポインタは１つであるとは限らない。
また、遷移可能文字テーブルＴnには、次の状態に遷移
することの出来る文字コードと次の状態へのポインタと
の組み合わせが格納してある。図１８において、状態間
を結んでいる矢印とその矢印の側に書いてあるアルファ
ベットは、それぞれ、次の状態へのポインタと対応する
文字である。

【００５４】以上を踏まえると、図１８の単語照合装置
は、単語の画像から各文字を切り出す過程において１文
字であるにも拘わらずＮ個の文字パーツに過分割される
文字が存在する単語に関して、前記文字の始点となる状
態の遷移可能文字テーブルに前記文字と次の状態へのポ
インタとの対応関係と、前記Ｎ個の文字パーツのうち１
番目の文字パーツを認識して得られる文字と次の状態へ
のポインタとの対応関係が格納され、前記Ｎ個の文字パ
ーツのうちｉ番目（１≦ｉ≦Ｎ−２）の文字パーツを認
識して得られる文字に対応して遷移する遷移先の状態の
遷移可能文字テーブルに前記Ｎ個の文字パーツのうちｉ
＋１番目の文字パーツを認識して得られる文字と次の状
態へのポインタとの対応関係が格納され、前記Ｎ個の文
字パーツのうちＮ−１番目の文字パーツを認識して得ら
れる文字に対応して遷移する遷移先の状態の遷移可能文
字テーブルに前記Ｎ個の文字パーツのうちＮ番目の文字
パーツを認識して得られる文字とＮ個の文字パーツに過
分割される前記文字に対応して遷移する遷移先の状態へ
のポインタとの対応関係が格納される構造を有している
ことがわかる。

【００５５】次にこのような構成の単語照合装置の動作
について詳細に説明する。まず、単語照合部１の構築時
であるが、最初は状態数を初期状態のみの１とする。そ
して単語辞書部２の単語数をＷとしたとき、１番目の単
語からＷ番目の単語まで次のような方法で状態Ｓiを生
成する。単語辞書部２の１番目の単語を「化学」である
とする。最初は図３のように初期状態Ｓ1のみであり初
期状態Ｓ1の遷移可能文字テーブルＴ1は空である。１文
字目の「化」の文字コードが初期状態Ｓ1の遷移可能文
字テーブルＴ1に格納されていないので、図１９のよう
に新たな状態Ｓ2を生成し、初期状態Ｓ1の遷移可能文字
テーブルＴ1に「化」の文字コードと新たに生成した状
態Ｓ2を指すポインタとの対応関係を格納する。また、
「化」は文字認識の切り出し部において、しばしば２つ
の文字パーツに過分割され、それぞれの文字パーツを認
識すると、カタカナの「イ」と「ヒ」に誤認識されやす
い。そこで、分割された文字パーツを認識することによ
り得られる文字「イ」の文字コードが状態Ｓ1の遷移可
能文字テーブルに存在するかどうかチェックし、存在し
ないので、新たに状態Ｓ3を生成し、状態Ｓ1の遷移可能
文字テーブルＴ1に「イ」の文字コードと状態Ｓ3へのポ
インタとの対応関係を格納する。また状態Ｓ3の遷移可
能文字テーブルＴ3に「ヒ」の文字コードと状態Ｓ2への
ポインタとの対応関係を格納する。すると現時点では、
状態は図２０の様になっている。

【００５６】次に状態Ｓ2において、２文字目の「学」
の文字コードが遷移可能文字テーブルＴ2に存在するか
どうかチェックし、存在しないので、あらたな状態Ｓ4
を生成し、遷移可能文字テーブルＴ2に「学」の文字コ
ードと状態Ｓ4へのポインタとの対応関係を格納する。

【００５７】ここで、状態Ｓ4は単語「化学」の最終状
態に相当するので、単語辞書部２内の「化学」の単語情
報を指すポインタをセットする。すると状態は図２１の
様になる。

【００５８】次に単語辞書部２の２番目の単語「仁者」
に注目する。まず１文字目の「仁」についてであるが、
初期状態Ｓ1の遷移可能文字テーブルＴ1に、「仁」の文
字コードが存在するかどうかチェックし、存在しないの
で新たな状態Ｓ5を生成し、遷移可能文字テーブルＴ1に
「仁」の文字コードと状態Ｓ5へのポインタとの対応関
係を格納する。また、「仁」は文字認識の切り出し部に
おいて、しばしば２つの文字パーツに過分割され、それ
ぞれの文字パーツを認識すると、カタカナの「イ」と
「ニ」に誤認識されやすい。そこで、分割された文字パ
ーツを認識することにより得られる文字「イ」の文字コ
ードが状態Ｓ1の遷移可能文字テーブルに存在するかど
うかチェックし、存在するので、「イ」の文字コードに
対応する状態Ｓ3まで遷移し、状態Ｓ3の遷移可能文字テ
ーブルＴ3に「ニ」の文字コードが存在するかどうかチ
ェックし、存在しないので、遷移可能文字テーブルＴ3
に「ニ」の文字コードと状態Ｓ5へのポインタとの対応
関係を格納する。現時点での状態は図２２の様になって
いる。次に状態Ｓ5において、２文字目の「者」の文字
コードが遷移可能文字テーブルＴ5に存在するかどうか
チェックし、存在しないので、あらたな状態Ｓ6を生成
し、遷移可能文字テーブルＴ5に「学」の文字コードと
状態Ｓ6へのポインタとの対応関係を格納する。

【００５９】ここで、状態Ｓ6は単語「仁者」の最終状
態に相当するので、単語辞書部２内の「仁者」の単語情
報を指すポインタをセットする。すると状態は図２３の
様になる。

【００６０】このように、残りの単語についても全て上
記の様に、１つの文字が文字認識の切り出し部において
複数の文字パーツに過分割され、それぞれの文字パーツ
を文字として誤認識しやすい文字においては、各文字パ
ーツを認識して得られやすい文字コードに対応して状態
を遷移することができるように、単語照合部１を構築す
る。

【００６１】次に単語照合時の動作であるが、各状態Ｓ
iにおいて図９のフローチャートで表された処理を行
う。図２４のような文字列を文字認識した結果得られる
図２５の認識候補マトリクスＲijから正解単語を照合す
る方法を述べる。図２５の認識候補マトリクスは横方向
（ｉ方向）が文字列方向、縦方向（ｊ方向）が認識候補
方向であり上になるほど認識スコアが高いものとする。
この例では、２文字の文字列「化学」の文字列が誤って
３文字として切り出され、認識が行われており、各文字
に対して第３候補までの認識結果を求めている。

【００６２】まず、初期状態Ｓ1で図９の処理を行う。
すなわち、ある単語の最終状態であるかどうかチェック
するが、この条件には該当しないので、１文字目の文字
の第１候補「イ」（Ｒ11）の文字コードが遷移可能文字
テーブルＴ1に存在するかどうかチェックを行う。これ
は存在するので「イ」の文字コードに対応する次の状態
Ｓ3に遷移し、注目する文字位置をｉ＝２に進め、状態
Ｓ3において次の処理を行う。この時、遷移できた文字
コードに対応する認識スコアを保持しておく。ここで注
意しなければならないのは、図９中の「注目する文字列
を１つ進め、対応する次の状態へ遷移して処理」が終わ
れば、元の状態において処理を続行する、つまりこの手
続きの再帰呼び出しを行っているということである。遷
移した状態Ｓ3においても、ある単語の最終状態である
かどうかチェックするが、条件には該当しないので、２
文字目の文字の第１候補「ヒ」（Ｒ21）の文字コードが
遷移可能文字テーブルＴ2に存在するかどうかチェック
を行う。これも存在するので「ヒ」の文字コードに対応
する次の状態Ｓ2に遷移し、注目する文字位置をｉ＝３
に進め、状態Ｓ2において次の処理を行う。状態Ｓ2で
は、ある単語の最終状態であるかチェックするが、条件
には該当しないので、３文字目の文字の第１候補「学」
（Ｒ31）の文字コードが遷移可能文字テーブルＴ2に存
在するかどうかチェックを行う。これも存在するので
「学」の文字コードに対応する次の状態Ｓ4に遷移す
る。遷移した状態Ｓ4においても、ある単語の最終状態
であるかどうかチェックし、単語「化学」の最終状態に
なっており、入力文字列の最後の文字まで遷移済みであ
るので、単語「化学」が照合でき、保持しておいたスコ
アの和を単語のスコアとして出力する。全ての再帰処理
を終了させ、出てきた全ての単語のうち、単語のスコア
が最も高いものを単語の第１候補とする。

【００６３】このように、１つの文字が複数の文字パー
ツに過分割され、それぞれを文字として認識することに
より切り出しミスをしやすい文字は予め、過分割された
文字パーツを認識した文字コードを用いて状態群を形成
することにより、切り出しミスが起きても正解単語と照
合できる。

【００６４】また、正解文字が図２５のような認識候補
マトリクスの中に含まれていない場合でも、認識スコア
が非常に悪い場合は、認識結果の文字コードに関わら
ず、遷移可能な全ての状態へ遷移することにより、正解
単語と照合することが出来る。

【００６５】なお、この装置をソフトウェアで実現して
もよい。なお、単語のスコアは、上記のように、各文字
の認識スコアの和でもよいし、文字数で割った認識スコ
アの平均でもよい。

【００６６】なお、認識候補の数は３としているが、任
意の自然数でもよい。また、本実施の形態では、ある単
語の最終状態となっている場合でも入力文字列の最後の
文字まで状態遷移し終えてなければ、その単語を照合出
来たとして出力していないが、入力文字長と長さの異な
る単語も出力させたい場合は出力しても良い。

【００６７】なお、カナの「ア」と「ァ」、アルファベ
ットの「Ｃ」と「ｃ」のように、同一形状で大きさが異
なる文字の場合、同一の状態へ遷移するように状態群を
構築すれば、大きさの違いによる誤認識も吸収し、正解
単語を照合できる。

【００６８】また、漢字の「力」とカタカナの「カ」の
ような類似文字に関しても、同一の状態に遷移するよう
に状態群を構築すれば、類似文字による誤認識も吸収
し、正解単語を照合出来る。

【００６９】（実施の形態４）図２６は、本発明の第４
の実施の形態における単語照合装置の構成図である。図
２６において、単語照合部１，単語辞書部２とで単語照
合装置を構成し、単語照合部１は状態Ｓiの集合で構成
されるオートマトンである。ここで、ｉは状態番号であ
り、状態の総数をＮとする時、１≦ｉ≦Ｎである。また
単語辞書には、単語照合を行うインデックスを作成する
ための英単語の表記とその他の関連情報を格納してあ
る。

【００７０】図２は、図２６におけるｎ番目の状態Ｓn
を詳細に表した図である。図２において、状態Ｓnは、
単語辞書部内の単語情報を指すポインタと遷移可能文字
テーブルＴnを有している。ここで、ある１つの状態か
ら単語情報を指すポインタは１つであるとは限らない。
また、遷移可能文字テーブルＴnには、次の状態に遷移
することの出来る文字コードと次の状態へのポインタと
の組み合わせが格納してある。図２６において、状態間
を結んでいる矢印とその矢印の側に書いてあるアルファ
ベットは、それぞれ、次の状態へのポインタと対応する
文字である。

【００７１】以上を踏まえると、図２６の単語照合装置
は、単語の画像から各文字を切り出す過程においてＮ個
の文字であるにも拘わらず１個の文字として切り出され
る文字群が存在する単語に関して、前記文字群の先頭文
字の始点となる状態の遷移可能文字テーブルに前記文字
群のうちの１番目の文字と次の状態へのポインタとの対
応関係と、前記文字群の画像を１文字として認識するこ
とにより得られる文字と前記文字群のうちのＮ番目の文
字に対応して遷移する遷移先の状態へのポインタとの対
応関係と、が格納する構造を有していることがわかる。

【００７２】次にこのような構成の単語照合装置の動作
について詳細に説明する。まず、単語照合部１の構築時
であるが、最初は状態数を初期状態のみの１とする。そ
して単語辞書部２の単語数をＷとしたとき、１番目の単
語からＷ番目の単語まで次のような方法で状態Ｓiを生
成する。単語辞書部２の１番目の単語を「learn」であ
るとする。最初は図３のように初期状態Ｓ1のみであり
初期状態Ｓ1の遷移可能文字テーブルＴ1は空である。

【００７３】最初に、この単語「learn」を認識対象の
文書に使用される頻度の高いフォントのイメージで見る
と、図２７のようになり、４文字目の「ｒ」と５文字目
の「ｎ」が接触するくらい近づいていることが分かる。
この文字を実際に文字認識のための切り出しを行うと、
４文字目の「ｒ」と５文字目の「ｎ」が接触したまま１
字として切り出され、この接触文字を「ｍ」として誤認
識してしまうことが多い。

【００７４】そして、１文字目の「ｌ」の文字コードが
初期状態Ｓ1の遷移可能文字テーブルＴ1に存在するかど
うかチェックを行い、今は、存在しないので、図２８の
ように新たな状態Ｓ2を生成し、初期状態Ｓ1の遷移可能
文字テーブルＴ1に「ｌ」の文字コードと新たに生成し
た状態Ｓ2を指すポインタとの対応関係を格納する。次
に状態Ｓ2において、２文字目の「ｅ」の文字コードが
遷移可能文字テーブルＴ2に存在するかどうかチェック
し、存在しないので、図２９の様に新たな状態Ｓ3を生
成し、遷移可能文字テーブルＴ2に「ｅ」の文字コード
と状態Ｓ3へのポインタとの対応関係を格納する。次に
状態Ｓ3において、３文字目の「ａ」の文字コードが遷
移可能文字テーブルＴ3に存在するかどうかチェック
し、存在しないので、図３０の様に新たな状態Ｓ4を生
成し、遷移可能文字テーブルＴ3に「ａ」の文字コード
と状態Ｓ4へのポインタとの対応関係を格納する。次に
状態Ｓ4において、４文字目の「ｒ」の文字コードが遷
移可能文字テーブルＴ4に存在するかどうかチェック
し、存在しないので、図３１の様に新たな状態Ｓ5を生
成し、遷移可能文字テーブルＴ4に「ｒ」の文字コード
と状態Ｓ5へのポインタとの対応関係を格納する。次に
状態Ｓ5において、５文字目の「ｎ」の文字コードが遷
移可能文字テーブルＴ5に存在するかどうかチェック
し、存在しないので、新たな状態Ｓ6を生成し、遷移可
能文字テーブルＴ5に「ｎ」の文字コードと状態Ｓ6への
ポインタとの対応関係を格納する。また、最初に確認し
たように、４文字目の「ｒ」と５文字目の「ｎ」は接触
することが多く、１文字として切り出され、文字「ｍ」
に誤認識されることが多いので、状態Ｓ4の遷移可能文
字テーブルＴ4に文字「ｍ」の文字コードと状態Ｓ6への
ポインタとの対応関係を新たに格納する。ここで、状態
Ｓ6は単語「learn」の最終状態に相当するので、単語辞
書部２内の「learn」の単語情報を指すポインタをセッ
トする。すると状態は図３２の様になる。

【００７５】次に単語辞書部２の２番目の単語「leaf」
に注目する。単語「learn」の時と同様に、この単語「l
eaf」を認識対象の文書に使用される頻度の高いフォン
トのイメージで見て、複数の文字が接触して切り出され
やすいかどうかチェックする。この単語に関しては、特
に問題はないと判断し以下の処理を続ける。

【００７６】まず１文字目の「ｌ」についてであるが、
初期状態Ｓ1の遷移可能文字テーブルＴ1に「ｌ」の文字
コードが存在するかどうかチェックし、存在するので対
応する状態Ｓ2へ遷移する。遷移先の状態Ｓ2の遷移可能
文字テーブルＴ2に「ｅ」の文字コードが存在するかど
うかチェックし、存在するので対応する状態Ｓ3へ遷移
する。遷移先の状態Ｓ3の遷移可能文字テーブルＴ3に
「ａ」の文字コードが存在するかどうかチェックし、存
在するので対応する状態Ｓ4へ遷移する。遷移先の状態
Ｓ4の遷移可能文字テーブルＴ4に「ｆ」の文字コードが
存在するかどうかチェックし、存在しないので、新たな
状態Ｓ7を生成し、状態Ｓ4の遷移可能文字テーブルＴ4
に「ｆ」の文字コードと状態Ｓ7へのポインタとの対応
関係を新たに格納する。ここで、状態Ｓ7は単語「lea
f」の最終状態に相当するので、単語辞書部２内の「lea
f」の単語情報を指すポインタをセットする。すると状
態は図３３の様になる。

【００７７】次に単語辞書部２の３番目の単語「ofte
n」に注目する。１，２番目の単語と同様に、この単語
「often」を認識対象の文書に使用される頻度の高いフ
ォントのイメージで見ると、２文字目の「ｆ」と３文字
目の「ｔ」が接触するくらい近づいていることが分か
る。この文字を実際に文字認識のための切り出しを行う
と、２文字目の「ｆ」と３文字目の「ｔ」が接触したま
ま１字として切り出され、この接触文字を「Ａ」や
「Ｒ」として誤認識してしまうことが多い。

【００７８】まず１文字目の「ｏ」についてであるが、
初期状態Ｓ1の遷移可能文字テーブルＴ1に「ｏ」の文字
コードが存在するかどうかチェックし、存在しないの
で、新たに状態Ｓ8を生成し、遷移可能文字テーブルＴ1
に「ｏ」の文字コードと状態Ｓ8へのポインタとの対応
関係を格納する。次に状態Ｓ8の遷移可能文字テーブル
Ｔ8に２文字目の「ｆ」が存在するかどうかチェック
し、存在しないので、新たに状態Ｓ9を生成し、遷移可
能文字テーブルＴ8に「ｆ」の文字コードと状態Ｓ9への
ポインタとの対応関係を格納する。次に状態Ｓ9の遷移
可能文字テーブルＴ9に３文字目の「ｔ」が存在するか
どうかチェックし、存在しないので、新たに状態Ｓ10を
生成し、遷移可能文字テーブルＴ9に「ｔ」の文字コー
ドと状態Ｓ10へのポインタとの対応関係を格納する。ま
た、最初に確認したように、２文字目の「ｆ」と３文字
目の「ｔ」は接触することが多く、１文字として切り出
され、文字「Ａ」や「Ｒ」に誤認識されることが多いの
で、状態Ｓ8の遷移可能文字テーブルＴ8に文字「Ａ」の
文字コードと状態Ｓ10へのポインタとの対応関係と、文
字「Ｒ」の文字コードと状態Ｓ10へのポインタとの対応
関係を新たに格納する。次に状態Ｓ10の遷移可能文字テ
ーブルＴ10に４文字目の「ｅ」が存在するかどうかチェ
ックし、存在しないので、新たに状態Ｓ11を生成し、遷
移可能文字テーブルＴ10に「ｅ」の文字コードと状態Ｓ
11へのポインタとの対応関係を格納する。次に状態Ｓ11
の遷移可能文字テーブルＴ11に５文字目の「ｎ」が存在
するかどうかチェックし、存在しないので、新たに状態
Ｓ12を生成し、遷移可能文字テーブルＴ11に「ｎ」の文
字コードと状態Ｓ12へのポインタとの対応関係を格納す
る。ここで、状態Ｓ12は単語「often」の最終状態に相
当するので、単語辞書部２内の「often」の単語情報を
指すポインタをセットする。すると状態は図３４の様に
なる。

【００７９】以上、単語辞書部２中の最初の３単語につ
いて詳細に説明したが、残りの単語についても、複数の
文字が、１つの文字として切り出され易く、その認識結
果がある程度一定の文字に定まるものに関しては、１つ
の文字として切り出される複数の文字のうち最初の文字
に対応するポインタと始点を同じくし、最後の文字に対
応するポインタと終点を同じくするようなポインタを誤
認識され易い文字と対応づけて、単語照合部１を構築す
る。

【００８０】次に単語照合時の動作であるが、各状態Ｓ
iにおいて図９のフローチャートで表された処理を行
う。例えば、図３５は、文字列画像を文字認識の切り出
し部において１文字単位に切り出したところを示す。図
３５において、矩形で囲まれている部分で文字が区切ら
れているが、図３５をみると５文字目の「ｒ」と６文字
目の「ｎ」が１文字として誤って切り出されており、こ
れを認識した結果の認識候補マトリクスを図３６に示す
が、「ｍ」として認識されている。また、図３６の認識
候補マトリクスは横方向（ｉ方向）が文字列方向、縦方
向（ｊ方向）が認識候補方向であり上になるほど認識ス
コアが高いものとする。

【００８１】前記に述べたような方法で単語照合部１を
構築していれば、文字「ｍ」に対応する次の状態へのポ
インタは、文字「ｒ」と文字「ｎ」にも対応するので、
正しく単語「Internet」が照合できる。

【００８２】なお、この装置をソフトウェアで実現して
もよい。なお、単語辞書には、単語照合を行うためのイ
ンデックスを英単語としたが、他の文字でもよい。

【００８３】なお、単語のスコアは、上記のように、各
文字の認識スコアの和でもよいし、文字数で割った認識
スコアの平均でもよい。

【００８４】なお、認識候補の数は３としているが、任
意の自然数でもよい。また、本実施の形態では、ある単
語の最終状態となっている場合でも入力文字列の最後の
文字まで状態遷移し終えてなければ、その単語を照合出
来たとして出力していないが、入力文字長と長さの異な
る単語も出力させたい場合は出力しても良い。

【００８５】なお、カナの「ア」と「ァ」、アルファベ
ットの「Ｃ」と「ｃ」のように、同一形状で大きさが異
なる文字の場合、同一の状態へ遷移するように状態群を
構築すれば、大きさの違いによる誤認識も吸収し、正解
単語を照合できる。

【００８６】また、漢字の「力」とカタカナの「カ」の
ような類似文字に関しても、同一の状態に遷移するよう
に状態群を構築すれば、類似文字による誤認識も吸収
し、正解単語を照合出来る。

【００８７】（実施の形態５）図３７は、本発明の第５
の実施の形態における単語照合装置の構成図である。図
３７において、単語照合部１，単語辞書部２とで単語照
合装置を構成し、単語照合部１は状態Ｓiの集合で構成
されるオートマトンである。ここで、ｉは状態番号であ
り、状態の総数をＮとする時、１≦ｉ≦Ｎである。また
単語辞書には、単語照合を行うインデックスを作成する
ための単語表記を格納してある。

【００８８】図２は、図３７におけるｎ番目の状態Ｓn
を詳細に表した図である。図２において、状態Ｓnは、
単語辞書部内の単語情報を指すポインタと遷移可能文字
テーブルＴnを有している。ここで、ある１つの状態か
ら単語情報を指すポインタは１つであるとは限らない。
また、遷移可能文字テーブルＴnには、次の状態に遷移
することの出来る文字コードと次の状態へのポインタと
の組み合わせが格納してある。図３７において、状態間
を結んでいる矢印とその矢印の側に書いてある文字は、
それぞれ、次の状態へのポインタと対応する文字であ
る。

【００８９】以上を踏まえると、図３７の単語照合装置
は、単一の読みにも拘わらず本来の送り仮名の他に慣用
として使われる送り仮名を有する単語に関して、前記両
方の送り仮名に対し状態遷移できる対応関係を格納する
構造を有していることがわかる。

【００９０】次にこのような構成の単語照合装置の動作
について詳細に説明する。まず、単語照合部１の構築時
であるが、最初は状態数を初期状態のみの１とする。そ
して単語辞書部２の単語数をＷとしたとき、１番目の単
語からＷ番目の単語まで次のような方法で状態Ｓiを生
成する。単語辞書部２の１番目の単語を「行う」である
とする。最初は図３のように初期状態Ｓ1のみであり初
期状態Ｓ1の遷移可能文字テーブルＴ1は空である。

【００９１】この単語「行う」の送り仮名は本来「う」
だけであるが、慣用として「なう」と送り仮名を付けて
「行なう」と表記する場合も許容されている。よって、
「行う」と「行なう」の両方の表記から単語辞書中の
「行う」を照合出来なければならない。まず、１文字目
の「行」の文字コードが遷移可能文字テーブルＴ1に存
在するかどうかチェックを行い、存在しないので、新た
な状態Ｓ2を生成し、遷移可能文字テーブルＴ1に、
「行」の文字コードと状態Ｓ2へのポインタとの対応関
係を格納する。次に状態Ｓ2において、遷移可能文字テ
ーブルＴ2に２文字目の「う」が存在するかどうかチェ
ックを行い、存在しないので、新たな状態Ｓ3を生成
し、状態Ｓ2の遷移可能文字テーブルＴ2に「う」の文字
コードと状態Ｓ3へのポインタとの対応関係を登録す
る。また、状態Ｓ3は、単語「行う」の最終状態に相当
するので、単語辞書２内の単語「行う」の単語情報への
ポインタをセットする。また、先ほど述べたように、単
語「行う」は「行なう」と表記される場合もあるので、
状態Ｓ2の遷移可能文字テーブルＴ2に「な」の文字コー
ドが存在するかどうかのチェックも行い、存在しないの
で、新たな状態Ｓ4を生成し、遷移可能文字テーブルＴ2
に「な」の文字コードと状態Ｓ4へのポインタとの対応
関係を格納する。次に、状態Ｓ4において、遷移可能文
字テーブルＴ4に「う」の文字コードが存在するかどう
かチェックを行い、存在しないので、遷移可能文字テー
ブルＴ4に「う」の文字コードと状態Ｓ3へのポインタと
の対応関係を格納する。すると現時点での状態は図３８
のようになる。

【００９２】次に単語辞書部２の２番目の単語「表す」
について考える。単語「表す」の送り仮名は本来「す」
だけであるが、慣用として「わす」と送り仮名を付けて
「表す」と表記する場合も許容されている。よって、
「表す」と「表わす」の両方の表記から単語辞書中の
「表す」を照合出来なければならない。まず、１文字目
の「表」の文字コードが遷移可能文字テーブルＴ1に存
在するかどうかチェックを行い、存在しないので、新た
な状態Ｓ5を生成し、遷移可能文字テーブルＴ1に、
「表」の文字コードと状態Ｓ5へのポインタとの対応関
係を格納する。次に状態Ｓ5において、遷移可能文字テ
ーブルＴ5に２文字目の「す」が存在するかどうかチェ
ックを行い、存在しないので、新たな状態Ｓ6を生成
し、状態Ｓ5の遷移可能文字テーブルＴ5に「す」の文字
コードと状態Ｓ6へのポインタとの対応関係を登録す
る。また、状態Ｓ6は、単語「表す」の最終状態に相当
するので、単語辞書２内の単語「表す」の単語情報への
ポインタをセットする。また、先ほど述べたように、単
語「表す」は「表わす」と表記される場合もあるので、
状態Ｓ5の遷移可能文字テーブルＴ5に「わ」の文字コー
ドが存在するかどうかのチェックも行い、存在しないの
で、新たな状態Ｓ7を生成し、遷移可能文字テーブルＴ5
に「わ」の文字コードと状態Ｓ7へのポインタとの対応
関係を格納する。次に、状態Ｓ7において、遷移可能文
字テーブルＴ7に「す」の文字コードが存在するかどう
かチェックを行い、存在しないので、遷移可能文字テー
ブルＴ7に「す」の文字コードと状態Ｓ6へのポインタと
の対応関係を格納する。すると現時点での状態は図３９
のようになる。同様にして、本来の送り仮名とは別に、
慣用として使われる送り仮名が存在する単語は両方の送
り仮名の付け方を許容し、それら両方の単語の終わりの
状態は同一の状態で終了するように構築することによ
り、図３７のような単語照合装置が得られる。

【００９３】また単語照合時の動作は、実施の形態１，
２，３，４と同様であり、「行う」と「行なう」や、
「表す」と「表わす」等の両方の送り仮名の付け方でも
正しく単語照合を行うことが出来る。

【００９４】なお、この装置をソフトウェアで実現して
もよい。なお、カナの「ア」と「ァ」、アルファベット
の「Ｃ」と「ｃ」のように、同一形状で大きさが異なる
文字の場合、同一の状態へ遷移するように状態群を構築
すれば、大きさの違いによる誤認識も吸収し、正解単語
を照合できる。

【００９５】また、漢字の「力」とカタカナの「カ」の
ような類似文字に関しても、同一の状態に遷移するよう
に状態群を構築すれば、類似文字による誤認識も吸収
し、正解単語を照合出来る。

【００９６】

【発明の効果】以上のように、第１の実施例における本
発明の単語照合装置は、任意の状態の遷移可能文字テー
ブルにおいて、濁点付加可能な清音文字の文字コードは
前記清音文字に濁点を付加した濁音文字の文字コードと
同一の状態へ遷移するように構築され、濁音文字の文字
コードは前記濁音文字から濁点を除去した清音文字の文
字コードと同一の状態へ遷移するように構築され、半濁
点付加可能な清音文字の文字コードは前記清音文字に半
濁点を付加した半濁音文字の文字コードと同一の状態へ
遷移するように構築され、半濁音文字の文字コードは前
記半濁音文字から半濁点を除去した清音文字の文字コー
ドと同一の状態へ遷移するように構築され、濁点が付加
可能な清音文字のコードに対応して遷移する遷移先の状
態の遷移可能文字テーブルにおいては、濁点の文字コー
ドと前記遷移先の状態自らへのポインタの対応関係を格
納するように構築され、半濁点が付加可能な清音文字の
コードに対応して遷移する遷移先の状態の遷移可能文字
テーブルにおいては、半濁点の文字コードと前記遷移先
の状態自らへのポインタの対応関係を格納するように構
築されることにより、濁点（半濁点）を分離した形で記
述されたカナ文字列も、濁点（半濁点）を含む濁音（半
濁点）文字で記述されたカナ文字列も、またはその両方
の表記が混在したカナ文字列も、濁点（半濁点）分離・
統合を行うことなく、正解単語と照合できる。また、辞
書中のカナ文字列の表記と、照合対象のカナ文字列と
が、濁点の有無による違いの場合は、濁点の有無による
違いを考慮した単語を辞書に新たに登録することなし
に、正解単語と照合できる。

【図面の簡単な説明】

【図１】本発明の第１実施の形態の単語照合装置の構成
図

【図２】状態Ｓiの構成図

【図３】単語照合部１の構築前を表す図

【図４】第１実施の形態の単語照合部１の構築途中を表
す図

【図５】第１実施の形態の単語照合部１の構築途中を表
す図

【図６】第１実施の形態の単語照合部１の構築途中を表
す図

【図７】第１実施の形態の単語照合装置の構築途中（単
語「ミヤザキ」については状態を構築済み）を表す図

【図８】第１実施の形態の単語照合装置の構築途中（単
語「ミヤザワ」については状態を構築済み）を表す図

【図９】単語照合時のアルゴリズムを表すフローチャー
ト

【図１０】第１実施の形態において濁点分離の方法で書
かれたカナ文字列のイメージを表す図

【図１１】第１実施の形態において図１０のイメージを
文字認識部において認識して得られる認識候補マトリク
スを表す図

【図１２】第１実施の形態において濁点を分離しない濁
音文字として書かれたカナ文字列のイメージを表す図

【図１３】第１実施の形態において図１２のイメージを
文字認識部において認識して得られる認識候補マトリク
スを表す図

【図１４】本発明の第２実施の形態の単語照合装置の構
成図

【図１５】第２実施の形態の単語照合部１の構築途中
（単語「ミヤザキ」の「ミヤザ」まで状態を構築済み）
を表す図

【図１６】第２実施の形態の単語照合装置の構築途中
（単語「ミヤザキ」については状態を構築済み）を表す
図

【図１７】第２実施の形態の単語照合装置の構築途中
（単語「ミヤサキ」については状態を構築済み）を表す
図

【図１８】本発明の第３実施の形態の単語照合装置の構
成図

【図１９】第３実施の形態の単語照合部１の構築途中を
表す図

【図２０】第３実施の形態の単語照合部１の構築途中
（単語「化学」の「化」まで状態を構築済み）を表す図

【図２１】第３実施の形態の単語照合装置の構築途中
（単語「化学」については状態を構築済み）を表す図

【図２２】第３実施の形態の単語照合部１の構築途中
（単語「仁者」の「仁」まで状態を構築済み）を表す図

【図２３】第３実施の形態の単語照合装置の構築途中
（単語「仁者」については状態を構築済み）を表す図

【図２４】第３実施の形態において認識する対象の手書
き漢字文字列のイメージを表す図

【図２５】第３実施の形態において図２４のイメージを
文字認識部において認識して得られる認識候補マトリク
スを表す図

【図２６】本発明の第４実施の形態の単語照合装置の構
成図

【図２７】第４実施の形態において単語辞書中の単語
「learn」のあるフォントでのイメージを表す図

【図２８】第４実施の形態の単語照合部１の構築途中
（単語「learn」の「l」まで状態を構築済み）を表す図

【図２９】第４実施の形態の単語照合部１の構築途中
（単語「learn」の「le」まで状態を構築済み）を表す
図

【図３０】第４実施の形態の単語照合部１の構築途中
（単語「learn」の「lea」まで状態を構築済み）を表す
図

【図３１】第４実施の形態の単語照合部１の構築途中
（単語「learn」の「lear」まで状態を構築済み）を表
す図

【図３２】第４実施の形態の単語照合装置の構築途中
（単語「learn」については状態を構築済み）を表す図

【図３３】第４実施の形態の単語照合装置の構築途中
（単語「leaf」については状態を構築済み）を表す図

【図３４】第４実施の形態の単語照合装置の構築途中
（単語「often」については状態を構築済み）を表す図

【図３５】第４実施の形態において単語の画像「Intern
et」を文字認識部の切り出し部において切り出した状態
を表す図

【図３６】第４実施の形態において図３５のイメージを
文字認識部において認識して得られる認識候補マトリク
スを表す図

【図３７】本発明の第５実施の形態の単語照合装置の構
成図

【図３８】第５実施の形態の単語照合装置の構築途中
（単語「行う」については状態を構築済み）を表す図

【図３９】第５実施の形態の単語照合装置の構築途中
（単語「表す」については状態を構築済み）を表す図

【符号の説明】

１単語照合部２単語辞書部Ｓi ｉ番目の状態Ｔi ｉ番目の状態の遷移可能文字テーブル

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩＧ０６Ｆ 15/403 ３１０Ｃ (72)発明者松川善彦大阪府門真市大字門真1006番地松下電器産業株式会社内

Claims

【特許請求の範囲】

【請求項１】単語辞書部と単語照合部とから構成さ
れ、前記単語辞書部は、カナ表記を含む単語情報を格納
し、前記単語照合部は、前記単語辞書部中の単語情報へ
のポインタと、次の状態へ遷移可能な文字と前記次の状
態へのポインタとの対応関係を格納した遷移可能文字テ
ーブルと、を有する状態の集合から構成されるオートマ
トンであり、単語照合対象である文字列中の各文字につ
いて、前記文字が、現在の状態の遷移可能文字テーブル
に存在すれば対応する次の状態へ遷移する動作を繰り返
す過程において、前記単語辞書部中の単語情報へのポイ
ンタを出力することにより単語を照合し、任意の状態の
遷移可能文字テーブルにおいて、濁点付加可能な清音文
字と前記清音文字に濁点を付加した濁音文字に対しては
同一の状態へ遷移するように対応関係を格納し、半濁点
付加可能な清音文字と前記清音文字に半濁点を付加した
半濁音文字に対しては同一の状態へ遷移するように対応
関係を格納し、濁点付加可能な清音文字に対応して遷移
する遷移先の状態の遷移可能文字テーブルにおいて、濁
点文字に対しては前記遷移先の状態自らへ遷移するよう
に対応関係を格納し、半濁点付加可能な清音文字に対応
して遷移する遷移先の状態の遷移可能文字テーブルにお
いて、半濁点文字に対しては前記遷移先の状態自らへ遷
移するように対応関係を格納する構造を有することを特
徴とする単語照合装置。
【請求項２】ある状態の遷移可能文字テーブルに濁音
文字と次の状態へのポインタとの対応関係が格納されて
いる場合、前記遷移可能文字テーブルに、前記濁音文字
から濁点を除去した清音文字と、前記濁音文字に対応し
て遷移する遷移先の状態とは異なる状態へのポインタと
の対応関係も格納されると共に、前記清音文字に対応し
て遷移する遷移先の状態の遷移可能文字テーブルに濁点
文字と前記濁音文字に対応して遷移する遷移先の状態へ
のポインタとの対応関係が格納され、ある状態の遷移可
能文字テーブルに半濁音文字と次の状態へのポインタと
の対応関係が格納されている場合、前記遷移可能文字テ
ーブルに、前記半濁音文字から半濁点を除去した清音文
字と、前記半濁音文字に対応して遷移する遷移先の状態
とは異なる状態へのポインタとの対応関係も格納される
と共に、前記清音文字に対応して遷移する遷移先の状態
の遷移可能文字テーブルに半濁点文字と前記半濁音文字
に対応して遷移する遷移先の状態へのポインタとの対応
関係が格納される構造を有することを特徴とする単語照
合部に置き換えた請求項１記載の単語照合装置。
【請求項３】単語の表記を含む単語情報を格納する単
語辞書部に置き換え、単語の画像から各文字を切り出す
過程において１文字であるにも拘わらずＮ個の文字パー
ツに過分割される文字が存在する単語に関して、前記文
字の始点となる状態の遷移可能文字テーブルに前記文字
と次の状態へのポインタとの対応関係と、前記Ｎ個の文
字パーツのうち１番目の文字パーツを認識して得られる
文字と次の状態へのポインタとの対応関係が格納され、
前記Ｎ個の文字パーツのうちｉ番目（１≦ｉ≦Ｎ−２）
の文字パーツを認識して得られる文字に対応して遷移す
る遷移先の状態の遷移可能文字テーブルに前記Ｎ個の文
字パーツのうちｉ＋１番目の文字パーツを認識して得ら
れる文字と次の状態へのポインタとの対応関係が格納さ
れ、前記Ｎ個の文字パーツのうちＮ−１番目の文字パー
ツを認識して得られる文字に対応して遷移する遷移先の
状態の遷移可能文字テーブルに前記Ｎ個の文字パーツの
うちＮ番目の文字パーツを認識して得られる文字とＮ個
の文字パーツに過分割される前記文字に対応して遷移す
る遷移先の状態へのポインタとの対応関係が格納される
構造を有することを特徴とする単語照合部に置き換えた
請求項１記載の単語照合装置。
【請求項４】単語の表記を含む単語情報を格納する単
語辞書部に置き換え、単語の画像から各文字を切り出す
過程においてＮ個の文字であるにも拘わらず１個の文字
として切り出される文字群が存在する単語に関して、前
記文字群の先頭文字の始点となる状態の遷移可能文字テ
ーブルに前記文字群のうちの１番目の文字と次の状態へ
のポインタとの対応関係と、前記文字群の画像を１文字
として認識することにより得られる文字と前記文字群の
うちのＮ番目の文字に対応して遷移する遷移先の状態へ
のポインタとの対応関係と、が格納される構造を有する
ことを特徴とする単語照合部に置き換えた請求項１記載
の単語照合装置。
【請求項５】単語の表記を含む単語情報を格納する単
語辞書部に置き換え、単一の読みにも拘わらず本来の送
り仮名の他に慣用として使われる送り仮名を有する単語
に関して、前記両方の送り仮名に対し状態遷移する構造
を有することを特徴とする単語照合部に置き換えた請求
項１記載の単語照合装置。
【請求項６】任意の状態において、同一形状で大きさ
が異なる文字に対しては同一の状態に遷移する構造を有
することを特徴とする請求項１，２，３，４，５の何れ
かに記載の単語照合装置。
【請求項７】任意の状態において、類似文字に対して
は同一の状態に遷移する構造を有することを特徴とする
請求項１，２，３，４，５，６の何れかに記載の単語照
合装置。
【請求項８】認識結果としての文字コードと前記認識
結果の信頼度を表すスコアとを出力する文字認識部の認
識結果から単語を照合する場合、前記スコアが予め定め
られた閾値よりも小さい場合は、前記遷移可能文字テー
ブルに格納された全ての次の状態に遷移することを特徴
とする請求項１，２，３，４，５，６，７のいずれかに
記載の単語照合装置。