JPH11143893A - 単語照合装置 - Google Patents

単語照合装置

Info

Publication number
JPH11143893A
JPH11143893A JP9305452A JP30545297A JPH11143893A JP H11143893 A JPH11143893 A JP H11143893A JP 9305452 A JP9305452 A JP 9305452A JP 30545297 A JP30545297 A JP 30545297A JP H11143893 A JPH11143893 A JP H11143893A
Authority
JP
Japan
Prior art keywords
character
state
word
voiced
transitionable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9305452A
Other languages
English (en)
Inventor
Kenji Kondo
堅司 近藤
Makoto Hirai
誠 平井
Tsuyoshi Megata
強司 目片
Yoshihiko Matsukawa
善彦 松川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP9305452A priority Critical patent/JPH11143893A/ja
Publication of JPH11143893A publication Critical patent/JPH11143893A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 曖昧さを含む文字列から効率よく単語照合を
行う。 【解決手段】 単語辞書部中の単語情報へのポインタ
と、次の状態へ遷移可能な文字と前記次の状態へのポイ
ンタとの対応関係を格納した遷移可能文字テーブルと、
を有する状態の集合から構成されるオートマトンであ
り、前記文字が、現在の状態の遷移可能文字テーブルに
存在すれば対応する次の状態へ遷移する動作を繰り返す
過程において、濁点付加可能な清音文字と前記清音文字
に濁点を付加した濁音文字に対しては同一の状態へ遷移
するように対応関係を格納し、半濁点付加可能な清音文
字と前記清音文字に半濁点を付加した半濁音文字に対し
ては同一の状態へ遷移するように対応関係を格納する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字列と単語辞書
中の単語を照合する装置に関し、特に、文字認識後処理
のため、文字認識で得られた曖昧さを含む文字コードか
ら単語の検索を効率よく行う単語照合装置に関する。
【0002】
【従来の技術】従来、帳票の記入において、カナ文字を
記入する際には、濁点「゛」・半濁点「゜」も1文字と
して記入することが原則となっていた。しかし、最近は
濁点・半濁点を1文字として記入せず、濁点・半濁点を
含めた濁音文字・半濁音文字として記入された帳票も読
み取りの対象となることが少なくない。
【0003】このような帳票の記述に対して、単語辞書
には濁点・半濁点を1文字として単語の表記の記憶を行
い、文字認識の前処理において、文字イメージが清音文
字か濁音・半濁音文字であるか判定し、濁音・半濁音文
字と判定したときは、その文字イメージを清音文字のイ
メージと濁点・半濁点文字のイメージに分離する処理が
行われていた。しかしながら、清音文字の右上に文字以
外のノイズ(ゴミ、汚れ)が付着し、濁音・半濁音文字
と誤って判定された場合、上記の分離処理によって文字
数が変化してしまい、単語辞書中の正解単語と照合でき
ない。
【0004】上記の問題に対して、特開平7-85220号公
報では、単語辞書は濁音文字・半濁音文字を1文字とし
て記憶しておき、濁点・半濁点を分離した形で書かれて
いる文字列を認識した場合、文字認識部で認識して得ら
れた複数の候補文字マトリクスから清音文字と濁点文字
の合成を行い、候補マトリクスを修正して単語照合を行
う手法が提案されている。
【0005】
【発明が解決しようとする課題】しかし、この方法で
は、濁点・半濁点文字が誤認織され候補文字中に存在し
ない、または認識候補の中に入っていても上位候補では
ない場合は、濁音文字・半濁音文字の合成に失敗してし
まう。また、清音文字が濁点文字・半濁点文字に誤認識
された場合は、誤った合成がなされてしまい正解単語と
うまく照合できない。
【0006】本発明は上記従来の問題点を解決するもの
で、認識部において濁点・半濁点が誤認識された場合な
ども、正解単語を柔軟に照合する単語照合装置を提供す
ることを目的とする。
【0007】
【課題を解決するための手段】この目的を達成するため
に本発明の単語照合装置は、単語辞書部と単語照合部と
から構成され、前記単語辞書部は、カナ表記を含む単語
情報を格納し、前記単語照合部は、前記単語辞書部中の
単語情報へのポインタと、次の状態へ遷移可能な文字と
前記次の状態へのポインタとの対応関係を格納した遷移
可能文字テーブルと、を有する状態の集合から構成され
るオートマトンであり、単語照合対象である文字列中の
各文字について、前記文字が、現在の状態の遷移可能文
字テーブルに存在すれば対応する次の状態へ遷移する動
作を繰り返す過程において、前記単語辞書部中の単語情
報へのポインタを出力することにより単語を照合し、任
意の状態の遷移可能文字テーブルにおいて、濁点付加可
能な清音文字と前記清音文字に濁点を付加した濁音文字
に対しては同一の状態へ遷移するように対応関係を格納
し、半濁点付加可能な清音文字と前記清音文字に半濁点
を付加した半濁音文字に対しては同一の状態へ遷移する
ように対応関係を格納し、濁点付加可能な清音文字に対
応して遷移する遷移先の状態の遷移可能文字テーブルに
おいて、濁点文字に対しては前記遷移先の状態自らへ遷
移するように対応関係を格納し、半濁点付加可能な清音
文字に対応して遷移する遷移先の状態の遷移可能文字テ
ーブルにおいて、半濁点文字に対しては前記遷移先の状
態自らへ遷移するように対応関係を格納する構造を有し
ている。
【0008】この構成によって、帳票に、濁点・半濁点
が独立した1文字として記入されていても、濁点・半濁
点付きの濁音文字・半濁音文字として記入されていて
も、またはその両方の表記が混在して記入されていて
も、濁点・半濁点合成等の処理をする事なしに、正解単
語と照合することが出来る。また、濁点・半濁点が誤認
識され、清音文字として認識されている場合も、認識候
補の中に濁点・半濁点文字が存在すれば、あるいは、認
識候補の中に濁点・半濁点文字が存在しなくても認識ス
コアなどの導入により、認識スコアがあまりにも低い場
合は全ての次の状態に遷移することにより、正解単語の
照合が可能になる。また、地名単語の中には、同じ地名
でも濁点の有無などによる読み方の違いが存在するが、
辞書と認識対象の文字の濁点の有無に関わらず正解単語
と照合可能になる。
【0009】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。
【0010】(実施の形態1)図1は、本発明の第1の
実施の形態における単語照合装置の構成図である。図1
において、単語照合部1,単語辞書部2とで単語照合装
置を構成し、単語照合部1は状態Siの集合で構成され
るオートマトンである。ここで、iは状態番号であり、
状態の総数をNとする時、1≦i≦Nである。また単語
辞書には、単語照合を行うインデックスを作成するため
の濁音文字及び半濁音文字を1文字で表したカタカナ表
記と、付加情報として漢字表記を格納してある。
【0011】図2は、図1におけるn番目の状態Snを
詳細に表した図である。図2において、状態Snは、単
語辞書部内の単語情報を指すポインタと遷移可能文字テ
ーブルTnを有している。ここで、ある1つの状態から
単語情報を指すポインタは1つであるとは限らない。ま
た、遷移可能文字テーブルTnには、次の状態に遷移す
ることの出来る文字コードと次の状態へのポインタとの
組み合わせが格納してある。図1において、状態間を結
んでいる矢印とその矢印の側に書いてあるカタカナは、
それぞれ、次の状態へのポインタと対応する文字であ
る。
【0012】以上を踏まえると、図1の単語照合装置
は、任意の状態の遷移可能文字テーブルにおいて、濁点
付加可能な清音文字と前記清音文字に濁点を付加した濁
音文字に対しては同一の状態へ遷移するように対応関係
を格納し、半濁点付加可能な清音文字と前記清音文字に
半濁点を付加した半濁音文字に対しては同一の状態へ遷
移するように対応関係を格納し、濁点付加可能な清音文
字に対応して遷移する遷移先の状態の遷移可能文字テー
ブルにおいて、濁点文字に対しては前記遷移先の状態自
らへ遷移するように対応関係を格納し、半濁点付加可能
な清音文字に対応して遷移する遷移先の状態の遷移可能
文字テーブルにおいて、半濁点文字に対しては前記遷移
先の状態自らへ遷移するように対応関係を格納する構造
を有していることがわかる。
【0013】次にこのような構成のカタカナ文字列を単
語照合対象とする単語照合装置の動作について詳細に説
明する。
【0014】まず、単語照合部1の構築時であるが、最
初は状態数を初期状態のみの1とする。ここで、各単語
の最初の文字に対応して遷移する前に共通して存在する
状態を特に初期状態と呼び、ある単語の最後の文字に対
応して遷移した後の状態を最終状態と呼ぶ。これは、以
下の実施の形態についても同様である。
【0015】そして、単語辞書部2の単語数をWとした
とき、1番目の単語からW番目の単語まで次のような方
法で状態Siを生成する。単語辞書部2の1番目の単語
を「ミヤザキ」であるとする。最初は図3のように初期
状態S1のみであり初期状態S1の遷移可能文字テーブル
T1は空である。
【0016】まず、初期状態S1において1文字目の
「ミ」に注目する。遷移可能文字テーブルT1に「ミ」
の文字コードが格納されているかどうか調べ、格納され
ていないので、図4のように新たに状態S2を生成し、
初期状態S1の遷移可能文字テーブルT1に「ミ」の文字
コードと状態S2を指すポインタとの対応関係を格納す
る。そして、状態S2まで遷移して、2番目の文字
「ヤ」に注目する。状態S2の遷移可能文字テーブルT2
も空であるので、図5のように新たに状態S3を生成
し、もとの状態S2の遷移可能文字テーブルT2に「ヤ」
の文字コードと状態S3を指すポインタとの対応関係を
格納する。そして、状態S3まで遷移して、3番目の文
字「ザ」に注目する。
【0017】状態S3の遷移可能文字テーブルT3も空で
あるので、新たに状態S4を生成する。今、注目してい
る文字「ザ」は濁音文字であるので、遷移可能文字テー
ブルT3に、この濁音文字「ザ」の文字コードと状態S4
へのポインタとの対応関係に加えて、この「ザ」から濁
点を取り去った「サ」の文字コードと状態S4へのポイ
ンタとの対応関係も格納する。この時、同時に、状態S
4の遷移可能文字テーブルT4にも、濁点文字「゛」の文
字コードと状態S4を指すポインタとの対応関係を格納
しておく。現時点では、状態は図6のようになる。そし
て、状態S4まで遷移して、最後の文字「キ」に注目す
る。
【0018】状態S4の遷移可能文字テーブルT4も空で
あるので、新たに状態S5を生成する。今、注目してい
る文字「キ」は濁点付加可能な清音文字であるので、
「キ」の文字コードと状態S5へのポインタとの対応関
係に加えて、この「キ」に濁点を付加した「ギ」の文字
コードと状態S5へのポインタとの対応関係も格納す
る。この時、状態S5の遷移可能文字テーブルT5にも、
濁点文字「゛」の文字コードと状態S5を指すポインタ
との対応関係を格納しておく。この時、状態S5は単語
「ミヤザキ」の最終状態に相当するので、状態S5に単
語辞書部内の単語「ミヤザキ」の単語情報へのポインタ
をセットする。すると現時点では、この単語照合装置の
構成は図7のようになる。
【0019】次に、2番目の単語「ミヤザワ」について
考える。まず1文字目の「ミ」の文字コードが初期状態
S1の遷移可能文字テーブルT1に存在するかどうかチェ
ックし、この場合は存在するので、「ミ」の文字コード
に対応づけられた次の状態S2に遷移する。状態S2で
は、遷移可能文字テーブルT2に「ヤ」の文字コードが
存在するかどうかチェックし、存在するので「ヤ」の文
字コードに対応づけられた次の状態S3に遷移する。状
態S3では、遷移可能文字テーブルT3に「ザ」の文字コ
ードが存在するかどうかチェックし、存在するので
「ザ」の文字コードに対応づけられた次の状態S4に遷
移する。状態S4では、遷移可能文字テーブルT4に
「ワ」の文字コードが存在するかどうかチェックし、存
在しないので、新たな状態S6を生成し、「ワ」の文字
コードと新たに生成した状態S6へのポインタとの対応
関係を格納する。この時、状態S6は単語「ミヤザワ」
の最終状態に相当するので、状態S6に単語辞書部内の
単語「ミヤザワ」の単語情報へのポインタをセットす
る。すると現時点では、この単語照合装置の構成は図8
のようになる。
【0020】以上、最初の2単語について詳細に説明し
たが、残りの単語についても全て上記の様に、任意の状
態Siの遷移可能文字テーブルには、濁点付加可能な清
音文字とその清音文字に濁点を付加した濁音文字、また
はその逆の、濁音文字とその濁音文字から濁点を除去し
た清音文字は同一の状態に遷移するように格納し、遷移
先の状態の遷移可能文字テーブルには、濁点の文字コー
ドとその状態自身へのポインタとの対応関係を格納し、
また、半濁点付加可能な清音文字とその清音文字に半濁
点を付加した半濁音文字、またはその逆の、半濁音文字
とその半濁音文字から半濁点を除去した清音文字は、同
一の状態に遷移するように格納し、遷移先の状態の遷移
可能文字テーブルには、半濁点の文字コードとその状態
自身へのポインタとの対応関係を格納することにより、
図1のような状態群からなる単語照合部1が得られる。
【0021】また、単語照合時の動作であるが、各状態
Siにおいて図9のフローチャートで表された処理を行
う。帳票に書かれた図10のようなカナ文字列を文字認
識した結果得られる図11の認識候補マトリクスRijか
ら正解単語を照合する方法を述べる。図11の認識候補
マトリクスは横方向(i方向)が文字列方向、縦方向
(j方向)が認識候補方向であり上になるほど認識スコ
アが高いものとする。この例では、5文字の文字列の各
文字に対して第3候補までの認識結果を求めている。ま
た、図11を見ると4文字目の濁点が清音文字の「ハ」
に誤認識されている。
【0022】まず、初期状態S1で図9の処理を行う。
すなわち、ある単語の最終状態であるかどうかチェック
するが、この条件には該当しないので、1文字目の文字
の第1候補「ミ」(R11)の文字コードが遷移可能文字
テーブルT1に存在するかどうかチェックを行う。これ
は存在するので「ミ」の文字コードに対応する次の状態
S2に遷移し、注目する文字位置をi=2に進め、状態
S2において次の処理を行う。この時、遷移できた文字
コードに対応する認識スコアを保持しておく。ここで注
意しなければならないのは、図9中の「注目する文字列
を1つ進め、対応する次の状態へ遷移して処理」が終わ
れば、元の状態において処理を続行する、つまりこの手
続きの再帰呼び出しを行っているということである。
【0023】遷移した状態S2においても、ある単語の
最終状態であるかどうかチェックするが、条件には該当
しないので、2文字目の文字の第1候補「ヤ」(R21)
の文字コードが遷移可能文字テーブルT2に存在するか
どうかチェックを行う。これも存在するので「ヤ」の文
字コードに対応する次の状態S3に遷移し、注目する文
字位置をi=3に進め、状態S3において次の処理を行
う。状態S3では、ある単語の最終状態であるかチェッ
クするが、単語「ミヤ」の最終状態であることが分かっ
たので、次のステップに進み、入力文字列の最後の文字
についても状態遷移が終わっているかどうかのチェック
を行う。今は、5文字の文字列のうち2文字目の文字ま
でしか状態遷移が終わってないので、単語情報へのポイ
ンタを出力せずに次のステップに進む。3文字目の文字
の第1候補「サ」(R31)の文字コードが遷移可能文字
テーブルT3に存在するかどうかチェックを行う。これ
も存在するので「サ」の文字コードに対応する次の状態
S4に遷移し、注目する文字位置をi=4に進め、状態
S4において次の処理を行う。遷移した状態S4において
も、ある単語の最終状態であるかどうかチェックする
が、条件には該当しないので、4文字目の文字の第1候
補「ハ」(R41)の文字コードが遷移可能文字テーブル
T4に存在するかどうかチェックを行う。これは存在し
ないので、次の認識候補R42が存在するかどうか調べ、
存在するので、4文字目の第2候補「゛」の文字コード
が遷移可能文字テーブルT4に存在するかどうかチェッ
クを行う。これは存在するので、「゛」の文字コードに
対応する次の状態S4(同じ状態であるが)に遷移し、
注目する文字位置をi=5に進め、状態S4において次
の処理を行う。状態S4は、どの単語の最終状態にもな
っていないので、次のステップに進み、5文字目の文字
の第1候補「キ」(R51)の文字コードが遷移可能文字
テーブルT4に存在するかどうかチェックを行う。これ
は存在するので「キ」の文字コードに対応する次の状態
S5に遷移する。この時、注目する文字位置はこれ以上
進めない(i=5)。そして状態S5は単語「ミヤザ
キ」の最終状態であり、入力文字列の最後の文字までも
状態遷移が終わっているので、単語「ミヤザキ」の単語
辞書2内の単語情報へのポインタを出力して終了する。
この時、保持しておいた各文字の認識スコアの和を、単
語のスコアとして同時に出力する。
【0024】また、再帰を行う前の処理が残っているの
で、5文字目の文字の第2候補「イ」(R52)の文字コ
ードが遷移可能文字テーブルT4に存在するかどうかチ
ェックを行う。これは存在しないので、5文字目の文字
の第3候補「テ」(R53)の文字コードが遷移可能文字
テーブルT4に存在するかどうかチェックを行う。これ
も存在しないので次のステップに進む。
【0025】このように全ての再帰処理を終了させ、出
てきた全ての単語のうち、単語のスコアが最も高いもの
を単語の第1候補とする。
【0026】また、この単語照合部に図12のように、
濁点(半濁点)分離しない濁音(半濁音)文字が帳票の
1マスに書かれているカナ文字列について考え、この文
字列を文字認識した結果得られる図13の認識候補マト
リクスRijから正解単語を照合することについても、図
9のフローチャートで表される処理を行うと単語「ミヤ
ザキ」を得ることが出来る。
【0027】このように、各状態において、濁点付加可
能な清音文字は、その清音文字に濁点を付加した濁音文
字と同じ状態に遷移し、または、濁音文字は、その濁音
文字から濁点を除去した清音文字と同じ状態に遷移し、
その遷移先の状態においては、濁点文字に対してその状
態自身に遷移し、半濁点付加可能な清音文字は、その清
音文字に半濁点を付加した半濁音文字と同じ状態に遷移
し、または半濁音文字は、その半濁音文字から半濁点を
除去した清音文字と同じ状態に遷移し、その遷移先の状
態においては、半濁点文字に対してその状態自身に遷移
する構造を採ることにより、濁点・半濁点を分離した形
で表現されている文字列も、濁点・半濁点を一緒に濁音
文字・半濁音文字として表現されている文字列も、濁点
分離・統合などの付加処理なしに、正しく照合する事が
出来る。また、濁点が誤認識されて第1候補にない場合
でも正しく照合できる。
【0028】また、正解文字が図11、図13のような
認識候補マトリクスの中に含まれていない場合でも、認
識スコアが非常に悪い場合は、認識結果の文字コードに
関わらず、遷移可能な全ての状態へ遷移することによ
り、正解単語と照合することが出来る。
【0029】また、地名単語などの中には、同じ地名を
表す漢字表記でも濁点の有無による読み方の相違が存在
する場合が少なくない。例えば、「上菅田」は「カミス
ゲタ」とも「カミスゲダ」とも使われ、「江古田」は
「エゴタ」とも「エコダ」とも読まれる。従来の方法で
は、辞書に「カミスゲタ」としか登録されていないにも
関わらず「カミスゲダ」と表記された場合は照合に失敗
していたが、本実施の形態では、正しく照合出来る。
【0030】ただ、本実施の形態の単語照合装置では、
柔軟な単語照合が出来る代わりに照合結果で複数の単語
が出てきた場合に特定しにくいという問題がある。特
に、人名等のように、同じ漢字表記(例:宮崎)に対す
る複数の読み(例:ミヤザキ、ミヤサキ)を特定しなけ
ればならない場合や、また、異なる漢字表記(例:長
沢、中沢)でさえも、この単語照合装置を使用すること
により単語の特定しにくいカナ表記の単語(例:ナガサ
ワ、ナカザワ、ナカサワ)などが存在する場合である。
よって、それらをさらに限定しようとすれば、状態遷移
をしてきた文字コードを保持しておいてそれらの情報を
用いるか、または、住所などのように接続情報などの補
助知識を用いることにより、それらの単語からさらに限
定を行えばよい。
【0031】なお、この装置をソフトウェアで実現して
もよい。なお、単語辞書には、単語照合を行うためのイ
ンデックスをカタカナとしたが、ひらがなでもよい。ま
た、付加情報として漢字表記を格納したが、その他の情
報でもよい。
【0032】なお、単語のスコアは、上記のように、各
文字の認識スコアの和でもよいし、文字数で割った認識
スコアの平均でもよい。
【0033】なお、認識候補の数は3としているが、任
意の自然数でもよい。また、本実施の形態では、ある単
語の最終状態となっている場合でも入力文字列の最後の
文字まで状態遷移し終えてなければ、その単語を照合出
来たとして出力していないが、入力文字長と長さの異な
る単語も出力させたい場合は出力しても良い。
【0034】なお、カナの「ア」と「ァ」、アルファベ
ットの「C」と「c」のように、同一形状で大きさが異
なる文字の場合、同一の状態へ遷移するように状態群を
構築すれば、大きさの違いによる誤認識も吸収し、正解
単語を照合できる。
【0035】また、漢字の「力」とカタカナの「カ」の
ような類似文字に関しても、同一の状態に遷移するよう
に状態群を構築すれば、類似文字による誤認識も吸収
し、正解単語を照合出来る。
【0036】(実施の形態2)図14は、本発明の第2
の実施の形態における単語照合装置の構成図である。図
14において、単語照合部1,単語辞書部2とで単語照
合装置を構成し、単語照合部1は状態Siの集合で構成
されるオートマトンである。ここで、iは状態番号であ
り、状態の総数をNとする時、1≦i≦Nである。また
単語辞書には、単語照合を行うインデックスを作成する
ための濁音文字及び半濁音文字を1文字で表したカタカ
ナ表記と、付加情報として漢字表記を格納してある。
【0037】図2は、図14におけるn番目の状態Sn
を詳細に表した図である。図2において、状態Snは、
単語辞書部内の単語情報を指すポインタと遷移可能文字
テーブルTnを有している。ここで、ある1つの状態か
ら単語情報を指すポインタは1つであるとは限らない。
また、遷移可能文字テーブルTnには、次の状態に遷移
することの出来る文字コードと次の状態へのポインタと
の組み合わせが格納してある。図14において、状態間
を結んでいる矢印とその矢印の側に書いてあるカタカナ
は、それぞれ、次の状態へのポインタと対応する文字で
ある。
【0038】以上を踏まえると、図14の単語照合装置
は、ある状態の遷移可能文字テーブルに濁音文字と次の
状態へのポインタとの対応関係が格納されている場合、
前記遷移可能文字テーブルに、前記濁音文字から濁点を
除去した清音文字と、前記濁音文字に対応して遷移する
遷移先の状態とは異なる状態へのポインタとの対応関係
も格納されると共に、前記清音文字に対応して遷移する
遷移先の状態の遷移可能文字テーブルに濁点文字と前記
濁音文字に対応して遷移する遷移先の状態へのポインタ
との対応関係が格納され、ある状態の遷移可能文字テー
ブルに半濁音文字と次の状態へのポインタとの対応関係
が格納されている場合、前記遷移可能文字テーブルに、
前記半濁音文字から半濁点を除去した清音文字と、前記
半濁音文字に対応して遷移する遷移先の状態とは異なる
状態へのポインタとの対応関係も格納されると共に、前
記清音文字に対応して遷移する遷移先の状態の遷移可能
文字テーブルに半濁点文字と前記半濁音文字に対応して
遷移する遷移先の状態へのポインタとの対応関係が格納
されている構造を有していることがわかる。
【0039】次にこのような構成のカタカナ文字列を単
語照合対象とする単語照合装置の動作について詳細に説
明する。
【0040】まず、単語照合部1の構築時であるが、最
初は状態数を初期状態のみの1とする。そして単語辞書
部2の単語数をWとしたとき、1番目の単語からW番目
の単語まで次のような方法で状態Siを生成する。単語
辞書部2の1番目の単語を「ミヤザキ」であるとする。
最初は図3のように初期状態S1のみであり初期状態S1
の遷移可能文字テーブルT1は空である。1文字目の
「ミ」の文字コードが初期状態S1の遷移可能文字テー
ブルT1に格納されていないので、図4のように新たに
状態S2を生成し、初期状態S1の遷移可能文字テーブル
T1に「ミ」の文字コードと状態S2を指すポインタとの
対応関係を格納する。そして、状態S2まで遷移して、
2番目の文字「ヤ」に注目する。状態S2の遷移可能文
字テーブルT2も空であるので、図5のように新たに状
態S3を生成し、もとの状態S2の遷移可能文字テーブル
T2に「ヤ」の文字コードと状態S3を指すポインタとの
対応関係を格納する。そして、状態S3まで遷移して、
3番目の文字「ザ」に注目する。状態S3の遷移可能文
字テーブル1dも空であるので、新たに状態S4を生成
する。
【0041】今、注目している文字「ザ」は濁音文字で
あるので、もう1個、新たに状態S5を生成し、状態S3
の遷移可能文字テーブルT3に「ザ」の文字コードと状
態S4へのポインタとの対応関係と、この「ザ」から濁
点を取り去った「サ」の文字コードと状態S5へのポイ
ンタとの対応関係とを格納し、状態S5の遷移可能文字
テーブルT5に濁点「゛」の文字コードと状態S4へのポ
インタとの対応関係を格納する。現時点では、状態は図
15のようになる。そして、状態S4まで遷移して、最
後の文字「キ」に注目する。
【0042】状態S4の遷移可能文字テーブルT4も空で
あるので、新たに状態S6を生成し、遷移可能文字テー
ブルT4に「キ」の文字コードと状態S6へのポインタと
の対応関係を格納する。この時、状態S6は単語「ミヤ
ザキ」の最終状態に相当するので、状態S6に単語辞書
部内の単語「ミヤザキ」の単語情報へのポインタをセッ
トする。すると現時点では、この単語照合装置の構成は
図16のようになる。
【0043】次に、2番目の単語「ミヤサキ」について
考える。まず1文字目の「ミ」の文字コードが初期状態
S1の遷移可能文字テーブルT1に存在するかどうかチェ
ックし、この場合は存在するので、「ミ」の文字コード
に対応づけられた次の状態S2に遷移する。状態S2で
は、遷移可能文字テーブルT2に「ヤ」の文字コードが
存在するかどうかチェックし、存在するので「ヤ」の文
字コードに対応づけられた次の状態S3に遷移する。状
態S3では、遷移可能文字テーブルT3に「サ」の文字コ
ードが存在するかどうかチェックし、存在するので
「サ」の文字コードに対応づけられた次の状態S5に遷
移する。状態S5では、遷移可能文字テーブルT5に
「キ」の文字コードが存在するかどうかチェックし、存
在しないので、新たに状態T7を生成し、「キ」の文字
コードと状態T7へのポインタとの対応関係を格納す
る。この時、状態S7は単語「ミヤサキ」の最終状態に
相当するので、状態S7に単語辞書部内の単語「ミヤサ
キ」の単語情報へのポインタをセットする。すると現時
点では、この単語照合装置の構成は図17のようにな
る。
【0044】以上、最初の2単語について詳細に説明し
たが、残りの単語についても全て上記の様に、ある状態
Aから濁音文字(半濁音文字)に対応して次の状態Bに
遷移する場合は、その状態Aから、その濁音文字(半濁
音文字)から濁点(半濁点)を除去した清音文字に対応
して別のある状態Cへ遷移することができ、その状態C
から濁点(半濁点)に対応して状態Bに遷移できるよう
な構造で、単語照合部を構築することにより、図14の
ような状態群からなる単語照合部1が得られる。
【0045】また、単語照合時の動作は第1の実施の形
態と同様であり、各状態Siにおいて図9のフローチャ
ートで表される処理を行うと、濁点分離形で書かれた図
10のような文字列も濁音文字が1マスに書かれた図1
2のような文字列も、濁点分離・統合などの付加処理な
しで正しく照合することができる。
【0046】また、正解文字が図11、図13のような
認識候補マトリクスの中に含まれていない場合でも、認
識スコアが非常に悪い場合は、認識結果の文字コードに
関わらず、遷移可能な全ての状態へ遷移することによ
り、正解単語と照合することが出来る。
【0047】なお、この装置をソフトウェアで実現して
もよい。なお、単語辞書には、単語照合を行うためのイ
ンデックスをカタカナとしたが、ひらがなでもよい。ま
た、付加情報として漢字表記を格納したが、その他の情
報でもよい。
【0048】なお、単語のスコアは、上記のように、各
文字の認識スコアの和でもよいし、文字数で割った認識
スコアの平均でもよい。
【0049】なお、認識候補の数は3としているが、任
意の自然数でもよい。また、本実施の形態では、ある単
語の最終状態となっている場合でも入力文字列の最後の
文字まで状態遷移し終えてなければ、その単語を照合出
来たとして出力していないが、入力文字長と長さの異な
る単語も出力させたい場合は出力しても良い。
【0050】なお、カナの「ア」と「ァ」、アルファベ
ットの「C」と「c」のように、同一形状で大きさが異
なる文字の場合、同一の状態へ遷移するように状態群を
構築すれば、大きさの違いによる誤認識も吸収し、正解
単語を照合できる。
【0051】また、漢字の「力」とカタカナの「カ」の
ような類似文字に関しても、同一の状態に遷移するよう
に状態群を構築すれば、類似文字による誤認識も吸収
し、正解単語を照合出来る。
【0052】(実施の形態3)図18は、本発明の第3
の実施の形態における単語照合装置の構成図である。図
18において、単語照合部1,単語辞書部2とで単語照
合装置を構成し、単語照合部1は状態Siの集合で構成
されるオートマトンである。ここで、iは状態番号であ
り、状態の総数をNとする時、1≦i≦Nである。また
単語辞書には、単語照合を行うインデックスを作成する
ための単語表記を格納してある。
【0053】図2は、図18におけるn番目の状態Sn
を詳細に表した図である。図2において、状態Snは、
単語辞書部内の単語情報を指すポインタと遷移可能文字
テーブルTnを有している。ここで、ある1つの状態か
ら単語情報を指すポインタは1つであるとは限らない。
また、遷移可能文字テーブルTnには、次の状態に遷移
することの出来る文字コードと次の状態へのポインタと
の組み合わせが格納してある。図18において、状態間
を結んでいる矢印とその矢印の側に書いてあるアルファ
ベットは、それぞれ、次の状態へのポインタと対応する
文字である。
【0054】以上を踏まえると、図18の単語照合装置
は、単語の画像から各文字を切り出す過程において1文
字であるにも拘わらずN個の文字パーツに過分割される
文字が存在する単語に関して、前記文字の始点となる状
態の遷移可能文字テーブルに前記文字と次の状態へのポ
インタとの対応関係と、前記N個の文字パーツのうち1
番目の文字パーツを認識して得られる文字と次の状態へ
のポインタとの対応関係が格納され、前記N個の文字パ
ーツのうちi番目(1≦i≦N−2)の文字パーツを認
識して得られる文字に対応して遷移する遷移先の状態の
遷移可能文字テーブルに前記N個の文字パーツのうちi
+1番目の文字パーツを認識して得られる文字と次の状
態へのポインタとの対応関係が格納され、前記N個の文
字パーツのうちN−1番目の文字パーツを認識して得ら
れる文字に対応して遷移する遷移先の状態の遷移可能文
字テーブルに前記N個の文字パーツのうちN番目の文字
パーツを認識して得られる文字とN個の文字パーツに過
分割される前記文字に対応して遷移する遷移先の状態へ
のポインタとの対応関係が格納される構造を有している
ことがわかる。
【0055】次にこのような構成の単語照合装置の動作
について詳細に説明する。まず、単語照合部1の構築時
であるが、最初は状態数を初期状態のみの1とする。そ
して単語辞書部2の単語数をWとしたとき、1番目の単
語からW番目の単語まで次のような方法で状態Siを生
成する。単語辞書部2の1番目の単語を「化学」である
とする。最初は図3のように初期状態S1のみであり初
期状態S1の遷移可能文字テーブルT1は空である。1文
字目の「化」の文字コードが初期状態S1の遷移可能文
字テーブルT1に格納されていないので、図19のよう
に新たな状態S2を生成し、初期状態S1の遷移可能文字
テーブルT1に「化」の文字コードと新たに生成した状
態S2を指すポインタとの対応関係を格納する。また、
「化」は文字認識の切り出し部において、しばしば2つ
の文字パーツに過分割され、それぞれの文字パーツを認
識すると、カタカナの「イ」と「ヒ」に誤認識されやす
い。そこで、分割された文字パーツを認識することによ
り得られる文字「イ」の文字コードが状態S1の遷移可
能文字テーブルに存在するかどうかチェックし、存在し
ないので、新たに状態S3を生成し、状態S1の遷移可能
文字テーブルT1に「イ」の文字コードと状態S3へのポ
インタとの対応関係を格納する。また状態S3の遷移可
能文字テーブルT3に「ヒ」の文字コードと状態S2への
ポインタとの対応関係を格納する。すると現時点では、
状態は図20の様になっている。
【0056】次に状態S2において、2文字目の「学」
の文字コードが遷移可能文字テーブルT2に存在するか
どうかチェックし、存在しないので、あらたな状態S4
を生成し、遷移可能文字テーブルT2に「学」の文字コ
ードと状態S4へのポインタとの対応関係を格納する。
【0057】ここで、状態S4は単語「化学」の最終状
態に相当するので、単語辞書部2内の「化学」の単語情
報を指すポインタをセットする。すると状態は図21の
様になる。
【0058】次に単語辞書部2の2番目の単語「仁者」
に注目する。まず1文字目の「仁」についてであるが、
初期状態S1の遷移可能文字テーブルT1に、「仁」の文
字コードが存在するかどうかチェックし、存在しないの
で新たな状態S5を生成し、遷移可能文字テーブルT1に
「仁」の文字コードと状態S5へのポインタとの対応関
係を格納する。また、「仁」は文字認識の切り出し部に
おいて、しばしば2つの文字パーツに過分割され、それ
ぞれの文字パーツを認識すると、カタカナの「イ」と
「ニ」に誤認識されやすい。そこで、分割された文字パ
ーツを認識することにより得られる文字「イ」の文字コ
ードが状態S1の遷移可能文字テーブルに存在するかど
うかチェックし、存在するので、「イ」の文字コードに
対応する状態S3まで遷移し、状態S3の遷移可能文字テ
ーブルT3に「ニ」の文字コードが存在するかどうかチ
ェックし、存在しないので、遷移可能文字テーブルT3
に「ニ」の文字コードと状態S5へのポインタとの対応
関係を格納する。現時点での状態は図22の様になって
いる。次に状態S5において、2文字目の「者」の文字
コードが遷移可能文字テーブルT5に存在するかどうか
チェックし、存在しないので、あらたな状態S6を生成
し、遷移可能文字テーブルT5に「学」の文字コードと
状態S6へのポインタとの対応関係を格納する。
【0059】ここで、状態S6は単語「仁者」の最終状
態に相当するので、単語辞書部2内の「仁者」の単語情
報を指すポインタをセットする。すると状態は図23の
様になる。
【0060】このように、残りの単語についても全て上
記の様に、1つの文字が文字認識の切り出し部において
複数の文字パーツに過分割され、それぞれの文字パーツ
を文字として誤認識しやすい文字においては、各文字パ
ーツを認識して得られやすい文字コードに対応して状態
を遷移することができるように、単語照合部1を構築す
る。
【0061】次に単語照合時の動作であるが、各状態S
iにおいて図9のフローチャートで表された処理を行
う。図24のような文字列を文字認識した結果得られる
図25の認識候補マトリクスRijから正解単語を照合す
る方法を述べる。図25の認識候補マトリクスは横方向
(i方向)が文字列方向、縦方向(j方向)が認識候補
方向であり上になるほど認識スコアが高いものとする。
この例では、2文字の文字列「化学」の文字列が誤って
3文字として切り出され、認識が行われており、各文字
に対して第3候補までの認識結果を求めている。
【0062】まず、初期状態S1で図9の処理を行う。
すなわち、ある単語の最終状態であるかどうかチェック
するが、この条件には該当しないので、1文字目の文字
の第1候補「イ」(R11)の文字コードが遷移可能文字
テーブルT1に存在するかどうかチェックを行う。これ
は存在するので「イ」の文字コードに対応する次の状態
S3に遷移し、注目する文字位置をi=2に進め、状態
S3において次の処理を行う。この時、遷移できた文字
コードに対応する認識スコアを保持しておく。ここで注
意しなければならないのは、図9中の「注目する文字列
を1つ進め、対応する次の状態へ遷移して処理」が終わ
れば、元の状態において処理を続行する、つまりこの手
続きの再帰呼び出しを行っているということである。遷
移した状態S3においても、ある単語の最終状態である
かどうかチェックするが、条件には該当しないので、2
文字目の文字の第1候補「ヒ」(R21)の文字コードが
遷移可能文字テーブルT2に存在するかどうかチェック
を行う。これも存在するので「ヒ」の文字コードに対応
する次の状態S2に遷移し、注目する文字位置をi=3
に進め、状態S2において次の処理を行う。状態S2で
は、ある単語の最終状態であるかチェックするが、条件
には該当しないので、3文字目の文字の第1候補「学」
(R31)の文字コードが遷移可能文字テーブルT2に存
在するかどうかチェックを行う。これも存在するので
「学」の文字コードに対応する次の状態S4に遷移す
る。遷移した状態S4においても、ある単語の最終状態
であるかどうかチェックし、単語「化学」の最終状態に
なっており、入力文字列の最後の文字まで遷移済みであ
るので、単語「化学」が照合でき、保持しておいたスコ
アの和を単語のスコアとして出力する。全ての再帰処理
を終了させ、出てきた全ての単語のうち、単語のスコア
が最も高いものを単語の第1候補とする。
【0063】このように、1つの文字が複数の文字パー
ツに過分割され、それぞれを文字として認識することに
より切り出しミスをしやすい文字は予め、過分割された
文字パーツを認識した文字コードを用いて状態群を形成
することにより、切り出しミスが起きても正解単語と照
合できる。
【0064】また、正解文字が図25のような認識候補
マトリクスの中に含まれていない場合でも、認識スコア
が非常に悪い場合は、認識結果の文字コードに関わら
ず、遷移可能な全ての状態へ遷移することにより、正解
単語と照合することが出来る。
【0065】なお、この装置をソフトウェアで実現して
もよい。なお、単語のスコアは、上記のように、各文字
の認識スコアの和でもよいし、文字数で割った認識スコ
アの平均でもよい。
【0066】なお、認識候補の数は3としているが、任
意の自然数でもよい。また、本実施の形態では、ある単
語の最終状態となっている場合でも入力文字列の最後の
文字まで状態遷移し終えてなければ、その単語を照合出
来たとして出力していないが、入力文字長と長さの異な
る単語も出力させたい場合は出力しても良い。
【0067】なお、カナの「ア」と「ァ」、アルファベ
ットの「C」と「c」のように、同一形状で大きさが異
なる文字の場合、同一の状態へ遷移するように状態群を
構築すれば、大きさの違いによる誤認識も吸収し、正解
単語を照合できる。
【0068】また、漢字の「力」とカタカナの「カ」の
ような類似文字に関しても、同一の状態に遷移するよう
に状態群を構築すれば、類似文字による誤認識も吸収
し、正解単語を照合出来る。
【0069】(実施の形態4)図26は、本発明の第4
の実施の形態における単語照合装置の構成図である。図
26において、単語照合部1,単語辞書部2とで単語照
合装置を構成し、単語照合部1は状態Siの集合で構成
されるオートマトンである。ここで、iは状態番号であ
り、状態の総数をNとする時、1≦i≦Nである。また
単語辞書には、単語照合を行うインデックスを作成する
ための英単語の表記とその他の関連情報を格納してあ
る。
【0070】図2は、図26におけるn番目の状態Sn
を詳細に表した図である。図2において、状態Snは、
単語辞書部内の単語情報を指すポインタと遷移可能文字
テーブルTnを有している。ここで、ある1つの状態か
ら単語情報を指すポインタは1つであるとは限らない。
また、遷移可能文字テーブルTnには、次の状態に遷移
することの出来る文字コードと次の状態へのポインタと
の組み合わせが格納してある。図26において、状態間
を結んでいる矢印とその矢印の側に書いてあるアルファ
ベットは、それぞれ、次の状態へのポインタと対応する
文字である。
【0071】以上を踏まえると、図26の単語照合装置
は、単語の画像から各文字を切り出す過程においてN個
の文字であるにも拘わらず1個の文字として切り出され
る文字群が存在する単語に関して、前記文字群の先頭文
字の始点となる状態の遷移可能文字テーブルに前記文字
群のうちの1番目の文字と次の状態へのポインタとの対
応関係と、前記文字群の画像を1文字として認識するこ
とにより得られる文字と前記文字群のうちのN番目の文
字に対応して遷移する遷移先の状態へのポインタとの対
応関係と、が格納する構造を有していることがわかる。
【0072】次にこのような構成の単語照合装置の動作
について詳細に説明する。まず、単語照合部1の構築時
であるが、最初は状態数を初期状態のみの1とする。そ
して単語辞書部2の単語数をWとしたとき、1番目の単
語からW番目の単語まで次のような方法で状態Siを生
成する。単語辞書部2の1番目の単語を「learn」であ
るとする。最初は図3のように初期状態S1のみであり
初期状態S1の遷移可能文字テーブルT1は空である。
【0073】最初に、この単語「learn」を認識対象の
文書に使用される頻度の高いフォントのイメージで見る
と、図27のようになり、4文字目の「r」と5文字目
の「n」が接触するくらい近づいていることが分かる。
この文字を実際に文字認識のための切り出しを行うと、
4文字目の「r」と5文字目の「n」が接触したまま1
字として切り出され、この接触文字を「m」として誤認
識してしまうことが多い。
【0074】そして、1文字目の「l」の文字コードが
初期状態S1の遷移可能文字テーブルT1に存在するかど
うかチェックを行い、今は、存在しないので、図28の
ように新たな状態S2を生成し、初期状態S1の遷移可能
文字テーブルT1に「l」の文字コードと新たに生成し
た状態S2を指すポインタとの対応関係を格納する。次
に状態S2において、2文字目の「e」の文字コードが
遷移可能文字テーブルT2に存在するかどうかチェック
し、存在しないので、図29の様に新たな状態S3を生
成し、遷移可能文字テーブルT2に「e」の文字コード
と状態S3へのポインタとの対応関係を格納する。次に
状態S3において、3文字目の「a」の文字コードが遷
移可能文字テーブルT3に存在するかどうかチェック
し、存在しないので、図30の様に新たな状態S4を生
成し、遷移可能文字テーブルT3に「a」の文字コード
と状態S4へのポインタとの対応関係を格納する。次に
状態S4において、4文字目の「r」の文字コードが遷
移可能文字テーブルT4に存在するかどうかチェック
し、存在しないので、図31の様に新たな状態S5を生
成し、遷移可能文字テーブルT4に「r」の文字コード
と状態S5へのポインタとの対応関係を格納する。次に
状態S5において、5文字目の「n」の文字コードが遷
移可能文字テーブルT5に存在するかどうかチェック
し、存在しないので、新たな状態S6を生成し、遷移可
能文字テーブルT5に「n」の文字コードと状態S6への
ポインタとの対応関係を格納する。また、最初に確認し
たように、4文字目の「r」と5文字目の「n」は接触
することが多く、1文字として切り出され、文字「m」
に誤認識されることが多いので、状態S4の遷移可能文
字テーブルT4に文字「m」の文字コードと状態S6への
ポインタとの対応関係を新たに格納する。ここで、状態
S6は単語「learn」の最終状態に相当するので、単語辞
書部2内の「learn」の単語情報を指すポインタをセッ
トする。すると状態は図32の様になる。
【0075】次に単語辞書部2の2番目の単語「leaf」
に注目する。単語「learn」の時と同様に、この単語「l
eaf」を認識対象の文書に使用される頻度の高いフォン
トのイメージで見て、複数の文字が接触して切り出され
やすいかどうかチェックする。この単語に関しては、特
に問題はないと判断し以下の処理を続ける。
【0076】まず1文字目の「l」についてであるが、
初期状態S1の遷移可能文字テーブルT1に「l」の文字
コードが存在するかどうかチェックし、存在するので対
応する状態S2へ遷移する。遷移先の状態S2の遷移可能
文字テーブルT2に「e」の文字コードが存在するかど
うかチェックし、存在するので対応する状態S3へ遷移
する。遷移先の状態S3の遷移可能文字テーブルT3に
「a」の文字コードが存在するかどうかチェックし、存
在するので対応する状態S4へ遷移する。遷移先の状態
S4の遷移可能文字テーブルT4に「f」の文字コードが
存在するかどうかチェックし、存在しないので、新たな
状態S7を生成し、状態S4の遷移可能文字テーブルT4
に「f」の文字コードと状態S7へのポインタとの対応
関係を新たに格納する。ここで、状態S7は単語「lea
f」の最終状態に相当するので、単語辞書部2内の「lea
f」の単語情報を指すポインタをセットする。すると状
態は図33の様になる。
【0077】次に単語辞書部2の3番目の単語「ofte
n」に注目する。1,2番目の単語と同様に、この単語
「often」を認識対象の文書に使用される頻度の高いフ
ォントのイメージで見ると、2文字目の「f」と3文字
目の「t」が接触するくらい近づいていることが分か
る。この文字を実際に文字認識のための切り出しを行う
と、2文字目の「f」と3文字目の「t」が接触したま
ま1字として切り出され、この接触文字を「A」や
「R」として誤認識してしまうことが多い。
【0078】まず1文字目の「o」についてであるが、
初期状態S1の遷移可能文字テーブルT1に「o」の文字
コードが存在するかどうかチェックし、存在しないの
で、新たに状態S8を生成し、遷移可能文字テーブルT1
に「o」の文字コードと状態S8へのポインタとの対応
関係を格納する。次に状態S8の遷移可能文字テーブル
T8に2文字目の「f」が存在するかどうかチェック
し、存在しないので、新たに状態S9を生成し、遷移可
能文字テーブルT8に「f」の文字コードと状態S9への
ポインタとの対応関係を格納する。次に状態S9の遷移
可能文字テーブルT9に3文字目の「t」が存在するか
どうかチェックし、存在しないので、新たに状態S10を
生成し、遷移可能文字テーブルT9に「t」の文字コー
ドと状態S10へのポインタとの対応関係を格納する。ま
た、最初に確認したように、2文字目の「f」と3文字
目の「t」は接触することが多く、1文字として切り出
され、文字「A」や「R」に誤認識されることが多いの
で、状態S8の遷移可能文字テーブルT8に文字「A」の
文字コードと状態S10へのポインタとの対応関係と、文
字「R」の文字コードと状態S10へのポインタとの対応
関係を新たに格納する。次に状態S10の遷移可能文字テ
ーブルT10に4文字目の「e」が存在するかどうかチェ
ックし、存在しないので、新たに状態S11を生成し、遷
移可能文字テーブルT10に「e」の文字コードと状態S
11へのポインタとの対応関係を格納する。次に状態S11
の遷移可能文字テーブルT11に5文字目の「n」が存在
するかどうかチェックし、存在しないので、新たに状態
S12を生成し、遷移可能文字テーブルT11に「n」の文
字コードと状態S12へのポインタとの対応関係を格納す
る。ここで、状態S12は単語「often」の最終状態に相
当するので、単語辞書部2内の「often」の単語情報を
指すポインタをセットする。すると状態は図34の様に
なる。
【0079】以上、単語辞書部2中の最初の3単語につ
いて詳細に説明したが、残りの単語についても、複数の
文字が、1つの文字として切り出され易く、その認識結
果がある程度一定の文字に定まるものに関しては、1つ
の文字として切り出される複数の文字のうち最初の文字
に対応するポインタと始点を同じくし、最後の文字に対
応するポインタと終点を同じくするようなポインタを誤
認識され易い文字と対応づけて、単語照合部1を構築す
る。
【0080】次に単語照合時の動作であるが、各状態S
iにおいて図9のフローチャートで表された処理を行
う。例えば、図35は、文字列画像を文字認識の切り出
し部において1文字単位に切り出したところを示す。図
35において、矩形で囲まれている部分で文字が区切ら
れているが、図35をみると5文字目の「r」と6文字
目の「n」が1文字として誤って切り出されており、こ
れを認識した結果の認識候補マトリクスを図36に示す
が、「m」として認識されている。また、図36の認識
候補マトリクスは横方向(i方向)が文字列方向、縦方
向(j方向)が認識候補方向であり上になるほど認識ス
コアが高いものとする。
【0081】前記に述べたような方法で単語照合部1を
構築していれば、文字「m」に対応する次の状態へのポ
インタは、文字「r」と文字「n」にも対応するので、
正しく単語「Internet」が照合できる。
【0082】なお、この装置をソフトウェアで実現して
もよい。なお、単語辞書には、単語照合を行うためのイ
ンデックスを英単語としたが、他の文字でもよい。
【0083】なお、単語のスコアは、上記のように、各
文字の認識スコアの和でもよいし、文字数で割った認識
スコアの平均でもよい。
【0084】なお、認識候補の数は3としているが、任
意の自然数でもよい。また、本実施の形態では、ある単
語の最終状態となっている場合でも入力文字列の最後の
文字まで状態遷移し終えてなければ、その単語を照合出
来たとして出力していないが、入力文字長と長さの異な
る単語も出力させたい場合は出力しても良い。
【0085】なお、カナの「ア」と「ァ」、アルファベ
ットの「C」と「c」のように、同一形状で大きさが異
なる文字の場合、同一の状態へ遷移するように状態群を
構築すれば、大きさの違いによる誤認識も吸収し、正解
単語を照合できる。
【0086】また、漢字の「力」とカタカナの「カ」の
ような類似文字に関しても、同一の状態に遷移するよう
に状態群を構築すれば、類似文字による誤認識も吸収
し、正解単語を照合出来る。
【0087】(実施の形態5)図37は、本発明の第5
の実施の形態における単語照合装置の構成図である。図
37において、単語照合部1,単語辞書部2とで単語照
合装置を構成し、単語照合部1は状態Siの集合で構成
されるオートマトンである。ここで、iは状態番号であ
り、状態の総数をNとする時、1≦i≦Nである。また
単語辞書には、単語照合を行うインデックスを作成する
ための単語表記を格納してある。
【0088】図2は、図37におけるn番目の状態Sn
を詳細に表した図である。図2において、状態Snは、
単語辞書部内の単語情報を指すポインタと遷移可能文字
テーブルTnを有している。ここで、ある1つの状態か
ら単語情報を指すポインタは1つであるとは限らない。
また、遷移可能文字テーブルTnには、次の状態に遷移
することの出来る文字コードと次の状態へのポインタと
の組み合わせが格納してある。図37において、状態間
を結んでいる矢印とその矢印の側に書いてある文字は、
それぞれ、次の状態へのポインタと対応する文字であ
る。
【0089】以上を踏まえると、図37の単語照合装置
は、単一の読みにも拘わらず本来の送り仮名の他に慣用
として使われる送り仮名を有する単語に関して、前記両
方の送り仮名に対し状態遷移できる対応関係を格納する
構造を有していることがわかる。
【0090】次にこのような構成の単語照合装置の動作
について詳細に説明する。まず、単語照合部1の構築時
であるが、最初は状態数を初期状態のみの1とする。そ
して単語辞書部2の単語数をWとしたとき、1番目の単
語からW番目の単語まで次のような方法で状態Siを生
成する。単語辞書部2の1番目の単語を「行う」である
とする。最初は図3のように初期状態S1のみであり初
期状態S1の遷移可能文字テーブルT1は空である。
【0091】この単語「行う」の送り仮名は本来「う」
だけであるが、慣用として「なう」と送り仮名を付けて
「行なう」と表記する場合も許容されている。よって、
「行う」と「行なう」の両方の表記から単語辞書中の
「行う」を照合出来なければならない。まず、1文字目
の「行」の文字コードが遷移可能文字テーブルT1に存
在するかどうかチェックを行い、存在しないので、新た
な状態S2を生成し、遷移可能文字テーブルT1に、
「行」の文字コードと状態S2へのポインタとの対応関
係を格納する。次に状態S2において、遷移可能文字テ
ーブルT2に2文字目の「う」が存在するかどうかチェ
ックを行い、存在しないので、新たな状態S3を生成
し、状態S2の遷移可能文字テーブルT2に「う」の文字
コードと状態S3へのポインタとの対応関係を登録す
る。また、状態S3は、単語「行う」の最終状態に相当
するので、単語辞書2内の単語「行う」の単語情報への
ポインタをセットする。また、先ほど述べたように、単
語「行う」は「行なう」と表記される場合もあるので、
状態S2の遷移可能文字テーブルT2に「な」の文字コー
ドが存在するかどうかのチェックも行い、存在しないの
で、新たな状態S4を生成し、遷移可能文字テーブルT2
に「な」の文字コードと状態S4へのポインタとの対応
関係を格納する。次に、状態S4において、遷移可能文
字テーブルT4に「う」の文字コードが存在するかどう
かチェックを行い、存在しないので、遷移可能文字テー
ブルT4に「う」の文字コードと状態S3へのポインタと
の対応関係を格納する。すると現時点での状態は図38
のようになる。
【0092】次に単語辞書部2の2番目の単語「表す」
について考える。単語「表す」の送り仮名は本来「す」
だけであるが、慣用として「わす」と送り仮名を付けて
「表す」と表記する場合も許容されている。よって、
「表す」と「表わす」の両方の表記から単語辞書中の
「表す」を照合出来なければならない。まず、1文字目
の「表」の文字コードが遷移可能文字テーブルT1に存
在するかどうかチェックを行い、存在しないので、新た
な状態S5を生成し、遷移可能文字テーブルT1に、
「表」の文字コードと状態S5へのポインタとの対応関
係を格納する。次に状態S5において、遷移可能文字テ
ーブルT5に2文字目の「す」が存在するかどうかチェ
ックを行い、存在しないので、新たな状態S6を生成
し、状態S5の遷移可能文字テーブルT5に「す」の文字
コードと状態S6へのポインタとの対応関係を登録す
る。また、状態S6は、単語「表す」の最終状態に相当
するので、単語辞書2内の単語「表す」の単語情報への
ポインタをセットする。また、先ほど述べたように、単
語「表す」は「表わす」と表記される場合もあるので、
状態S5の遷移可能文字テーブルT5に「わ」の文字コー
ドが存在するかどうかのチェックも行い、存在しないの
で、新たな状態S7を生成し、遷移可能文字テーブルT5
に「わ」の文字コードと状態S7へのポインタとの対応
関係を格納する。次に、状態S7において、遷移可能文
字テーブルT7に「す」の文字コードが存在するかどう
かチェックを行い、存在しないので、遷移可能文字テー
ブルT7に「す」の文字コードと状態S6へのポインタと
の対応関係を格納する。すると現時点での状態は図39
のようになる。同様にして、本来の送り仮名とは別に、
慣用として使われる送り仮名が存在する単語は両方の送
り仮名の付け方を許容し、それら両方の単語の終わりの
状態は同一の状態で終了するように構築することによ
り、図37のような単語照合装置が得られる。
【0093】また単語照合時の動作は、実施の形態1,
2,3,4と同様であり、「行う」と「行なう」や、
「表す」と「表わす」等の両方の送り仮名の付け方でも
正しく単語照合を行うことが出来る。
【0094】なお、この装置をソフトウェアで実現して
もよい。なお、カナの「ア」と「ァ」、アルファベット
の「C」と「c」のように、同一形状で大きさが異なる
文字の場合、同一の状態へ遷移するように状態群を構築
すれば、大きさの違いによる誤認識も吸収し、正解単語
を照合できる。
【0095】また、漢字の「力」とカタカナの「カ」の
ような類似文字に関しても、同一の状態に遷移するよう
に状態群を構築すれば、類似文字による誤認識も吸収
し、正解単語を照合出来る。
【0096】
【発明の効果】以上のように、第1の実施例における本
発明の単語照合装置は、任意の状態の遷移可能文字テー
ブルにおいて、濁点付加可能な清音文字の文字コードは
前記清音文字に濁点を付加した濁音文字の文字コードと
同一の状態へ遷移するように構築され、濁音文字の文字
コードは前記濁音文字から濁点を除去した清音文字の文
字コードと同一の状態へ遷移するように構築され、半濁
点付加可能な清音文字の文字コードは前記清音文字に半
濁点を付加した半濁音文字の文字コードと同一の状態へ
遷移するように構築され、半濁音文字の文字コードは前
記半濁音文字から半濁点を除去した清音文字の文字コー
ドと同一の状態へ遷移するように構築され、濁点が付加
可能な清音文字のコードに対応して遷移する遷移先の状
態の遷移可能文字テーブルにおいては、濁点の文字コー
ドと前記遷移先の状態自らへのポインタの対応関係を格
納するように構築され、半濁点が付加可能な清音文字の
コードに対応して遷移する遷移先の状態の遷移可能文字
テーブルにおいては、半濁点の文字コードと前記遷移先
の状態自らへのポインタの対応関係を格納するように構
築されることにより、濁点(半濁点)を分離した形で記
述されたカナ文字列も、濁点(半濁点)を含む濁音(半
濁点)文字で記述されたカナ文字列も、またはその両方
の表記が混在したカナ文字列も、濁点(半濁点)分離・
統合を行うことなく、正解単語と照合できる。また、辞
書中のカナ文字列の表記と、照合対象のカナ文字列と
が、濁点の有無による違いの場合は、濁点の有無による
違いを考慮した単語を辞書に新たに登録することなし
に、正解単語と照合できる。
【図面の簡単な説明】
【図1】本発明の第1実施の形態の単語照合装置の構成
【図2】状態Siの構成図
【図3】単語照合部1の構築前を表す図
【図4】第1実施の形態の単語照合部1の構築途中を表
す図
【図5】第1実施の形態の単語照合部1の構築途中を表
す図
【図6】第1実施の形態の単語照合部1の構築途中を表
す図
【図7】第1実施の形態の単語照合装置の構築途中(単
語「ミヤザキ」については状態を構築済み)を表す図
【図8】第1実施の形態の単語照合装置の構築途中(単
語「ミヤザワ」については状態を構築済み)を表す図
【図9】単語照合時のアルゴリズムを表すフローチャー
【図10】第1実施の形態において濁点分離の方法で書
かれたカナ文字列のイメージを表す図
【図11】第1実施の形態において図10のイメージを
文字認識部において認識して得られる認識候補マトリク
スを表す図
【図12】第1実施の形態において濁点を分離しない濁
音文字として書かれたカナ文字列のイメージを表す図
【図13】第1実施の形態において図12のイメージを
文字認識部において認識して得られる認識候補マトリク
スを表す図
【図14】本発明の第2実施の形態の単語照合装置の構
成図
【図15】第2実施の形態の単語照合部1の構築途中
(単語「ミヤザキ」の「ミヤザ」まで状態を構築済み)
を表す図
【図16】第2実施の形態の単語照合装置の構築途中
(単語「ミヤザキ」については状態を構築済み)を表す
【図17】第2実施の形態の単語照合装置の構築途中
(単語「ミヤサキ」については状態を構築済み)を表す
【図18】本発明の第3実施の形態の単語照合装置の構
成図
【図19】第3実施の形態の単語照合部1の構築途中を
表す図
【図20】第3実施の形態の単語照合部1の構築途中
(単語「化学」の「化」まで状態を構築済み)を表す図
【図21】第3実施の形態の単語照合装置の構築途中
(単語「化学」については状態を構築済み)を表す図
【図22】第3実施の形態の単語照合部1の構築途中
(単語「仁者」の「仁」まで状態を構築済み)を表す図
【図23】第3実施の形態の単語照合装置の構築途中
(単語「仁者」については状態を構築済み)を表す図
【図24】第3実施の形態において認識する対象の手書
き漢字文字列のイメージを表す図
【図25】第3実施の形態において図24のイメージを
文字認識部において認識して得られる認識候補マトリク
スを表す図
【図26】本発明の第4実施の形態の単語照合装置の構
成図
【図27】第4実施の形態において単語辞書中の単語
「learn」のあるフォントでのイメージを表す図
【図28】第4実施の形態の単語照合部1の構築途中
(単語「learn」の「l」まで状態を構築済み)を表す図
【図29】第4実施の形態の単語照合部1の構築途中
(単語「learn」の「le」まで状態を構築済み)を表す
【図30】第4実施の形態の単語照合部1の構築途中
(単語「learn」の「lea」まで状態を構築済み)を表す
【図31】第4実施の形態の単語照合部1の構築途中
(単語「learn」の「lear」まで状態を構築済み)を表
す図
【図32】第4実施の形態の単語照合装置の構築途中
(単語「learn」については状態を構築済み)を表す図
【図33】第4実施の形態の単語照合装置の構築途中
(単語「leaf」については状態を構築済み)を表す図
【図34】第4実施の形態の単語照合装置の構築途中
(単語「often」については状態を構築済み)を表す図
【図35】第4実施の形態において単語の画像「Intern
et」を文字認識部の切り出し部において切り出した状態
を表す図
【図36】第4実施の形態において図35のイメージを
文字認識部において認識して得られる認識候補マトリク
スを表す図
【図37】本発明の第5実施の形態の単語照合装置の構
成図
【図38】第5実施の形態の単語照合装置の構築途中
(単語「行う」については状態を構築済み)を表す図
【図39】第5実施の形態の単語照合装置の構築途中
(単語「表す」については状態を構築済み)を表す図
【符号の説明】
1 単語照合部 2 単語辞書部 Si i番目の状態 Ti i番目の状態の遷移可能文字テーブル
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 FI G06F 15/403 310C (72)発明者 松川 善彦 大阪府門真市大字門真1006番地 松下電器 産業株式会社内

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 単語辞書部と単語照合部とから構成さ
    れ、前記単語辞書部は、カナ表記を含む単語情報を格納
    し、前記単語照合部は、前記単語辞書部中の単語情報へ
    のポインタと、次の状態へ遷移可能な文字と前記次の状
    態へのポインタとの対応関係を格納した遷移可能文字テ
    ーブルと、を有する状態の集合から構成されるオートマ
    トンであり、単語照合対象である文字列中の各文字につ
    いて、前記文字が、現在の状態の遷移可能文字テーブル
    に存在すれば対応する次の状態へ遷移する動作を繰り返
    す過程において、前記単語辞書部中の単語情報へのポイ
    ンタを出力することにより単語を照合し、任意の状態の
    遷移可能文字テーブルにおいて、濁点付加可能な清音文
    字と前記清音文字に濁点を付加した濁音文字に対しては
    同一の状態へ遷移するように対応関係を格納し、半濁点
    付加可能な清音文字と前記清音文字に半濁点を付加した
    半濁音文字に対しては同一の状態へ遷移するように対応
    関係を格納し、濁点付加可能な清音文字に対応して遷移
    する遷移先の状態の遷移可能文字テーブルにおいて、濁
    点文字に対しては前記遷移先の状態自らへ遷移するよう
    に対応関係を格納し、半濁点付加可能な清音文字に対応
    して遷移する遷移先の状態の遷移可能文字テーブルにお
    いて、半濁点文字に対しては前記遷移先の状態自らへ遷
    移するように対応関係を格納する構造を有することを特
    徴とする単語照合装置。
  2. 【請求項2】 ある状態の遷移可能文字テーブルに濁音
    文字と次の状態へのポインタとの対応関係が格納されて
    いる場合、前記遷移可能文字テーブルに、前記濁音文字
    から濁点を除去した清音文字と、前記濁音文字に対応し
    て遷移する遷移先の状態とは異なる状態へのポインタと
    の対応関係も格納されると共に、前記清音文字に対応し
    て遷移する遷移先の状態の遷移可能文字テーブルに濁点
    文字と前記濁音文字に対応して遷移する遷移先の状態へ
    のポインタとの対応関係が格納され、ある状態の遷移可
    能文字テーブルに半濁音文字と次の状態へのポインタと
    の対応関係が格納されている場合、前記遷移可能文字テ
    ーブルに、前記半濁音文字から半濁点を除去した清音文
    字と、前記半濁音文字に対応して遷移する遷移先の状態
    とは異なる状態へのポインタとの対応関係も格納される
    と共に、前記清音文字に対応して遷移する遷移先の状態
    の遷移可能文字テーブルに半濁点文字と前記半濁音文字
    に対応して遷移する遷移先の状態へのポインタとの対応
    関係が格納される構造を有することを特徴とする単語照
    合部に置き換えた請求項1記載の単語照合装置。
  3. 【請求項3】 単語の表記を含む単語情報を格納する単
    語辞書部に置き換え、単語の画像から各文字を切り出す
    過程において1文字であるにも拘わらずN個の文字パー
    ツに過分割される文字が存在する単語に関して、前記文
    字の始点となる状態の遷移可能文字テーブルに前記文字
    と次の状態へのポインタとの対応関係と、前記N個の文
    字パーツのうち1番目の文字パーツを認識して得られる
    文字と次の状態へのポインタとの対応関係が格納され、
    前記N個の文字パーツのうちi番目(1≦i≦N−2)
    の文字パーツを認識して得られる文字に対応して遷移す
    る遷移先の状態の遷移可能文字テーブルに前記N個の文
    字パーツのうちi+1番目の文字パーツを認識して得ら
    れる文字と次の状態へのポインタとの対応関係が格納さ
    れ、前記N個の文字パーツのうちN−1番目の文字パー
    ツを認識して得られる文字に対応して遷移する遷移先の
    状態の遷移可能文字テーブルに前記N個の文字パーツの
    うちN番目の文字パーツを認識して得られる文字とN個
    の文字パーツに過分割される前記文字に対応して遷移す
    る遷移先の状態へのポインタとの対応関係が格納される
    構造を有することを特徴とする単語照合部に置き換えた
    請求項1記載の単語照合装置。
  4. 【請求項4】 単語の表記を含む単語情報を格納する単
    語辞書部に置き換え、単語の画像から各文字を切り出す
    過程においてN個の文字であるにも拘わらず1個の文字
    として切り出される文字群が存在する単語に関して、前
    記文字群の先頭文字の始点となる状態の遷移可能文字テ
    ーブルに前記文字群のうちの1番目の文字と次の状態へ
    のポインタとの対応関係と、前記文字群の画像を1文字
    として認識することにより得られる文字と前記文字群の
    うちのN番目の文字に対応して遷移する遷移先の状態へ
    のポインタとの対応関係と、が格納される構造を有する
    ことを特徴とする単語照合部に置き換えた請求項1記載
    の単語照合装置。
  5. 【請求項5】 単語の表記を含む単語情報を格納する単
    語辞書部に置き換え、単一の読みにも拘わらず本来の送
    り仮名の他に慣用として使われる送り仮名を有する単語
    に関して、前記両方の送り仮名に対し状態遷移する構造
    を有することを特徴とする単語照合部に置き換えた請求
    項1記載の単語照合装置。
  6. 【請求項6】 任意の状態において、同一形状で大きさ
    が異なる文字に対しては同一の状態に遷移する構造を有
    することを特徴とする請求項1,2,3,4,5の何れ
    かに記載の単語照合装置。
  7. 【請求項7】 任意の状態において、類似文字に対して
    は同一の状態に遷移する構造を有することを特徴とする
    請求項1,2,3,4,5,6の何れかに記載の単語照
    合装置。
  8. 【請求項8】 認識結果としての文字コードと前記認識
    結果の信頼度を表すスコアとを出力する文字認識部の認
    識結果から単語を照合する場合、前記スコアが予め定め
    られた閾値よりも小さい場合は、前記遷移可能文字テー
    ブルに格納された全ての次の状態に遷移することを特徴
    とする請求項1,2,3,4,5,6,7のいずれかに
    記載の単語照合装置。
JP9305452A 1997-11-07 1997-11-07 単語照合装置 Pending JPH11143893A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9305452A JPH11143893A (ja) 1997-11-07 1997-11-07 単語照合装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9305452A JPH11143893A (ja) 1997-11-07 1997-11-07 単語照合装置

Publications (1)

Publication Number Publication Date
JPH11143893A true JPH11143893A (ja) 1999-05-28

Family

ID=17945325

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9305452A Pending JPH11143893A (ja) 1997-11-07 1997-11-07 単語照合装置

Country Status (1)

Country Link
JP (1) JPH11143893A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002063197A (ja) * 2000-06-06 2002-02-28 Matsushita Electric Ind Co Ltd 検索装置、記録媒体およびプログラム
US6944344B2 (en) 2000-06-06 2005-09-13 Matsushita Electric Industrial Co., Ltd. Document search and retrieval apparatus, recording medium and program
JP2006259830A (ja) * 2005-03-15 2006-09-28 Toshiba Corp 光学的文字認識装置および光学的文字認識結果確認方法
JP2010218140A (ja) * 2009-03-16 2010-09-30 Fujitsu Ltd 検索装置、検索方法および記憶媒体
JP2015170130A (ja) * 2014-03-06 2015-09-28 株式会社東芝 認識装置、認識方法およびプログラム
US10438097B2 (en) 2015-05-11 2019-10-08 Kabushiki Kaisha Toshiba Recognition device, recognition method, and computer program product
US10515297B2 (en) 2015-05-11 2019-12-24 Kabushiki Kaisha Toshiba Recognition device, recognition method, and computer program product
US10942934B2 (en) 2016-10-07 2021-03-09 Fujitsu Limited Non-transitory computer-readable recording medium, encoded data searching method, and encoded data searching apparatus

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002063197A (ja) * 2000-06-06 2002-02-28 Matsushita Electric Ind Co Ltd 検索装置、記録媒体およびプログラム
US6944344B2 (en) 2000-06-06 2005-09-13 Matsushita Electric Industrial Co., Ltd. Document search and retrieval apparatus, recording medium and program
JP2006259830A (ja) * 2005-03-15 2006-09-28 Toshiba Corp 光学的文字認識装置および光学的文字認識結果確認方法
JP2010218140A (ja) * 2009-03-16 2010-09-30 Fujitsu Ltd 検索装置、検索方法および記憶媒体
JP2015170130A (ja) * 2014-03-06 2015-09-28 株式会社東芝 認識装置、認識方法およびプログラム
US10438097B2 (en) 2015-05-11 2019-10-08 Kabushiki Kaisha Toshiba Recognition device, recognition method, and computer program product
US10515297B2 (en) 2015-05-11 2019-12-24 Kabushiki Kaisha Toshiba Recognition device, recognition method, and computer program product
US10942934B2 (en) 2016-10-07 2021-03-09 Fujitsu Limited Non-transitory computer-readable recording medium, encoded data searching method, and encoded data searching apparatus

Similar Documents

Publication Publication Date Title
US7177794B2 (en) System and method for writing Indian languages using English alphabet
Pedler Computer correction of real-word spelling errors in dyslexic text
CN113168498A (zh) 语言校正系统及其方法以及系统中的语言校正模型学习方法
EP2447854A1 (en) Method and system of automatic diacritization of Arabic
JPH11143893A (ja) 単語照合装置
KR102109858B1 (ko) 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법
JPS6126192A (ja) ハングル字母列からのハングル文字認識方法
CN115879669A (zh) 一种评论评分的预测方法、装置、电子设备及存储介质
JPS6239793B2 (ja)
Zahui et al. EL-Mossahih V1. 0: A hybrid approach for detection and correction of typographical and phonetic transcription errors in Arabic texts
CN1357821A (zh) 拼音语音输入的方法
JP2570784B2 (ja) 文書リーダ後処理装置
JP2908460B2 (ja) 誤認識修正方法及び装置
JPH0962794A (ja) 文書認識装置
JPS63282586A (ja) 文字認識装置
JP2002189490A (ja) ピンイン音声入力の方法
JP2560959B2 (ja) 文字認識後処理方式
JP2939945B2 (ja) ローマ字住所認識装置
KR100564742B1 (ko) 문자의 음성변환장치 및 방법
JP3725206B2 (ja) 文字認識装置
JPS6175467A (ja) 仮名漢字変換方式
JPH0728957A (ja) 英文字認識装置
JPH01166187A (ja) 文字認識方法
JPS60134992A (ja) 文字入力装置
Corder Using Semantic Information from Neural Networks to Detect Context-Sensitive Spelling Errors