JPH08147417A

JPH08147417A - 単語照合装置

Info

Publication number: JPH08147417A
Application number: JP6312582A
Authority: JP
Inventors: Yoshitaka Hamaguchi; 佳孝濱口; Sadamasa Hirogaki; 節正広垣
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1994-11-22
Filing date: 1994-11-22
Publication date: 1996-06-07

Abstract

(57)【要約】【目的】単語辞書との照合のための処理速度を向上さ
せる。【構成】木構造の単語辞書１は、単語を構成する各文
字を節データとして表わし、枝データにより結合してそ
の単語を表わしている。即ち、枝データにより結合され
た頭文字から末尾の文字までの節データによって表わさ
れる一連の文字が意味のある単語を表わす。この場合、
末尾の文字の位置は単語の長さにより異なるので、各節
データに当該節データが末尾の文字を表わすか否かを示
す単語末フラグを設ける。一方、候補木生成部２は、文
字認識の結果の各候補文字を節データとし、単語辞書１
と同じ構造の候補木を生成する。枝照合処理部３は、候
補木と単語辞書１の木構造とを照合し、候補木と一致す
る経路が存在するか否かを検出する。そのような経路が
検出されれば候補文字列は単語辞書１の単語と一致して
おり、候補単語出力部４により候補単語として出力され
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文字認識装置におい
て、認識結果の誤りを自動的に修正するための単語照合
装置に関するものである。

【０００２】

【従来の技術】一般に、文字認識装置の認識結果の誤り
を修正するには、認識結果から候補単語を生成し、これ
を単語辞書と比較し、候補単語と一致する単語が単語辞
書に存在しない場合に候補単語に最も近い単語を単語辞
書から出力するようにしている。この場合の単語辞書の
検索方法としては、例えば、各文字パターンに対し文字
認識処理で得られた複数の候補文字の組み合わせを候補
文字列とし、候補文字列と同じ長さの単語を単語辞書か
ら検索するようにしていた。その際は、候補文字列と単
語辞書の単語との対応する各文字をそれぞれ比較するよ
うにしていた（例えば、特公昭６１−２００３８号公報
参照）。

【０００３】

【発明が解決しようとする課題】しかしながら、上述し
た従来の技術では、次のような点において単語辞書との
照合のための処理速度が低下するという課題があった。単語辞書に格納されている各単語ごとに候補文字列中
の各候補文字との照合を行なうため、単語辞書の語数が
増大するのに比例して処理時間が増大し、大規模な辞書
ほど処理速度が低下してしまった。文字パターンの切り出しが不完全であったり、切り出
しが困難であるため、１つの文字パターンに２文字以上
が含まれる場合がある。例えば、英字の「ｏｒ」の切り
出しが不完全であると、「ｍ」と認識され、また、「ｆ
ｉ」は書体によっては一体的な文字パターンとされてお
り、切り出しが困難である。これらの場合、上述した従
来の技術では辞書との照合が困難であるため、照合処理
の前処理や後処理が必要となり、処理速度が低下してし
まった。

【０００４】

【課題を解決するための手段】本発明の単語照合装置
は、上述した課題を解決するため、以下の点を特徴とす
るものである。（１）単語中の各位置の文字及び文字列のいずれかを単数又
は複数の枝データにより結合された節データで表わし、
当該節データが単語の末尾の文字を表わすか否かを示す
単語末フラグを含む木構造の単語辞書を備える。当該単語辞書の木構造と同一の木構造の候補木を文字
認識結果の候補文字列について生成する候補木生成部を
備える。当該候補木生成部により生成される候補木の各枝デー
タと単語辞書の木構造の各枝データとを照合する枝照合
処理部を備える。当該枝照合処理部による照合の結果、候補木と単語辞
書の木構造との間で、単語の頭文字を表わす節データか
ら、単語末フラグにより単語の末尾の文字を表わす節デ
ータまでの各節データをそれぞれ結合するすべての枝デ
ータが一致する場合に、それらの節データにより表わさ
れる文字列を候補単語として出力する候補単語出力部を
備える。

【０００５】（２）（１）において、候補木生成部は、文字認識結果の候補
文字列の頭文字から末尾の文字までの候補木を構成する
枝データを順次１つずつ生成し、枝照合処理部は、順次
生成される候補木の枝データを１つずつ単語辞書の木構
造の枝データと照合する。

【０００６】

【作用】

（１）木構造の単語辞書は、単語を構成する各文字を節
データとして表わし、各節データを枝データにより結合
してその単語を表わしている。例えば、英語の場合、文
字は２６種類あり、単語辞書に含まれる単語の頭文字は
２６種類有る。ところが、２番目の文字は各頭文字につ
いてそれぞれ２６種類あるわけではない。例えば「ｗ」
の頭文字の次に「ｃ」がくる単語が無いとすると、頭文
字の「ｗ」の節データに２番目の文字として結合される
「ｃ」の節データは存在しない。また、そのような節デ
ータを結合する枝データも存在しない。即ち、枝データ
により結合された頭文字の節データから末尾の文字の節
データによって表わされる一連の文字が意味のある単語
を表わす。この場合、末尾の文字の位置は単語の長さに
より異なるので、各節データに当該節データが末尾の文
字を表わすか否かを示す単語末フラグを設ける。この単
語末フラグがオンであればその節データまでの文字列が
単語を表わす。

【０００７】一方、候補木生成部は、文字認識部による
文字認識の結果、各文字パターンについて候補文字が得
られた場合、その候補文字列について、各候補文字を節
データとし、上述した単語辞書と同じ構造の枝データを
生成する。これを候補木と呼ぶ。枝照合処理部は、候補
木の各枝データと単語辞書の木構造の枝データとを照合
し、候補木と一致する経路の一連の枝データが存在する
か否かを検出する。そのような一連の枝データが検出さ
れれば候補文字列は単語辞書の単語と一致しており、候
補単語出力部により候補単語として出力される。この結
果、候補文字列中の各文字を、単語辞書に格納されたす
べての単語の各文字のすべてと照合する必要がなくな
り、照合のための処理時間を短縮することができる。

【０００８】（２）（１）において、候補木生成部は、候補文字列を表わす
候補木の全体を作成するのではなく、頭文字のところか
ら順に節データ及びそれに結合される枝データを生成
し、その段階で枝照合処理部に単語辞書との照合を依頼
する。そして、その照合が終った後、照合された枝デー
タに結合される節データ及び枝データを候補木生成部で
生成し、枝照合処理部に単語辞書との照合を依頼する。
この結果、候補木の全体を構成する各節データ及び各枝
データのすべてを一度に格納するためのメモリが不要と
なり、メモリの使用効率を向上させることができる。

【０００９】

【実施例】以下、本発明の実施例を図面を参照して詳細
に説明する。図１は、本発明の単語照合装置の一実施例
のブロック図である。文字認識処理部１００は、文字パ
ターンを文字として認識し、単数または複数の文字コー
ドを認識結果の候補文字として出力する。単語照合処理
部２００は、本発明の特徴部分であり、例えば図１に示
されるように、単語辞書１と、候補木生成部２と、枝照
合処理部３と、候補単語出力部４とから構成されてい
る。

【００１０】単語辞書１は、各単語の各文字を木構造に
配列して構成される。即ち、各単語の頭文字から順に、
木構造の節の部分に文字又は文字列を配列する。そし
て、これらの節が枝により結合される。この場合、節の
部分の文字は、節データとしてデータベースに格納され
る。また、頭文字から順に各節データを結合するため、
前の文字を表わす節データには次の文字を表わす節デー
タを示すポインタが格納される。このポインタを枝デー
タと呼ぶ。更に、各節データには、それが単語の末尾の
文字を表わすか否かを示す単語末フラグが設けられてい
る。このような単語辞書１の具体例については後述す
る。単語辞書１の木構造は実際の装置では、例えば節は
メモリあるいは記憶装置上のデータブロックとして、枝
はそのデータブロックの位置を指すポインタとして、単
語の末文字のマークはデータブロック内に設けられたフ
ラグで実現される。

【００１１】候補木生成部２は、文字認識処理部１００
が出力する候補文字を１単語あるいは１文節など所定単
位分蓄積し、それらの候補文字の組合せで作られる文字
列を表す木を生成する。例えば、後述するように、図２
のような候補文字に対しては、図３のような候補木が生
成される。この処理は具体的に図３に示すような木を生
成することを行わず、順次、枝のみを生成して枝照合処
理部３を随時呼び出すよう構成しても良い。枝照合処理
部３は、節データ及び枝データにより、候補木生成部２
で生成された木あるいは枝と、木構造で表された単語辞
書１とを照合する。その照合結果は候補単語出力部４に
送られる。

【００１２】候補単語出力部４は、枝照合処理部３で照
合に成功した候補文字列のみを、前記所定単位分の文字
列の候補、例えば単語単位であれば候補単語、文節単位
であれば候補文節として出力する。尚、候補木生成部２
が、順次、枝のみを生成して枝照合処理部３を随時呼び
出すように構成する場合は、図中点線の矢印ａ，ｂで示
すように枝照合処理部３の照合結果が候補木生成部２に
戻され、候補木生成部２が候補単語出力部４の制御を行
なう。

【００１３】修正処理部３００は、文字認識処理部１０
０の出力する認識結果である候補文字を候補単語出力部
４の出力する候補文字列を用いて修正し、最終的な文字
認識結果として出力する。この処理は従来の技術と同様
なものを用いることができる。単語照合処理部２００を
経て修正処理部３００の処理を行うことにより文字認識
の後処理を行う。出力処理部４００は、修正処理部３０
０が出力する修正された文字認識結果を表示装置、記憶
装置等に出力する。以下、単語照合の各処理について具
体的に例を挙げながら説明する。

【００１４】図２は、文字認識処理部１００の出力する
認識結果の例である。図示のように、「ｗｏｒｄ」とい
う単語のそれぞれの文字パターンに対して単数または複
数の候補文字が出力される。図示の例では、「ｗ」につ
いては１つの候補文字「ｗ」が出力され、「ｏ」につい
ては３つの候補文字「ｃ」、「ｏ」、「ａ」が出力さ
れ、「ｒ」については２つの候補文字「ｒ」、「ｖ」が
出力され、「ｄ」については１つの候補文字「ｄ」が出
力されている。

【００１５】図３は、図２の認識結果を候補木生成部２
が木構造にしたものを表わす。左端の矩形は単語の始ま
りを表し、検索開始位置であるデータブロックであり、
根と呼ぶこととする。各候補文字は図中の円で表される
データブロックに登録される。データブロックには、更
に次の文字のデータブロックの位置を示す矢印で示され
たポインタが登録される。根から順にポインタを使い、
各データブロックをたどり、各データブロックに登録さ
れた文字をつなぐことで文字列を表現している。左上に
“＊”が付してある円は、単語の末尾の文字を登録した
データブロックのフラグがオン（ＯＮ）になっているこ
とを示している。

【００１６】例えば、まず、根から、「ｗ」のデータブ
ロックへ行き、次に上の「ｃ」のデータブロック、
「ｒ」のデータブロック、「ｄ」のデータブロックと順
に単語の末尾の文字のフラグがオン（ＯＮ）になってい
るデータブロックまでポインタをたどる。これにより、
「ｗｃｒｄ」という図１の例の第１位候補文字をつなげ
た文字列を表現している。このような木構造では、図３
の候補木は図１の候補文字の組合せでできる文字列「ｗ
ｃｒｄ」、「ｗｃｖｄ」、「ｗｏｒｄ」、「ｗｏｖ
ｄ」、「ｗａｒｄ」、「ｗａｖｄ」の全てを表し、且つ
それ以外の文字列を含まないようになっている。

【００１７】図４は、単語辞書１の構成例である。例示
しやすいように、登録されている単語は「ｗａｒｄ」、
「ｗｏｒｄ」、「ｗｏｒｄｓ」、「ｗｏｒｋ」、「ｗｏ
ｒｋｉｎｇ」、「ｍａｒｋ」の６つの単語のみである
が、実際に用いる単語辞書は当然のことながら、より大
規模なものとなる。例えば、英単語の場合は、根から始
まる単語の頭文字は２６文字であり、その頭文字以降に
つながる文字は英単語として存在する場合のすべての文
字となる。

【００１８】このような単語辞書の木構造も、図３を用
いて説明した候補木と同様である。例えば、「ｗｏｒ
ｄ」については、根から順に各データブロックを
「ｗ」，「ｏ」，「ｒ」，「ｄ」とポインタを使ってた
どり、「ｄ」の節の末文字のフラグがオン（ＯＮ）であ
るため、「ｗｏｒｄ」はこの単語辞書に登録されている
と判定される。また、「ｗｃｒｄ」等の辞書にない文字
列は、根から始めて「ｗ」のデータブロックは見つかる
が、そのデータブロックに「ｃ」のデータブロックを指
すようなポインタが無いため、この単語辞書に存在しな
いと判定される。

【００１９】また、図４の辞書の「ｗａｒｄ」は、根か
ら順に「ｗ」，「ａ」，「ｒ」，「ｄ」のデータブロッ
クを通るようにポインタをたどるが、「ａ」のデータブ
ロック及び「ｒ」のデータブロックにはポインタが１つ
しか無い。即ち、枝分かれが無い。このように、ポイン
タを１つしか持たないデータブロックは、ポインタを複
数持つデータブロックまで、あるいは末尾の文字等ポイ
ンタを持たないデータブロックまでを１つのデータブロ
ックにまとめることにより、データブロックの数を減ら
してもよい。このようにして、データブロックを減らし
た例を図５に示す。この場合、例えば１０万語の英単語
辞書であれば、データブロックを約２０％程度削減でき
る。これにより、メモリ効率が良くなり、ポインタをた
どる操作も減少し、検索効率が良くなる。以降の説明で
は、候補木のデータブロックを候補データブロック、単
語辞書のデータブロックを辞書データブロックと呼ぶ。

【００２０】次に、図３、図４を用いて、図２に例示し
た認識結果に対する照合処理が具体的にどのように行わ
れるかを説明する。まず、候補木生成部２が文字認識処
理部１００から受け取った図２に例示した認識結果を用
い、図３に例示する候補木を生成する。次に、候補木生
成部２は枝照合処理部３に最初の「ｗ」の候補データブ
ロックに行くポインタ、即ち枝を、単語辞書１の木と照
合させる。枝照合処理部３は、候補木生成部２の要求に
従い、単語辞書１の根から「ｗ」の登録された辞書デー
タブロックに至るポインタを探す。図４に例示した辞書
では根の辞書データブロックに「ｗ」の登録された辞書
データブロックを示すポインタが存在するので、「ｗ」
の辞書データブロックのポインタを位置スタックに入
れ、照合に成功したことを候補木生成部２に返答する。

【００２１】照合に成功したため、候補木生成部２は
「ｗ」の候補データブロックから「ｃ」の候補データブ
ロックへのポインタを照合させる。枝照合処理部３は、
位置スタックの最も上にあるポインタの「ｗ」の辞書デ
ータブロックの持つポインタには、「ｃ」の登録された
辞書データブロックを指すものがないため、照合に失敗
したことを返答する。この場合、位置スタックは変更さ
れない。照合に失敗したため、候補木生成部２はそれ以
上「ｃ」の候補データブロックの先の探索を行わない。
これにより、「ｗｃｒｄ」、「ｗｃｖｄ」の双方の文字
列の照合が同時に途中で打ち切られる。このため、検索
効率が向上する。

【００２２】次に、候補木生成部２は、「ｗ」の候補デ
ータブロックからの次のポインタである「ｏ」の候補デ
ータブロックに至るポインタを照合させる。このよう
に、新しい文字列の検索を始める場合に、もう一度根か
ら検索することを行わず、最も最近検索した候補データ
ブロックから処理を行う。これにより、この場合は、根
から「ｗ」の候補データブロックへの照合が行われない
等重複する照合が省かれ、検索効率がよくなる。枝照合
処理部３は、位置スタックの最も上にある位置である
「ｗ」の辞書データブロックから「ｏ」の辞書データブ
ロックへ至るポインタがあるので位置スタックに「ｏ」
の辞書データブロックのポインタを入れ、照合が成功し
たことを候補木生成部２に返答する。

【００２３】照合に成功したため、候補木生成部２は、
「ｒ」の候補データブロックを指すポインタを照合させ
る。枝照合処理部３は、位置スタックの最も上にある
「ｏ」の辞書データブロックから「ｒ」の辞書データブ
ロックへ至るポインタがあるので、位置スタックに
「ｒ」の辞書データブロックのポインタを入れ、照合が
成功したことを返答する。照合に成功したため、候補木
生成部２は、「ｄ」の候補データブロックを指すポイン
タを照合させる。

【００２４】枝照合処理部３は、位置スタックの最も上
にある「ｒ」の辞書データブロックから「ｄ」の辞書デ
ータブロックへ至るポインタがあるので、位置スタック
に「ｄ」の辞書データブロックのポインタを入れる。こ
の場合、「ｄ」の辞書データブロックのフラグがオン
（ＯＮ）なので、単語の末尾の文字であるという照合が
成功したことを候補木生成部２に返答する。候補木生成
部２は、候補木においても「ｄ」の候補データブロック
のフラグがオン（ＯＮ）なので、単語照合に成功したも
のとして「ｗｏｒｄ」を候補単語に加える。これ以前に
は、候補単語として何も得られていないので、今のとこ
ろ候補単語は「ｗｏｒｄ」のみである。

【００２５】候補木生成部２は、「ｄ」の候補データブ
ロックがポインタを持たないので、１つ前の「ｒ」の候
補データブロックへ戻り、枝照合処理に位置スタック上
から１つポインタを捨てるよう指示する。これにより、
枝照合処理部３は、位置スタックの最も上にある辞書中
の「ｄ」の辞書データブロックを指すポインタを捨て
る。これで、位置スタックの最も上に収められている位
置は、「ｒ」の辞書データブロックのポインタになる。
候補木生成部２は、「ｒ」の候補データブロックが既に
検索を行ったもの以外にポインタを持たないので、１つ
前の「ｏ」のデータブロックへ戻り、枝照合処理部３に
位置スタック上から１つポインタを捨てるよう指示す
る。枝照合処理部３は、位置スタックの最も上にある辞
書中の「ｒ」の辞書データブロックを指すポインタを捨
てる。これで、位置スタックの最も上に収められている
位置は、「ｏ」のデータブロックのポインタになる。

【００２６】候補木生成部２は、「ｏ」の候補データブ
ロックからの次のポインタである「ｖ」の候補データブ
ロックを指すポインタを照合させる。枝照合処理部３
は、位置スタックの最も上にあるポインタの指す「ｏ」
の辞書データブロックのポインタには「ｖ」の登録され
た辞書データブロックを指すものがないため、照合に失
敗したことを候補木生成部２に返答する。照合に失敗
し、また「ｏ」の候補データブロックからのポインタは
全て検索が終ったので、候補木生成部２は「ｗ」の候補
データブロックに戻り、枝照合処理部３に位置スタック
上から１つポインタを捨てるよう指示する。

【００２７】枝照合処理部３は、位置スタックの最も上
にある辞書中の「ｏ」の辞書データブロックを指すポイ
ンタを捨てる。これで、位置スタックの最も上に収めら
れている位置は「ｗ」の辞書データブロックのポインタ
になる。以後、「ｗ」の候補データブロックの３番目の
ポインタである「ａ」の候補データブロックを指すポイ
ンタ以下の照合も同様に行っていき、最終的に全ての枝
の照合が終った時点で、候補単語出力部４により候補単
語として、単語辞書に登録されていた「ｗｏｒｄ」と
「ｗａｒｄ」が抽出される。

【００２８】以上の手法によれば、候補木のポインタを
たどりながら照合を行うので、照合の回数は単語辞書１
の大きさによらない。また、単語辞書１の木において、
辞書データブロックに収められたポインタを配列データ
とする。そして、例えばある辞書データブロックから
「ｃ」の辞書データブロックを指すポインタは、該辞書
データブロックの先頭から「ｃ」のＡＳＣＩＩコードで
ある“９９”に予め定められたオフセット値を加算した
アドレスに収めることができる。このように、目的の辞
書データブロックを指すポインタを検索する手法を枝の
数即ちポインタの数によらないような手法を用いるよう
にすれば、辞書サイズに関係なく検索が行える。この結
果、単語数の多い大規模な辞書においても、検索速度を
低下させることなく、文字認識の後処理を行うことが可
能となる。

【００２９】また、図３、図４で説明した手法を用いれ
ば、文字切り出しを誤り本来２文字になるべきものが１
つの文字パターンになったものに対して、文字認識処理
部１００が２文字の候補文字を出力する場合にも同様に
処理を行うことができる。これについて以下に説明す
る。図６に、文字切り出しに誤りがあった場合の文字認
識処理部１００の出力例を示す。「ｗｏｒｄ」の２文字
目及び３文字目の「ｏｒ」が切り出しの誤りで１文字分
の文字パターンとして文字認識処理部１００に入力さ
れ、その処理結果の候補文字として１文字の「ｍ」と２
文字の「ｏｒ」、「ａｒ」が出力されている。このこと
により、候補文字の組合せでできる文字列は３文字の
「ｗｍｄ」と、４文字の「ｗｏｒｄ」、「ｗａｒｄ」と
なり、長さが異なるものが混在する。

【００３０】図７に、図６の文字認識処理結果を候補木
生成部２が木構造にしたものの例を示す。このように、
木構造を用いると、長さの異なる文字列が混在した候補
文字の組合せを全て表現し得る。図３、図４を用いて説
明した照合の手順は単語長に関わらず、候補データブロ
ック、辞書データブロックの単語末フラグで行ったの
で、図７の候補木でも全く同様に照合ができることは明
らかである。このようにして、単語辞書の規模が大きく
なった場合の照合のための処理速度の低下を防止するこ
とができる。また、１つの文字パターンに複数の文字が
含まれる場合にも照合を行なうことが可能となる。

【００３１】以上の説明は、文字認識処理部１００の出
力する候補文字を、候補木生成部２が木構造に構成し直
して枝照合処理部３に単語辞書１との照合を行わせるよ
うな構成例について行ったが、候補木生成部２と枝照合
処理部３に分けたことにより、実際には候補木生成部２
は逐次必要な枝のみ生成して枝照合処理部３に渡せばよ
い。これにより、候補木を収めるためのメモリが節約で
きる。以下、候補木を全て生成するのではなく、逐次枝
を生成する場合の処理例を説明する。

【００３２】図８に、候補木生成部２における処理手順
の具体例を示す。以下、文字位置をＰ、ｉ番目の文字位
置で照合の終了した候補の順位をＣ［ｉ］として、図７
の例の文字認識処理結果を処理する場合について説明す
る。ステップＳ２１１では、文字認識処理部１００の出
力する候補文字を１単語分メモリ上に蓄積する。ステッ
プＳ２１２は、各変数を初期化する。Ｐは１文字目と
し、全文字位置でのＣ［ｉ］、即ち、Ｃ［１］、Ｃ
［２］、Ｃ［３］を０とし、候補単語は何も記憶されて
いない状態とする。

【００３３】ステップＳ２１３で、Ｐ文字目の候補文字
の検索が全て終了したか否かを判定する。この場合、Ｐ
＝１文字目の検索終了候補順位Ｃ［Ｐ］は０であるの
で、まだ第１位候補文字の「ｗ」の検索が行われておら
ず、次のステップＳ２２０へ進む。ステップＳ２２０
は、Ｐ番目の文字位置の次の候補を照合する。この場
合、１番目の文字位置のＣ［１］＝０番目の候補の次の
第１位候補文字である「ｗ」の辞書データブロックを指
すポインタを枝照合処理部３に照合させる。これは、実
際に図７のような木を作り、根から「ｗ」の候補データ
ブロックへのポインタを辞書データブロックと照合させ
ることと等価であるが、実際には候補木は作られてはい
ない。

【００３４】枝照合ステップＳ２４０は、図３、図４を
用いて先に説明した場合と同様に、根から「ｗ」の辞書
データブロックを指すポインタがあるので、「ｗ」の辞
書データブロックを指すポインタを位置スタックに入
れ、照合に成功したことを返答する。第１位候補文字の
照合を行ったので、Ｃ［１］を“１”にする。そして、
照合に成功したのでステップＳ２１４に進む。ステップ
Ｓ２１４では、文字位置が単語の末尾か否かを判定し、
単語の末尾であれば枝照合処理部３に位置スタックから
１つポインタを棄却させる。この場合、末尾ではないの
でステップＳ２１７に進む。ステップＳ２１７では、文
字位置を進める。即ち、Ｐを“１”増加させる。この場
合、Ｐを“１”から“２”に進める。そして、ステップ
Ｓ２１３に戻る。

【００３５】ステップＳ２１３で、Ｐ＝２、Ｃ［Ｐ］＝
０であり、まだ照合していない候補文字があるので、ス
テップＳ２２０に進む。ステップＳ２２０で、Ｐ＝２、
Ｃ［Ｐ］＝０なので、２文字目、第１位候補の「ｍ」を
枝照合処理部３に照合させる。枝照合処理部３は、位置
スタックの最も上にあるポインタの「ｗ」の辞書データ
ブロックの持つポインタには、「ｍ」の登録された辞書
データブロックを指すものがないため、照合に失敗した
ことを返答する。この場合、位置スタックは変更されな
い。

【００３６】ここで、第１位候補文字の照合を行ったの
で、Ｃ［２］を“１”にする。そして、照合に失敗した
のでステップＳ２１３に進む。ステップＳ２１３では、
Ｐ＝２、Ｃ［Ｐ］＝１なので、まだ第２位、第３位候補
文字を照合していないのでステップＳ２２０に進む。ス
テップＳ２２０では、Ｐ＝２、Ｃ［Ｐ］＝１なので、２
文字目、第２位候補の「ｏｒ」を１文字ずつ枝照合処理
部３に照合させる。まず、「ｏ」を枝照合処理部３に照
合させる。枝照合処理部３は、位置スタックの最も上に
あるポインタの「ｗ」の辞書データブロックの持つポイ
ンタに「ｏ」の登録された辞書データブロックを指すも
のがあるので、「ｏ」の辞書データブロックを指すポイ
ンタを位置スタックに入れ、照合に成功したことを返答
する。

【００３７】更に、「ｒ」を枝照合処理部３に照合させ
る。枝照合処理部３は、位置スタックの最も上にあるポ
インタの「ｏ」の辞書データブロックの持つポインタに
「ｒ」の登録された辞書データブロックを指すものがあ
るので、「ｒ」の辞書データブロックを指すポインタを
位置スタックに入れ、照合に成功したことを返答する。
そして、第２位候補まで検索したので、Ｃ［２］＝２と
し、照合に成功したのでステップＳ２１４へ進む。この
場合は照合は成功したが、複数文字の候補の２文字目以
降で枝照合処理部３で照合に失敗した場合は、それ以前
の文字数分、枝照合処理部３にスタック上からポインタ
を棄却させ、文字位置の同期をとる必要がある。

【００３８】ステップＳ２１４では、Ｐ＝２で単語末で
はないのでステップＳ２１７に進む。ステップＳ２１７
で、Ｐを“２”から“３”に進める。そして、ステップ
Ｓ２１３に戻る。ステップＳ２１３で、Ｐ＝３、Ｃ
［Ｐ］＝０であり、まだ照合していない候補文字がある
ので、ステップＳ２２０に進む。ステップＳ２２０で、
Ｐ＝３、Ｃ［Ｐ］＝０なので、３文字目、第１位候補の
「ｄ」を枝照合処理部３に照合させる。

【００３９】枝照合処理部３は、位置スタックの最も上
にあるポインタの「ｒ」の辞書データブロックの持つポ
インタに「ｄ」の辞書データブロックを指すものがある
ので、「ｄ」の辞書データブロックを指すポインタを位
置スタックに入れる。また、「ｄ」の辞書データブロッ
クの単語末フラグがオン（ＯＮ）であるので、単語末で
あることと照合に成功したこととを返答する。Ｐ＝３で
第１位候補文字の照合を行ったのでＣ［Ｐ］＝１とす
る。この場合、照合に成功したので、ステップＳ２１４
に進む。ステップＳ２１４でＰ＝３であり、単語の末尾
であるので枝照合処理部３に位置スタックからポインタ
を１つ棄却させる。これにより、位置スタックの最も上
は「ｒ」の辞書データブロックを指すポインタとなる。
そして、ステップＳ２１５に進む。

【００４０】ステップＳ２１５では、候補データブロッ
クと辞書データブロックの双方が単語の末尾であるか否
かを判定し、双方が単語の末尾であるときのみ単語の照
合に成功したと判定する。この場合、直前にステップＳ
２２０で呼び出した枝照合処理部３の返答の単語の末尾
であることが含まれているので、照合に成功し、ステッ
プＳ２１６に進む。ステップＳ２１６では、これまでの
処理で照合に成功した単語を候補単語として記憶する。
この場合、いままで何も記憶されていないところに、こ
こまでで照合に成功した「ｗｏｒｄ」が記憶されるの
で、候補単語として「ｗｏｒｄ」が記憶されている状態
になる。この後、ステップＳ２１３に戻る。

【００４１】ステップＳ２１３では、Ｐ＝３、Ｃ［Ｐ］
＝１であり、３文字目の候補文字は全て照合が終ってい
るので、ステップＳ２１８に進む。ステップＳ２１８で
は、現在の文字位置Ｐが先頭を指しているか否か、即ち
“１”であるか否かを判定する。この場合、Ｐ＝３であ
るので、ステップＳ２１９に進む。

【００４２】ステップＳ２１９では、Ｃ［Ｐ］を“０”
に初期化し、Ｐを１つ戻し、１つ前の文字位置で照合し
た候補文字の文字数だけのポインタを棄却させることに
より同期を取る。Ｃ［Ｐ］を初期化するのは、より前の
文字位置の他の候補文字から枝をたどり、再度この文字
位置での照合を正常に行うためである。この場合、Ｃ
［Ｐ］即ちＣ［３］を“０”にし、Ｐを“３”から
“２”に戻す。更にＰ＝２、Ｃ［Ｐ］＝２であり、２文
字目の第２位候補文字は２文字であったので、枝照合処
理部３に位置スタック上から２つポインタを棄却させ
る。この結果、枝照合処理部３の位置スタックの最も上
のポインタは「ｗ」の辞書データブロックを指すポイン
タとなる。その後、ステップＳ２１３に進む。

【００４３】この後、２文字目の第３位候補文字に対し
ても同様に処理が進み、全ての組合せの照合が終ると、
単語の末尾の文字位置から順にステップＳ２１３で全候
補文字の照合が終ったと判断され、ステップＳ２１９で
文字位置が１つずつ戻される。そして、最終的に先頭文
字まで戻った時点でステップＳ２１８で先頭文字と判断
されて処理が終了する。この場合、処理が終了した時点
で候補単語として「ｗｏｒｄ」、「ｗａｒｄ」が記憶さ
れている。

【００４４】以上のように、候補木に関しては逐次的に
どのような枝ができるかを枝照合処理部３に渡せるよう
な処理を行えば、実際に全ての木構造をメモリ上に作る
ことなく、図３、図４を用いて説明したものと全く同様
の照合を行うことができる。本発明は以上の実施例に限
定されず、種々の変形が可能であることはもちろんであ
る。例えば、上述した説明は英単語の場合について行っ
たが、本発明はこれに限らず、日本語等の他の言語にも
適用することが可能である。

【００４５】

【発明の効果】以上説明した本発明の単語照合装置によ
れば、単語辞書を各文字又は文字列を節とした木構造と
し、候補文字列中の各文字を、単語辞書の根の部分の文
字から順次単語の末尾の部分の文字まで比較するように
したので、次のような効果がある。単語辞書に格納されている各単語ごとに候補文字列中
の各文字との照合を行なう必要がなく、単語辞書の語数
が増大しても照合のための処理時間が増大せず、大規模
な辞書を用いた場合の処理速度の低下を防止することが
できる。文字パターンの切り出しが不完全であったり、切り出
しが困難であるため、１つの文字パターンに２文字以上
が含まれる場合でも、単語辞書との照合が容易となり、
照合処理の前処理や後処理が不要となり、処理速度を向
上させることができる。

【図面の簡単な説明】

【図１】本発明の単語照合処理装置の一実施例のブロッ
ク図である。

【図２】文字認識処理結果の例の説明図である。

【図３】候補木の例の説明図である。

【図４】木構造辞書の例の説明図である。

【図５】木構造辞書の他の例の説明図である。

【図６】切り出し誤りを含んだ文字認識処理結果の例の
説明図である。

【図７】図６の例に対する候補木の例の説明図である。

【図８】候補木生成部の処理手順の一例を説明するフロ
ーチャートである。

【符号の説明】

１単語辞書２候補木生成部３枝照合処理部４候補単語出力部

Claims

【特許請求の範囲】

【請求項１】単語中の各位置の文字及び文字列のいず
れかを単数又は複数の枝データにより結合された節デー
タで表わし、当該節データが単語の末尾の文字を表わす
か否かを示す単語末フラグを含む木構造の単語辞書と、当該単語辞書の木構造と同一の木構造の候補木を文字認
識結果の候補文字列について生成する候補木生成部と、当該候補木生成部により生成される候補木の各枝データ
と前記単語辞書の木構造の各枝データとを照合する枝照
合処理部と、当該枝照合処理部による照合の結果、前記候補木と前記
単語辞書の木構造との間で、単語の頭文字を表わす節デ
ータから、前記単語末フラグにより単語の末尾の文字を
表わす節データまでの各節データをそれぞれ結合するす
べての枝データが一致する場合に、それらの節データに
より表わされる文字列を候補単語として出力する候補単
語出力部とを備えたことを特徴とする単語照合装置。
【請求項２】前記候補木生成部は、文字認識結果の候
補文字列の頭文字から末尾の文字までの前記候補木を構
成する枝データを順次１つずつ生成し、前記枝照合処理
部は、順次生成される候補木の枝データを１つずつ前記
単語辞書の木構造の枝データと照合することを特徴とす
る請求項１記載の単語照合装置。