JP2006163830A

JP2006163830A - 文字認識装置、文字認識方法、および文字認識プログラム

Info

Publication number: JP2006163830A
Application number: JP2004354535A
Authority: JP
Inventors: Kyosuke Nishiyama; 京助西山; Shuji Senda; 修司仙田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2004-12-07
Filing date: 2004-12-07
Publication date: 2006-06-22

Abstract

【課題】誤認識を含む認識結果から正しい単語を検索する際に短い時間しか与えられなくても、なるべく正解に近い単語を検索することができるようにし、また、長い時間を与えられればより精度よく正解の単語を辞書から検索することができるようにする。
【解決手段】単語候補生成部４は、認識候補文字を組み合わせて複数の単語候補を生成するとともに、各単語候補に優先度情報を付加する。絞り込み部６は、優先度順に単語候補を読み出し、単語辞書７に含まれる情報を絞り込む。その絞り込みが不十分であると判定されると、次の順位の単語候補を読み出し、再度絞り込みを行う。また、絞り込みが十分と判定された場合、単語比較部９によって、絞り込んだ情報に含まれる辞書単語と単語候補との類似度を計算し、その後、さらに次の単語候補による絞り込みを行うか否かを判定する。単語比較部９は、単語候補との類似度が最も高い辞書単語を選定する。
【選択図】図１

Description

本発明は、文字認識装置、文字認識方法、および文字認識プログラムに関し、特に、認識結果に近い文字からなる単語を辞書から検索する文字認識装置、文字認識方法、および文字認識プログラムに関する。

文字認識技術の応用の一つとして、認識した単語を元に辞書検索し訳語を出力するような翻訳システムが存在する（例えば、特許文献１）。特許文献１では、そのような翻訳システムの一例として、ＣＣＤビデオカメラを備え、ＣＣＤビデオカメラで撮像された画像に対して文字認識処理を行い、認識結果を他の言語に翻訳したり、国語辞書の辞書引きなどを行った結果を表示したりするパーソナルコンピュータが記載されている。

また、文字認識処理の認識結果を出力する文字認識装置では、認識結果の誤りを正しく修正するための後処理として、内部に持っている単語辞書を検索し、辞書内の単語と一致するよう認識結果を修正する後処理が一般的に行われている（例えば、特許文献２）。特許文献２に記載の文字読み取り装置は、文字認識処理を行った後、各文節を辞書で検索し、辞書内の単語と一致しなかった場合には、輪郭の近い別の文字に認識結果を修正する。そして、辞書内の単語と認識結果が一致するまで検索と修正を繰り返す。このとき、文字の認識候補を認識下位候補や類似文字と入れ替えながら辞書検索を繰り返す。

なお、一般的に辞書には、見出しとなる見出し単語と、見出し単語の訳語や説明（意味）とを含んでいる。以下、辞書に含まれる見出し単語を辞書単語と記す。

また、認識誤りを含む文字認識結果を用いて単語辞書から正解単語（入力されたデータに含まれる単語と同一の単語）を検索する別の方法として、認識結果と完全一致する辞書単語を探すのではなく、認識結果を各辞書単語と照合し、最も類似する単語を見つける手法もある（例えば、特許文献３）。特許文献３に記載の文字認識結果の後処理方法では、認識結果の単語と同じ長さで一致文字数が最も多い単語を辞書から検索して、認識結果を置換することで修正を行う。

また、特許文献２等に記載されている手法と、特許文献３に記載されている手法とを、単語の長さによって切り替える手法も提案されている（例えば、特許文献４）。特許文献４に記載されている後処理方法では、単語候補の入れ替えパターンがそれ程多くない短い単語の場合には、特許文献２に記載の手法のように文字を入れ替えながらの辞書検索を行い、単語の長さが長い場合には、辞書中の長い単語に対して特許文献３に記載の手法のように類似度計算を行うことで検索効率を上げている。

また、特許文献５や特許文献６にも、入力された手書きパターンに対する文字認識技術が記載されている。特許文献７には、音声認識技術が記載されている。特許文献７に記載された技術では、入力された単音節の確定を行い、その単音節と単語辞書との照合を行う。その照合の結果得られた単語候補が所定数以下でない場合には、次の単音節を入力して単語候補の数を絞り込む。

特開２０００−２０７４０１号公報（段落００１０−００６０）特開平５−４６８１４号公報（段落０００７−００１１）特開平１０−１３４１５０号公報（段落０００７−００１６）特開平８−１３８０００号公報（段落００３６）特開２０００−３６００８号公報（段落００２７，００７８）特開平１０−２０７９８７号公報（段落００１３−００１４）特開平１１−３４４９９３号公報（段落００２０−００２５）

特許文献１や特許文献２に記載された技術では、いずれの場合でも、認識誤りを含む文字認識結果を用いて単語辞書から正解単語を検索する処理が必要となる。この処理の手法として、特許文献２に記載の文字読み取り装置のように、文字の認識候補を認識下位候補や類似文字と入れ替えながら辞書検索を繰り返し、辞書単語と一致する組合せを探す方法がある。しかし、この方法では、認識結果の各文字を入れ替えながら、完全一致するまで辞書検索を繰り返すため、誤認識を含む認識結果に基づいて正解単語を検索するまでに時間がかかってしまう。特に、単語長が長くなると文字の入れ替えのパターンが膨大になり、検索に非常に時間がかかってしまう。また、いつ辞書単語と一致する組み合わせが見つかるのかを予測できない。すなわち、検索が完了するまでの時間を事前に予測できない。また、文字の切り出し方に関する誤り（ｄをｃとｌに分割するなど）がある場合には、文字を入れ替えるだけでは正解の単語を検索が行えないという問題もある。また、文字の入れ替え候補に正しい文字がない場合にも正解の単語を検索できない。

また、特許文献３に記載の後処理方法では、文字認識結果を全辞書単語と照合する時間さえあれば、かならず検索結果は一つ決まる。しかし、こういった後処理に用いられる単語同士の類似性の基準としては、一致する文字数や文字の類似度を表す距離（例えば、単語Ａを単語Ｂに変化させるのに必要な、文字の削除、挿入の回数）などが主に用いられるが、類似度を求める計算は演算量が多く、全ての辞書単語と認識結果を照合するのには非常に時間がかかるという問題があった。

また、特許文献４に記載の後処理方法では、短い単語において文字を入れ替えながら辞典検索する場合はやはり正解単語の検索にかかる時間が予測できない等の課題がある。また、長い単語に限定して類似度計算を行う場合には、辞書単語全てに対して計算を行うよりは短いものの、やはり一定の検索時間が必要であり、それより短い時間で検索結果が求められるような場合には適していない。

誤認識を含む認識結果から正解単語を検索する際に短い時間しか与えられなくても、なるべく正解に近い単語を選定することができる文字認識装置、文字認識方法、および文字認識プログラムを提供することを目的とする。また、長い時間を与えられればより精度よく正解の単語を選定することができる文字認識装置、文字認識方法、および文字認識プログラムを提供することを目的とする。

本発明による文字認識装置は、入力されたデータに含まれる文字に対して文字認識を行う文字認識部を備えた文字認識装置であって、文字認識部による文字認識結果に基づいて複数の単語候補を生成するとともに、各単語候補の優先度を示す優先度情報を生成する単語候補生成部と、優先度情報に基づいて複数の単語候補を優先度順に記憶する単語候補記憶部と、複数の単語を記憶する単語データベースと、単語候補記憶部から優先度順に単語候補を読み出し、読み出した単語候補に基づいて、単語データベースが記憶している単語を絞り込む絞り込み部と、絞り込み部による単語の絞り込み結果が予め定められた所定条件を満たしている場合に、単語の絞り込みが十分であると判定し、絞り込み結果が所定条件を満たしていない場合に、単語の絞り込みが不十分であると判定する絞り込み判定部と、単語の絞り込みが十分であると判定された場合に、絞り込み部によって絞り込まれた各単語と、当該各単語の絞り込みに用いた単語候補との類似度を算出し、単語候補との類似度が最も高い単語を選定する単語比較部とを備えたことを特徴とする。

また、本発明による文字認識装置は、入力されたデータに含まれる文字に対して文字認識を行う文字認識部を備えた文字認識装置であって、文字認識部による文字認識結果に基づいて複数の単語候補を生成するとともに、各単語候補の優先度を示す優先度情報を生成する単語候補生成部と、優先度情報に基づいて複数の単語候補を優先度順に記憶する単語候補記憶部と、複数の単語を記憶する単語データベースと、単語候補記憶部から優先度順に単語候補を読み出し、読み出した単語候補に基づいて、単語データベースが記憶している単語を絞り込む絞り込み部と、絞り込み部による単語の絞り込み結果が予め定められた所定条件を満たしている場合に、単語の絞り込みが十分であると判定し、絞り込み結果が所定条件を満たしていない場合に、単語の絞り込みが不十分であると判定する絞り込み判定部と、絞り込み判定部による判定結果に応じて、単語候補記憶部が記憶する単語候補の一部を削除する単語候補削除部と、単語の絞り込みが十分であると判定された場合に、絞り込み部によって絞り込まれた各単語と、優先度が第１位の単語候補との類似度を算出し、第１位の単語候補との類似度が最も高い単語を選定する単語比較部とを備えたことを特徴とする。

また、本発明による文字認識装置は、入力されたデータに含まれる文字に対して文字認識を行う文字認識部を備えた文字認識装置であって、文字認識部による文字認識結果に基づいて複数の単語候補を生成するとともに、各単語候補の優先度を示す優先度情報を生成する単語候補生成部と、優先度情報に基づいて複数の単語候補を優先度順に記憶する単語候補記憶部と、複数の単語を記憶する単語データベースと、単語候補記憶部から優先度順に単語候補を読み出し、読み出した単語候補に基づいて、単語データベースが記憶している単語を絞り込む絞り込み部と、絞り込み部による単語の絞り込み結果が予め定められた所定条件を満たしている場合に、単語の絞り込みが十分であると判定し、絞り込み結果が所定条件を満たしていない場合に、単語の絞り込みが不十分であると判定する絞り込み判定部と、絞り込み部によって絞り込まれた各単語と当該各単語の絞り込みに用いた単語候補との類似度を算出するのか、絞り込み部によって絞り込まれた各単語と優先度が第１位の単語候補との類似度を算出するのかを判定する比較対象選択部と、絞り込み判定部による判定結果に応じて、単語候補記憶部が記憶する単語候補の一部を削除する単語候補削除部と、単語の絞り込みが十分であると判定され、かつ、絞り込まれた各単語と当該各単語の絞り込みに用いた単語候補との類似度を算出すると判定された場合には、各単語と、当該各単語の絞り込みに用いた単語候補との類似度を算出し、単語候補との類似度が最も高い単語を選定し、単語の絞り込みが十分であると判定され、かつ、絞り込まれた各単語と優先度が第１位の単語候補との類似度を算出すると判定された場合には、各単語と、第１位の単語候補との類似度を算出し、第１位の単語候補との類似度が最も高い単語を選定する単語比較部とを備えたことを特徴とする。

比較対象選択部が、予め定められた文字数を基準として、単語候補の文字数が多いか少ないかを判定し、基準に基づいて単語候補の文字数が多いと判定した場合に、絞り込み部によって絞り込まれた各単語と優先度が第１位の単語候補との類似度を算出すると判定し、基準に基づいて単語候補の文字数が少ないと判定した場合に、絞り込み部によって絞り込まれた各単語と当該各単語の絞り込みに用いた単語候補との類似度を算出すると判定する構成であってもよい。

単語候補削除部が、単語の絞り込みが十分であると判定された場合に、十分と判定された絞り込み結果と同一かあるいはより狭い絞り込み結果を導く単語候補を削除し、単語の絞り込みが不十分であると判定された場合に、不十分と判定された絞り込み結果と同一かあるいはより広い絞り込み結果を導く単語候補を削除する構成であってもよい。

絞り込み部が、読み出した単語候補を用いて、単語データベースが記憶する単語を前方一致検索し、当該前方一致検索の結果と単語候補とで前方一致している部分文字列を判定し、当該部分文字列から始まる辞書単語の集合を絞り込み結果とする構成であってもよい。

絞り込み部が、単語比較部が単語の選定した後に、未だ読み出していない単語候補を読み出して再度絞り込みを行うか否かを判定し、再度絞り込みを行うと判定した場合に単語候補の読み出しと単語データベースが記憶している単語の絞り込みを再度行う構成であってもよい。そのような構成によれば、処理時間として長い時間が与えられている場合に、より精度よく正解単語を選定することができる。

また、本発明による文字認識方法は、文字認識部が、入力されたデータに含まれる文字に対して文字認識を行い、単語候補生成部が、文字認識部による文字認識結果に基づいて複数の単語候補を生成するとともに、各単語候補の優先度を示す優先度情報を生成し、単語候補記憶部が、優先度情報に基づいて複数の単語候補を優先度順に記憶し、絞り込み部が、単語候補記憶部から優先度順に単語候補を読み出し、読み出した単語候補に基づいて、単語データベースが記憶している単語を絞り込み、絞り込み判定部が、絞り込み部による単語の絞り込み結果が予め定められた所定条件を満たしている場合に、単語の絞り込みが十分であると判定し、絞り込み結果が所定条件を満たしていない場合に、単語の絞り込みが不十分であると判定し、単語比較部が、単語の絞り込みが十分であると判定された場合に、絞り込み部によって絞り込まれた各単語と、当該各単語の絞り込みに用いた単語候補との類似度を算出し、単語候補との類似度が最も高い単語を選定することを特徴とする。

また、本発明による文字認識方法は、文字認識部が、入力されたデータに含まれる文字に対して文字認識を行い、単語候補生成部が、文字認識部による文字認識結果に基づいて複数の単語候補を生成するとともに、各単語候補の優先度を示す優先度情報を生成し、単語候補記憶部が、優先度情報に基づいて複数の単語候補を優先度順に記憶し、絞り込み部が、単語候補記憶部から優先度順に単語候補を読み出し、読み出した単語候補に基づいて、単語データベースが記憶している単語を絞り込み、絞り込み判定部が、絞り込み部による単語の絞り込み結果が予め定められた所定条件を満たしている場合に、単語の絞り込みが十分であると判定し、絞り込み結果が所定条件を満たしていない場合に、単語の絞り込みが不十分であると判定し、単語候補削除部が、絞り込み判定部による判定結果に応じて、単語候補記憶部が記憶する単語候補の一部を削除し、単語比較部が、単語の絞り込みが十分であると判定された場合に、絞り込み部によって絞り込まれた各単語と、優先度が第１位の単語候補との類似度を算出し、第１位の単語候補との類似度が最も高い単語を選定することを特徴とする。

また、本発明による文字認識方法は、文字認識部が、入力されたデータに含まれる文字に対して文字認識を行い、単語候補生成部が、文字認識部による文字認識結果に基づいて複数の単語候補を生成するとともに、各単語候補の優先度を示す優先度情報を生成し、単語候補記憶部が、優先度情報に基づいて複数の単語候補を優先度順に記憶し、絞り込み部が、単語候補記憶部から優先度順に単語候補を読み出し、読み出した単語候補に基づいて、単語データベースが記憶している単語を絞り込み、絞り込み判定部が、絞り込み部による単語の絞り込み結果が予め定められた所定条件を満たしている場合に、単語の絞り込みが十分であると判定し、絞り込み結果が所定条件を満たしていない場合に、単語の絞り込みが不十分であると判定し、比較対象選択部が、絞り込み部によって絞り込まれた各単語と当該各単語の絞り込みに用いた単語候補との類似度を算出するのか、絞り込み部によって絞り込まれた各単語と優先度が第１位の単語候補との類似度を算出するのかを判定し、単語候補削除部が、絞り込み判定部による判定結果に応じて、単語候補記憶部が記憶する単語候補の一部を削除し、単語比較部が、単語の絞り込みが十分であると判定され、かつ、絞り込まれた各単語と当該各単語の絞り込みに用いた単語候補との類似度を算出すると判定された場合には、各単語と、当該各単語の絞り込みに用いた単語候補との類似度を算出し、単語候補との類似度が最も高い単語を選定し、単語の絞り込みが十分であると判定され、かつ、絞り込まれた各単語と優先度が第１位の単語候補との類似度を算出すると判定された場合には、各単語と、第１位の単語候補との類似度を算出し、第１位の単語候補との類似度が最も高い単語を選定することを特徴とする。

また、本発明による文字認識プログラムは、複数の単語を記憶する単語データベースを備えたコンピュータに搭載される文字認識プログラムであって、コンピュータに、入力されたデータに含まれる文字に対して文字認識を行う文字認識処理、文字認識結果に基づいて複数の単語候補を生成するとともに、各単語候補の優先度を示す優先度情報を生成する単語候補生成処理、優先度情報に基づいて複数の単語候補を優先度順に記憶する単語候補記憶処理、単語候補記憶処理で記憶された単語候補を優先度順に読み出し、読み出した単語候補に基づいて、単語データベースが記憶している単語を絞り込む絞り込み処理、単語の絞り込み結果が予め定められた所定条件を満たしている場合に、単語の絞り込みが十分であると判定し、絞り込み結果が所定条件を満たしていない場合に、単語の絞り込みが不十分であると判定する絞り込み判定処理、および単語の絞り込みが十分であると判定された場合に、絞り込み処理で絞り込まれた各単語と、当該各単語の絞り込みに用いた単語候補との類似度を算出し、単語候補との類似度が最も高い単語を選定する単語比較処理を実行させることを特徴とする。

また、本発明による文字認識プログラムは、複数の単語を記憶する単語データベースを備えたコンピュータに搭載される文字認識プログラムであって、コンピュータに、入力されたデータに含まれる文字に対して文字認識を行う文字認識処理、文字認識結果に基づいて複数の単語候補を生成するとともに、各単語候補の優先度を示す優先度情報を生成する単語候補生成処理、優先度情報に基づいて複数の単語候補を優先度順に記憶する単語候補記憶処理、単語候補記憶処理で記憶された単語候補を優先度順に読み出し、読み出した単語候補に基づいて、単語データベースが記憶している単語を絞り込む絞り込み処理、単語の絞り込み結果が予め定められた所定条件を満たしている場合に、単語の絞り込みが十分であると判定し、絞り込み結果が所定条件を満たしていない場合に、単語の絞り込みが不十分であると判定する絞り込み判定処理、絞り込み判定処理の判定結果に応じて、単語候補記憶処理で記憶された単語候補の一部を削除する単語候補削除処理、および単語の絞り込みが十分であると判定された場合に、絞り込み処理で絞り込まれた各単語と、優先度が第１位の単語候補との類似度を算出し、第１位の単語候補との類似度が最も高い単語を選定する単語比較処理を実行させることを特徴とする。

また、本発明による文字認識プログラムは、複数の単語を記憶する単語データベースを備えたコンピュータに搭載される文字認識プログラムであって、コンピュータに、入力されたデータに含まれる文字に対して文字認識を行う文字認識処理、文字認識結果に基づいて複数の単語候補を生成するとともに、各単語候補の優先度を示す優先度情報を生成する単語候補生成処理、優先度情報に基づいて複数の単語候補を優先度順に記憶する単語候補記憶処理、単語候補記憶処理で記憶された単語候補を優先度順に読み出し、読み出した単語候補に基づいて、単語データベースが記憶している単語を絞り込む絞り込み処理、単語の絞り込み結果が予め定められた所定条件を満たしている場合に、単語の絞り込みが十分であると判定し、絞り込み結果が所定条件を満たしていない場合に、単語の絞り込みが不十分であると判定する絞り込み判定処理、絞り込み処理で絞り込まれた各単語と当該各単語の絞り込みに用いた単語候補との類似度を算出するのか、絞り込み処理で絞り込まれた各単語と優先度が第１位の単語候補との類似度を算出するのかを判定する比較対象選択処理、絞り込み判定処理の判定結果に応じて、単語候補記憶処理で記憶された単語候補の一部を削除する単語候補削除処理、および単語の絞り込みが十分であると判定され、かつ、絞り込まれた各単語と当該各単語の絞り込みに用いた単語候補との類似度を算出すると判定された場合には、各単語と、当該各単語の絞り込みに用いた単語候補との類似度を算出し、単語候補との類似度が最も高い単語を選定し、単語の絞り込みが十分であると判定され、かつ、絞り込まれた各単語と優先度が第１位の単語候補との類似度を算出すると判定された場合には、各単語と、第１位の単語候補との類似度を算出し、第１位の単語候補との類似度が最も高い単語を選定する単語比較処理を実行させることを特徴とする。

本発明によれば、誤認識を含む認識結果から正解単語を検索する際に短い時間しか与えられなくても、なるべく正解に近い単語を選定することができる。また、長い時間を与えられればより精度よく正解の単語を選定することができる。

以下、本発明を実施するための最良の形態を、図面を参照して説明する。

実施の形態１．
図１は、本発明による文字認識装置の第１の実施の形態を示すブロック図である。図１に示すように、文字認識装置は、入力装置１と、文字認識部２と、位置指定部３と、単語候補生成部４と、単語候補記憶部５と、絞り込み部６と、単語辞書７と、絞り込み判定部８と、単語比較部９と、出力装置１０とを備える。

入力装置１は、文字認識の対象となる画像や手書きの文字データを入力する入力装置であればよい。例えば、入力装置１として、スキャナ装置、カメラ、タッチパネル等を用いればよい。入力装置１は、文字認識の対象となる印刷文書の画像や、手書きの文字データを取り込み、文字認識部２に送る。

文字認識部２は、入力装置１から送られた文字認識の対象となるデータ（以下、文字認識対象データと記す。）に対して文字認識処理を行う。文字認識部２は、文字認識処理を行い、文字認識対象データに含まれる各文字毎に、認識候補文字（認識候補となる一文字分の文字）を判定する。また、このとき、文字認識部２は、各認識候補文字毎に、認識信頼度を求める。文字認識部２は、一つの文字に対して認識候補文字と認識信頼度との組み合わせを複数生成する。認識信頼度は、文字認識の結果の確からしさを示すデータである。文字認識部２は、例えば、文字認識部が内蔵する認識辞書に含まれる文字テンプレートと文字認識対象データに含まれる各文字との一致具合等から認識信頼度を算出すればよい。本実施の形態では、認識信頼度の値が大きいほど、認識候補文字と文字認識対象データに含まれる文字との一致の度合いが高く、文字認識の結果が確からしいことを表しているものとする。文字認識部２は、各認識候補文字および各認識信頼度を、認識結果データとして単語候補生成部４に送る。

位置指定部３は、文字認識対象データに含まれる単語のうち、認識結果データ生成以後の処理対象を定める単語を指定する。位置指定部３は、ユーザによる入力デバイス（例えば、マウスやキーボード等）の操作に応じて単語を指定してもよい。あるいは、位置指定部３は、予め定められた基準に基づいて自動的に単語を指定してもよい。

単語候補生成部４は、文字認識結果から単語候補を生成する。単語候補は、認識候補文字を組み合わせた文字列である。単語候補生成部４は、位置指定部３による指定に基づいて、文字認識部２から送られてきた認識結果データの一部を抽出する。そして、単語候補生成部４は、抽出した認識結果データに含まれる認識候補文字を組み合わせることによって単語候補を生成する。なお、文字認識部２は、一つの文字に対して認識候補文字を複数生成しているので、単語候補生成部４は、認識候補文字を組み合わせることによって、複数の単語候補を生成することになる。また、単語候補生成部４は、単語候補生成時に組み合わせた各認識候補文字の認識信頼度に基づいて、生成した複数の各単語候補に対して優先度を示す情報（以下、優先度情報）を付加する。優先度とは、単語候補が文字認識対象データに含まれる単語と同一の単語である確からしさである。単語候補生成部４は、優先度を付加した各単語候補を単語候補記憶部５に送る。また、以下の説明では、文字認識対象データに含まれる単語と同一の単語を正解単語と記す。

単語候補記憶部５は、単語候補生成部４から送られた各単語候補を優先度順に並べ替えて記憶する。

単語辞書７は、単語のデータベースである。単語辞書７は、例えば、辞書単語（見出し単語）と、辞書単語の訳語や説明（意味）とを対応付けて予め記憶している。単語辞書７は、例えば、日本語の単語を英訳するためのデータベース（辞書単語として日本語の単語を記憶し、辞書単語と対応させてその英訳語を記憶するデータベース）であってもよい。また、例えば、英語の単語を和訳するためのデータベース（辞書単語として英語の単語を記憶し、辞書単語と対応させてその和訳語を記憶するデータベース）であってもよい。また、国語辞書として機能するデータベース（辞書単語として日本語の単語を記憶し、辞書単語と対応させて意味を記憶するデータベース）であってもよい。単語の訳語や説明を出力しない場合には、単語辞書７は、訳語や説明の情報を記憶していなくてもよい。

絞り込み部６は、単語候補をキーとして単語辞書７を検索する。絞り込み部６は、この検索処理によって、単語辞書７が記憶する情報全体の中から、正解単語を含むと推定される辞書単語およびその辞書単語に対応する訳語や説明の集合を絞り込む。絞り込み部６は、絞り込み判定部８によって絞り込みが不十分であると判定された場合、他の単語候補を用いて再度絞り込みを行う。なお、「絞り込む」とは、情報（ここでは、単語辞書７が記憶する情報）の範囲を狭めて限定することである。

また、絞り込み判定部８によって絞り込みが十分であると判定された場合であっても、絞り込み部６は、辞書単語等の集合の絞り込みに用いていない単語候補が存在する場合に、その単語候補を用いて絞り込みを行うか否かを判定する。絞り込み部６は、例えば、これまでに経過した処理時間や、既に行った絞り込みの回数等を基準として絞り込みを再度行うか否かを判定する。あるいは、予め単語候補と辞書単語との類似度の閾値を定めておき、絞り込まれた辞書単語の中に単語候補との類似度が閾値を上回るものがあるか否かによって、絞り込みを再度行うか否かを判定してもよい。

絞り込み判定部８は、正解単語を含むと推定される辞書単語およびその辞書単語に対応する訳語や説明の集合が絞り込み部６によって十分絞り込まれているか否かを判定する。絞り込み判定部８は、例えば、単語候補をキーとして検索した結果得られる辞書単語の数の多寡によって、絞り込みが十分か否かを判定すればよい。

単語比較部９は、絞り込み部６によって絞り込まれた各辞書単語と、単語候補記憶部５に記憶される単語候補（本実施の形態では、辞書単語の集合の絞り込みに用いた単語候補）との類似度を計算する。辞書単語と単語候補との類似度の計算方法は、一般的に利用されている文字列同士の類似度の計算方法でよい。単語比較部９は、単語候補との類似度が最も高い辞書単語を選定し記憶する。

出力装置１０は、単語比較部９に選定された単語候補との類似度が最も高い辞書単語を出力（例えば表示出力あるいは印字出力）する。また、出力装置１０は、その辞書単語に対応する訳語や説明を出力してもよい。

文字認識部２、単語候補生成部４、絞り込み部６、絞り込み判定部８は、例えば、プログラムに従って動作するＣＰＵ（中央演算装置）によって実現される。プログラムは、予め文字認識装置が備える記憶装置（図示せず。）に記憶させておけばよい。単語辞書７は、例えば、文字認識装置が備える記憶装置によって実現される。また、単語候補記憶部５および単語比較部９は、例えば、文字認識装置が備える記憶装置およびプログラムに従って動作するＣＰＵによって実現される。出力装置１０は、例えば、ディスプレイ装置や印字装置等の出力装置およびプログラムに従って動作するＣＰＵによって実現される。位置指定部３は、例えば、ユーザに指定候補を提示するディスプレイ装置、マウスやキーボード等の入力デバイス、およびプログラムに従って動作するＣＰＵによって実現される。また、予め定められた基準に基づいて位置指定部３が自動的に単語を指定する場合、位置指定部３は、例えば、プログラムに従って動作するＣＰＵによって実現される。

次に、動作について説明する。
図２は、第１の実施の形態における文字認識装置の処理を示すフローチャートである。入力装置１によって文字認識対象データ（印刷文書の画像や、手書きの文字データ等）が入力されると、文字認識部２が文字認識処理を行う（ステップＡ１）。文字認識処理は一般的な、前処理、文字切出し、パターン照合、後処理のような順番で行われる公知の文字認識処理でよい。ステップＡ１において、文字認識部２は、文字認識対象データに含まれる各文字毎に、認識候補文字と認識信頼度との組み合わせを複数組生成し、認識結果データとして単語候補生成部２に送る。既に説明したように、文字認識部２は、予め用意された文字テンプレートと、文字認識対象データに含まれる各文字との一致具合等から認識信頼度を算出すればよい。

続いて、位置指定部３が、ステップＡ１以後の処理対象となる認識候補文字を定める単語を指定し、単語候補生成部４は、文字認識部２から送られた認識結果データから、位置指定部３に指定された単語に対応する認識候補文字およびその認識信頼度を抽出する（ステップＡ２）。

ステップＡ２において、位置指定部３は、例えばディスプレイ装置に文字認識対象データを表示してユーザに単語指定を促し、ユーザによるマウスやキーボード等の入力デバイスの操作に応じて単語を指定してもよい。また、ユーザによる操作によらず、予め定められた基準に基づいて自動的に端を指定してもよい。例えば、位置指定部３は、「文字認識対象データを表示したときの画面中心に最も近い、空白に挟まれた文字列を指定する」、「文字認識対象データを表示したときの画面中心に最も近い、漢字で構成された文字列を指定する」等の基準に基づいて自動的に単語を指定してもよい。

ステップＡ２で認識候補文字等を抽出した後、単語候補生成部４は、位置指定部３に指定された単語を構成する各文字毎に認識候補文字を一つ選択し、それを組み合わせることによって単語候補を生成する（ステップＡ３）。単語候補生成部４は、指定された単語を構成する各文字毎の認識候補文字の選択の仕方を変えることにより、複数の単語候補を生成する。また、単語候補生成部４は、生成した単語候補毎に優先度情報を算出し、優先度情報を単語候補に付加する。本実施の形態では、単語候補生成部４は、単語候補を構成する各認識候補文字の認識信頼度が高いほど、単語候補の優先度も高くなるように優先度情報を算出する。例えば、単語候補生成部４は、優先度情報を、単語候補を構成する各認識候補文字の認識信頼度の和や積等として算出する。

また、ステップＡ３において、単語候補生成部４は、優先度情報を付加した各単語候補を単語候補記憶部５に送り、単語候補記憶部５は、優先度順に（本例では優先度情報の値が大きい順に）、各単語候補を記憶する。

続いて、絞り込み部６は、最も優先度の高い単語候補を単語候補記憶部５から読み出す（ステップＡ４）。そして、絞り込み部６は、単語候補記憶部５から読み出した単語候補をキーとして単語辞書７を検索することによって、単語辞書７が記憶する情報全体の中から、正解単語を含むと推定される辞書単語およびその辞書単語に対応する訳語や説明の集合を絞り込む（ステップＡ５）。絞り込み態様の具体例として、例えば、単語候補のプレフィックス、サフィックス、文字数、ハッシュ値等を基準とし、その基準に合致するか、あるいはその基準の一部に合致する辞書単語およびその訳語や説明の集合を検索することによって絞り込みを行う態様が挙げられる。基準の一部に合致する辞書単語の例としては、最初のいくつかの文字が、単語候補のプレフィックス（例えば「dis 」）に含まれる最初のいくつかの文字（例えば「di」）と等しい辞書単語等がある。

また、絞り込み部６は、単語候補の最初のいくつかの文字と等しい文字で始まる辞書単語およびその訳語や説明の集合を検索することによって絞り込みを行ってもよい。例えば、絞り込み部６は、最初の部分の文字の順序が単語候補の最初の部分と最も近い辞書単語を検索する。そして、その単語候補および検索した辞書単語の最初の部分における一致文字列で始まる辞書単語を絞り込み結果として検索してもよい。換言すれば、絞り込み部６は、読み出した単語候補を用いて、単語辞書７が記憶する辞書単語を前方一致検索し、その検索結果と単語候補とで前方一致している部分文字列を判定し、その部分文字列から始まる辞書単語の集合が絞り込み結果となるように絞り込みを行ってもよい。このような絞り込みの具体例として、まず単語候補”detiyer ”から辞書単語”dethrone”を検索し、両者の最初の部分における一致文字列”det ”から始まる辞書単語の集合を検索する例が挙げられる。この具体例については、後述の実施例で示す。

このとき、絞り込み部６は、絞り込んだ範囲が狭すぎる場合には、絞り込み範囲を少し広げてもよい。すなわち、絞り込んだ範囲に含まれる辞書単語の数が予め定めた所定数（本例では「１」とする。）以下であるならば、絞り込み部６は、絞り込んだ範囲に含める辞書単語を追加してもよい。例えば、絞り込み部６が、単語候補”trusted ”から辞書単語”trustee ”を検索したとする。そして、両者の一致する前半部分の文字列”truste”から始まる辞書単語が”trustee ”のみであったとする。すると、絞り込んだ範囲に含まれる辞書単語は、”trustee ”という一つの単語だけとなる。この場合、絞り込み部６は、絞り込んだ一つの単語”trustee ”よりもａｂｃ順で一つ前の辞書単語”trust ”と、”trustee ”よりもａｂｃ順で一つ後の辞書単語”trustful”とを、絞り込み範囲に含める辞書単語として追加する。このような処理を行えば、絞り込み範囲を必要以上に狭くしてしまうことがなくなり、より好ましい。なお、上記の例では、絞り込んだ範囲に含まれる辞書単語の前後の１つの辞書単語を追加する場合を示したが、絞り込んだ範囲に含まれる辞書単語の前後それぞれの複数個の辞書単語を追加してもよい。

絞り込み部６は、単語辞書７が記憶する情報全体の中から絞り込んだ範囲の情報を絞り込み判定部８に送る。

絞り込み判定部８は、絞り込み部６が絞り込んだ範囲の情報に基づいて、絞り込み部６による絞り込みが十分であるか否かを判定する（ステップＡ６）。絞り込み判定部８は、例えば、予め閾値を定めておき、絞り込み部６によって絞り込まれた範囲に含まれる辞書単語の数がその閾値を超えていれば、絞り込みが不十分と判定する。そして、絞り込み部６によって絞り込まれた範囲に含まれる辞書単語の数がその閾値以下であれば、絞り込みが十分と判定する。

また、単語候補の最初のいくつかの文字と等しい文字で始まる辞書単語およびその訳語や説明の集合を検索して絞り込みを行った場合等において、一致する最初の文字の数が少ない（例えば２文字以下）である場合、絞り込みが不十分であると判定し、一致する最初の文字の数が多い（例えば３文字以上）である場合、絞り込みが十分と判定してもよい。例えば、単語候補と、検索した各辞書単語とにおいて、先頭の一致する文字列が「det 」である場合には絞り込みが十分であると判定し、先頭の一致する文字列が「de」である場合には絞り込みが不十分であると判定してもよい。

絞り込み判定部８によって絞り込みが不十分と判定された場合（ステップＡ６のＮ）、絞り込み部６は、前に読み出した単語候補の次に優先度が高い単語候補を単語候補記憶部５から読み出す（ステップＡ７）。そして、ステップＡ５以降の動作を繰り返す。例えば、ステップＡ４で最も優先度の高い単語候補を読み出した後にステップＡ７に移行した場合、絞り込み部６は、優先度が２番目に高い単語候補を読み出してステップＡ５以降の動作を繰り返す。また、ステップＡ７で優先度がｐ番目に高い単語候補を読み出した後に再びステップＡ７に移行した場合、絞り込み部６は、優先度がｐ＋１番目に高い単語候補を読み出してステップＡ５以降の動作を繰り返す。

絞り込み判定部８によって絞り込みが十分と判定された場合（ステップＡ６のＹ）、単語比較部９は、直前の絞り込み（ステップＡ５の処理）で絞り込まれた範囲内の各辞書単語と、その絞り込みに用いた単語候補との類似度を計算する（ステップＡ８）。そして、単語比較部９は、単語候補との類似度が最も高い辞書単語を選定し記憶する。ステップＡ８では、例えば、辞書単語と単語候補とをマッチングし、一致する文字の数を類似度として算出してもよい。あるいは、単語候補に対して文字の挿入と削除を何回行うと辞書単語に編集できるかを表す数値（編集距離と呼ぶ。）等を類似度として算出してもよい。また、印刷されている単語は文脈により活用して語尾が変化している場合が多いが、辞書には一般に原形（例えば、日本語における終止形や英語における現在形等）が登録されている。よって、語尾変化した単語とその原形の類似度が低くならないように、語尾変化を考慮した類似度計算を行うとより好ましい。

ステップＡ８の後、絞り込み部６は、絞り込みに用いられていない単語候補が残っている場合、その単語候補を用いてさらに絞り込み（ステップＡ５の処理）を繰り返すか否かを判定する（ステップＡ９）。絞り込み部６は、例えば、最も優先度が高い単語候補を読み出してからステップＡ９の判定処理実行時までに経過した時間が、予め定めた所定時間以下であれば、絞り込みを再度行うと判定し、ステップＡ７以降の処理を繰り返す。そして、最も優先度が高い単語候補を読み出してからステップＡ９の判定処理実行時までに経過した時間が、予め定めた所定時間を超えていれば、絞り込みを行わないと判定してステップＡ１０に移行する。

ここでは、時間の経過を基準として判定を行う場合の例を示したが、既に行った絞り込み回数を基準として判定を行ってもよい。例えば、絞り込み部６が、ステップＡ５に移行する度にステップＡ５に移行した回数（絞り込みを行った回数）をカウントし、ステップＡ９では、そのカウント値が予め定めた所定回数未満であれば、絞り込みを再度行うと判定してステップＡ７以降の処理を繰り返してもよい。そして、そのカウント値が予め定めた所定回数以上であれば、絞り込みを行わないと判定してステップＡ１０に移行してもよい。

また、ステップＳ９において、絞り込み部６は、類似度に基づいて、絞り込みを繰り返すか否かを判定してもよい。例えば、ステップＳ８において、予め定めた所定の類似度よりも高い類似度が算出された場合、絞り込みを行わないと判定し、その所定の類似度よりも高い類似度が算出されていない場合、絞り込みを繰り返すと判定してもよい。

また、ステップＳ９において、絞り込み部６は、ユーザによる絞り込み終了の指示の有無に基づいて、絞り込みを繰り返すか否かを判定してもよい。例えば、ステップＳ９の判定処理に移行するまでに、キーボード等の入力デバイスを介して絞り込み終了の指示が入力された場合、絞り込みを行わないと判定し、絞り込み終了の指示が入力されていない場合、絞り込みを繰り返すと判定してもよい。

ステップＡ１０では、出力装置１０は、これまでに単語候補との類似度が計算された辞書単語のうち、最も単語候補との類似度が高い辞書単語を検索結果として出力（例えば表示出力等）する。このとき、辞書単語とともにその訳語や説明を出力してもよい。

また、ステップＡ１０では、入力装置１が取り込んだ文字認識対象データ（例えば印刷文書の画像等）をそのまま表示するとともに、最も単語候補との類似度が高い辞書単語やその辞書単語の訳語、説明等を重畳させて表示してもよい。

次に、本実施の形態の効果について説明する。本実施の形態では、認識候補文字を組み合わせて単語候補を生成し、それぞれの単語候補を用いて単語辞書７内の情報を絞り込む。そして、狭く絞り込めた場合のみ、絞り込んだ辞書単語について単語候補と比較を行う。その結果、単語辞書７内の全ての辞書単語について認識結果との比較を行わなくとも、素早く正しい辞書単語を検索できる。すなわち、誤認識を含む認識結果から正解単語を検索する際に短い時間しか与えられなくても、なるべく正解単語に近い単語を選定することができる。

また、ステップＡ９で、予め定められた基準（例えば、所定時間を経過したか否か、絞り込みを所定回数行ったか否か、予め定めた所定の類似度よりも高い類似度が算出されているか否か、ユーザによる絞り込み終了の指示の有無等）に基づいて、絞り込み部６が、未だ読み出していない単語候補を読み出して再度絞り込みを行うか否かを判定する。そして、絞り込み部６は、再度絞り込みを行うと判定した場合に単語候補の読み出し（ステップＡ７）と辞書単語７が記憶している単語の絞り込み（ステップＡ５）を再度行う。従って、処理時間として長い時間を与えられている場合に、正解単語を検索できる確率をさらに高めることができる。すなわち、処理時間として長い時間を与えられている場合に、より精度よく正解単語を選定することができる。なお、処理時間として長い時間を与えるとは、例えば、ステップＡ９において経過時間と比較される所定時間を長く定めておいたり、あるいは、ステップＡ９において絞り込み実行回数と比較される所定回数を多く設定しておいたり、あるいは、ユーザによる絞り込み終了の指示の入力を遅らせたりすること等である。

実施の形態２．
図３は、本発明による文字認識装置の第２の実施の形態を示すブロック図である。第１の実施の形態における文字認識装置と同様の処理を行う構成部については、図１と同一の符号を付して説明を省略する。

本実施の形態における文字認識装置は、図３に示すように、入力装置１と、文字認識部２と、位置指定部３と、単語候補生成部４と、単語候補記憶部５と、絞り込み部６と、単語辞書７と、絞り込み判定部８と、単語比較部９ａと、出力装置１０と、１位単語候補記憶部１１と、単語候補削除部１２とを備える。

１位単語候補記憶部１１は、単語候補記憶部５に記憶された単語候補のうち、一番優先度の高い単語候補を記憶する。

単語候補削除部１２は、絞り込み判定部８の判定結果に応じて、単語候補記憶部５に記憶された単語候補を削除する。

絞り込み判定部８によって絞り込みが十分であると判定された場合、単語候補削除部１２は、単語候補のうち、絞り込みが十分であると判定された絞り込み結果に含まれ、その絞り込み結果と同一かあるいはより狭い絞り込み結果を導く単語候補を削除する。例えば、最初の部分の文字の順序が単語候補の最初の部分と最も近い辞書単語を検索し、その単語候補および検索した辞書単語の最初の部分における一致文字列で始まる辞書単語の集合を絞り込み結果としたとする。そして、その絞り込みが十分であると判定されたとする。この場合、その一致文字列から始まる単語候補を用いて絞り込みを行ったとしても、既に絞り込みが十分と判定された絞り込み結果と同一かあるいはより狭い絞り込み結果しか得られない。そして、後述するように本実施の形態では、一番優先度の高い単語候補と、絞り込み結果に含まれる辞書単語との類似度を計算する。従って、既に絞り込みが十分と判定された絞り込み結果と同一かあるいはより狭い絞り込み結果を導いて、類似度を計算しても、その計算は既に行った計算と同様の計算になる。本実施の形態では、単語候補のうち、絞り込みが十分であると判定された絞り込み結果に含まれ、その絞り込み結果と同一かあるいはより狭い絞り込み結果を導く単語候補を削除することにより、同一の類似計算を重複して行うことを防止している。

絞り込み判定部８によって絞り込みが不十分であると判定された場合、単語候補削除部１２は、単語候補のうち、絞り込みが不十分であると判定された絞り込み結果と同一かあるいはその絞り込み結果を含むより広い絞り込み結果を導く単語候補を削除する。例えば、最初の部分の文字の順序が単語候補の最初の部分と最も近い辞書単語を検索し、その単語候補および検索した辞書単語の最初の部分における一致文字列で始まる辞書単語の集合を絞り込み結果としたとする。そして、その絞り込みが不十分であると判定されたとする。また、その一致文字列の文字数がｑ個であったとする。この場合、その一致文字列の次に単語候補のｑ＋１番目の文字を追加した文字列から始まる単語候補を用いて絞り込みを行ったとしても、既に絞り込みが不十分と判定された絞り込み結果と同一の絞り込み結果しか得られない。本実施の形態では、単語候補のうち、絞り込みが不十分であると判定された絞り込み結果と同一かあるいはその絞り込み結果を含むより広い絞り込み結果を導く単語候補を削除することにより、絞り込み結果が不十分と判定されるような絞り込み処理の回数を減少させている。

単語比較部９ａは、第１の実施の形態における単語比較部９と同様に、単語候補と、絞り込み結果に含まれる各辞書単語との類似度を計算し、類似度が最も高い辞書単語を選定して記憶する。ただし、単語比較部９ａは、優先度が最も高い単語候補（１位単語候補記憶部１１に記憶された単語候補）と、辞書単語との類似度を計算する。優先度が最も高い単語候補以外の単語候補を類似度計算に用いない点で、第１の実施の形態における単語比較部９と異なる。

本実施の形態において、単語比較部９ａおよび単語候補削除部１２は、例えば、プログラムに従って動作するＣＰＵによって実現される。１位単語候補記憶部１１は、文字認識装置が備える記憶装置によって実現される。

次に、動作について説明する。
図４は、第２の実施の形態における文字認識装置の処理を示すフローチャートである。第１の実施の形態における文字認識装置の処理と同様の処理を示す箇所は、図２と同一の符号を付して説明を省略する。図４に示すステップＡ１〜Ａ７およびステップＡ９，Ａ１０の処理は、図２に示すステップＡ１〜Ａ７およびステップＡ９，Ａ１０の処理と同様である。ただし、ステップＡ３において、単語候補記憶部５は、優先度順に各単語候補を記憶するとともに、最も優先度の高い単語候補を１位単語候補記憶部１１に記憶させる。

絞り込み判定部８によって絞り込みが不十分と判定された場合（ステップＡ６のＮ）、単語候補削除部１２は、単語候補のうち、今回絞り込みが不十分であると判定された絞り込み結果と同一かあるいはその絞り込み結果を含むより広い絞り込み結果を導く単語候補を削除する（ステップＢ３）。続いて、絞り込み部６は、前に読み出した単語候補の次に優先度が高い単語候補を単語候補記憶部５から読み出す（ステップＡ７）。そして、ステップＡ５以降の動作を繰り返す。

絞り込み判定部８によって絞り込みが十分と判定された場合（ステップＡ６のＹ）、単語候補削除部１２は、単語候補のうち、絞り込みが十分であると判定された絞り込み結果に含まれ、その絞り込み結果と同一かあるいはより狭い絞り込み結果を導く単語候補を削除する（ステップＢ１）。

続いて、単語比較部９ａは、直前の絞り込み（ステップＡ５の処理）で絞り込まれた範囲内の各辞書単語と、優先度が最も高い単語候補（１位単語候補記憶部１１に記憶された単語候補）との類似度を計算する（ステップＢ２）。そして、単語比較部９ａは、１位単語候補記憶部１１に記憶された単語候補との類似度が最も高い辞書単語を選定し記憶する。

ステップＢ２の後、ステップＡ９に移行する。ステップＡ９以降の処理は、第１の実施の形態と同様である。

次に、本実施の形態の効果について説明する。本実施の形態では、類似度の計算を行う際に、絞込みに用いた単語候補ではなく、常に優先度が第１位の単語候補を用いる。これにより、辞書単語毎に計算される類似度は一意に決まり、各辞書単語について複数回類似度計算を行う必要はなくなる。その結果、絞り込み範囲が重複する単語候補を事前に削除することが可能となり、より検索効率が向上する。

また、優先度が低い単語候補は、下位の認識候補文字を多く含んでいる。そして、そのような優先度の低い単語候補との類似度が高い辞書単語が、必ずしも正解の認識結果に近いとは限らない。本実施の形態では、類似度計算に常に優先度第１位の単語候補を用いているため、正解と全く異なるような検索結果が出力されるようなことが起こりにくい。

実施の形態３．
図５は、本発明による文字認識装置の第３の実施の形態を示すブロック図である。第２の実施の形態における文字認識装置と同様の処理を行う構成部については、図３と同一の符号を付して説明を省略する。

本実施の形態における文字認識装置は、図５に示すように、入力装置１と、文字認識部２と、位置指定部３と、単語候補生成部４と、単語候補記憶部５と、絞り込み部６と、単語辞書７と、絞り込み判定部８と、単語比較部９ｂと、出力装置１０と、単語候補削除部１２と、比較対象選択部１３とを備える。

比較対象選択部１３は、単語比較部９ｂが、最も優先度の高い単語候補を用いて類似度を計算するのか、あるいは、絞り込み部６が単語辞書７内の情報の絞り込みに用いた単語候補を用いて類似度を計算するのかを判定する。

比較対象選択部１３は、例えば、単語候補の文字数に基づいて判定を行う。この場合、単語候補の文字数が予め定めた閾値以上であれば、比較対象選択部１３は、最も優先度の高い単語候補を用いて類似度を計算すると判定する。また、単語候補の文字数が予め定めた閾値未満であれば、比較対象選択部１３は、絞り込み部６が単語辞書７内の情報の絞り込みに用いた単語候補を用いて類似度の計算すると判定する。なお、単語候補は、文字認識対象データに含まれる個々の文字に対応する複数の認識候補文字を組み合わせて生成されるので、各単語候補の文字数は同一である。

単語候補の文字数が多い場合には、最も優先度の高い単語候補（優先度第１位の単語候補）において、誤認識された認識候補文字よりも、正しい認識候補文字の方が十分多く含まれていると考えられる。従って、最も優先度の高い単語候補との類似度が高い辞書単語が、正解単語であると期待できる。そこで、上述のように、単語候補の文字数が予め定めた閾値以上（あるいは閾値を超える数）であれば、最も優先度の高い単語候補を用いて類似度を計算すると判定する。一方、単語候補の文字数が少ない場合には、単語候補に含まれる正しい認識候補文字の数も少なくなると考えられる。この場合、類似度計算に用いる候補を色々と入れ替えた方が、正解単語を導きやすいと考えられる。そこで上述のように、単語候補の文字数が予め定めた閾値未満（あるいは閾値以下）であれば、絞り込み部６が単語辞書７内の情報の絞り込みに用いた単語候補を用いて類似度の計算すると判定する。

また、比較対象選択部１３は、例えば、単語候補の言語の種類に基づいて判定を行ってもよい。例えば、一般に、日本語の単語は比較的少ない文字数で構成されている。また、例えば、英語等の単語は比較的多くの文字数で構成されている。そこで、比較対象選択部１３は、例えば、単語候補が日本語である場合、絞り込み部６が単語辞書７内の情報の絞り込みに用いた単語候補を用いて類似度の計算すると判定し、単語候補が英語である場合、最も優先度の高い単語候補を用いて類似度を計算すると判定してもよい。

単語比較部９ｂは、第１の実施の形態における単語比較部９と同様に、単語候補と、絞り込み結果に含まれる各辞書単語との類似度を計算し、類似度が最も高い辞書単語を選定して記憶する。ただし、単語比較部９ｂは、比較対象選択部１３の判定結果に応じて、優先度が最も高い単語候補と辞書単語との類似度を計算したり、絞り込み部６が単語辞書７内の情報の絞り込みに用いた単語候補と辞書単語との類似度を計算したりする点で、第１の実施の形態における単語比較部９と異なる。

本実施の形態において、単語比較部９ｂおよび比較対象選択部１３は、例えば、プログラムに従って動作するＣＰＵによって実現される。

次に、動作について説明する。
図６は、第３の実施の形態における文字認識装置の処理を示すフローチャートである。第１の実施の形態や第２の実施の形態における文字認識装置の処理と同様の処理を示す箇所は、図２や図４と同様の符号を付して説明を省略する。図６に示すステップＡ１〜Ａ１０の処理は、図２に示すステップＡ１〜Ａ１０の処理と同様である。また、図６に示すステップＢ２の処理は、図４に示すステップＢ２の処理と同様の処理である。

絞り込み判定部８によって絞り込みが十分と判定された場合（ステップＡ６のＹ）、比較対象選択部１３は、単語比較部９ｂが、最も優先度の高い単語候補を用いて類似度を計算するのか、あるいは、絞り込み部６が単語辞書７内の情報の絞り込みに用いた単語候補を用いて類似度を計算するのかを判定する（ステップＣ１）。上述のように、ステップＣ１における判定は、例えば、単語候補の文字数を基準にしたり、また、単語候補の言語の種類を基準にしたりすればよい。

ステップＣ１において、最も優先度の高い単語候補（すなわち、優先度第１位の単語候補）を用いて類似度を計算すると判定された場合、単語比較部９ｂは、単語候補記憶部５に記憶されている単語候補のうち最も優先度の高い単語候補と、ステップＡ５における絞り込み結果に含まれる各辞書単語との類似度を計算する（ステップＢ２）。単語比較部９ｂは、ステップＢ２において、単語候補との類似度が最も高い辞書単語を選定して記憶する。ステップＢ２の後、ステップＡ９に移行する。

なお、ステップＢ２の処理を実行する前に、単語候補削除部１２が、第２の実施の形態におけるステップＢ１（図４参照。）と同様の処理を実行してもよい。すなわち、ステップＢ２の前に、単語候補削除部１２が、単語候補のうち、絞り込みが十分であると判定された絞り込み結果に含まれ、その絞り込み結果と同一かあるいはより狭い絞り込み結果を導く単語候補を削除してもよい。この場合、第２の実施の形態と同様に、同一の類似度計算を重複して行うことを防止でき、効率的に正解単語を特定することができる。

ステップＣ１において、絞り込み部６が単語辞書７内の情報の絞り込みに用いた単語候補を用いて類似度を計算すると判定された場合、単語比較部９ｂは、絞り込み部６が単語辞書７内の情報の絞り込みに用いた単語候補と、ステップＡ５における絞り込み結果に含まれる各辞書単語との類似度を計算する（ステップＡ８）。単語比較部９ｂは、ステップＡ８において、単語候補との類似度が最も高い辞書単語を選定して記憶する。ステップＡ８の後、ステップＡ９に移行する。

ステップＡ９以降の処理は、第１の実施の形態と同様である。

なお、絞り込み判定部８によって絞り込みが十分と判定された場合（ステップＡ６のＮ）の動作は、例えば、第１の実施の形態と同様にステップＡ７に移行する。

あるいは、絞り込み判定部８によって絞り込みが不十分と判定された場合（ステップＡ６のＮ）、ステップＣ１と同様に、最も優先度の高い単語候補を用いて類似度を計算するのか、あるいは、絞り込み部６が単語辞書７内の情報の絞り込みに用いた単語候補を用いて類似度を計算するのかを判定し、最も優先度の高い単語候補を用いて類似度を計算すると判定したときには、第２の実施の形態におけるステップＢ３（図４参照。）の処理を行ってからステップＡ７に移行してもよい。すなわち、単語候補削除部１２が、単語候補のうち、今回絞り込みが不十分であると判定された絞り込み結果と同一かあるいはその絞り込み結果を含むより広い絞り込み結果を導く単語候補を削除し、その後ステップＡ７に移行してもよい。絞り込み部６が単語辞書７内の情報の絞り込みに用いた単語候補を用いて類似度を計算すると判定したときには、そのままステップＡ７に移行する。絞り込み判定部８によって絞り込みが不十分と判定された後、ステップＢ３の処理を行う場合には、第２の実施の形態と同様に、絞り込み結果が不十分と判定されるような絞り込み処理の回数を減少させることができる。

次に、本実施の形態の効果について説明する。本実施の形態では、単語辞書７の絞込みを行った後、絞込みに用いた優先度第ｎ位の単語候補を用いて類似度を計算するのか、あるいは、認識結果として一番確からしい優先度第１位の単語候補を用いて類似度を計算するのかを、場合によって切り替えている。例えば単語候補の長さが十分長い場合には優先度第１位の単語候補において、誤認識された認識候補文字よりも正解の認識候補文字の方が十分多いと考えられるため、優先度第１位の単語候補と最も類似度の高い単語が正解単語であることが期待できる。一方で、単語候補の長さが短い場合は、正解の認識候補文字の数が少ないため、認識候補文字を色々と入れ替えた単語候補をそれぞれ試して類似度を計算した方が、正解単語が見つかる可能性が高くなりより好ましい。このように場合によって比較対象の単語候補を切り替えることでより精度良く正解単語を検索することができる。

次に、第１の実施の形態の具体的実施例について説明する。
本実施例では、文字認識装置は、入力装置１としてカメラを備える携帯端末として実現されるものとする。また、携帯端末は、上下左右方向を指定する矢印キーと入力の決定を指示する決定キーと、ディスプレイ装置とを備える。さらに、携帯端末は、プログラムを記憶する記憶装置と、そのプログラムに従って動作するＣＰＵとを備える。ＣＰＵは、文字認識部２、単語候補生成部４、絞り込み部６、絞り込み判定部８として機能する。また、ＣＰＵおよびディスプレイ装置は、出力装置１０として機能する。ＣＰＵ、矢印キー、決定キー、およびディスプレイ装置は、位置指定部３として機能する。また、携帯端末が備える記憶装置は、辞書単語として英単語を記憶するとともに、辞書単語と対応させてその和訳語を記憶し、単語辞書７として機能する。この単語辞書７には、辞書単語がａｂｃ順に登録されている。すなわち、本例における単語辞書７は英和辞書としての情報を記憶する。また、ＣＰＵおよび記憶装置は、単語候補機億部５、単語比較部９として機能する。

この携帯端末が、印刷された英単語”deliver ”の訳語を調べようとするユーザによって操作され、その印刷物をカメラ（入力装置１）で撮影したとする。この結果、カメラは、文字認識対象データ（本例では”deliver ”が記述された印刷物の画像）を入力する。

図７は、各処理において生成されるデータの具体例を示す説明図である。本例では、携帯端末のカメラは、文字認識対象データとして、図７に示す撮影画像１０１を入力したものとする。

文字認識部２として機能するＣＰＵは、撮影画像１０１に対して文字認識処理を行い、撮影画像１０１に含まれる各文字毎に、認識候補文字と認識信頼度との組み合わせを複数組生成する。本例では、ＣＰＵは、図７に示す認識結果データ１０２を生成する。図７に示す認識結果データ１０２では、例えば”a “に対応する認識候補文字として、”a “，”s “，”e “等を判定し、各認識候補時の認識信頼度を「95」，「82」，「60」として算出している。撮影画像１０１に含まれる他の文字についても同様に、認識候補文字と認識信頼度との組み合わせを複数組生成している。なお、図７では、第３候補までしか示していないが、第４候補以降のデータも生成されている。

また、ＣＰＵは、撮影画像１０１をディスプレイ装置に表示して、ユーザに単語の指定を促す。この場合、”deliver ”の訳語を調べようとするユーザによって、矢印キーが操作され、カーソルが”deliver ”に合わされ、決定キーが押下される。この結果、ＣＰＵは、”deliver ”を指定する。

すると、単語候補生成部４として機能するＰＣＵは、認識結果データ１０２の中から、指定された”deliver ”に対応する認識結果データ１０３（図７参照。）を抽出する。さらに、ＣＰＵは、抽出した認識結果データ１０３に含まれる認識候補文字であって、”deliver ”の各文字に対応する認識候補文字を組み合わせることによって、複数の単語候補１０４（図７参照。）を生成する。また、ＣＰＵは、各単語候補毎に優先度情報を生成して単語候補に付加する。本例では、単語候補を構成する各認識候補文字の和を優先度情報として計算するものとする。

続いて、ＣＰＵは、優先度情報の値の大きい順に、優先度情報が付加された単語候補を記憶装置に記憶させる。

その後、絞り込み部６として機能するＣＰＵは、最も優先度の高い単語候補である”detiyer ”を読み出し、”detiyer ”を用いて英和辞書（単語辞書７）の絞り込みを行う。図８は、絞り込み処理の具体例を示す説明図である。ＣＰＵは、まず"detiyer "という単語を用いて、図８に示す英和辞書１０５の二分探索を行う。すると、ＣＰＵは、ａｂｃ順で"detiyer "に最も近い英単語"dethrone"を見つける。英単語"dethrone"と単語候補"detiyer"の前方一致している部分（先頭部分において一致してる文字列）は"det "であるので、ＣＰＵは、英単語"dethrone"から前後の単語に順にアクセスし、"det "から始まる英単語が存在する範囲を調べる。そして、ＣＰＵは、"det "から始まる"detach"から"detrimental "までの計２６個の辞書単語およびその訳語を絞り込み結果とする。

また、絞り込み判定部８として機能するＣＰＵは、予め閾値を「２０」と定め、絞り込まれた辞書単語の数が閾値「２０」以下であるときに、絞り込みが十分であると判定する。上記の例では、絞り込まれた辞書単語の数が２６個であるので、絞り込みが不十分であると判定する。

すると、絞り込み部６として機能するＣＰＵは、２番目に優先度の高い単語候補である”deliyer ”を読み出し、”deliyer ”を用いて英和辞書（単語辞書７）の絞り込みを行う。"deliyer "は、３文字目のみ２位の認識候補文字を用い、他は１位の認識候補文字を用いた単語候補である。ＣＰＵは、"detiyer "を用いた場合と同様に、”deliyer ”を用いて図８に示す英和辞書１０５の二分探索を行う。すると、ＣＰＵは、ａｂｃ順で”deliyer ”に最も近い英単語"delivery"を見つける。先頭部分において一致している文字列は"deli"であり、ＣＰＵは、"delivery"から前後の単語に順にアクセスし、"deli"から始まる英単語が存在する範囲を調べる。そして、ＣＰＵは、"deli"で始まる１８個の辞書単語およびその訳語を絞り込み結果とする。

絞り込み判定部８として機能するＣＰＵは、絞り込まれた単語の数が１８個であり、閾値「２０」以下であるので、絞り込みが十分であると判定する。

絞り込みに成功したので、単語比較部９として機能するＣＰＵは、絞り込み範囲に含まれる全ての辞書単語（”deli”で始まる各辞書単語）と、単語候補”deliyer ”との類似度を計算し、最も類似度の高い辞書単語を選定する。本例では、辞書単語を文字列Ａとし、単語候補を文字列Ｂとし、（文字列Ａと文字列Ｂで一致する文字の数）／（文字列Ａと文字列Ｂの文字列長のうち長い方）という式によって類似度を計算する。この類似度の計算結果の例を図９に示す。本例では、単語候補"deliyer "との類似度が最も高い辞書単語は、"deliver "であった。

以後も同様に、ＣＰＵは、単語候補を優先度順に読み出して、辞書検索により辞書を絞り込み、絞り込み数が２０以下なら、類似度を計算する処理を続ける。そして、一定時間経過した時点で処理を打ち切る。ＣＰＵは、その時点で最も単語候補との類似度が高かった辞書単語およびその訳語を、検索結果としてディスプレイ装置に表示出力する。

本実施例では、単語候補の削除の具体例を説明する。本実施例においても、実施例１と同様の携帯端末を例に説明する。ただし、本実施例において、携帯端末は、１位単語候補記憶部として機能する記憶装置（または記憶領域）を有する。また、携帯端末のＣＰＵは、単語候補削除部１２、単語比較部９ａとしても機能する。

図１０は、単語候補削除の具体例を示す説明図である。携帯端末のＣＰＵが、実施例１と同様に、"detiyer "という単語候補で単語辞書の絞込みを行い、絞込みが十分でないと判定したとする。この場合、ＣＰＵは、最初の部分の文字の順序が単語候補"detiyer "の最初の部分と最も近い辞書単語を検索する。この検索により、ＣＰＵは、辞書単語”dethrone”を検索している。単語候補"detiyer "および辞書単語”dethrone”の最初の部分における一致文字列は”det ”であり、ＣＰＵは、この一致文字列”det ”で始まる辞書単語を絞り込み結果としている。この一致文字列”det ”は３文字であり、単語候補"detiyer "における「３文字＋１文字目（すなわち４文字目）」の文字”i ”を追加した”deti”から始まる単語候補を用いて絞り込みを行ったとしても、既に不十分と判定された"detiyer "による絞り込み結果と同一の絞り込み結果しか得られない。ＣＰＵは、そのような単語候補（ここでは、”deti”から始まる単語候補）を、単語候補記憶部５から削除する。図１０に示す例では、単語候補"detiyer "での絞り込みの判定結果に応じて、”deti”から始まる単語候補”detiver ”を削除している場合を示している。

また、携帯端末のＣＰＵが、実施例１と同様に、"deliyer "という単語候補で単語辞書の絞込みを行い、絞込みが十分であると判定したとする。この場合、ＣＰＵは、最初の部分の文字の順序が単語候補"deliyer "の最初の部分と最も近い辞書単語を検索する。この検索により、ＣＰＵは、辞書単語”delivery”を検索している。単語候補"deliyer "および辞書単語”delivery”の最初の部分における一致文字列は”deli”である。この一致文字列”deli”から始まる単語候補を用いて絞り込みを行ったとしても、既に十分と判定された"deliyer "による絞り込み結果と同一かあるいはより狭い絞り込み結果しか得られない。ＣＰＵは、そのような単語候補（ここでは、”deli”から始まる単語候補）を、単語候補記憶部５から削除する。図１０に示す例では、単語候補"deliyer "での絞り込みの判定結果に応じて、”deli”から始まる単語候補”deliver ”を削除している場合を示している。本実施例では、このようにに絞り込み結果が重複する単語候補を随時削除するので、優先度が最も高い単語候補と辞書単語との類似度計算であって、重複する類似度計算を排除することができる。

次に、第３の実施の形態の具体的実施例について説明する。本実施例では、実施例２と同様の携帯端末を例に説明する。ただし、携帯端末のＣＰＵは、比較対象選択部１３，単語比較部９ｂとしても機能する。本実施例では、携帯端末が備える記憶装置は、辞書単語として日本語の単語を記憶するとともに、辞書単語と対応させてその説明（意味）を記憶し、単語辞書７として機能する。すなわち、本実施例において、単語辞書７は、国語辞書としての情報を記憶する。

図１１（ａ）は、日本語の単語に対する文字認識処理を行った場合の認識結果データの例を示す。図１１（ｂ）は、絞り込み処理の具体例を示す説明図である。

携帯端末のカメラが日本語の単語である「卸問屋」という文字を撮影し、ＣＰＵが文字認識結果を行って、図１１（ａ）に例示する認識結果データを生成したとする。ＣＰＵは、撮影された「卸問屋」の各文字に対応する認識候補文字を組み合わせることにより、図１１（ｂ）に示す単語候補１０７を生成する。なお、図１１（ｂ）では図示していないが、単語候補１０７に含まれる各単語候補には、ＣＰＵによって優先度情報が付加されている。また、図１１（ｂ）に示す単語候補１０７は、ＣＰＵによって優先度順に記憶装置に記憶されているものとする。

ＣＰＵは、優先度順に単語候補を読み出し、図１１（ｂ）に示す単語辞書（国語辞書）に含まれる情報を絞り込む。その後、比較対象選択部１３として機能するＣＰＵは、単語候補が日本語の単語であることに基づいて、国語辞書内の情報の絞り込みに用いた単語候補と、絞り込み結果に含まれる各辞書単語との類似度を計算すると判定する。この判定結果に応じて、単語比較部９ｂとして機能するＣＰＵは、絞り込みに用いた単語候補と、絞り込み結果に含まれる各辞書単語との類似度を計算する。

本実施例において、優先度第１位、第２位、および第３位の単語候補で絞り込まれる国語辞書の辞書単語の範囲は、いずれも「卸」で始まる辞書単語全てである。すなわち、優先度第１位、第２位、および第３位の単語候補を用いて絞り込みを行ったときの絞り込み結果はいずれも同一の結果となる。仮に、第２の実施の形態における文字認識装置のように、優先度第１位の単語候補のみを用いて、絞り込み結果に含まれる辞書単語との類似度を計算すると仮定する。優先度第１位、第２位、および第３位の単語候補による絞り込み結果は同一であり、「卸」から始まる辞書単語しか含まれていない。図１１（ｂ）に示す例では、優先度第１位の「卸間産」と、「卸」で始まる辞書単語との類似度を評価した場合、「卸」の一文字が一致するだけであり、類似度に差がつかない。また、第２位、および第３位の単語候補による絞り込み結果を用いて、類似度の評価を行っても、第１位の単語候補による絞り込み結果を用いた場合の類似度の評価と同じ結果しか得られない。

しかし、本実施例では、ＣＰＵは、単語候補が日本語の単語であることに基づいて、国語辞書内の情報の絞り込みに用いた単語候補と、絞り込み結果に含まれる各辞書単語との類似度を計算すると判定する。この結果、優先度第２位の単語候補を用いて絞り込みを行い、その絞り込み結果に含まれる各辞書単語と、優先度第２位の単語候補「卸間屋」との類似度を評価することになる。この場合、正解の辞書単語である「卸問屋」との類似度評価では、一致文字数が２文字となり、他の辞書単語との類似度よりも高くなり、正解の単語「卸問屋」を選定できることになる。

以上のように、日本語の単語のように単語長が短い場合には、絞込みに用いた単語候補を類似度の計算に用いると判定した方がよい。一方、英単語のような単語長が長い場合には、第２の実施の形態と同様に、優先度第１位の単語候補を用いて類似度を計算し、単語辞書の絞り込み範囲が重複する単語候補を削除していく方が効率的である。第３の実施の形態では、この２つの手法を単語候補の文字数や言語によって切り替えるので、より検索対象に適した検索をおこなうことができる。

本発明は、例えば、印刷文書、手書き文字、文書画像、手書き入力データ等に対する文字認識を行い、その訳語や説明を表示する翻訳端末や辞書端末に適用可能である。また、認識誤りを自動修正する文書読み取り装置等にも適用可能である。

本発明による文字認識装置の第１の実施の形態を示すブロック図である。第１の実施の形態における文字認識装置の処理を示すフローチャートである。本発明による文字認識装置の第２の実施の形態を示すブロック図である。第２の実施の形態における文字認識装置の処理を示すフローチャートである。本発明による文字認識装置の第３の実施の形態を示すブロック図である。第３の実施の形態における文字認識装置の処理を示すフローチャートである。各処理において生成されるデータの具体例を示す説明図である。絞り込み処理の具体例を示す説明図である。類似度の計算結果の例を示す説明図である。単語候補削除の具体例を示す説明図である。日本語の単語に対する文字認識処理を行った場合の認識結果データの例および絞り込み処理の例を示す説明図である。

符号の説明

１入力装置
２文字認識部
３位置指定部
４単語候補生成部
５単語候補記憶部
６絞り込み部
７単語辞書
８絞り込み判定部
９単語比較部
１０出力装置

Claims

入力されたデータに含まれる文字に対して文字認識を行う文字認識部を備えた文字認識装置であって、
前記文字認識部による文字認識結果に基づいて複数の単語候補を生成するとともに、各単語候補の優先度を示す優先度情報を生成する単語候補生成部と、
優先度情報に基づいて前記複数の単語候補を優先度順に記憶する単語候補記憶部と、
複数の単語を記憶する単語データベースと、
前記単語候補記憶部から優先度順に単語候補を読み出し、読み出した単語候補に基づいて、前記単語データベースが記憶している単語を絞り込む絞り込み部と、
前記絞り込み部による単語の絞り込み結果が予め定められた所定条件を満たしている場合に、単語の絞り込みが十分であると判定し、前記絞り込み結果が前記所定条件を満たしていない場合に、単語の絞り込みが不十分であると判定する絞り込み判定部と、
単語の絞り込みが十分であると判定された場合に、前記絞り込み部によって絞り込まれた各単語と、当該各単語の絞り込みに用いた単語候補との類似度を算出し、単語候補との類似度が最も高い単語を選定する単語比較部とを備えた
ことを特徴とする文字認識装置。
入力されたデータに含まれる文字に対して文字認識を行う文字認識部を備えた文字認識装置であって、
前記文字認識部による文字認識結果に基づいて複数の単語候補を生成するとともに、各単語候補の優先度を示す優先度情報を生成する単語候補生成部と、
優先度情報に基づいて前記複数の単語候補を優先度順に記憶する単語候補記憶部と、
複数の単語を記憶する単語データベースと、
前記単語候補記憶部から優先度順に単語候補を読み出し、読み出した単語候補に基づいて、前記単語データベースが記憶している単語を絞り込む絞り込み部と、
前記絞り込み部による単語の絞り込み結果が予め定められた所定条件を満たしている場合に、単語の絞り込みが十分であると判定し、前記絞り込み結果が前記所定条件を満たしていない場合に、単語の絞り込みが不十分であると判定する絞り込み判定部と、
前記絞り込み判定部による判定結果に応じて、前記単語候補記憶部が記憶する単語候補の一部を削除する単語候補削除部と、
単語の絞り込みが十分であると判定された場合に、前記絞り込み部によって絞り込まれた各単語と、優先度が第１位の単語候補との類似度を算出し、前記第１位の単語候補との類似度が最も高い単語を選定する単語比較部とを備えた
ことを特徴とする文字認識装置。
入力されたデータに含まれる文字に対して文字認識を行う文字認識部を備えた文字認識装置であって、
前記文字認識部による文字認識結果に基づいて複数の単語候補を生成するとともに、各単語候補の優先度を示す優先度情報を生成する単語候補生成部と、
優先度情報に基づいて前記複数の単語候補を優先度順に記憶する単語候補記憶部と、
複数の単語を記憶する単語データベースと、
前記単語候補記憶部から優先度順に単語候補を読み出し、読み出した単語候補に基づいて、前記単語データベースが記憶している単語を絞り込む絞り込み部と、
前記絞り込み部による単語の絞り込み結果が予め定められた所定条件を満たしている場合に、単語の絞り込みが十分であると判定し、前記絞り込み結果が前記所定条件を満たしていない場合に、単語の絞り込みが不十分であると判定する絞り込み判定部と、
前記絞り込み部によって絞り込まれた各単語と当該各単語の絞り込みに用いた単語候補との類似度を算出するのか、前記絞り込み部によって絞り込まれた各単語と優先度が第１位の単語候補との類似度を算出するのかを判定する比較対象選択部と、
前記絞り込み判定部による判定結果に応じて、前記単語候補記憶部が記憶する単語候補の一部を削除する単語候補削除部と、
単語の絞り込みが十分であると判定され、かつ、絞り込まれた各単語と当該各単語の絞り込みに用いた単語候補との類似度を算出すると判定された場合には、前記各単語と、当該各単語の絞り込みに用いた単語候補との類似度を算出し、単語候補との類似度が最も高い単語を選定し、単語の絞り込みが十分であると判定され、かつ、絞り込まれた各単語と優先度が第１位の単語候補との類似度を算出すると判定された場合には、前記各単語と、前記第１位の単語候補との類似度を算出し、前記第１位の単語候補との類似度が最も高い単語を選定する単語比較部とを備えた
ことを特徴とする文字認識装置。
比較対象選択部は、予め定められた文字数を基準として、単語候補の文字数が多いか少ないかを判定し、前記基準に基づいて単語候補の文字数が多いと判定した場合に、絞り込み部によって絞り込まれた各単語と優先度が第１位の単語候補との類似度を算出すると判定し、前記基準に基づいて単語候補の文字数が少ないと判定した場合に、絞り込み部によって絞り込まれた各単語と当該各単語の絞り込みに用いた単語候補との類似度を算出すると判定する
請求項３に記載の文字認識装置。
単語候補削除部は、単語の絞り込みが十分であると判定された場合に、十分と判定された絞り込み結果と同一かあるいはより狭い絞り込み結果を導く単語候補を削除し、単語の絞り込みが不十分であると判定された場合に、不十分と判定された絞り込み結果と同一かあるいはより広い絞り込み結果を導く単語候補を削除する
請求項２から請求項４のうちのいずれか１項に記載の文字認識装置。
絞り込み部は、読み出した単語候補を用いて、単語データベースが記憶する単語を前方一致検索し、当該前方一致検索の結果と前記単語候補とで前方一致している部分文字列を判定し、当該部分文字列から始まる辞書単語の集合を絞り込み結果とする
請求項１から請求項５のうちのいずれか１項に記載の文字認識装置。
絞り込み部は、単語比較部が単語の選定した後に、未だ読み出していない単語候補を読み出して再度絞り込みを行うか否かを判定し、再度絞り込みを行うと判定した場合に単語候補の読み出しと単語データベースが記憶している単語の絞り込みを再度行う
請求項１から請求項６のうちのいずれか１項に記載の文字認識装置。
文字認識部が、入力されたデータに含まれる文字に対して文字認識を行い、
単語候補生成部が、前記文字認識部による文字認識結果に基づいて複数の単語候補を生成するとともに、各単語候補の優先度を示す優先度情報を生成し、
単語候補記憶部が、優先度情報に基づいて前記複数の単語候補を優先度順に記憶し、
絞り込み部が、前記単語候補記憶部から優先度順に単語候補を読み出し、読み出した単語候補に基づいて、単語データベースが記憶している単語を絞り込み、
絞り込み判定部が、前記絞り込み部による単語の絞り込み結果が予め定められた所定条件を満たしている場合に、単語の絞り込みが十分であると判定し、前記絞り込み結果が前記所定条件を満たしていない場合に、単語の絞り込みが不十分であると判定し、
単語比較部が、単語の絞り込みが十分であると判定された場合に、前記絞り込み部によって絞り込まれた各単語と、当該各単語の絞り込みに用いた単語候補との類似度を算出し、単語候補との類似度が最も高い単語を選定する
ことを特徴とする文字認識方法。
文字認識部が、入力されたデータに含まれる文字に対して文字認識を行い、
単語候補生成部が、前記文字認識部による文字認識結果に基づいて複数の単語候補を生成するとともに、各単語候補の優先度を示す優先度情報を生成し、
単語候補記憶部が、優先度情報に基づいて前記複数の単語候補を優先度順に記憶し、
絞り込み部が、前記単語候補記憶部から優先度順に単語候補を読み出し、読み出した単語候補に基づいて、単語データベースが記憶している単語を絞り込み、
絞り込み判定部が、前記絞り込み部による単語の絞り込み結果が予め定められた所定条件を満たしている場合に、単語の絞り込みが十分であると判定し、前記絞り込み結果が前記所定条件を満たしていない場合に、単語の絞り込みが不十分であると判定し、
単語候補削除部が、前記絞り込み判定部による判定結果に応じて、前記単語候補記憶部が記憶する単語候補の一部を削除し、
単語比較部が、単語の絞り込みが十分であると判定された場合に、前記絞り込み部によって絞り込まれた各単語と、優先度が第１位の単語候補との類似度を算出し、前記第１位の単語候補との類似度が最も高い単語を選定する
ことを特徴とする文字認識方法。
文字認識部が、入力されたデータに含まれる文字に対して文字認識を行い、
単語候補生成部が、前記文字認識部による文字認識結果に基づいて複数の単語候補を生成するとともに、各単語候補の優先度を示す優先度情報を生成し、
単語候補記憶部が、優先度情報に基づいて前記複数の単語候補を優先度順に記憶し、
絞り込み部が、前記単語候補記憶部から優先度順に単語候補を読み出し、読み出した単語候補に基づいて、単語データベースが記憶している単語を絞り込み、
絞り込み判定部が、前記絞り込み部による単語の絞り込み結果が予め定められた所定条件を満たしている場合に、単語の絞り込みが十分であると判定し、前記絞り込み結果が前記所定条件を満たしていない場合に、単語の絞り込みが不十分であると判定し、
比較対象選択部が、前記絞り込み部によって絞り込まれた各単語と当該各単語の絞り込みに用いた単語候補との類似度を算出するのか、前記絞り込み部によって絞り込まれた各単語と優先度が第１位の単語候補との類似度を算出するのかを判定し、
単語候補削除部が、前記絞り込み判定部による判定結果に応じて、前記単語候補記憶部が記憶する単語候補の一部を削除し、
単語比較部が、単語の絞り込みが十分であると判定され、かつ、絞り込まれた各単語と当該各単語の絞り込みに用いた単語候補との類似度を算出すると判定された場合には、前記各単語と、当該各単語の絞り込みに用いた単語候補との類似度を算出し、単語候補との類似度が最も高い単語を選定し、単語の絞り込みが十分であると判定され、かつ、絞り込まれた各単語と優先度が第１位の単語候補との類似度を算出すると判定された場合には、前記各単語と、前記第１位の単語候補との類似度を算出し、前記第１位の単語候補との類似度が最も高い単語を選定する
ことを特徴とする文字認識方法。
複数の単語を記憶する単語データベースを備えたコンピュータに搭載される文字認識プログラムであって、
コンピュータに、
入力されたデータに含まれる文字に対して文字認識を行う文字認識処理、
文字認識結果に基づいて複数の単語候補を生成するとともに、各単語候補の優先度を示す優先度情報を生成する単語候補生成処理、
優先度情報に基づいて前記複数の単語候補を優先度順に記憶する単語候補記憶処理、
前記単語候補記憶処理で記憶された単語候補を優先度順に読み出し、読み出した単語候補に基づいて、前記単語データベースが記憶している単語を絞り込む絞り込み処理、
単語の絞り込み結果が予め定められた所定条件を満たしている場合に、単語の絞り込みが十分であると判定し、前記絞り込み結果が前記所定条件を満たしていない場合に、単語の絞り込みが不十分であると判定する絞り込み判定処理、および
単語の絞り込みが十分であると判定された場合に、前記絞り込み処理で絞り込まれた各単語と、当該各単語の絞り込みに用いた単語候補との類似度を算出し、単語候補との類似度が最も高い単語を選定する単語比較処理
を実行させるための文字認識プログラム。
複数の単語を記憶する単語データベースを備えたコンピュータに搭載される文字認識プログラムであって、
コンピュータに、
入力されたデータに含まれる文字に対して文字認識を行う文字認識処理、
文字認識結果に基づいて複数の単語候補を生成するとともに、各単語候補の優先度を示す優先度情報を生成する単語候補生成処理、
優先度情報に基づいて前記複数の単語候補を優先度順に記憶する単語候補記憶処理、
前記単語候補記憶処理で記憶された単語候補を優先度順に読み出し、読み出した単語候補に基づいて、前記単語データベースが記憶している単語を絞り込む絞り込み処理、
単語の絞り込み結果が予め定められた所定条件を満たしている場合に、単語の絞り込みが十分であると判定し、前記絞り込み結果が前記所定条件を満たしていない場合に、単語の絞り込みが不十分であると判定する絞り込み判定処理、
前記絞り込み判定処理の判定結果に応じて、前記単語候補記憶処理で記憶された単語候補の一部を削除する単語候補削除処理、および
単語の絞り込みが十分であると判定された場合に、前記絞り込み処理で絞り込まれた各単語と、優先度が第１位の単語候補との類似度を算出し、前記第１位の単語候補との類似度が最も高い単語を選定する単語比較処理
を実行させるための文字認識プログラム。
複数の単語を記憶する単語データベースを備えたコンピュータに搭載される文字認識プログラムであって、
コンピュータに、
入力されたデータに含まれる文字に対して文字認識を行う文字認識処理、
文字認識結果に基づいて複数の単語候補を生成するとともに、各単語候補の優先度を示す優先度情報を生成する単語候補生成処理、
優先度情報に基づいて前記複数の単語候補を優先度順に記憶する単語候補記憶処理、
前記単語候補記憶処理で記憶された単語候補を優先度順に読み出し、読み出した単語候補に基づいて、前記単語データベースが記憶している単語を絞り込む絞り込み処理、
単語の絞り込み結果が予め定められた所定条件を満たしている場合に、単語の絞り込みが十分であると判定し、前記絞り込み結果が前記所定条件を満たしていない場合に、単語の絞り込みが不十分であると判定する絞り込み判定処理、
前記絞り込み処理で絞り込まれた各単語と当該各単語の絞り込みに用いた単語候補との類似度を算出するのか、前記絞り込み処理で絞り込まれた各単語と優先度が第１位の単語候補との類似度を算出するのかを判定する比較対象選択処理、
前記絞り込み判定処理の判定結果に応じて、前記単語候補記憶処理で記憶された単語候補の一部を削除する単語候補削除処理、および
単語の絞り込みが十分であると判定され、かつ、絞り込まれた各単語と当該各単語の絞り込みに用いた単語候補との類似度を算出すると判定された場合には、前記各単語と、当該各単語の絞り込みに用いた単語候補との類似度を算出し、単語候補との類似度が最も高い単語を選定し、単語の絞り込みが十分であると判定され、かつ、絞り込まれた各単語と優先度が第１位の単語候補との類似度を算出すると判定された場合には、前記各単語と、前記第１位の単語候補との類似度を算出し、前記第１位の単語候補との類似度が最も高い単語を選定する単語比較処理
を実行させるための文字認識プログラム。