JP2006331354A - 文字認識装置、文字認識方法、並びに、そのプログラムおよび記録媒体 - Google Patents
文字認識装置、文字認識方法、並びに、そのプログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP2006331354A JP2006331354A JP2005158176A JP2005158176A JP2006331354A JP 2006331354 A JP2006331354 A JP 2006331354A JP 2005158176 A JP2005158176 A JP 2005158176A JP 2005158176 A JP2005158176 A JP 2005158176A JP 2006331354 A JP2006331354 A JP 2006331354A
- Authority
- JP
- Japan
- Prior art keywords
- character
- language
- recognition
- history information
- character recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
【課題】 ユーザの操作回数が大幅に削減されているにも拘わらず、高い精度で文字認識可能な文字認識装置、および、文字認識方法を実現する。
【解決手段】 カメラ付き携帯電話1は、複数の言語のいずれかに含まれる文字の画像を文字認識して文字コードに変換する認識処理部23とを有している。当該認識処理部23は、上記複数の言語のそれぞれについて、文字の認識結果が当該言語でありそうだと推定したことを示す推定履歴情報を履歴情報記憶部41に格納する言語可能性値推定部42と、認識対象とする文字の属する言語が当該言語であると指定する操作を受け付けたことを示す操作履歴情報を履歴情報記憶部41に格納する操作部13とを備え、上記履歴情報記憶部41の履歴情報を参照して、文字の画像を文字コードに変換する。
【選択図】 図1
【解決手段】 カメラ付き携帯電話1は、複数の言語のいずれかに含まれる文字の画像を文字認識して文字コードに変換する認識処理部23とを有している。当該認識処理部23は、上記複数の言語のそれぞれについて、文字の認識結果が当該言語でありそうだと推定したことを示す推定履歴情報を履歴情報記憶部41に格納する言語可能性値推定部42と、認識対象とする文字の属する言語が当該言語であると指定する操作を受け付けたことを示す操作履歴情報を履歴情報記憶部41に格納する操作部13とを備え、上記履歴情報記憶部41の履歴情報を参照して、文字の画像を文字コードに変換する。
【選択図】 図1
Description
本発明は、画像または手書き入力を受け付けた文字から文字を認識する文字認識装置、文字認識方法、並びに、そのプログラムおよび記録媒体に関するものである。
近年、デジタル電子カメラ、カメラ付き携帯電話など撮像機能を有する携帯機器の記憶容量、表示サイズなどの性能向上が著しい。このため、カメラで撮像した画像から文字コードに変換し入力、翻訳に用いるなどの用途が広がってきている。
とりわけ、携帯電話は、普及が進み、ローミング機能を利用した国境を越えての利用が広がってきている。また、携帯電話の高性能・高機能化に伴い、航空機などの通信機器の利用が制限されている場所で、通信機能のみを利用しないように設定し、例えばカメラ撮影等の通信以外の操作は行えるようにする方法についても検討されている。
例えば、後述する特許文献1では、入力言語を切り替えることなく多言語を入力可能な多国語入力装置が開示されている。当該多国語入力装置は、入力文字列と表示文字列との対応関係が記憶された単語辞書を備え、入力された文字列に対して単語辞書を検索することにより入力文字列を表示文字列に変換している。さらに、当該文字認識装置は、言語毎に単語辞書を設け、入力文字列に対して各々の単語辞書を検索し、入力文字列に対応する表示文字列が存在する言語の単語辞書を入力言語として自動的に認識している。
また、後述する特許文献2には、文字の形状や大きさ、言語の違いに制約されることなく、カメラ画像データとして取り込まれた各国種々多様な文字を認識して翻訳するのに良好な文字認識翻訳システムが開示されている。当該文字認識翻訳システムは、文字をカメラ画像として取り込んで文字認識し、単語や文章を翻訳する文字認識翻訳システムであって、予め取り込まれたカメラ画像文字データを蓄積する大規模文字データベースと、この大規模文字データベースの画像文字データから文字形状を分析し、文字を構成している文字構成要素の特徴を抽出する文字形状分析部と、この文字形状分析部の分析結果から、上記文字構成要素の標本マスクデータを作成するマスク学習部とを有し、取り込まれたカメラ画像文字データに対して、上記文字構成要素の標本マスクデータと照合して文字を認識し、単語や文章を翻訳している。
さらに、後述する特許文献3では、携帯端末とホスト端末とからなる画像データ処理システムが開示されている。当該画像データ処理システムでは、携帯端末に内蔵されたカメラを用いて文字を含んだ画像データを読み取ると共に、サービスを指定し、画像データをホスト端末へ転送する。一方、ホスト端末は、受信した画像データに含まれる文字を認識すると共に、その文字に所定の処理(翻訳、検索等)を施し、その処理結果を携帯端末に送信する。さらに、携帯端末は、ホスト端末から受信した処理結果を表示する。これにより、当該画像データ処理システムでは、情報処理装置を用いた検索や翻訳などにおいて、操作性を向上させたユーザインタフェイスを提供している。
また、後述の特許文献4には、ユーザの指定や携帯端末のGPS(Global Positioning System)機能から得られたユーザの現在位置を基に、文字認識処理や翻訳処理に用いる各種辞書を適切な専門用語辞書に置き換えて処理を行うシステムが開示されている。
さらに、後述の特許文献5には、ひらがな、カタカナ、漢字等の入力文字種を指定し、入力された手書き文字を、指定された文字種の辞書と照合することにより、手書き文字を認識する手書き文字用文字認識装置の認識方法が開示されている。当該手書き文字用文字認識装置の認識方法では、手書き文字入力後、認識文字候補の選択状態にし、所望とする文字候補に該当する文字種を1以上指定した際に、指定した文字種に対応する文字候補のみを辞書から選択的に読み出す。これにより、手書き入力装置の手書き文字を認識する際に、候補選択の効率を向上できる。
また、後述の特許文献6には、手書き文字入力及びその出力表示を行う文字認識システムにおいて、手書き認識部により選ばれた文字候補の中から、認識処理後に、ユーザが選択した字種の文字候補のみを表示させ得るようにすることによって、手書き文字入力・確定の操作手順を軽減することにより、ユーザの操作性を向上させた文字認識システムが開示されている。
特開平5−282360号公報(公開日:1993年10月29日)
特開平9−138802号公報(公開日:1997年5月27日)
特開平10−134004号公報(公開日:1998年5月22日)
特開2003−178067号公報(公開日:2003年6月27日)
特開平6−20101号公報(公開日:1994年1月28日)
特開平8−123897号公報(公開日:1996年5月17日)
しかしながら、上記従来の構成では、操作回数削減と認識精度向上との双方を高いレベルでバランスさせることが難しいという問題を生じる。
具体的には、特許文献5および6のように、認識の度に字種をユーザに選択させると、認識精度が向上する一方で、ユーザの操作回数が増加してしまう。これとは逆に、特許文献1のように、言語語毎に単語辞書を設け、入力文字列に対して各々の単語辞書を検索し、入力文字列に対応する表示文字列が存在する言語の単語辞書を入力言語として自動的に認識する構成では、言語が自動認識されるので、ユーザの操作の手間を軽減できる一方で、認識精度が低下しやすい。
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、認識の度に文字グループを指定する構成よりもユーザの操作回数が大幅に削減されているにも拘わらず、文字の画像または手書き入力のみを参照して文字コードに変換する構成よりも高い精度で文字認識可能な文字認識装置、および、文字認識方法を実現することにある。
本発明に係る文字認識装置は、上記課題を解決するために、複数の文字グループのいずれかに含まれる文字の画像または手書き入力を受け付けた文字を文字認識して文字コードに変換する文字認識手段を有する文字認識装置において、上記複数の文字グループのそれぞれについて、文字の認識結果が当該文字グループでありそうだと推定したという推定事象と、認識対象とする文字の属する文字グループが当該文字グループであると指定する操作を受け付けたという操作事象との少なくとも一方の事象の発生を検出し、当該事象の履歴と、その統計処理結果との少なくとも一方を示す記憶情報を生成して記憶装置に記憶する生成手段を備え、上記文字認識手段は、上記記憶装置に記憶された記憶情報を参照して、文字の画像または手書き入力を受け付けた文字を文字コードに変換することを特徴としている。
なお、上記複数の文字グループは、例えば、漢字/ひらがな/カタカナなど、互いに同じ言語に属する文字グループ同士であってもよい。また、上記複数の文字グループは、例えば、英語/フランス語/ドイツ語/ポルトガル語など、互いに異なる言語で使用される文字からなる文字グループ同士であってもよい。なお、各言語で使用される文字からなる文字グループには、例えば、ギリシャ語において、例えば、人名やE−MAILのアドレスなどとして一般的に使用される英文字のように、その言語固有の文字だけではなく、その言語で一般的に使用される文字を含んでいてもよい。また、上記推定事象は、その文字グループであるか否かを推定した事象であってもよいし、その文字グループでありそうな可能性を推定した事象であってもよい。
当該構成において、文字認識装置が、上記複数の文字グループのそれぞれについて、文字の認識結果が当該文字グループであると推定するか、あるいは、認識対象とする文字の属する文字グループが当該文字グループであると指定する操作を受け付けると、生成手段は、それらの事象の発生を検出して、事象の履歴と、その統計処理結果との少なくとも一方を示す記憶情報を生成して記憶装置に記憶する。一方、文字認識手段は、上記記憶装置に記憶された記憶情報を参照して、文字の画像または手書き入力を受け付けた文字を文字コードに変換する。
上記構成では、上記の事象の履歴と、その統計処理結果との少なくとも一方を参照して、文字の画像または手書き入力を受け付けた文字を文字コードに変換している。したがって、認識の度に文字グループを指定する構成よりもユーザの操作回数が大幅に削減されているにも拘わらず、文字の画像または手書き入力のみを参照して文字コードに変換する構成よりも高い精度で文字認識できる。
さらに、上記構成に加えて、上記生成手段が検出する事象には、さらに、文字認識装置の電源がONまたはOFFしたという事象が含まれていてもよい。また、上記構成に加えて、他の機器と通信する通信手段を備え、上記生成手段が検出する事象には、さらに、当該通信手段の機能を有効または無効にしたという事象が含まれていてもよい。なお、通信手段を備えた文字認識装置の一例としては、カメラ付き携帯電話が挙げられる。
ここで、上記構成では、推定事象や操作事象の履歴と、その統計処理結果との少なくとも一方を参照して、文字の画像または手書き入力を受け付けた文字を文字コードに変換するので、これまでの事象によって、認識結果が左右される。この結果、例えば、他の言語圏に移動した場合、あるいは、文字認識装置が長い期間放置されていて、その間に、ユーザの興味が変化したり、ユーザが他のユーザに変わってしまった場合など、認識対象とする文字の属する文字グループが変化した場合には、誤認識する可能性が高くなる虞れがある。
これに対して、上記構成では、電源がONまたはOFFしたという事象や、通信手段の機能を有効または無効にしたという事象も、生成手段が検出しており、文字認識処理時に、これらの履歴と、その統計処理結果との少なくとも一方が参照される。したがって、上記のように、他の言語圏への移動が疑われる場合(例えば、通信OFF設定が所定時間以上続いた場合など)や、長い期間放置された場合には、例えば、これまでの事象によって認識結果が左右される程度を抑えるなど、電源のON/OFFや通信手段の機能の有効/無効に応じた処理を取ることができる。この結果、これらの場合でも、誤認識の可能性を抑えることができる。
また、上記構成に加えて、上記記憶情報には、事象の発生時点を示す情報(例えば、時刻情報や日付け情報など)が含まれていてもよい。当該構成では、各事象の発生時点を示す情報が含まれているので、例えば、より古い時点の事象よりも新しい時点の事象を優先して文字認識処理に反映させるなど、各事象の発生時点に応じた処理を行うことができ、文字認識の精度を向上できる。
さらに、上記構成に加えて、上記生成手段が検出する事象には、上記推定事象と操作事象との双方が含まれており、上記文字認識手段は、上記推定事象を示す記憶情報よりも上記操作事象を示す記憶事象の方を優先して、当該文字認識手段による文字認識処理に反映させてもよい。
ここで、文字の認識結果が当該文字グループでありそうだと文字認識装置が推定した場合は、認識対象とする文字の属する文字グループが当該文字グループであると指定する操作を受け付けた場合と異なって、推定が誤っている可能性がある。
したがって、上記生成手段が検出する事象に上記両事象を含める場合、上記推定事象よりも操作事象の方を優先して文字認識処理に反映させることによって、双方を同程度に反映させる場合よりも文字認識の精度を向上できる。
さらに、上記構成に加えて、上記生成手段は、記憶情報として、統計処理結果を示す情報を記憶してもよい。また、上記構成に加えて、上記生成手段は、記憶情報として、履歴を示す情報を記憶し、上記文字認識手段は、当該記憶情報を統計処理した結果を参照して、文字の画像または手書き入力を受け付けた文字を文字コードに変換してもよい。
これらの構成では、上記事象の発生の履歴を統計処理した結果を参照して、文字の画像または手書き入力を受け付けた文字が文字コードに変換されるので、文字認識の精度をさらに向上できる。
また、上記構成に加えて、上記文字認識手段は、文字の画像または手書き入力を受け付けた文字と、各文字コードの示す文字との類似度を評価して、当該文字の画像または手書き入力を受け付けた文字がいずれの文字コードであるかを決定する文字決定手段と、上記記憶情報を参照して、上記複数の文字グループのそれぞれについて、認識対象とする文字が当該文字グループに含まれる可能性を推定する推定手段とを備え、上記文字決定手段は、当該各文字グループの可能性に基づいて、認識結果となり得る文字コードを変更してもよい。
当該構成では、各文字グループの可能性に基づいて、認識結果となり得る文字コードが変更されるので、認識結果となり得る文字コードを、全文字グループのいずれかに属する文字の文字コードに固定する構成と比較して、文字認識時の演算量を抑制したり、文字認識の精度を向上したりできる。
また、上記構成に加えて、上記文字認識手段は、文字の画像または手書き入力を受け付けた文字と、各文字コードの示す文字との類似度を評価して、当該文字の画像または手書き入力を受け付けた文字がいずれの文字コードであるかを決定する文字決定手段と、上記記憶情報を参照して、上記複数の文字グループのそれぞれについて、認識対象とする文字が当該文字グループに含まれる可能性を推定する推定手段と、当該各文字グループの可能性に基づいて、上記各文字との類似度を評価する際の重みを算出する重み算出手段とを備えていてもよい。
当該構成では、各文字グループの可能性に基づいて、上記各文字との類似度を評価する際の重みが算出されるので、上記各文字との類似度を評価する際の重みを、各文字グループの可能性に応じて変更できる。したがって、上記各文字との類似度を評価する際の重みを固定する構成と比較して、文字認識の精度を向上できる。
一方、本発明に係る文字認識方法は、上記課題を解決するために、複数の文字グループのいずれかに含まれる文字の画像または手書き入力を受け付けた文字を文字認識して文字コードに変換する文字認識工程を含む文字認識方法において、上記複数の文字グループのそれぞれについて、文字の認識結果が当該文字グループであると推定したという推定事象と、認識対象とする文字の属する文字グループが当該文字グループであると指定する操作を受け付けたという操作事象との少なくとも一方の事象の発生を検出する検出工程を含み、上記文字認識工程は、上記検出工程にて検出された事象の履歴およびその統計処理結果の少なくとも一方を参照して、文字の画像または手書き入力を受け付けた文字を文字コードに変換することを特徴としている。
上記構成でも、上記文字認識装置と同様に、上記の事象の履歴と、その統計処理結果との少なくとも一方を参照して、文字の画像または手書き入力を受け付けた文字が文字コードに変換される。したがって、認識の度に文字グループを指定する構成よりもユーザの操作回数が大幅に削減されているにも拘わらず、文字の画像または手書き入力のみを参照して文字コードに変換する構成よりも高い精度で文字認識できる。
ところで、上記文字認識装置は、ハードウェアで実現してもよいし、プログラムをコンピュータに実行させることによって実現してもよい。具体的には、本発明に係るプログラムは、上記各手段としてコンピュータを動作させるプログラムであり、本発明に係る記録媒体には、当該プログラムが記録されている。
これらのプログラムがコンピュータによって実行されると、当該コンピュータは、上記文字認識装置として動作する。したがって、上記文字認識装置と同様、認識の度に文字グループを指定する構成よりもユーザの操作回数が大幅に削減されているにも拘わらず、文字の画像または手書き入力をのみを参照して文字コードに変換する構成よりも高い精度で文字認識できる。
本発明によれば、上記の事象の履歴と、その統計処理結果との少なくとも一方を参照して、文字の画像または手書き入力を受け付けた文字が文字コードに変換される。したがって、認識の度に文字グループを指定する構成よりもユーザの操作回数が大幅に削減されているにも拘わらず、文字の画像または手書き入力のみを参照して文字コードに変換する構成よりも高い精度で文字認識できる。
この結果、複数の文字グループの文字を認識可能な携帯型の文字認識装置やカメラ付き携帯電話、あるいは、さらに、翻訳または辞書引き機能を備えた携帯型翻訳機/携帯型電子辞書をはじめとして、複数の文字グループの文字を認識可能な文字認識装置として広く好適に使用できる。
〔第1の実施の形態〕
本発明の一実施形態について図1ないし図15に基づいて説明すると以下の通りである。すなわち、本実施形態に係る文字認識装置は、例えば、多言語対応の文字認識装置など、認識対象文字が複数の文字グループのいずれに属している場合であっても、ユーザに余り負担をかけることなく、各認識対象文字が各文字グループのいずれであるかを高精度に判定可能な装置であって、例えば、カメラ付き携帯電話や携帯型の翻訳装置をはじめとして、種々の用途に好適に使用できる。
本発明の一実施形態について図1ないし図15に基づいて説明すると以下の通りである。すなわち、本実施形態に係る文字認識装置は、例えば、多言語対応の文字認識装置など、認識対象文字が複数の文字グループのいずれに属している場合であっても、ユーザに余り負担をかけることなく、各認識対象文字が各文字グループのいずれであるかを高精度に判定可能な装置であって、例えば、カメラ付き携帯電話や携帯型の翻訳装置をはじめとして、種々の用途に好適に使用できる。
以下では、一例として、文字認識装置が、カメラ付き携帯電話であって、しかも、認識された文字列を辞書引きして、意味を提示できる場合を例にして説明する。また、上記複数の文字グループは、例えば、漢字/ひらがな/カタカナなど、互いに同じ言語に属する文字グループ同士であってもよいが、以下では、一例として、英語/フランス語/ドイツ語/ポルトガル語など、各文字グループがそれぞれの言語で一般的に使用される文字である場合を例にして説明する。ここで、言語で一般的に使用される文字には、その言語固有の文字だけではなく、例えば、ギリシャ語の場合におけるASCII文字など、他の言語の文字が含まれていてもよい。なお、ASCII文字は、ギリシャ語のように、その言語固有の文字に含まれていない場合であっても、人名や、E−MAILのアドレス、URI( Universal Resource Identifier)やURL( Uniform Resource Locator )などで使用される可能性が高いので、各言語で一般的に使用される文字に含む方が望ましい。
以下では、文字グループの判定について説明する前に、装置全体のハードウェア構成、および、文字認識の概略について説明する。すなわち、本実施形態に係るカメラ付き携帯電話1は、図2に示すように、文字認識対象とする映像(被写体)を撮像する撮像部11と、ユーザインターフェースとなる表示部12および操作部(生成手段)13と、例えば、ROM(Read Only Memory)などから構成され、プログラム等が記録される不揮発性の記録媒体14と、例えば、RAM(Random Access Memory)などから構成され、作業用の領域として使用される読み書き可能な記録媒体15と、例えば、通信装置、スピーカ、マイクなど、携帯電話として動作するための電話用部材16と、例えば、CPU(Central Processing Unit )などからなり、それらを制御するための中央制御(コンピュータ)部17とを備えている。当該中央制御部17は、不揮発性の記録媒体14に格納されたプログラムを実行して、必要に応じて、読み書き可能な記録媒体15を使用したり、上記各部材11〜13および16を制御することによって、種々の機能ブロックを実現することができ、上記各部材11〜17を、カメラ付き携帯電話1として動作させることができる。なお、上記カメラ付き携帯電話1は、図示しない付加装置として、例えば、USB(Universal Serial Bus)、メモリカードスロットなどの外部記憶装置との接続装置を備えていてもよい。
上記撮像部11は、例えば、CCD( Charge-Coupled Device)、あるいは、デジタル電子カメラなどにより実現できる。また、上記表示部12は、例えば、液晶パネルなどにより実現され、上記中央制御部17が実行する画像表示プログラムなどにより生成された画像を表示できる。さらに、上記操作部13は、例えば、シャッターなどの操作を行うボタンなどを備え、操作入力機能を有している。また、上記記録媒体14には、例えば、対象文字判定プログラムを格納するエリア、文字認識プログラムを格納するエリア、および、画像表示プログラムを格納するエリアや、その他のプログラムを格納するエリアが設けられており、中央制御部17が、これらのプログラムを実行し、必要な周辺機器を制御することによって、後述する各機能ブロックを形成できる。
さらに、本実施形態に係るカメラ付き携帯電話1には、例えば、フラッシュメモリやバッテリバックアップされたRAMなどによって構成された、読み書き可能な不揮発性の記録媒体18が設けられており、上記中央制御部17は、当該記録媒体18に、後述する操作履歴を記憶することができる。
上記中央制御部17によって実現される機能ブロックとしては、種々の機能を有するものが挙げられるが、文字認識に関係する部分だけを挙げると、図1に示すようになる。具体的には、上記中央制御部17が上述したようにプログラムを実行すると、カメラ付き携帯電話1には、図1に示すように、認識対象とする文字列を含む画像を撮像して、撮像結果を示す画像データに変換する撮像処理部21と、撮像処理部21の撮像した画像データを領域分割して、認識対象とする文字列の画像データを抽出する画像処理部22と、当該文字列の画像データを文字認識して、認識結果としての文字列データを生成する認識処理部23と、文字列データに基づいて辞書引きして、文字列データの意味を、例えば、表示部12への表示などによってユーザに提示する辞書引き処理部24とが形成される。これにより、カメラ付き携帯電話1は、撮像した文字列を認識して、認識された文字列の意味をユーザに提示できる。
より詳細には、上記撮像処理部21は、例えば、図2に示す操作部13に対するユーザのシャッター操作などの撮像指示を検出すると共に、当該撮像指示に応じて、例えば、撮像部11を制御して上記読み書き可能な記録媒体15の画像バッファに撮像結果を格納させるなどして、撮像結果を確定できる。
なお、画像処理部22および認識処理部23は、多値の画像データに対して、領域分割処理、文字認識処理を行ってもよいが、本実施形態では、背景画像と認識対象とする文字の画像とを区別するために、これらの処理に先立って、画像処理部22が、多値の画像データを2値化し、上記各処理部22・23は、2値化後の画像データを画像処理して、領域分割処理、文字認識処理している。より詳細には、上記画像処理部22は、例えば、図2に示す読み書き可能な記録媒体15の画像バッファから画像データを読み出すなどして、上記撮像処理部21の撮像した画像データを2値化処理して、2値化後の画像データを、画像バッファに格納し、上記各処理部22・23は、当該画像バッファを参照するなどして、2値化後の画像データを取得している。
また、上記画像処理部22は、例えば、行抽出処理および単語抽出処理などの画像処理を行って、上記画像データから、認識対象とする文字列の画像データを抽出できる。
上記行抽出方法としては、種々の方法が挙げられるが、本実施形態に係る画像処理部22は、一例として、上記2値化後の画像データの示す画像を横方向に投影し、投影分布を求め、投影分布に基づいて各行を分離し、その中から認識対象とする単語を含む行を選択する方法を採用している。また、本実施形態に係る画像処理部22は、投影を求めるための好ましい方法として、例えば、横方向に画素数を加算する方法を採用しており、比較的少ない演算量で、投影を求めることができるが、他の方法として、連結成分の外接矩形を求め、外接矩形に含まれる画素数の加算値を計算するなどの方法を採用してもよい。また、本実施形態に係る上記画像処理部22は、撮像した画像データにおいて、最も中央部に近い行を、目的の行と判断して選択している。
これにより、例えば、図3に示す画像が撮像された場合、画像処理部22は、当該画像のデータを、図4に示すように、各行L1〜L4に分割すると共に、2番目の行L2を目的の行として選択できる。
また、単語抽出方法も、種々の方法が挙げられるが、本実施形態に係る画像処理部22は、一例として、以下の方法を採用している。すなわち、画像処理部22は、選択された行に含まれる黒画素を連結成分に分割し、それぞれの連結成分の外接矩形を求める。この外接矩形相互間の距離を求め、隣接する矩形間の距離が一定値(例えば、矩形の平均高さの0.5倍など)を超えた場合、単語の区切りと判断する。ここで、一般に、英語などの言語では、単語間には、単語内の文字間よりも大きな空白が設けられる。したがって、上記のように判断することによって、的確に単語間の区切りを検出できる。さらに、本実施形態に係る画像処理部22は、単語毎に区切られた画像データにおいて、最も中央部に近い単語の画像データを、認識対象とする単語の画像データとして選択している。
これにより、図5に示すように、画像処理部22は、上記行L2の画像データを、単語W1〜W5の画像データ(範囲)に分割することができ、その中の3番目の単語W3を目的の単語として選択できる。
なお、上記では、画像処理部22が中央の行および単語を選択する場合について説明したが、画像処理部22は、当該処理に代えて/加えて、例えば、分離された各行または単語を提示するなどして、ユーザに選択操作を促すと共に、受け付けた選択操作(例えば、十字キーへの操作など)の示す行または単語を選択する処理を行ってもよい。
一方、本実施形態に係る認識処理部23は、上記画像処理部22によって抽出された文字列の画像データを文字認識処理して、文字列を構成する各文字の文字コードを示す文字列データ(例えば、文字コード列など)を出力できる。
ここで、本実施形態に係る認識処理部23は、文字単位で文字認識処理を行っている。具体的には、本実施形態に係る認識処理部23は、単語分割する際と同様に、文字列の画像データを各文字の画像データに分割できる。より詳細には、認識処理部23は、例えば、単語分割時に算出した黒画素連結成分の情報を用い、隣接する矩形間の距離が、単語分割時よりも低い値に設定された一定値を超えた場合、文字の区切りと判断するなどして、各文字を切り出している。
また、上記認識処理部23は、図示しない文字認識辞書を備えており、切り出された画像データを当該文字認識辞書と照合することによって、認識結果となり得る文字コードの文字のそれぞれについて、当該文字yと当該画像データの示す文字との類似度R(y)を求め、各文字yの類似度R(y)同士を比較して、認識結果となる文字コードを決定できる。なお、本実施形態では、類似度R(y)を評価する際に、後述する履歴情報に基づく重み付けを行うなどして、履歴情報により、文字認識処理の方法および出力される文字コード列の少なくとも一方を変化させているが、それについては、後の履歴情報の説明と共に詳述する。
類似度R(y)を算出する方法は、種々の方法が考えられるが、本実施形態に係る認識処理部23は、その一例として、上記文字認識辞書に記憶された文字の形状(辞書形状)と、認識対象となる文字の画像から特定された文字の形状(文字形状)とが一致した場合に、類似度R(y)を、最大値(例えば、10,000)に設定し、辞書形状と文字形状との相違が大きくなる程、類似度R(y)を下げている。
一方、辞書引き処理部24は、図示しない辞書を備えており、例えば、認識処理部23の出力する文字列データに関連付けて記憶された文字列データの意味を、当該辞書から読み出して、ユーザに提示できる。
例えば、上記辞書に、”queue”という英単語に関連付けて、”(順番を待つ列)…”という意味が記憶されている場合、例えば、認識処理部23が図5に示す単語W3を文字認識して、”queue”という文字列を示す文字列データを出力すると、辞書引き処理部24は、例えば、図6に示すように上記意味を表示するなどして、当該文字列の意味をユーザに提示できる。
また、本実施形態に係る認識処理部23は、辞書引き結果に誤りがあった場合、例えば、選択可能な言語を表示部12などにより提示して言語の選択を促すと共に、操作部13による選択操作を受け付けるなどして、認識対象となる文字列の属する言語の入力を受け付けることができる。さらに、認識処理部23は、例えば、受け付けた言語に属する文字のみを照合の対象にするなどして、認識結果となる文字列が当該言語に属する文字からなるように、文字列の画像データを再度文字認識できる。
これにより、ユーザは、カメラ付き携帯電話1が認識対象となる文字列の言語にない文字を認識結果に挙げている場合、正しい言語を指示することにより、カメラ付き携帯電話1が正しい言語を推定して文字認識するときよりも高い精度で文字認識させることができる。
なお、認識処理部23は、文字毎の修正指示を受け付けると共に、修正指示に応じて、認識結果を修正し、再度、辞書引き処理部24に辞書引きを指示できるので、言語を指定しても文字認識に失敗する場合であっても、正しい辞書引き結果を提示できる。
さらに、本実施形態に係る認識処理部23には、上述した文字の類似度R(y)を算出する文字認識処理部31に加えて、上記言語の指定操作を含む事象の履歴を示す履歴情報を記憶する履歴情報記憶部(記憶装置)41と、履歴情報記憶部41に格納された履歴情報に基づき、認識可能な言語xのそれぞれについて、次に認識しようとする文字列が当該言語xの文字列である可能性を示す可能性値P(x)を算出する言語可能性値推定部(生成手段;推定手段)42と、各言語xの可能性値P(x)に基づいて、類似度判定時のR(y)に付与する重み(その文字yの認識対象確率値)としてのQ(y)を算出する重み算出部43と、上記文字認識処理部31の出力する文字の類似度R(y)に、上記重み算出部43からの当該重みQ(y)を付与して評価し、評価結果に基づいて文字列データを生成する文字列生成部44とが設けられている。なお、電源断に伴なう統計情報の損失を防止するために、上記履歴情報記憶部41は、読み書き可能な不揮発性の記録媒体18に形成されている方が望ましい。また、上記文字認識処理部31および文字列生成部44が特許請求の範囲に記載の文字決定手段に対応する。
ここで、上記重み算出部43は、上記重みQ(y)を算出する際、言語xの可能性値P(x)の低い言語xのみに属する文字yは、重みQ(y)がより小さく、可能性の高い言語x属する文字yは、重みQ(y)がより大きくなるように算出する。
これにより、認識処理部23は、単に類似度R(y)を評価するのではなく、履歴情報に基づく重みQ(y)を付けて類似度R(y)を評価できる。したがって、認識の度に言語を指定する構成よりもユーザの操作回数が大幅に削減され、ユーザに与えるストレスが軽減されているにも拘わらず、類似度R(y)のみに基づいて文字認識する構成よりも高い精度で文字認識できる。
なお、上記履歴情報として、後述する種々の履歴情報を用いることができるが、以下では、履歴情報が、言語の指定操作、言語の推定結果、並びに、電源および通信機能のON/OFFの履歴を示している場合を例にして説明する。
より詳細には、本実施形態に係る履歴情報記憶部41には、履歴情報として、図7に示すように、上記言語の指定操作の履歴を示す操作履歴情報が記憶されている。当該操作履歴情報は、言語に関連付けて、操作された時点の情報を記憶したものであって、本実施形態では、操作された時点の情報(例えば、日付情報および時刻情報)と言語を示す情報とを含んでいる。また、上記操作部13は、言語の指定操作を受け付けた場合、上記操作履歴情報として、上記受け付けた時点の情報を、当該言語に関連付けて、履歴情報記憶部41に追加できる。
これにより、言語可能性値推定部42は、例えば、履歴情報記憶部41に格納された操作履歴情報の時点情報のうち、特定の言語に関連付けられた時点情報を抽出するなどして、各言語について、当該言語への操作を受け付けた時点のリストを取得できる。
さらに、本実施形態に係る言語可能性値推定部42は、上記認識処理部23が文字列の画像データを文字認識する度に、各言語xの可能性値P(x)に基づく推定結果の履歴を示す推定履歴情報を生成し、履歴情報として、履歴情報記憶部41に追加できる。
当該推定履歴情報は、推定結果に関連付けて、推定した時点の情報を記憶したものである。本実施形態では、上記推定履歴情報は、時点の情報と、推定結果を示す情報とを含んでいる。また、本実施形態に係る言語可能性値推定部42は、上記推定結果を示す情報として、上記言語可能性値推定部42の算出した各言語xの可能性値P(x)のうち、最も大きな値を持ったものに対応する言語xを示す情報を履歴情報記憶部41に書き込んでいる。
これにより、言語可能性値推定部42は、例えば、履歴情報記憶部41に格納された全推定履歴情報から、履歴情報記憶部41の各操作履歴情報の時点情報の直前を示す時点情報を持った推定履歴情報を取り除くなどして、推定後に修正されなかった推定履歴情報(無修正推定履歴情報)を抽出することができる。さらに、言語可能性値推定部42は、例えば、当該無修正推定履歴情報の時点情報のうち、特定の言語に関連付けられた時点情報を抽出するなどして、各言語について、当該言語と正しく推定した時点(その後に修正されなかった推定時点)のリストを取得できる。
本実施形態では、図7に示すように、推定履歴情報および操作履歴情報が言語履歴情報としてまとめられており、時点の情報と、推定結果を示す情報と、言語の指定操作を受け付けたか否か、および、受け付けた場合は、指定された言語を示す操作情報との組み合わせとして、履歴情報記憶部41に格納されている。なお、一般に、修正を指示する場合、推定した時点と修正した時点とは、略同時であり、上記両時点を同時とみなしても言語xの可能性値P(x)を算出する際に必要な精度を保つことができるので、本実施形態では、より後の時点を示す時点情報を、上記両時点の情報として使用している。具体的には、言語可能性値推定部42は、例えば、推定結果の履歴を書き込む際、時点の情報と、推定結果の情報と、操作受付なしを示す操作情報とを書き込んでいる。また、上記操作部13は、言語の指定操作を受け付けた場合、履歴情報記憶部41に格納された言語履歴情報のうち、最新の言語履歴情報に関連付けて、受け付けた言語を示す情報を書き込むと共に、時点の情報を、操作を受け付けた時点を示すように修正している。これにより、言語可能性値推定部42は、例えば、履歴情報記憶部41に格納された言語履歴情報の時点情報から、特定の言語xに関連付けられ、しかも、操作情報が「操作受付なし」を示す時点情報を抽出するだけで、当該言語xと正しく推定した時点のリスト(無修正履歴情報の時点のリスト)を取得できる。
また、本実施形態に係る履歴情報記憶部41には、他の履歴情報として、電源ON/OFFの履歴を示す電源履歴情報と、通信機能のON/OFFの履歴を示す通信機能履歴情報とが記憶されている。当該電源および通信機能履歴情報は、電源ON/OFFという事象あるいは通信機能のON/OFFという事象に関連付けて、その事象が発生した時点の情報を記憶したものである。本実施形態では、上記電源および通信機能履歴情報が、機器の状態履歴情報としてまとめられており、時点の情報と、各事象を示す情報との組み合わせとして記憶されている。例えば、図7に示す、10番目の状態履歴情報は、2005/2/25の23:08という時点を示す情報と、電源OFFを示す情報と、通信機能のOFFとを示す情報とを含んでいる。
なお、カメラ付き携帯電話1は、電源および通信機能のON/OFFを監視して、上記各事象の発生を検出してもよいが、本実施形態では、電源および通信機能のON/OFF操作を受け付けたか否かによって、上記各事象の発生を検出しており、操作部13は、これらの操作を受け付けた場合、受け付けた事象に関連付けて、その事象が発生した時点の情報を、上記電源および通信機能履歴情報として、履歴情報記憶部41に追加できる。
これにより、言語可能性値推定部42は、例えば、履歴情報記憶部41に記憶されている、通信機能OFFに関する状態履歴情報のうちの最新のものが電源OFFを示す情報を含まず、しかも、通信機能OFFを示す情報を含む状態履歴情報であるか否かを判定し、さらに、含んでいる場合は、その時点から、次に通信機能ONを示す情報を含む状態履歴情報の時点までの期間が予め定められた閾値を超えているか否かを判定したり、履歴情報記憶部41に、現在の時点との時間差が予め定められた閾値よりも短く、しかも、電源OFFを示す情報を含まず、通信機能OFFを示す情報を含む状態履歴情報が記憶されているか否かを判定し、さらに、記憶されている場合は、その時点から、次に通信機能ONを示す情報を含む状態履歴情報の時点までの期間が予め定められた閾値を超えているか否かを判定したりして、直前に、電源がOFFされずに通信機能がOFFされ、しかも、通信機能OFFの時間が予め定める期間を超えているか否かを判定できる。
一方、本実施形態に係る言語可能性値推定部42は、以下に示すようにして、履歴情報記憶部41に格納された各履歴情報に基づいて、各言語xの可能性値P(x)を算出している。すなわち、履歴情報記憶部41は、上述したように、履歴情報記憶部41に格納された各履歴情報が、「直前に、電源がOFFされずに通信機能がOFFされ、しかも、通信機能OFFの時間が予め定める期間を超えている」ことを示しているか否かを判定し、示していると判定した場合、例えば、重み算出部43へ指示するなどして、文字列生成部44が各文字yの類似度R(y)を評価する際の重みQ(y)を互いに等しい値(例えば、それぞれ”1”)に設定できる。
これとは逆に、示していないと判定した場合、上記言語可能性値推定部42は、以下の式(1)に示すように、
P(x)=W1・Σ(1/ta2 ) + W2・Σ(1/tm2 ) …(1)
により、各言語xの可能性値P(x)を算出する。
P(x)=W1・Σ(1/ta2 ) + W2・Σ(1/tm2 ) …(1)
により、各言語xの可能性値P(x)を算出する。
なお、本実施形態に係る言語可能性値推定部42は、各言語xの可能性値P(x)を算出する際、例えば、各言語xの可能性値P(x)を互いに同じ値で割るなどして、各言語xの可能性値P(x)の合計が予め定められた値(例えば、”1”)になるように正規化している。
ここで、上式(1)において、tmは、履歴情報記憶部41に格納された操作履歴情報のうち、可能性値P(x)の算出対象とする言語xに関連付けられた各操作履歴情報において、操作された時点から現時点までの時間を示しており、Σ(1/tm2 )は、履歴情報記憶部41に格納された操作履歴情報のうち、当該言語xに関連付けられた操作履歴情報の全てについての(1/tm2 )の合計を示している。なお、言語可能性値推定部42は、例えば、操作履歴情報に含まれる時点の情報と現在の時点の情報との時間差を算出するなどして、各操作履歴情報についてのtmを求めることができる。
同様に、taは、履歴情報記憶部41に格納された無修正推定履歴情報のうち、可能性値P(x)の算出対象とする言語xに関連付けられた各無修正推定履歴情報において、推定された時点から現時点までの時間を示しており、Σ(1/ta2 )は、履歴情報記憶部41に格納された無修正推定履歴情報のうち、当該言語xに関連付けられた無修正推定履歴情報の全てについての(1/ta2 )の合計を示している。なお、言語可能性値推定部42は、例えば、無修正推定履歴情報に含まれる時点の情報と現在の時点の情報との時間差を算出するなどして、各無修正推定履歴情報についてのtaを求めることができる。
また、W1およびW2は、右辺の各項が可能性値P(x)に寄与する程度を示す重みであって、それぞれが適切な値に予め定められている。本実施形態では、例えば、”1”と”2”とのように、W2の方がW1よりも大きく、操作履歴情報の方が、より可能性値P(x)の向上に寄与するように設定されている。
なお、上記では、一例として、言語可能性値推定部42が算出する場合を例にして説明したが、履歴情報記憶部41が計算機能を有している場合は、言語可能性値推定部42は、例えば、Σ(1/tm2 )の結果を問い合わせるなど、上記式(1)の一部または全部の計算結果を問い合わせて、言語xの可能性値P(x)を決定してもよい。
一方、本実施形態に係る重み算出部43は、予め定められた閾値よりも大きな言語可能性値P(x1)の言語x1と、当該閾値以下の言語可能性値P(x2)の言語x2とがある場合、言語x2にのみ属する文字yの重みQ(y)を”0”に設定する。なお、可能性値P(x)が”0”〜”1”の値になるように正規化した場合、上記閾値として、例えば、”0.6”などの値が好適に使用される。
これにより、上記の場合、すなわち、認識対象となる文字列の言語が、言語x1のいずれかであり、言語x2である可能性が殆どないと判断した場合に、重み算出部43は、当該言語x2のみに含まれる文字が、認識結果に含まれないように制御できる。
なお、本実施形態に係る認識処理部23には、例えば、図8に示すように、認識可能な全ての文字と認識可能な全ての言語との組み合わせについて、当該文字が当該言語に含まれているか否かを示す属性が記憶された言語テーブル45を備えており、上記重み算出部43は、当該言語テーブル45を参照して、各文字がいずれの言語に含まれているかを判定できる。
より詳細には、本実施形態に係る言語テーブル45は、「属性の種類(言語の数)」×「認識対象文字数」分の表である。図8では、説明の便宜上、表の左に、属性の種類を図示し、上に認識候補文字を図示している。また、図8では、ある言語が、その言語に属している場合、その属性を”1”、属していない場合は、その属性を”0”と図示している。例えば、ある文字「A(グレーブ付き)」は、フランス語には、含まれているが、ドイツ語には含まれていない。したがって、図8の表において、「A(グレーブ付き)」と「フランス語」とが交差する位置には、その言語に属していることを示す値(その種類の属性を有していることを示す値)として、”1”が配置され、「ドイツ語」と交差する位置には、その言語に属していないことを示す値(その種類の属性を有していないことを示す値)として”0”が配置されている。なお、ある文字が、複数の言語で使用されることがあるため、例えば、図8に示す文字「A」のように、ある文字が複数の属性を持っていてもよい。
さらに、この場合、重み算出部43は、上記言語x1のいずれかに属する文字yの重みQ(y)を互いに同じ値(例えば、”1”)に設定する。これにより、各言語x1の言語可能性値P(x1)が上記閾値を超えており、どの言語x1の文字であってもおかしくない場合に、重み算出部43が各言語x1の言語可能性値P(x1)を算出する際の誤差が認識結果に反映されることを防止できる。
一方、上記閾値を超える可能性値P(x)を持った言語xが存在しない場合、重み算出部43は、重みQ(y)が0<Q(y)<1を満たし、しかも、文字yの属する言語xの可能性値P(x)が大きくなる程、重みQ(y)が大きくなるように、重みQ(y)の値を決定する。
例えば、本実施形態では、複数の属性を持つ(複数の言語に含まれる)文字は、上記で求められた、各言語xの可能性値P(x)の最大値を用いており、重みQ(y)を、以下の式(2)に示すように、
Q(y)=MAX(P(y∈x)) …(2)
により決定している。なお、上式(2)において、y∈xは、文字yを含む言語xを示し、P(y∈x)は、当該言語xの可能性値P(x)の値であり、MAX(P(y∈x))は、文字yを含む各言語xの可能性値P(x)のうち、最大値を示している。
Q(y)=MAX(P(y∈x)) …(2)
により決定している。なお、上式(2)において、y∈xは、文字yを含む言語xを示し、P(y∈x)は、当該言語xの可能性値P(x)の値であり、MAX(P(y∈x))は、文字yを含む各言語xの可能性値P(x)のうち、最大値を示している。
本実施形態に係る文字列生成部44は、認識対象となる各文字の画像データについて、例えば、以下の式(3)に示すように、
R1(y)=R(y)・Q(y) …(3)
を算出し、当該重み付与後の類似度R1(y)の和が最大になる文字コードの並びを示すデータを、認識結果の文字列データとして出力できる。
R1(y)=R(y)・Q(y) …(3)
を算出し、当該重み付与後の類似度R1(y)の和が最大になる文字コードの並びを示すデータを、認識結果の文字列データとして出力できる。
一方、操作部13は、言語の指定操作を受け付けた場合、例えば、重み算出部43に指示して、当該言語の重みQ(y)を0以外の値(例えば、”1”など)に設定し、当該言語以外の重みQ(y)を”0”に設定するなどして、認識処理部23が文字列の画像データを文字認識する際に比較対象とする文字の範囲を、当該言語に含まれる文字に限定できる。
上記構成において、カメラ付き携帯電話1が文字認識する際の動作を、図9に基づき説明すると、以下の通りである。すなわち、ステップ1(以下では、S1のように略称する)において、撮像処理部21がユーザの撮像操作を受け付け、撮像結果を示す画像データを生成すると、画像処理部22は、S2において、上述したように、例えば、2値化処理、行抽出処理、単語抽出処理などの画像処理を行って、上記画像データの中から、認識対象とする文字列の画像データを抽出し、認識処理部23へ当該画像データの文字認識を指示する。
一方、認識処理部23の重み算出部43は、S11において、言語可能性値推定部42が履歴情報記憶部41の履歴情報を参照して算出した各言語xの可能性値P(x)に基づいて、各文字yの類似度R(y)を評価する際の重みQ(y)を決定する。
当該重みQ(y)決定処理について、より詳細に説明すると、図10に示すS21において、言語可能性値推定部42は、履歴情報記憶部41を参照し、履歴情報の有無、および、直前に電源がOFFされずに通信機能がOFFされ、しかも、通信機能OFFの時間が予め定める期間を超えているか否かを判定する。
履歴情報が記録されており、しかも、直前に電源がOFFされずに通信機能がOFFされ、しかも、通信機能OFFの時間が予め定める期間を超えていることを履歴情報が示していない場合(上記S21にて、それ以外の場合)、言語可能性値推定部42は、S22において、履歴情報記憶部41の操作履歴情報および推定履歴情報に基づいて、例えば、上述の式(1)などに従って、各言語xの可能性値P(x)を算出する。
さらに、重み算出部43は、S23において、これらの可能性値P(x)のうち、閾値を超えたものがあるか否かを判定し、超えたものがある場合、S24において、閾値を超えた可能性値P(x)を持った言語xに属する文字yの重みQ(y)を”1”に設定し、残余の文字yの重みQ(y)を”0”に設定する。
これとは逆に、いずれの可能性値P(x)も閾値を超えていない場合、S25において、各言語xの可能性値P(x)に応じ、例えば、上述の式(2)などに従って、各文字yの重みQ(y)を算出する。
また、上記S21において、履歴情報が記録されていないか、あるいは、直前に電源がOFFされずに通信機能がOFFされ、しかも、通信機能OFFの時間が予め定める期間を超えていることを履歴情報が示している場合、重み算出部43は、S26において、各文字yの重みQ(y)を”1”に設定する。
一方、図9に示すS12において、言語可能性値推定部42は、各言語xの言語可能性値P(x)に基づいて、認識対象となる文字列の画像データが属している言語の推定結果を示す推定結果情報を生成し、推定結果の履歴を示す推定履歴情報を履歴情報記憶部41に格納する。
さらに、S13において、文字認識処理部31は、認識対象とする文字列の画像データに含まれる各文字の画像データを文字認識して、文字y毎に、類似度R(y)を算出し、文字列生成部44は、当該類似度R(y)に、上記S11(S21〜S26)にて算出した重みQ(y)を付加して評価する。さらに、文字列生成部44は、重み付与後の類似度R1(y)が最大になる文字コードを当該文字の文字コードとして決定し、これらの文字コードの並びを示す文字列データを、認識結果とする。
一方、S14において、辞書引き処理部24は、上記S13の認識結果の文字列を辞書引きして、その結果を表示する。これにより、例えば、図6に示すように、撮像した画像データを文字認識し、その認識結果の文字列を辞書引きした結果がユーザに提示される。
ここで、認識結果が正しければ、カメラ付き携帯電話1は、当該画像データに対する処理を終了するが、認識結果の言語が誤っていた場合、ユーザは、言語の修正を指示し、操作部13が修正指示を受け付ける。
この場合(S31にて、YES の場合)、操作部13は、S32において、修正指示を示す操作履歴情報を履歴情報記憶部41に書き込む。さらに、認識処理部23は、S33において、指示された言語xに含まれる文字yを対象にして、文字認識を行い、その結果の文字コードの並びを示す文字列データを生成する。一方、辞書引き処理部24は、S34において、S14と同様に当該文字列データの示す文字列を辞書引きし、ユーザに提示する。
このように、本実施形態に係るカメラ付き携帯電話1は、過去の履歴情報に基づいて、認識対象とする文字列が属している言語xの可能性値P(x)を計算し、文字認識する際、当該可能性値P(x)に基づいて決定した重みQ(y)を付加して、類似度R(y)を評価する。これにより、利用者が文字認識時に毎回言語を指定しなくても、履歴情報を参照せずに文字認識する構成よりも高い精度で文字認識できる。
したがって、利用場所、言語などの違いに制約されることなく、画像データとして取り込まれた各言語で表記された文字を、高精度な文字認識により容易に入力することができる。このため、海外旅行先などの看板、メニューなどに記述されている文字の認識の他、自宅で複数の言語を学習している時のそれぞれの言語の文字の認識のいずれにおいても操作性を顕著に向上できる。
さらに、本実施形態に係るカメラ付き携帯電話1は、履歴情報として、上記言語の指定操作の履歴を示す操作履歴情報を記憶しており、ある言語xの指定操作回数が多い程、当該言語xの可能性値P(x)、並びに、その言語xに含まれる文字yの重みQ(y)を高くしている。同様に、上記履歴情報には、各言語xの可能性値P(x)に基づく推定結果の履歴を示す推定履歴情報が含まれており、ある言語xの推定回数が多い程、当該言語xの可能性値P(x)、並びに、その言語xに含まれる文字yの重みQ(y)を高くしている。これにより、過去に推定または指定された回数が多い言語x、すなわち、これからも文字認識が行われる可能性が高い言語xに属する文字yの重みQ(y)を高くすることができ、より高い精度で文字認識できる。
さらに、本実施形態に係るカメラ付き携帯電話1は、操作履歴情報および推定履歴情報の少なくとも一方を参照して可能性値P(x)および重みQ(y)を決定する際、より新しい時点での履歴情報の寄与が古い時点での履歴情報の寄与よりも大きくしている。これにより、かつて文字認識の対象としていた言語と、最近文字認識の対象としている言語とが異なっている場合であっても、より新しい時点で推定または指定された言語x、すなわち、これからの文字認識の対象になる可能性が高い言語xに属する文字yの重みQ(y)を高くすることができ、より高い精度で文字認識できる。これにより、例えば、連続して同一の言語xを文字認識させる場合の認識精度が向上される。
また、本実施形態に係るカメラ付き携帯電話1では、操作履歴情報が可能性値P(x)および重みQ(y)に寄与する程度を、推定履歴情報が可能性値P(x)および重みQ(y)に寄与する程度よりも大きく設定している。これにより、カメラ付き携帯電話1による推定よりも信頼性の高いユーザの言語指定を優先して、可能性値P(x)および重みQ(y)に反映させることができ、より高い精度で文字認識できる。
さらに、本実施形態に係るカメラ付き携帯電話1は、ある言語xであると推定されても、その後に言語xの修正指示を受け付けた場合には、その推定結果を可能性値P(x)の向上に反映させていない。これにより、過去の誤った推定結果に起因する認識精度の低下を防止できる。
また、本実施形態に係るカメラ付き携帯電話1は、履歴情報として、電源および通信機能の履歴情報も記憶しており、「直前に電源がOFFされずに通信機能がOFFされ、、しかも、通信機能OFFの時間が予め定める期間を超えている」ことを履歴情報が示している場合、履歴情報に応じた重みQ(y)の調整を中止する。
これにより、直前に電源がOFFされずに通信機能がOFFされ、しかも、通信機能OFFの時間が予め定める期間を超えている場合、すなわち、飛行機などによる長距離移動が疑われ、認識対象とする文字の属する言語が、これまで認識対象としていた言語から変化していることが疑われる場合、カメラ付き携帯電話1は、それまでの履歴情報を参照せずに文字認識できる。したがって、長距離移動した場合でも、認識精度を低下させることなく、高精度に文字認識できる。
ところで、常に入力される可能性のある言語で使用される全ての文字を認識対象(認識候補)とする構成では、認識候補中に、形状の類似した文字がより多く存在してしまうため、認識精度が低下しやすい。なお、形状の類似した文字としては、例えば、”a”と、グレーブ、アキュート、サーカムフレクス、チルダ、ウムラウトあるいはリングが付された”a”とのように、文字形状の限られた一部分のみが異なる文字同士が挙げられる。また、合字と、その合字を構成する文字との間では、文字切り出し位置の判定の失敗に起因する認識精度低下が発生する。
なお、上記文字認識精度の低下は、より複雑な文字認識処理を行うことによって、ある程度回避できるが、文字認識に必要な演算量が増加してしまう。したがって、携帯型の装置のように、携帯するために据え置き型の装置よりも高い演算能力を確保しにくい装置では、演算能力が不足して、認識時間が増加する虞れがある。
ここで、カメラ付き携帯電話のように、携帯型の装置が通信機能を有している場合は、上述した特許文献3に記載されているように、処理の一部を、ホストコンピュータに移管すれば、演算能力不足を解消できる。ただし、文字認識可能な場所は、ホストコンピュータと通信可能な場所に限定され、ホストコンピュータと通信不可能な場所(例えば、電波の届かない地下室)などでは、文字認識できなくなってしまう。
また、通信する場合には、母国以外で利用する場合には、利用する国の通信会社と通信できるようにローミング契約等を行う必要がある場合が多く、また料金も高額になるのが一般的である。したがって、例えば、旅行等で母国以外の場所で、看板、パンフレット、レストランのメニュー、電光表示板に表示されている文字を翻訳したい場合に、契約形態、コスト面での制約が発生する虞れがある。
これに対して、本実施形態に係るカメラ付き携帯電話1は、各言語xの可能性値P(x)に基づいて、ある言語xの可能性が殆どないと判断した場合に、当該言語xのみに含まれる文字が、認識結果に含まれないように、認識結果となり得る文字yを変更(制限)している。したがって、常に入力される可能性のある言語で使用される全ての文字を認識対象とする構成よりも、文字認識に必要な演算量を余り増加させることなく、文字認識の精度を向上できる。この結果、カメラ付き携帯電話1のように、携帯型の装置であっても、他の装置に処理の一部を移管することなく、充分な速度かつ充分な精度で文字認識できる。したがって、ホストコンピュータと通信する場合よりも、カメラ付き携帯電話1が文字認識可能な場所を広げることができる。
また、認識対象とする言語を表示言語と連動させる構成とは異なって、本実施形態に係るカメラ付き携帯電話1は、履歴情報を参照して、文字を認識しているので、認識とする言語と表示言語とを別々に設定できる。したがって、例えば、海外旅行先などの看板、メニューなどに記述されている文字の認識の他、自宅で複数の言語を学習しているなどのように、ユーザが、認識対象とする言語を理解できない(あるいは、理解しにくい)場合であっても、表示言語を自らが理解しやすい言語に設定できる。したがって、認識対象とする言語を表示言語と連動させる構成とは異なって、以下の不具合、すなわち、認識対象とする言語を理解できない(あるいは、理解しにくい)場合に、表示メッセージが理解できず、事実上、機器を操作できなくなるという不具合の発生を防止できる。
ところで、上記では、認識対象となり得る言語全ての辞書を統合した辞書が辞書引き処理部24に設けられている場合を例にして説明したが、各言語の辞書を個別に用意し、辞書引き処理部24が、上記各言語xの可能性値P(x)に基づいて、最も可能性の高い言語xを推定し、その言語用の辞書に切り換えて辞書引きしてもよい。また、上記では、カメラ付き携帯電話1に辞書引き処理部24が認識結果となる文字列(単語)の意味を提示する場合を例にして説明したが、これに限るものではない。例えば、住所録などのデータベースであってもよい。認識結果となる文字列を検索語として、検索可能なデータベースであれば、いずれのデータベースを引く場合でも同様の効果が得られる。また、上記では、辞書引き処理部24が認識結果となる文字列と一致する文字列に関連付けられたデータを提示する場合について説明したが、これに限るものではなく、予め定められた手順(例えば、検索語を含んでいるか否かなど)によって、検索してもよい。
また、上記では、カメラ付き携帯電話1に辞書引き処理部24が設けられ、認識処理部23が認識した文字列を示す文字列データを辞書引きした結果がユーザに提示される場合を例にして説明したが、これに限るものではない。例えば、文字列生成部44が表示部12へ指示するなどして、認識した文字列をユーザに提示してもよい。
また、上記では、文字列生成部44が、重み付与後の類似度R1(y)の和が最大になる文字列を認識結果とする場合について説明したが、これに限るものではない。類似度R(y)だけではなく、上記各事象の履歴に由来する重みQ(y)を類似度R(y)に付加して評価して文字列データを生成すれば、略同様の効果が得られる。
以下では、文字列生成部44に代えて、他の方法で文字列データを生成する文字列生成部44aが設けられたカメラ付き携帯電話1aについて説明する。図11に示すように、当該文字列生成部44aにも、文字認識処理部31および重み算出部43から、各文字の類似度R(y)と重みQ(y)とが与えられており、文字列生成部44aは、認識対象となる文字列に含まれる各文字の類似度R(y)と、それぞれの重みQ(y)とに基づいて、各言語について、文字列全体が、その言語に属している可能性を示す言語ポイントL(x)を算出できる。さらに、文字列生成部44aは、認識結果となる文字列が、最も言語ポイントL(x)の高い言語xに含まれる文字yのみから構成されるように、認識結果となる文字列データを整形している。なお、最大の言語ポイントL(x)を持った言語xが複数ある場合、文字列生成部44aは、これらのうち、最も言語可能性値P(x)が高い言語を認識結果の言語と判定する。
また、文字列生成部44aが認識対象の言語を判定することに伴なって、本変形例に係るカメラ付き携帯電話1aでは、言語可能性値推定部42に代えて、文字列生成部44aが、推定結果となる言語xを示す推定履歴情報を、履歴情報記憶部41に格納している。なお、本変形例に係る文字列生成部44aは、特許請求の範囲に記載の生成手段にも対応している。
より詳細には、本変形例に係る文字列生成部44aは、上記文字列生成部44と同様に、重み付与後の類似度R1(y)を求める。ただし、本変形例に係る文字列生成部44aは、最大の類似度R1(y)を持った文字yだけではなく、例えば、図12に示すように、認識対象とする文字のそれぞれについて、予め定められた順位(例えば、3位までなど)の類似度R1(y1)〜R1(y3)を持った文字y1〜y3を求めている。
さらに、上記文字列生成部44aは、図13に示すように、各言語xの言語ポイントL(x)を求める。具体的には、上記順位には、それぞれ、予めポイントが定められている。当該ポイントは、より順位の高い程、多くなるように設定されており、本実施形態では、一例として、1位が5ポイント、2位が3ポイント、3位が1ポイントに設定されている。また、文字列生成部44aは、認識対象とする文字のそれぞれについて、各言語xの言語ポイントL(x)に、各順位の文字yのうち、当該言語xに属し、しかも、最も順位の高いもののポイントを加算する。
例えば、図12の例では、英語は、最初の認識対象文字”A(ウムラウト付き)”の類似度R1(y)の評価結果は、評価の高いものから順に、”A(ウムラウト付き)”、”A(サーカムフレクス付き)”、および、”A(チルダ付き)”である。したがって、ドイツ語の言語ポイントLには、1位となる”A(ウムラウト付き)”が属しているため、5ポイントが加算される。また、2位となる”A(サーカムフレクス付き)”は、フランス語およびポルトガル語に属しているため、両者の言語ポイントLに3ポイントが加算される。なお、3位となる”A(チルダ付き)”が属している言語は、2位に含まれているので、ポイントは加算されない。これにより、図13に示すように、英語、フランス語、ドイツ語、イタリア語、スペイン語、ポルトガル語およびギリシャ語のそれぞれに、0、3、5、0、0、3、0ポイントが加算される。文字列生成部44aは、認識対象となる文字列を構成する文字全てについて、この処理を行う。これにより、図13の合計欄に記載されているように、上記各言語の言語ポイントLは、28、31、33、28、28、31、30となる。したがって、文字列生成部44aは、最も言語ポイントL(x)の高いドイツ語を、認識対象の言語として推定する。
さらに、文字列生成部44aは、例えば、図11に示す言語テーブル45を参照するなどして、認識結果となる文字が、当該認識対象の言語に含まれているか否かを判定し、含まれていない場合は、例えば、当該文字を、当該文字の認識結果の候補のうち、認識対象の言語に含まれ、しかも、最も順位の高い文字に変更するなどして、最も言語ポイントL(x)の高い言語xに含まれる文字yのみから構成されるように、認識結果となる文字列データを整形している。
例えば、図12の例では、第1位の文字のうち、5番目の文字は、γであり、ドイツ語に含まれていない。したがって、文字列生成部44aは、”γ”を候補から外し、当該文字の認識結果の候補”γ”、”r”、”n”のうち、ドイツ語に属し、しかも、最も順位の高い文字”r”を認識結果とする。これにより、ドイツ語に属する文字からなる文字列が認識結果として、ユーザに提示される。
また、認識結果として、例えば、図14に示すように、複数の文字列の候補を出力する場合、あるいは、上記の順位の中に、認識対象の言語の文字がない場合、文字列生成部44aは、認識対象の言語に含まれる文字yに限定して、認識結果の候補を再度求めてもよい。
なお、上記文字列生成部44aは、文字列全体が、その言語に属している可能性を示す言語ポイントL(x)を算出する際、文字毎に求めたポイントを合計したが、これに限るものではない。
例えば、文字列生成部が、図15に示すように、単語がいずれの言語に属しているかを示す情報が予め格納された辞書を備え、認識結果となる文字列が辞書に含まれているか否かを判定すると共に、含まれている場合、その単語に対応する言語を、認識結果の言語としてもよい。
〔第2の実施形態〕
本実施形態では、予め定められた時間単位毎に、上記各事象の統計を取り、その統計処理結果(例えば、事象の分布)に基づいて、重みQ(y)を算出する構成について説明する。なお、当該構成は、第1の実施形態と同様に、辞書引き処理部24を設けるか否か、あるいは、文字列生成部による文字列生成方法に拘わらず適用できるが、以下では、一例として、文字列生成部44aが文字毎の言語ポイントL(x)を算出し、しかも、辞書引き処理部24を設けずに文字認識結果を提示する構成について説明する。
本実施形態では、予め定められた時間単位毎に、上記各事象の統計を取り、その統計処理結果(例えば、事象の分布)に基づいて、重みQ(y)を算出する構成について説明する。なお、当該構成は、第1の実施形態と同様に、辞書引き処理部24を設けるか否か、あるいは、文字列生成部による文字列生成方法に拘わらず適用できるが、以下では、一例として、文字列生成部44aが文字毎の言語ポイントL(x)を算出し、しかも、辞書引き処理部24を設けずに文字認識結果を提示する構成について説明する。
具体的には、本実施形態に係るカメラ付き携帯電話1bは、図11に示すカメラ付き携帯電話1aと略同様の構成であるが、辞書引き処理部24が省略されており、文字列生成部44aは、例えば、表示部12へ文字列データの示す文字の表示を指示するなどして、認識結果となる文字列をユーザに提示している。
さらに、本実施形態に係るカメラ付き携帯電話1bには、履歴情報記憶部41の操作および推定履歴情報を予め定められた時間単位毎に統計処理した結果を示す統計情報が記憶された統計情報記憶部(記憶装置)51bと、履歴情報記憶部41に格納された操作および推定履歴情報に基づいて、予め定められた時間単位毎の統計処理を行い、統計情報記憶部51bの統計情報を更新する統計処理部52bとを備えている。なお、上記統計情報記憶部51bも、履歴情報記憶部41と同様に、電源断に伴なう統計情報の損失を防止するために、読み書き可能な不揮発性の記録媒体18に形成されている方が望ましい。
本実施形態に係る統計情報記憶部51bは、統計情報として、例えば、図17に示すように、文字認識の結果が言語xとなった回数を曜日毎に1時間単位で集計した値を、各言語毎に記憶している。なお、集計の単位を細かく設定すれば、より高度な統計処理が可能になり、より高精度に文字認識できるが、必要なメモリ量が増加してしまう。したがって、上記集計単位は、メモリ量と認識精度とのバランスを考慮した任意の値に設定することが望ましい。
また、文字認識の結果が言語xとなる回数は、文字認識の最終結果が言語xとなった回数であって、言語xとして判定され、しかも、変更が行われなかった回数と、言語変更操作で言語xに変更された回数の合計である。これに伴なって、本実施形態に係る統計処理部52bは、時間毎および曜日毎の操作分布を求める統計処理を行っている。また、図17では、一例として、カメラ付き携帯電話1bが、英語、フランス語およびドイツ語の3種類の言語を認識可能であり、統計情報記憶部51bが3種類の言語のそれぞれの集計結果を記憶している場合を例示している。
一方、本実施形態に係るカメラ付き携帯電話1bにおいて、言語可能性値推定部42に代えて設けられた言語可能性値推定部42bは、言語可能性値推定部42と略同様に動作しているが、上述した式(1)に代えて、以下の式(4)に示すように、
P(x)=F(x,D,T)/ΣF(i,D,T) …(4)
によって、言語可能性値P(x)を算出する点で異なっている。なお、上式(4)において、F(x,D,T)は、ある曜日D、時刻Tにおける文字認識の結果が言語xとなった回数であり、ΣF(i,D,T)は、ある曜日D、時刻Tにおける全ての言語の判定回数の和、すなわち、ある曜日D、時刻Tの文字認識回数である。
P(x)=F(x,D,T)/ΣF(i,D,T) …(4)
によって、言語可能性値P(x)を算出する点で異なっている。なお、上式(4)において、F(x,D,T)は、ある曜日D、時刻Tにおける文字認識の結果が言語xとなった回数であり、ΣF(i,D,T)は、ある曜日D、時刻Tにおける全ての言語の判定回数の和、すなわち、ある曜日D、時刻Tの文字認識回数である。
上記構成では、図18に示すように、図9と同様のステップS1、S2、S11bおよびS13が行われ、カメラ付き携帯電話1bは、認識対象とする文字列の画像データを抽出すると共に、各文字yの重みQ(y)を算出し、当該重みQ(y)を反映した文字認識処理を行う。
ただし、上記S11bにおいて、認識処理部23bは、図9に示すS11とは異なり、統計情報を参照して、文字yの重みQ(y)を算出している。より詳細には、認識処理部23bは、S11bにおいて、図10と略同様の処理を行って、各文字yの重みQ(y)を算出しているが、図10とは異なり、S22bにおいて、言語可能性値推定部42bは、式(1)ではなく、上記式(4)に基づいて、各言語xの言語可能性値P(x)を算出している。
一例として、統計情報記憶部51bに図17に示す統計情報が格納されている状態で、カメラ付き携帯電話1bが月曜日の12:00〜13:00の間に文字認識しようとしたとする。この場合、言語可能性値推定部42bは、統計情報記憶部51bに含まれている統計情報のうち、この曜日の、この時間帯の集計結果を示す統計情報を読み出し、それらに基づいて、各言語xの言語可能性値P(x)を算出する。図17の例では、F(ドイツ語,月曜日,12:00〜13:00)が33、F(英語,月曜日,12:00〜13:00)が6、F(フランス語,月曜日,12:00〜13:00)が25なので、言語可能性値推定部42bは、ドイツ語、英語およびフランス語の可能性値P(x)を、33/64、25/64、6/64と算出する。
この場合、いずれの言語xの可能性値P(x)も閾値を超えないので、重み算出部43は、図10に示すS25において、言語の可能性値P(x)に応じて各文字yの重みQ(y)を算出する。したがって、各言語に含まれる文字のうち、ドイツ語に含まれる文字yの重みQ(y)が相対的に大きくなり、類似度R(y)のみを参照する場合よりも、認識結果にドイツ語に含まれる文字の頻度が高くなる。この結果、文字認識結果として、例えば、図12に示すように、ドイツ語に含まれる文字の順位がより高くなった認識結果が得られる。
上記S13にて、上記S11bにて算出された重みQ(y)を反映した文字認識が行われると、S41bにおいて、文字列生成部44aは、各言語xの言語ポイントL(x)を比較して、最も言語ポイントL(x)の高い言語xを、認識対象とする言語と推定する。さらに、文字列生成部44aは、S42bにおいて、最も言語ポイントL(x)の高い言語xに含まれる文字yのみから構成されるように、認識結果となる文字列データを整形し、S14bにおいて、当該文字列データが認識結果としてユーザに提示される。
上記の例のように、図12に示す認識結果が得られた場合、図13に示すように、ドイツ語の言語ポイントL(x)が最も高くなる。したがって、文字列生成部44aは、ドイツ語が認識結果の言語であると推定し、ドイツ語以外の文字(図の例では、γ)が出現しないように、認識結果となる文字列データを整形し、図14に示すように、”Anderun(Aは、ウムラウト付き)”を表示する。
ここで、認識結果となる言語が正しければ、ユーザは、言語の修正指示を入力しない。したがって、カメラ付き携帯電話1bは、言語の修正指示を受け付けることなく(S31にて、NO)、統計処理部52bは、文字認識の最終結果が当該言語であるとして、統計情報を更新する(S43b)。本実施形態では、曜日毎に1時間単位での集計結果を統計情報としているので、統計処理部52bは、例えば、現在の曜日および時間帯の統計情報を増加させるなどして、統計情報を更新する。一例として、上記の例において、認識結果となる言語(ドイツ語)が正しければ、図19に示すように、月曜日、12:00〜13:00およびドイツ語に関連付けられた集計結果が1増加される。
これとは逆に、認識結果となる言語が誤っていた場合、ユーザは、操作部13を操作して、言語の修正を指示するので、操作部13によって言語の修正指示受付が検出される(S31にて、YES の場合)。この場合、図9と同様に、S32およびS33において、操作履歴情報が履歴情報記憶部41に書き込まれると共に、指示された言語に限定した文字認識が行われる。さらに、S34bにおいて、文字列生成部44aは、上記S14bと同様に、認識結果となる文字列を表示する。なお、この場合、統計処理部52bは、上記S43bにおいて、文字認識の最終結果が上記指示された言語であるとして、統計情報を更新する。一例として、上記の例において、認識結果となる言語(ドイツ語)が誤りであり、英語への修正が指示された場合、図20に示すように、月曜日、12:00〜13:00および英語に関連付けられた集計結果が1増加される。
このように、本実施形態に係るカメラ付き携帯電話1bでは、上記履歴情報を予め定められた時間単位毎に統計処理した結果に基づいて、文字yの類似度R(y)を評価する際の重みQ(y)が変更される。
ここで、一般に、ユーザは、例えば、曜日周期や1日周期のパターンで類似した行動を取ることが多く、それに応じて、認識対象とする言語も周期的に変化していることが期待される。
したがって、上記周期と一致しやすいように予め定められた時間単位毎に、履歴を統計処理した結果に基づいて重みQ(y)を変更することによって、ユーザの個人的な利用形態に適応させることができ、認識の度に言語を指定する構成よりもユーザの操作回数が大幅に削減されているにも拘わらず、類似度R(y)のみに基づいて文字認識する構成よりも高い精度で文字認識できる。
一例として、大学などの学校では、同一曜日、同一時間に、同一言語の講義が行われることが多い。したがって、本実施形態のように、曜日毎に時間単位で統計処理した結果に基づいて重みQ(y)を算出することによって、いずれの講義で使用されるかによって、認識対象の言語が変化する場合に高い精度で文字認識できる。
なお、上記では、統計処理部52bが文字認識の最終結果に応じて統計情報記憶部51bの統計情報(集計結果)を変更する場合を例にして説明したが、これに限るものではない。統計情報が必要になる度に、統計処理部52bが履歴情報記憶部41の履歴情報を統計処理して、統計情報を算出してもよい。この場合、統計情報記憶部51bは不要である。ただし、本実施形態のように、統計情報記憶部51bを設け、統計情報を記憶しておく方が、文字認識の最終結果が判明してから統計情報を算出するまでの演算量を削減できる。また、統計情報記憶部51bがあれば、統計情報を記憶しておくことができるので、必要になる度(文字認識毎)に統計処理する場合よりも、文字認識処理に要する時間を短縮できる。
また、上記では、統計情報記憶部51bと履歴情報記憶部41との双方を設ける場合を例にして説明したが、上述したように、文字認識の最終結果に応じて、統計処理部52bが統計情報記憶部51bの統計情報を変更する場合には、操作履歴情報および推定履歴情報の記憶を省略してもよい。この場合でも、言語可能性値推定部42bは、統計情報に基づいて、各言語xの可能性値P(x)を算出できるので、同様の効果が得られる。
なお、上記各実施形態では、一例として、重み算出部43が、各文字yの重みQ(y)を算出する際に、予め定められた値に固定された閾値を超えた言語可能性値P(x)があるか否かを判定する場合について説明したが、これに限るものではない。重み算出部43は、例えば、使用回数(文字認識回数)、あるいは、前回文字認識してからの経過時間などをパラメータとして、上記閾値を動的に変更してもよい。また、上記閾値などの定数や、可能性値P(x)および重みQ(y)の計算方法は、一例であり、カメラ付き携帯電話(文字認識装置)の用途により変更してもよい。
また、上記各実施形態では、例えば、選択可能な言語を提示するなどして、言語を直接指定する操作を受け付けている場合を例にして説明したが、これに限るものではない。例えば、カメラ付き携帯電話(1〜1b)が、文字の修正操作など、修正後の言語を間接的に指定する操作を受け付け、それに基づいて、指定された言語を判定してもよい。いずれの場合であっても、修正後の言語を特定可能な操作であれば、略同様の効果が得られる。ただし、この場合には、複数の候補にしか、指定された言語を絞り込めない場合があるので、上記各実施形態のように、修正後の言語を直接指定する操作を受け付ける方が、より文字認識精度を向上できる。
なお、上記では、履歴情報/統計情報の一例として、その言語の指定操作を受け付けた時点を示す操作履歴情報と、言語の推定結果を算出した時点を示す推定履歴情報と、電源および通信機能のON/OFF時点を示す電源および通信機能履歴情報との組み合わせ、あるいは、それらを統計処理した結果を示す統計情報を記憶する場合を例にして説明したが、これに限るものではない。上記操作履歴情報および推定履歴情報の少なくとも一方を含んでいれば、文字認識精度を向上できるので、ある程度の効果が得られる。
ただし、上述したように、電源および通信機能履歴情報を、さらに含んでいれば、他の言語圏への移動が疑われる場合(例えば、通信OFF設定が所定時間以上続いた場合など)や、長い期間放置された場合に、誤認識の可能性を抑えることができるので、さらに効果が大きい。
また、上記では、各履歴情報が時点の情報を含んでいる場合を例にして説明したが、これに限るものではない。時点の情報に代えて/加えて、前回の同じ事象からの経過時間、あるいは、同じ状態が継続している時間の情報を記憶してもよい。この場合であっても、例えば、言語の指定操作として、ある言語への指定操作のみを受け続けている時間が長いときは、短いときよりも優先して当該文字認識手段による文字認識処理に反映させたり、当該時間の情報に基づいて、通信OFF設定が所定時間以上続いたか否かを判定するなど、時間の情報に応じた処理を行うことができ、文字認識の精度を向上できる。
なお、上記では、各事象毎に履歴情報を生成する場合について説明したが、これに限るものではなく、カメラ付き携帯電話は、例えば、一定時間内における言語の判定回数や修正回数などを履歴情報/統計情報として格納してもよい。
いずれの場合であっても、複数の文字グループ(例えば、言語)のそれぞれについて、文字の認識結果が当該文字グループでありそうだと推定したという推定事象と、認識対象とする文字の属する文字グループが当該文字グループであると指定する操作を受け付けたという操作事象との少なくとも一方の事象の発生を検出し、当該事象の履歴と、その統計処理結果との少なくとも一方を示す記憶情報を生成すれば、略同様の効果が得られる。
また、上記各実施形態に係るカメラ付き携帯電話は、履歴情報に基づいて、認識結果となり得る文字yを変更(制限)する処理(特定の文字yの重みQ(y)を0にする処理)と、履歴情報に基づいて、より優先して文字認識に反映させる処理(特定の文字yの重みQ(y)を大きくする処理)との双方を行っているが、いずれか一方の処理だけでも、履歴情報を用いずに文字認識する構成よりも文字認識の精度を向上できる。
なお、上記各実施形態に係るカメラ付き携帯電話は、直前に電源がOFFされずに通信機能がOFFされ、しかも、通信機能OFFの時間が予め定める期間を超えている場合、すなわち、飛行機などによる長距離移動が疑われ、認識対象とする文字の属する言語が、これまで認識対象としていた言語から変化していることが疑われる場合、それまでの履歴情報/統計情報を参照せずに文字認識しているが、これに限るものではない。例えば、これまでの履歴情報/統計情報によって認識結果が左右される程度を抑えても、上記誤認識の可能性を抑制できる。なお、本実施形態のように、履歴情報/統計情報に基づいて、認識結果となる可能性が低いと判定した言語のみに属する文字を認識候補から外す場合には、少なくとも、これらの文字が認識候補に入るように、認識結果が左右される程度を抑制する方が望ましい。これにより、それまでは、履歴情報/特定情報に基づいて、特定の言語を対象にした文字認識が行われていた場合でも、長距離移動などが疑われる場合には、それ以外の多言語を対象とする文字認識処理を行うことができ、上記誤認識の可能性を抑えることができる。
また、上記各実施形態では、電源や通信機能のON/OFFなど、カメラ付き携帯電話の状態に基づいて、他の言語圏への移動を推定していが、これに限るものではない。例えば、GPSなどの位置検出装置を設け、当該位置検出装置が、他の言語圏への移動を検出した場合は、これまでの履歴情報/統計情報によって認識結果が左右される程度を抑えても、上記誤認識の可能性を低下させることができる。ただし、上記各実施形態のように、電源や通信機能のON/OFFなど、カメラ付き携帯電話の状態に基づいて、他の言語圏への移動を推定する構成では、位置検出装置が不要なので、より簡単で安価なカメラ付き携帯電話を実現できる。
なお、位置検出装置を用いる構成であっても、基本的には、これまでの履歴情報/統計情報によって文字認識処理の方法および出力される文字コード列の少なくとも一方を変化させており、位置検出結果によって、これまでの履歴情報/統計情報によって認識結果が左右される程度が変更される。
したがって、特許文献4のように、機能から得られたユーザの現在位置を基に、文字認識処理や翻訳処理に用いる各種辞書を適切な専門用語辞書に置き換えて処理を行うシステムのように、位置と専門用語辞書との対応関係が固定されている場合とは異なって、現在位置から特定された言語と、認識対象としている言語とが一致していない場合でも、文字認識の精度を向上できる。なお、現在位置から特定された言語と、認識対象としている言語とが一致していない場合としては、例えば、複数の公用語がある国や地域の場合、自宅等で複数の外国語を学習している場合などが挙げられる。
なお、上記各実施形態では、履歴情報/統計情報を参照して文字認識を行う装置が、カメラ付き携帯電話である場合を例にして説明したが、これに限るものではない。文字認識機能を持つ文字認識装置であれば、翻訳装置など、他の装置にも適用できる。また、上記では、当該文字認識装置が、例えば、カメラのような撮像装置を備え、文字認識対象(被写体)を撮像できる場合を例にして説明したが、これに限るものではない。例えば、スキャナや通信装置などによって、文字の画像を取得できれば、略同様の効果が得られる。ただし、上記各実施形態のように、撮像装置を備えていれば、ユーザは、所望の文字認識対象(被写体)を撮像して、文字認識させることができるので、より効果が大きい。
また、上記では、文字の画像を文字認識する場合を例にして説明したが、これに代えて/加えて、文字認識装置は、例えば、タッチパネルなどの入力装置によって、手書き入力操作を受け付け、当該手書き入力された文字を文字認識してもよい。この場合であっても、上記各実施形態と同様に、履歴情報/統計情報を参照して、手書き入力された文字を文字認識することによって、認識の度に文字グループを指定する構成よりもユーザの操作回数が大幅に削減されているにも拘わらず、手書き入力のみを参照して文字コードに変換する構成よりも高い精度で文字認識できる。
また、上記では、文字認識装置が携帯型の装置である場合を例にして説明したが、これに限るものではない。据え置き型の文字認識装置であってもよい。ただし、上述したように、上記各実施形態のように、履歴情報/統計情報を参照して文字認識すれば、比較的少ない演算能力で、高い精度での多文字グループの文字認識とユーザの操作回数削減とを得ることができる。また、一般に携帯型の装置では、据え置き型の装置と比較して、寸法などが制限されているため、操作が煩雑になりやすく、操作回数削減が強く要求されている。したがって、上記各実施形態のように、携帯型の文字認識装置に適用すると特に効果が大きい。
さらに、上記各実施形態に係るカメラ付き携帯電話(文字認識装置)は、他の言語圏への移動が疑われる場合に、例えば、これまでの事象によって認識結果が左右される程度を抑えることができるので、移動によって認識対象とする言語が変化しやすい携帯型の文字認識装置であっても、上述した誤認識する可能性を低減できる。
また、上記各実施形態では、カメラ付き携帯電話を構成する各部材が、「中央制御部17などの演算手段がROMやRAMなどの記録媒体に格納されたプログラムコードを実行することで実現される機能ブロックである」場合を例にして説明したが、同様の処理を行うハードウェアで実現してもよい。また、処理の一部を行うハードウェアと、当該ハードウェアの制御や残余の処理を行うプログラムコードを実行する上記演算手段とを組み合わせても実現することもできる。さらに、上記各部材のうち、ハードウェアとして説明した部材であっても、処理の一部を行うハードウェアと、当該ハードウェアの制御や残余の処理を行うプログラムコードを実行する上記演算手段とを組み合わせても実現することもできる。なお、上記演算手段は、単体であってもよいし、装置内部のバスや種々の通信路を介して接続された複数の演算手段が共同してプログラムコードを実行してもよい。また、上記各部材のうちの記憶部41・51bは、メモリなどの記憶装置自体であってもよい。
上記演算手段によって直接実行可能なプログラムコード自体、または、後述する解凍などの処理によってプログラムコードを生成可能なデータとしてのプログラムは、当該プログラム(プログラムコードまたは上記データ)を記録媒体に格納し、当該記録媒体を配付したり、あるいは、上記プログラムを、有線または無線の通信路を介して伝送するための通信手段で送信したりして配付され、上記演算手段で実行される。
なお、通信路を介して伝送する場合、通信路を構成する各伝送媒体が、プログラムを示す信号列を伝搬し合うことによって、当該通信路を介して、上記プログラムが伝送される。また、信号列を伝送する際、送信装置が、プログラムを示す信号列により搬送波を変調することによって、上記信号列を搬送波に重畳してもよい。この場合、受信装置が搬送波を復調することによって信号列が復元される。一方、上記信号列を伝送する際、送信装置が、デジタルデータ列としての信号列をパケット分割して伝送してもよい。この場合、受信装置は、受信したパケット群を連結して、上記信号列を復元する。また、送信装置が、信号列を送信する際、時分割/周波数分割/符号分割などの方法で、信号列を他の信号列と多重化して伝送してもよい。この場合、受信装置は、多重化された信号列から、個々の信号列を抽出して復元する。いずれの場合であっても、通信路を介してプログラムを伝送できれば、同様の効果が得られる。
ここで、プログラムを配付する際の記録媒体は、取外し可能である方が好ましいが、プログラムを配付した後の記録媒体は、取外し可能か否かを問わない。また、上記記録媒体は、プログラムが記憶されていれば、書換え(書き込み)可能か否か、揮発性か否か、記録方法および形状を問わない。記録媒体の一例として、磁気テープやカセットテープなどのテープ、あるいは、フロッピー(登録商標)ディスクやハードディスクなどの磁気ディスク、または、CD−ROMや光磁気ディスク(MO)、ミニディスク(MD)やデジタルビデオディスク(DVD)などのディスクが挙げられる。また、記録媒体は、ICカードや光カードのようなカード、あるいは、マスクROMやEPROM、EEPROMまたはフラッシュROMなどのような半導体メモリであってもよい。あるいは、CPUなどの演算手段内に形成されたメモリであってもよい。
なお、上記プログラムコードは、上記各処理の全手順を上記演算手段へ指示するコードであってもよいし、所定の手順で呼び出すことで、上記各処理の一部または全部を実行可能な基本プログラム(例えば、オペレーティングシステムやライブラリなど)が既に存在していれば、当該基本プログラムの呼び出しを上記演算手段へ指示するコードやポインタなどで、上記全手順の一部または全部を置き換えてもよい。
また、上記記録媒体にプログラムを格納する際の形式は、例えば、実メモリに配置した状態のように、演算手段がアクセスして実行可能な格納形式であってもよいし、実メモリに配置する前で、演算手段が常時アクセス可能なローカルな記録媒体(例えば、実メモリやハードディスクなど)にインストールした後の格納形式、あるいは、ネットワークや搬送可能な記録媒体などから上記ローカルな記録媒体にインストールする前の格納形式などであってもよい。また、プログラムは、コンパイル後のオブジェクトコードに限るものではなく、ソースコードや、インタプリトまたはコンパイルの途中で生成される中間コードとして格納されていてもよい。いずれの場合であっても、圧縮された情報の解凍、符号化された情報の復号、インタプリト、コンパイル、リンク、または、実メモリへの配置などの処理、あるいは、各処理の組み合わせによって、上記演算手段が実行可能な形式に変換可能であれば、プログラムを記録媒体に格納する際の形式に拘わらず、同様の効果を得ることができる。
複数の文字グループの文字を認識可能な携帯型の文字認識装置やカメラ付き携帯電話、あるいは、さらに、翻訳または辞書引き機能を備えた携帯型翻訳機/携帯型電子辞書をはじめとして、複数の文字グループの文字を認識可能な文字認識装置として広く好適に使用できる。
1・1a・1b カメラ付き携帯電話(文字認識装置)
13 操作部(生成手段)
23・23a・23b 認識処理部(文字認識手段)
31 文字認識処理部(文字決定手段)
41 履歴情報記憶部(記憶装置)
42 言語可能性値推定部(生成手段;推定手段)
44 文字列生成部(文字決定手段)
44a 文字列生成部(生成手段;文字決定手段)
51b 統計情報記憶部(記憶装置)
13 操作部(生成手段)
23・23a・23b 認識処理部(文字認識手段)
31 文字認識処理部(文字決定手段)
41 履歴情報記憶部(記憶装置)
42 言語可能性値推定部(生成手段;推定手段)
44 文字列生成部(文字決定手段)
44a 文字列生成部(生成手段;文字決定手段)
51b 統計情報記憶部(記憶装置)
Claims (12)
- 複数の文字グループのいずれかに含まれる文字の画像または手書き入力を受け付けた文字を文字認識して文字コードに変換する文字認識手段を有する文字認識装置において、
上記複数の文字グループのそれぞれについて、文字の認識結果が当該文字グループでありそうだと推定したという推定事象と、認識対象とする文字の属する文字グループが当該文字グループであると指定する操作を受け付けたという操作事象との少なくとも一方の事象の発生を検出し、当該事象の履歴と、その統計処理結果との少なくとも一方を示す記憶情報を生成して記憶装置に記憶する生成手段を備え、
上記文字認識手段は、上記記憶装置に記憶された記憶情報を参照して、文字の画像または手書き入力を受け付けた文字を文字コードに変換することを特徴とする文字認識装置。 - 上記生成手段が検出する事象には、さらに、文字認識装置の電源がONまたはOFFしたという事象が含まれていることを特徴とする請求項1記載の文字認識装置。
- 他の機器と通信する通信手段を備え、
上記生成手段が検出する事象には、さらに、当該通信手段の機能を有効または無効にしたという事象が含まれていることを特徴とする請求項1または2記載の文字認識装置。 - 上記記憶情報には、事象の発生時点を示す情報が含まれていることを特徴とする請求項1、2または3記載の文字認識装置。
- 上記生成手段が検出する事象には、上記推定事象と操作事象との双方が含まれており、
上記文字認識手段は、上記推定事象を示す記憶情報よりも上記操作事象を示す記憶情報の方を優先して、当該文字認識手段による文字認識処理に反映させることを特徴とする請求項1記載の文字認識装置。 - 上記生成手段は、記憶情報として、統計処理結果を示す情報を記憶することを特徴とする請求項1記載の文字認識装置。
- 上記生成手段は、記憶情報として、履歴を示す情報を記憶し、
上記文字認識手段は、当該記憶情報を統計処理した結果を参照して、文字の画像または手書き入力を受け付けた文字を文字コードに変換することを特徴とする請求項1記載の文字認識装置。 - 上記文字認識手段は、文字の画像または手書き入力を受け付けた文字と、各文字コードの示す文字との類似度を評価して、当該文字の画像または手書き入力を受け付けた文字がいずれの文字コードであるかを決定する文字決定手段と、
上記記憶情報を参照して、上記複数の文字グループのそれぞれについて、認識対象とする文字が当該文字グループに含まれる可能性を推定する推定手段とを備え、
上記文字決定手段は、当該各文字グループの可能性に基づいて、認識結果となり得る文字コードを変更することを特徴とする請求項1記載の文字認識装置。 - 上記文字認識手段は、文字の画像または手書き入力を受け付けた文字と、各文字コードの示す文字との類似度を評価して、当該文字の画像または手書き入力を受け付けた文字がいずれの文字コードであるかを決定する文字決定手段と、
上記記憶情報を参照して、上記複数の文字グループのそれぞれについて、認識対象とする文字が当該文字グループに含まれる可能性を推定する推定手段と、
当該各文字グループの可能性に基づいて、上記各文字との類似度を評価する際の重みを算出する重み算出手段とを備えていることを特徴とする請求項1記載の文字認識装置。 - 複数の文字グループのいずれかに含まれる文字の画像または手書き入力を受け付けた文字を文字認識して文字コードに変換する文字認識工程を含む文字認識方法において、
上記複数の文字グループのそれぞれについて、文字の認識結果が当該文字グループであると推定したという推定事象と、認識対象とする文字の属する文字グループが当該文字グループであると指定する操作を受け付けたという操作事象との少なくとも一方の事象の発生を検出する検出工程を含み、
上記文字認識工程は、上記検出工程にて検出された事象の履歴およびその統計処理結果の少なくとも一方を参照して、文字の画像または手書き入力を受け付けた文字を文字コードに変換することを特徴とする文字認識方法。 - 請求項1〜9のいずれか1項に記載の各手段として、コンピュータを動作させるプログラム。
- 請求項11記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005158176A JP2006331354A (ja) | 2005-05-30 | 2005-05-30 | 文字認識装置、文字認識方法、並びに、そのプログラムおよび記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005158176A JP2006331354A (ja) | 2005-05-30 | 2005-05-30 | 文字認識装置、文字認識方法、並びに、そのプログラムおよび記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006331354A true JP2006331354A (ja) | 2006-12-07 |
Family
ID=37552953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005158176A Pending JP2006331354A (ja) | 2005-05-30 | 2005-05-30 | 文字認識装置、文字認識方法、並びに、そのプログラムおよび記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006331354A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009128797A (ja) * | 2007-11-27 | 2009-06-11 | Nippon Telegr & Teleph Corp <Ntt> | 頻度補正装置とその方法、それらを用いた情報抽出装置と情報抽出方法、それらのプログラム |
JP2014056362A (ja) * | 2012-09-11 | 2014-03-27 | Casio Comput Co Ltd | 情報処理装置、データ表示装置及びプログラム |
EP2717170A2 (en) | 2012-10-03 | 2014-04-09 | Fujitsu Limited | Character input method, program and apparatus |
CN106682671A (zh) * | 2016-12-29 | 2017-05-17 | 成都数联铭品科技有限公司 | 图像文字识别系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0696263A (ja) * | 1992-09-09 | 1994-04-08 | Nippon Telegr & Teleph Corp <Ntt> | パターン認識装置 |
JPH07271920A (ja) * | 1994-03-31 | 1995-10-20 | Toshiba Corp | 文字認識装置 |
JP2002091914A (ja) * | 2000-09-20 | 2002-03-29 | Hitachi Ltd | 計算機ネットワーク用の端末装置および操作履歴記録方法 |
JP2004209658A (ja) * | 2002-12-26 | 2004-07-29 | Ricoh Co Ltd | 保守情報記録装置、保守情報記録システム、保守情報記録方法、プログラム及び記憶媒体 |
-
2005
- 2005-05-30 JP JP2005158176A patent/JP2006331354A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0696263A (ja) * | 1992-09-09 | 1994-04-08 | Nippon Telegr & Teleph Corp <Ntt> | パターン認識装置 |
JPH07271920A (ja) * | 1994-03-31 | 1995-10-20 | Toshiba Corp | 文字認識装置 |
JP2002091914A (ja) * | 2000-09-20 | 2002-03-29 | Hitachi Ltd | 計算機ネットワーク用の端末装置および操作履歴記録方法 |
JP2004209658A (ja) * | 2002-12-26 | 2004-07-29 | Ricoh Co Ltd | 保守情報記録装置、保守情報記録システム、保守情報記録方法、プログラム及び記憶媒体 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009128797A (ja) * | 2007-11-27 | 2009-06-11 | Nippon Telegr & Teleph Corp <Ntt> | 頻度補正装置とその方法、それらを用いた情報抽出装置と情報抽出方法、それらのプログラム |
JP2014056362A (ja) * | 2012-09-11 | 2014-03-27 | Casio Comput Co Ltd | 情報処理装置、データ表示装置及びプログラム |
EP2717170A2 (en) | 2012-10-03 | 2014-04-09 | Fujitsu Limited | Character input method, program and apparatus |
US9190027B2 (en) | 2012-10-03 | 2015-11-17 | Fujitsu Limited | Recording medium, information processing apparatus, and presentation method |
CN106682671A (zh) * | 2016-12-29 | 2017-05-17 | 成都数联铭品科技有限公司 | 图像文字识别系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10824656B2 (en) | Method and system for providing adaptive keyboard interface, and method for inputting reply using adaptive keyboard based on content of conversation | |
CN107918496B (zh) | 一种输入纠错方法和装置、一种用于输入纠错的装置 | |
US9030417B2 (en) | Method and apparatus for preventing incorrect input in portable terminal | |
CN104718545A (zh) | 递增的多词识别 | |
US20180011549A1 (en) | Cursor operation method and device for input method | |
CN1266246A (zh) | 输入字符串的设备和方法 | |
US11836442B2 (en) | Information processing apparatus, method, and storage medium for associating metadata with image data | |
JP2010217996A (ja) | 文字認識装置、文字認識プログラム、および文字認識方法 | |
US20180341675A1 (en) | Method and System for Enhanced Search Term Suggestion | |
JP2006331354A (ja) | 文字認識装置、文字認識方法、並びに、そのプログラムおよび記録媒体 | |
CN110795014B (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN111669633A (zh) | 遥控信号转触控操作方法、装置和显示设备 | |
JP4668345B1 (ja) | 情報処理装置、および情報処理装置の制御方法 | |
JP5107157B2 (ja) | 文字認識プログラム、文字認識装置および文字認識方法 | |
JP4597644B2 (ja) | 文字認識装置、プログラムおよび記録媒体 | |
JP4717526B2 (ja) | 文字認識装置、文字認識方法、データ変換装置、データ変換方法、文字認識プログラム、データ変換プログラム、並びに文字認識プログラムおよびデータ変換プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
US8850311B2 (en) | Word input method | |
CN111627438A (zh) | 语音识别方法及装置 | |
JP6419899B1 (ja) | 情報処理装置、制御方法及び制御プログラム | |
CN112015279A (zh) | 按键误触纠错方法及装置 | |
CN103870822B (zh) | 词语识别方法及装置 | |
US20190272089A1 (en) | Character input device, character input method, and character input program | |
CN113589954A (zh) | 一种数据处理方法、装置和电子设备 | |
US20180307669A1 (en) | Information processing apparatus | |
JP3526821B2 (ja) | 文書検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070724 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101116 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110315 |