JP2006331354A

JP2006331354A - 文字認識装置、文字認識方法、並びに、そのプログラムおよび記録媒体

Info

Publication number: JP2006331354A
Application number: JP2005158176A
Authority: JP
Inventors: Yasushi Ishizuka; 康司石塚
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2005-05-30
Filing date: 2005-05-30
Publication date: 2006-12-07

Abstract

【課題】ユーザの操作回数が大幅に削減されているにも拘わらず、高い精度で文字認識可能な文字認識装置、および、文字認識方法を実現する。
【解決手段】カメラ付き携帯電話１は、複数の言語のいずれかに含まれる文字の画像を文字認識して文字コードに変換する認識処理部２３とを有している。当該認識処理部２３は、上記複数の言語のそれぞれについて、文字の認識結果が当該言語でありそうだと推定したことを示す推定履歴情報を履歴情報記憶部４１に格納する言語可能性値推定部４２と、認識対象とする文字の属する言語が当該言語であると指定する操作を受け付けたことを示す操作履歴情報を履歴情報記憶部４１に格納する操作部１３とを備え、上記履歴情報記憶部４１の履歴情報を参照して、文字の画像を文字コードに変換する。
【選択図】図１

Description

本発明は、画像または手書き入力を受け付けた文字から文字を認識する文字認識装置、文字認識方法、並びに、そのプログラムおよび記録媒体に関するものである。

近年、デジタル電子カメラ、カメラ付き携帯電話など撮像機能を有する携帯機器の記憶容量、表示サイズなどの性能向上が著しい。このため、カメラで撮像した画像から文字コードに変換し入力、翻訳に用いるなどの用途が広がってきている。

とりわけ、携帯電話は、普及が進み、ローミング機能を利用した国境を越えての利用が広がってきている。また、携帯電話の高性能・高機能化に伴い、航空機などの通信機器の利用が制限されている場所で、通信機能のみを利用しないように設定し、例えばカメラ撮影等の通信以外の操作は行えるようにする方法についても検討されている。

例えば、後述する特許文献１では、入力言語を切り替えることなく多言語を入力可能な多国語入力装置が開示されている。当該多国語入力装置は、入力文字列と表示文字列との対応関係が記憶された単語辞書を備え、入力された文字列に対して単語辞書を検索することにより入力文字列を表示文字列に変換している。さらに、当該文字認識装置は、言語毎に単語辞書を設け、入力文字列に対して各々の単語辞書を検索し、入力文字列に対応する表示文字列が存在する言語の単語辞書を入力言語として自動的に認識している。

また、後述する特許文献２には、文字の形状や大きさ、言語の違いに制約されることなく、カメラ画像データとして取り込まれた各国種々多様な文字を認識して翻訳するのに良好な文字認識翻訳システムが開示されている。当該文字認識翻訳システムは、文字をカメラ画像として取り込んで文字認識し、単語や文章を翻訳する文字認識翻訳システムであって、予め取り込まれたカメラ画像文字データを蓄積する大規模文字データベースと、この大規模文字データベースの画像文字データから文字形状を分析し、文字を構成している文字構成要素の特徴を抽出する文字形状分析部と、この文字形状分析部の分析結果から、上記文字構成要素の標本マスクデータを作成するマスク学習部とを有し、取り込まれたカメラ画像文字データに対して、上記文字構成要素の標本マスクデータと照合して文字を認識し、単語や文章を翻訳している。

さらに、後述する特許文献３では、携帯端末とホスト端末とからなる画像データ処理システムが開示されている。当該画像データ処理システムでは、携帯端末に内蔵されたカメラを用いて文字を含んだ画像データを読み取ると共に、サービスを指定し、画像データをホスト端末へ転送する。一方、ホスト端末は、受信した画像データに含まれる文字を認識すると共に、その文字に所定の処理（翻訳、検索等）を施し、その処理結果を携帯端末に送信する。さらに、携帯端末は、ホスト端末から受信した処理結果を表示する。これにより、当該画像データ処理システムでは、情報処理装置を用いた検索や翻訳などにおいて、操作性を向上させたユーザインタフェイスを提供している。

また、後述の特許文献４には、ユーザの指定や携帯端末のＧＰＳ（Global Positioning System）機能から得られたユーザの現在位置を基に、文字認識処理や翻訳処理に用いる各種辞書を適切な専門用語辞書に置き換えて処理を行うシステムが開示されている。

さらに、後述の特許文献５には、ひらがな、カタカナ、漢字等の入力文字種を指定し、入力された手書き文字を、指定された文字種の辞書と照合することにより、手書き文字を認識する手書き文字用文字認識装置の認識方法が開示されている。当該手書き文字用文字認識装置の認識方法では、手書き文字入力後、認識文字候補の選択状態にし、所望とする文字候補に該当する文字種を１以上指定した際に、指定した文字種に対応する文字候補のみを辞書から選択的に読み出す。これにより、手書き入力装置の手書き文字を認識する際に、候補選択の効率を向上できる。

また、後述の特許文献６には、手書き文字入力及びその出力表示を行う文字認識システムにおいて、手書き認識部により選ばれた文字候補の中から、認識処理後に、ユーザが選択した字種の文字候補のみを表示させ得るようにすることによって、手書き文字入力・確定の操作手順を軽減することにより、ユーザの操作性を向上させた文字認識システムが開示されている。
特開平５−２８２３６０号公報（公開日：1993年１０月２９日）特開平９−１３８８０２号公報（公開日：1997年５月２７日）特開平１０−１３４００４号公報（公開日：1998年５月２２日）特開２００３−１７８０６７号公報（公開日：2003年６月２７日）特開平６−２０１０１号公報（公開日：1994年１月２８日）特開平８−１２３８９７号公報（公開日：1996年５月１７日）

しかしながら、上記従来の構成では、操作回数削減と認識精度向上との双方を高いレベルでバランスさせることが難しいという問題を生じる。

具体的には、特許文献５および６のように、認識の度に字種をユーザに選択させると、認識精度が向上する一方で、ユーザの操作回数が増加してしまう。これとは逆に、特許文献１のように、言語語毎に単語辞書を設け、入力文字列に対して各々の単語辞書を検索し、入力文字列に対応する表示文字列が存在する言語の単語辞書を入力言語として自動的に認識する構成では、言語が自動認識されるので、ユーザの操作の手間を軽減できる一方で、認識精度が低下しやすい。

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、認識の度に文字グループを指定する構成よりもユーザの操作回数が大幅に削減されているにも拘わらず、文字の画像または手書き入力のみを参照して文字コードに変換する構成よりも高い精度で文字認識可能な文字認識装置、および、文字認識方法を実現することにある。

本発明に係る文字認識装置は、上記課題を解決するために、複数の文字グループのいずれかに含まれる文字の画像または手書き入力を受け付けた文字を文字認識して文字コードに変換する文字認識手段を有する文字認識装置において、上記複数の文字グループのそれぞれについて、文字の認識結果が当該文字グループでありそうだと推定したという推定事象と、認識対象とする文字の属する文字グループが当該文字グループであると指定する操作を受け付けたという操作事象との少なくとも一方の事象の発生を検出し、当該事象の履歴と、その統計処理結果との少なくとも一方を示す記憶情報を生成して記憶装置に記憶する生成手段を備え、上記文字認識手段は、上記記憶装置に記憶された記憶情報を参照して、文字の画像または手書き入力を受け付けた文字を文字コードに変換することを特徴としている。

なお、上記複数の文字グループは、例えば、漢字／ひらがな／カタカナなど、互いに同じ言語に属する文字グループ同士であってもよい。また、上記複数の文字グループは、例えば、英語／フランス語／ドイツ語／ポルトガル語など、互いに異なる言語で使用される文字からなる文字グループ同士であってもよい。なお、各言語で使用される文字からなる文字グループには、例えば、ギリシャ語において、例えば、人名やＥ−ＭＡＩＬのアドレスなどとして一般的に使用される英文字のように、その言語固有の文字だけではなく、その言語で一般的に使用される文字を含んでいてもよい。また、上記推定事象は、その文字グループであるか否かを推定した事象であってもよいし、その文字グループでありそうな可能性を推定した事象であってもよい。

当該構成において、文字認識装置が、上記複数の文字グループのそれぞれについて、文字の認識結果が当該文字グループであると推定するか、あるいは、認識対象とする文字の属する文字グループが当該文字グループであると指定する操作を受け付けると、生成手段は、それらの事象の発生を検出して、事象の履歴と、その統計処理結果との少なくとも一方を示す記憶情報を生成して記憶装置に記憶する。一方、文字認識手段は、上記記憶装置に記憶された記憶情報を参照して、文字の画像または手書き入力を受け付けた文字を文字コードに変換する。

上記構成では、上記の事象の履歴と、その統計処理結果との少なくとも一方を参照して、文字の画像または手書き入力を受け付けた文字を文字コードに変換している。したがって、認識の度に文字グループを指定する構成よりもユーザの操作回数が大幅に削減されているにも拘わらず、文字の画像または手書き入力のみを参照して文字コードに変換する構成よりも高い精度で文字認識できる。

さらに、上記構成に加えて、上記生成手段が検出する事象には、さらに、文字認識装置の電源がＯＮまたはＯＦＦしたという事象が含まれていてもよい。また、上記構成に加えて、他の機器と通信する通信手段を備え、上記生成手段が検出する事象には、さらに、当該通信手段の機能を有効または無効にしたという事象が含まれていてもよい。なお、通信手段を備えた文字認識装置の一例としては、カメラ付き携帯電話が挙げられる。

ここで、上記構成では、推定事象や操作事象の履歴と、その統計処理結果との少なくとも一方を参照して、文字の画像または手書き入力を受け付けた文字を文字コードに変換するので、これまでの事象によって、認識結果が左右される。この結果、例えば、他の言語圏に移動した場合、あるいは、文字認識装置が長い期間放置されていて、その間に、ユーザの興味が変化したり、ユーザが他のユーザに変わってしまった場合など、認識対象とする文字の属する文字グループが変化した場合には、誤認識する可能性が高くなる虞れがある。

これに対して、上記構成では、電源がＯＮまたはＯＦＦしたという事象や、通信手段の機能を有効または無効にしたという事象も、生成手段が検出しており、文字認識処理時に、これらの履歴と、その統計処理結果との少なくとも一方が参照される。したがって、上記のように、他の言語圏への移動が疑われる場合（例えば、通信ＯＦＦ設定が所定時間以上続いた場合など）や、長い期間放置された場合には、例えば、これまでの事象によって認識結果が左右される程度を抑えるなど、電源のＯＮ／ＯＦＦや通信手段の機能の有効／無効に応じた処理を取ることができる。この結果、これらの場合でも、誤認識の可能性を抑えることができる。

また、上記構成に加えて、上記記憶情報には、事象の発生時点を示す情報（例えば、時刻情報や日付け情報など）が含まれていてもよい。当該構成では、各事象の発生時点を示す情報が含まれているので、例えば、より古い時点の事象よりも新しい時点の事象を優先して文字認識処理に反映させるなど、各事象の発生時点に応じた処理を行うことができ、文字認識の精度を向上できる。

さらに、上記構成に加えて、上記生成手段が検出する事象には、上記推定事象と操作事象との双方が含まれており、上記文字認識手段は、上記推定事象を示す記憶情報よりも上記操作事象を示す記憶事象の方を優先して、当該文字認識手段による文字認識処理に反映させてもよい。

ここで、文字の認識結果が当該文字グループでありそうだと文字認識装置が推定した場合は、認識対象とする文字の属する文字グループが当該文字グループであると指定する操作を受け付けた場合と異なって、推定が誤っている可能性がある。

したがって、上記生成手段が検出する事象に上記両事象を含める場合、上記推定事象よりも操作事象の方を優先して文字認識処理に反映させることによって、双方を同程度に反映させる場合よりも文字認識の精度を向上できる。

さらに、上記構成に加えて、上記生成手段は、記憶情報として、統計処理結果を示す情報を記憶してもよい。また、上記構成に加えて、上記生成手段は、記憶情報として、履歴を示す情報を記憶し、上記文字認識手段は、当該記憶情報を統計処理した結果を参照して、文字の画像または手書き入力を受け付けた文字を文字コードに変換してもよい。

これらの構成では、上記事象の発生の履歴を統計処理した結果を参照して、文字の画像または手書き入力を受け付けた文字が文字コードに変換されるので、文字認識の精度をさらに向上できる。

また、上記構成に加えて、上記文字認識手段は、文字の画像または手書き入力を受け付けた文字と、各文字コードの示す文字との類似度を評価して、当該文字の画像または手書き入力を受け付けた文字がいずれの文字コードであるかを決定する文字決定手段と、上記記憶情報を参照して、上記複数の文字グループのそれぞれについて、認識対象とする文字が当該文字グループに含まれる可能性を推定する推定手段とを備え、上記文字決定手段は、当該各文字グループの可能性に基づいて、認識結果となり得る文字コードを変更してもよい。

当該構成では、各文字グループの可能性に基づいて、認識結果となり得る文字コードが変更されるので、認識結果となり得る文字コードを、全文字グループのいずれかに属する文字の文字コードに固定する構成と比較して、文字認識時の演算量を抑制したり、文字認識の精度を向上したりできる。

また、上記構成に加えて、上記文字認識手段は、文字の画像または手書き入力を受け付けた文字と、各文字コードの示す文字との類似度を評価して、当該文字の画像または手書き入力を受け付けた文字がいずれの文字コードであるかを決定する文字決定手段と、上記記憶情報を参照して、上記複数の文字グループのそれぞれについて、認識対象とする文字が当該文字グループに含まれる可能性を推定する推定手段と、当該各文字グループの可能性に基づいて、上記各文字との類似度を評価する際の重みを算出する重み算出手段とを備えていてもよい。

当該構成では、各文字グループの可能性に基づいて、上記各文字との類似度を評価する際の重みが算出されるので、上記各文字との類似度を評価する際の重みを、各文字グループの可能性に応じて変更できる。したがって、上記各文字との類似度を評価する際の重みを固定する構成と比較して、文字認識の精度を向上できる。

一方、本発明に係る文字認識方法は、上記課題を解決するために、複数の文字グループのいずれかに含まれる文字の画像または手書き入力を受け付けた文字を文字認識して文字コードに変換する文字認識工程を含む文字認識方法において、上記複数の文字グループのそれぞれについて、文字の認識結果が当該文字グループであると推定したという推定事象と、認識対象とする文字の属する文字グループが当該文字グループであると指定する操作を受け付けたという操作事象との少なくとも一方の事象の発生を検出する検出工程を含み、上記文字認識工程は、上記検出工程にて検出された事象の履歴およびその統計処理結果の少なくとも一方を参照して、文字の画像または手書き入力を受け付けた文字を文字コードに変換することを特徴としている。

上記構成でも、上記文字認識装置と同様に、上記の事象の履歴と、その統計処理結果との少なくとも一方を参照して、文字の画像または手書き入力を受け付けた文字が文字コードに変換される。したがって、認識の度に文字グループを指定する構成よりもユーザの操作回数が大幅に削減されているにも拘わらず、文字の画像または手書き入力のみを参照して文字コードに変換する構成よりも高い精度で文字認識できる。

ところで、上記文字認識装置は、ハードウェアで実現してもよいし、プログラムをコンピュータに実行させることによって実現してもよい。具体的には、本発明に係るプログラムは、上記各手段としてコンピュータを動作させるプログラムであり、本発明に係る記録媒体には、当該プログラムが記録されている。

これらのプログラムがコンピュータによって実行されると、当該コンピュータは、上記文字認識装置として動作する。したがって、上記文字認識装置と同様、認識の度に文字グループを指定する構成よりもユーザの操作回数が大幅に削減されているにも拘わらず、文字の画像または手書き入力をのみを参照して文字コードに変換する構成よりも高い精度で文字認識できる。

本発明によれば、上記の事象の履歴と、その統計処理結果との少なくとも一方を参照して、文字の画像または手書き入力を受け付けた文字が文字コードに変換される。したがって、認識の度に文字グループを指定する構成よりもユーザの操作回数が大幅に削減されているにも拘わらず、文字の画像または手書き入力のみを参照して文字コードに変換する構成よりも高い精度で文字認識できる。

この結果、複数の文字グループの文字を認識可能な携帯型の文字認識装置やカメラ付き携帯電話、あるいは、さらに、翻訳または辞書引き機能を備えた携帯型翻訳機／携帯型電子辞書をはじめとして、複数の文字グループの文字を認識可能な文字認識装置として広く好適に使用できる。

〔第１の実施の形態〕
本発明の一実施形態について図１ないし図１５に基づいて説明すると以下の通りである。すなわち、本実施形態に係る文字認識装置は、例えば、多言語対応の文字認識装置など、認識対象文字が複数の文字グループのいずれに属している場合であっても、ユーザに余り負担をかけることなく、各認識対象文字が各文字グループのいずれであるかを高精度に判定可能な装置であって、例えば、カメラ付き携帯電話や携帯型の翻訳装置をはじめとして、種々の用途に好適に使用できる。

以下では、一例として、文字認識装置が、カメラ付き携帯電話であって、しかも、認識された文字列を辞書引きして、意味を提示できる場合を例にして説明する。また、上記複数の文字グループは、例えば、漢字／ひらがな／カタカナなど、互いに同じ言語に属する文字グループ同士であってもよいが、以下では、一例として、英語／フランス語／ドイツ語／ポルトガル語など、各文字グループがそれぞれの言語で一般的に使用される文字である場合を例にして説明する。ここで、言語で一般的に使用される文字には、その言語固有の文字だけではなく、例えば、ギリシャ語の場合におけるＡＳＣＩＩ文字など、他の言語の文字が含まれていてもよい。なお、ＡＳＣＩＩ文字は、ギリシャ語のように、その言語固有の文字に含まれていない場合であっても、人名や、Ｅ−ＭＡＩＬのアドレス、ＵＲＩ( Universal Resource Identifier)やＵＲＬ（ Uniform Resource Locator ）などで使用される可能性が高いので、各言語で一般的に使用される文字に含む方が望ましい。

以下では、文字グループの判定について説明する前に、装置全体のハードウェア構成、および、文字認識の概略について説明する。すなわち、本実施形態に係るカメラ付き携帯電話１は、図２に示すように、文字認識対象とする映像（被写体）を撮像する撮像部１１と、ユーザインターフェースとなる表示部１２および操作部（生成手段）１３と、例えば、ＲＯＭ（Read Only Memory）などから構成され、プログラム等が記録される不揮発性の記録媒体１４と、例えば、ＲＡＭ（Random Access Memory）などから構成され、作業用の領域として使用される読み書き可能な記録媒体１５と、例えば、通信装置、スピーカ、マイクなど、携帯電話として動作するための電話用部材１６と、例えば、ＣＰＵ（Central Processing Unit ）などからなり、それらを制御するための中央制御（コンピュータ）部１７とを備えている。当該中央制御部１７は、不揮発性の記録媒体１４に格納されたプログラムを実行して、必要に応じて、読み書き可能な記録媒体１５を使用したり、上記各部材１１〜１３および１６を制御することによって、種々の機能ブロックを実現することができ、上記各部材１１〜１７を、カメラ付き携帯電話１として動作させることができる。なお、上記カメラ付き携帯電話１は、図示しない付加装置として、例えば、ＵＳＢ（Universal Serial Bus）、メモリカードスロットなどの外部記憶装置との接続装置を備えていてもよい。

上記撮像部１１は、例えば、ＣＣＤ（ Charge-Coupled Device）、あるいは、デジタル電子カメラなどにより実現できる。また、上記表示部１２は、例えば、液晶パネルなどにより実現され、上記中央制御部１７が実行する画像表示プログラムなどにより生成された画像を表示できる。さらに、上記操作部１３は、例えば、シャッターなどの操作を行うボタンなどを備え、操作入力機能を有している。また、上記記録媒体１４には、例えば、対象文字判定プログラムを格納するエリア、文字認識プログラムを格納するエリア、および、画像表示プログラムを格納するエリアや、その他のプログラムを格納するエリアが設けられており、中央制御部１７が、これらのプログラムを実行し、必要な周辺機器を制御することによって、後述する各機能ブロックを形成できる。

さらに、本実施形態に係るカメラ付き携帯電話１には、例えば、フラッシュメモリやバッテリバックアップされたＲＡＭなどによって構成された、読み書き可能な不揮発性の記録媒体１８が設けられており、上記中央制御部１７は、当該記録媒体１８に、後述する操作履歴を記憶することができる。

上記中央制御部１７によって実現される機能ブロックとしては、種々の機能を有するものが挙げられるが、文字認識に関係する部分だけを挙げると、図１に示すようになる。具体的には、上記中央制御部１７が上述したようにプログラムを実行すると、カメラ付き携帯電話１には、図１に示すように、認識対象とする文字列を含む画像を撮像して、撮像結果を示す画像データに変換する撮像処理部２１と、撮像処理部２１の撮像した画像データを領域分割して、認識対象とする文字列の画像データを抽出する画像処理部２２と、当該文字列の画像データを文字認識して、認識結果としての文字列データを生成する認識処理部２３と、文字列データに基づいて辞書引きして、文字列データの意味を、例えば、表示部１２への表示などによってユーザに提示する辞書引き処理部２４とが形成される。これにより、カメラ付き携帯電話１は、撮像した文字列を認識して、認識された文字列の意味をユーザに提示できる。

より詳細には、上記撮像処理部２１は、例えば、図２に示す操作部１３に対するユーザのシャッター操作などの撮像指示を検出すると共に、当該撮像指示に応じて、例えば、撮像部１１を制御して上記読み書き可能な記録媒体１５の画像バッファに撮像結果を格納させるなどして、撮像結果を確定できる。

なお、画像処理部２２および認識処理部２３は、多値の画像データに対して、領域分割処理、文字認識処理を行ってもよいが、本実施形態では、背景画像と認識対象とする文字の画像とを区別するために、これらの処理に先立って、画像処理部２２が、多値の画像データを２値化し、上記各処理部２２・２３は、２値化後の画像データを画像処理して、領域分割処理、文字認識処理している。より詳細には、上記画像処理部２２は、例えば、図２に示す読み書き可能な記録媒体１５の画像バッファから画像データを読み出すなどして、上記撮像処理部２１の撮像した画像データを２値化処理して、２値化後の画像データを、画像バッファに格納し、上記各処理部２２・２３は、当該画像バッファを参照するなどして、２値化後の画像データを取得している。

また、上記画像処理部２２は、例えば、行抽出処理および単語抽出処理などの画像処理を行って、上記画像データから、認識対象とする文字列の画像データを抽出できる。

上記行抽出方法としては、種々の方法が挙げられるが、本実施形態に係る画像処理部２２は、一例として、上記２値化後の画像データの示す画像を横方向に投影し、投影分布を求め、投影分布に基づいて各行を分離し、その中から認識対象とする単語を含む行を選択する方法を採用している。また、本実施形態に係る画像処理部２２は、投影を求めるための好ましい方法として、例えば、横方向に画素数を加算する方法を採用しており、比較的少ない演算量で、投影を求めることができるが、他の方法として、連結成分の外接矩形を求め、外接矩形に含まれる画素数の加算値を計算するなどの方法を採用してもよい。また、本実施形態に係る上記画像処理部２２は、撮像した画像データにおいて、最も中央部に近い行を、目的の行と判断して選択している。

これにより、例えば、図３に示す画像が撮像された場合、画像処理部２２は、当該画像のデータを、図４に示すように、各行Ｌ１〜Ｌ４に分割すると共に、２番目の行Ｌ２を目的の行として選択できる。

また、単語抽出方法も、種々の方法が挙げられるが、本実施形態に係る画像処理部２２は、一例として、以下の方法を採用している。すなわち、画像処理部２２は、選択された行に含まれる黒画素を連結成分に分割し、それぞれの連結成分の外接矩形を求める。この外接矩形相互間の距離を求め、隣接する矩形間の距離が一定値（例えば、矩形の平均高さの０．５倍など）を超えた場合、単語の区切りと判断する。ここで、一般に、英語などの言語では、単語間には、単語内の文字間よりも大きな空白が設けられる。したがって、上記のように判断することによって、的確に単語間の区切りを検出できる。さらに、本実施形態に係る画像処理部２２は、単語毎に区切られた画像データにおいて、最も中央部に近い単語の画像データを、認識対象とする単語の画像データとして選択している。

これにより、図５に示すように、画像処理部２２は、上記行Ｌ２の画像データを、単語Ｗ１〜Ｗ５の画像データ（範囲）に分割することができ、その中の３番目の単語Ｗ３を目的の単語として選択できる。

なお、上記では、画像処理部２２が中央の行および単語を選択する場合について説明したが、画像処理部２２は、当該処理に代えて／加えて、例えば、分離された各行または単語を提示するなどして、ユーザに選択操作を促すと共に、受け付けた選択操作（例えば、十字キーへの操作など）の示す行または単語を選択する処理を行ってもよい。

一方、本実施形態に係る認識処理部２３は、上記画像処理部２２によって抽出された文字列の画像データを文字認識処理して、文字列を構成する各文字の文字コードを示す文字列データ（例えば、文字コード列など）を出力できる。

ここで、本実施形態に係る認識処理部２３は、文字単位で文字認識処理を行っている。具体的には、本実施形態に係る認識処理部２３は、単語分割する際と同様に、文字列の画像データを各文字の画像データに分割できる。より詳細には、認識処理部２３は、例えば、単語分割時に算出した黒画素連結成分の情報を用い、隣接する矩形間の距離が、単語分割時よりも低い値に設定された一定値を超えた場合、文字の区切りと判断するなどして、各文字を切り出している。

また、上記認識処理部２３は、図示しない文字認識辞書を備えており、切り出された画像データを当該文字認識辞書と照合することによって、認識結果となり得る文字コードの文字のそれぞれについて、当該文字ｙと当該画像データの示す文字との類似度Ｒ（ｙ）を求め、各文字ｙの類似度Ｒ（ｙ）同士を比較して、認識結果となる文字コードを決定できる。なお、本実施形態では、類似度Ｒ（ｙ）を評価する際に、後述する履歴情報に基づく重み付けを行うなどして、履歴情報により、文字認識処理の方法および出力される文字コード列の少なくとも一方を変化させているが、それについては、後の履歴情報の説明と共に詳述する。

類似度Ｒ（ｙ）を算出する方法は、種々の方法が考えられるが、本実施形態に係る認識処理部２３は、その一例として、上記文字認識辞書に記憶された文字の形状（辞書形状）と、認識対象となる文字の画像から特定された文字の形状（文字形状）とが一致した場合に、類似度Ｒ（ｙ）を、最大値（例えば、１０，０００）に設定し、辞書形状と文字形状との相違が大きくなる程、類似度Ｒ（ｙ）を下げている。

一方、辞書引き処理部２４は、図示しない辞書を備えており、例えば、認識処理部２３の出力する文字列データに関連付けて記憶された文字列データの意味を、当該辞書から読み出して、ユーザに提示できる。

例えば、上記辞書に、”ｑｕｅｕｅ”という英単語に関連付けて、”（順番を待つ列）…”という意味が記憶されている場合、例えば、認識処理部２３が図５に示す単語Ｗ３を文字認識して、”ｑｕｅｕｅ”という文字列を示す文字列データを出力すると、辞書引き処理部２４は、例えば、図６に示すように上記意味を表示するなどして、当該文字列の意味をユーザに提示できる。

また、本実施形態に係る認識処理部２３は、辞書引き結果に誤りがあった場合、例えば、選択可能な言語を表示部１２などにより提示して言語の選択を促すと共に、操作部１３による選択操作を受け付けるなどして、認識対象となる文字列の属する言語の入力を受け付けることができる。さらに、認識処理部２３は、例えば、受け付けた言語に属する文字のみを照合の対象にするなどして、認識結果となる文字列が当該言語に属する文字からなるように、文字列の画像データを再度文字認識できる。

これにより、ユーザは、カメラ付き携帯電話１が認識対象となる文字列の言語にない文字を認識結果に挙げている場合、正しい言語を指示することにより、カメラ付き携帯電話１が正しい言語を推定して文字認識するときよりも高い精度で文字認識させることができる。

なお、認識処理部２３は、文字毎の修正指示を受け付けると共に、修正指示に応じて、認識結果を修正し、再度、辞書引き処理部２４に辞書引きを指示できるので、言語を指定しても文字認識に失敗する場合であっても、正しい辞書引き結果を提示できる。

さらに、本実施形態に係る認識処理部２３には、上述した文字の類似度Ｒ（ｙ）を算出する文字認識処理部３１に加えて、上記言語の指定操作を含む事象の履歴を示す履歴情報を記憶する履歴情報記憶部（記憶装置）４１と、履歴情報記憶部４１に格納された履歴情報に基づき、認識可能な言語ｘのそれぞれについて、次に認識しようとする文字列が当該言語ｘの文字列である可能性を示す可能性値Ｐ（ｘ）を算出する言語可能性値推定部（生成手段；推定手段）４２と、各言語ｘの可能性値Ｐ（ｘ）に基づいて、類似度判定時のＲ（ｙ）に付与する重み（その文字ｙの認識対象確率値）としてのＱ（ｙ）を算出する重み算出部４３と、上記文字認識処理部３１の出力する文字の類似度Ｒ（ｙ）に、上記重み算出部４３からの当該重みＱ（ｙ）を付与して評価し、評価結果に基づいて文字列データを生成する文字列生成部４４とが設けられている。なお、電源断に伴なう統計情報の損失を防止するために、上記履歴情報記憶部４１は、読み書き可能な不揮発性の記録媒体１８に形成されている方が望ましい。また、上記文字認識処理部３１および文字列生成部４４が特許請求の範囲に記載の文字決定手段に対応する。

ここで、上記重み算出部４３は、上記重みＱ（ｙ）を算出する際、言語ｘの可能性値Ｐ（ｘ）の低い言語ｘのみに属する文字ｙは、重みＱ（ｙ）がより小さく、可能性の高い言語ｘ属する文字ｙは、重みＱ（ｙ）がより大きくなるように算出する。

これにより、認識処理部２３は、単に類似度Ｒ（ｙ）を評価するのではなく、履歴情報に基づく重みＱ（ｙ）を付けて類似度Ｒ（ｙ）を評価できる。したがって、認識の度に言語を指定する構成よりもユーザの操作回数が大幅に削減され、ユーザに与えるストレスが軽減されているにも拘わらず、類似度Ｒ（ｙ）のみに基づいて文字認識する構成よりも高い精度で文字認識できる。

なお、上記履歴情報として、後述する種々の履歴情報を用いることができるが、以下では、履歴情報が、言語の指定操作、言語の推定結果、並びに、電源および通信機能のＯＮ／ＯＦＦの履歴を示している場合を例にして説明する。

より詳細には、本実施形態に係る履歴情報記憶部４１には、履歴情報として、図７に示すように、上記言語の指定操作の履歴を示す操作履歴情報が記憶されている。当該操作履歴情報は、言語に関連付けて、操作された時点の情報を記憶したものであって、本実施形態では、操作された時点の情報（例えば、日付情報および時刻情報）と言語を示す情報とを含んでいる。また、上記操作部１３は、言語の指定操作を受け付けた場合、上記操作履歴情報として、上記受け付けた時点の情報を、当該言語に関連付けて、履歴情報記憶部４１に追加できる。

これにより、言語可能性値推定部４２は、例えば、履歴情報記憶部４１に格納された操作履歴情報の時点情報のうち、特定の言語に関連付けられた時点情報を抽出するなどして、各言語について、当該言語への操作を受け付けた時点のリストを取得できる。

さらに、本実施形態に係る言語可能性値推定部４２は、上記認識処理部２３が文字列の画像データを文字認識する度に、各言語ｘの可能性値Ｐ（ｘ）に基づく推定結果の履歴を示す推定履歴情報を生成し、履歴情報として、履歴情報記憶部４１に追加できる。

当該推定履歴情報は、推定結果に関連付けて、推定した時点の情報を記憶したものである。本実施形態では、上記推定履歴情報は、時点の情報と、推定結果を示す情報とを含んでいる。また、本実施形態に係る言語可能性値推定部４２は、上記推定結果を示す情報として、上記言語可能性値推定部４２の算出した各言語ｘの可能性値Ｐ（ｘ）のうち、最も大きな値を持ったものに対応する言語ｘを示す情報を履歴情報記憶部４１に書き込んでいる。

これにより、言語可能性値推定部４２は、例えば、履歴情報記憶部４１に格納された全推定履歴情報から、履歴情報記憶部４１の各操作履歴情報の時点情報の直前を示す時点情報を持った推定履歴情報を取り除くなどして、推定後に修正されなかった推定履歴情報（無修正推定履歴情報）を抽出することができる。さらに、言語可能性値推定部４２は、例えば、当該無修正推定履歴情報の時点情報のうち、特定の言語に関連付けられた時点情報を抽出するなどして、各言語について、当該言語と正しく推定した時点（その後に修正されなかった推定時点）のリストを取得できる。

本実施形態では、図７に示すように、推定履歴情報および操作履歴情報が言語履歴情報としてまとめられており、時点の情報と、推定結果を示す情報と、言語の指定操作を受け付けたか否か、および、受け付けた場合は、指定された言語を示す操作情報との組み合わせとして、履歴情報記憶部４１に格納されている。なお、一般に、修正を指示する場合、推定した時点と修正した時点とは、略同時であり、上記両時点を同時とみなしても言語ｘの可能性値Ｐ（ｘ）を算出する際に必要な精度を保つことができるので、本実施形態では、より後の時点を示す時点情報を、上記両時点の情報として使用している。具体的には、言語可能性値推定部４２は、例えば、推定結果の履歴を書き込む際、時点の情報と、推定結果の情報と、操作受付なしを示す操作情報とを書き込んでいる。また、上記操作部１３は、言語の指定操作を受け付けた場合、履歴情報記憶部４１に格納された言語履歴情報のうち、最新の言語履歴情報に関連付けて、受け付けた言語を示す情報を書き込むと共に、時点の情報を、操作を受け付けた時点を示すように修正している。これにより、言語可能性値推定部４２は、例えば、履歴情報記憶部４１に格納された言語履歴情報の時点情報から、特定の言語ｘに関連付けられ、しかも、操作情報が「操作受付なし」を示す時点情報を抽出するだけで、当該言語ｘと正しく推定した時点のリスト（無修正履歴情報の時点のリスト）を取得できる。

また、本実施形態に係る履歴情報記憶部４１には、他の履歴情報として、電源ＯＮ／ＯＦＦの履歴を示す電源履歴情報と、通信機能のＯＮ／ＯＦＦの履歴を示す通信機能履歴情報とが記憶されている。当該電源および通信機能履歴情報は、電源ＯＮ／ＯＦＦという事象あるいは通信機能のＯＮ／ＯＦＦという事象に関連付けて、その事象が発生した時点の情報を記憶したものである。本実施形態では、上記電源および通信機能履歴情報が、機器の状態履歴情報としてまとめられており、時点の情報と、各事象を示す情報との組み合わせとして記憶されている。例えば、図７に示す、１０番目の状態履歴情報は、２００５／２／２５の２３：０８という時点を示す情報と、電源ＯＦＦを示す情報と、通信機能のＯＦＦとを示す情報とを含んでいる。

なお、カメラ付き携帯電話１は、電源および通信機能のＯＮ／ＯＦＦを監視して、上記各事象の発生を検出してもよいが、本実施形態では、電源および通信機能のＯＮ／ＯＦＦ操作を受け付けたか否かによって、上記各事象の発生を検出しており、操作部１３は、これらの操作を受け付けた場合、受け付けた事象に関連付けて、その事象が発生した時点の情報を、上記電源および通信機能履歴情報として、履歴情報記憶部４１に追加できる。

これにより、言語可能性値推定部４２は、例えば、履歴情報記憶部４１に記憶されている、通信機能ＯＦＦに関する状態履歴情報のうちの最新のものが電源ＯＦＦを示す情報を含まず、しかも、通信機能ＯＦＦを示す情報を含む状態履歴情報であるか否かを判定し、さらに、含んでいる場合は、その時点から、次に通信機能ＯＮを示す情報を含む状態履歴情報の時点までの期間が予め定められた閾値を超えているか否かを判定したり、履歴情報記憶部４１に、現在の時点との時間差が予め定められた閾値よりも短く、しかも、電源ＯＦＦを示す情報を含まず、通信機能ＯＦＦを示す情報を含む状態履歴情報が記憶されているか否かを判定し、さらに、記憶されている場合は、その時点から、次に通信機能ＯＮを示す情報を含む状態履歴情報の時点までの期間が予め定められた閾値を超えているか否かを判定したりして、直前に、電源がＯＦＦされずに通信機能がＯＦＦされ、しかも、通信機能ＯＦＦの時間が予め定める期間を超えているか否かを判定できる。

一方、本実施形態に係る言語可能性値推定部４２は、以下に示すようにして、履歴情報記憶部４１に格納された各履歴情報に基づいて、各言語ｘの可能性値Ｐ（ｘ）を算出している。すなわち、履歴情報記憶部４１は、上述したように、履歴情報記憶部４１に格納された各履歴情報が、「直前に、電源がＯＦＦされずに通信機能がＯＦＦされ、しかも、通信機能ＯＦＦの時間が予め定める期間を超えている」ことを示しているか否かを判定し、示していると判定した場合、例えば、重み算出部４３へ指示するなどして、文字列生成部４４が各文字ｙの類似度Ｒ（ｙ）を評価する際の重みＱ（ｙ）を互いに等しい値（例えば、それぞれ”１”）に設定できる。

これとは逆に、示していないと判定した場合、上記言語可能性値推定部４２は、以下の式（１）に示すように、
Ｐ（ｘ）＝Ｗ１・Σ（１／ｔａ²）＋Ｗ２・Σ（１／ｔｍ²） …（１）
により、各言語ｘの可能性値Ｐ（ｘ）を算出する。

なお、本実施形態に係る言語可能性値推定部４２は、各言語ｘの可能性値Ｐ（ｘ）を算出する際、例えば、各言語ｘの可能性値Ｐ（ｘ）を互いに同じ値で割るなどして、各言語ｘの可能性値Ｐ（ｘ）の合計が予め定められた値（例えば、”１”）になるように正規化している。

ここで、上式（１）において、ｔｍは、履歴情報記憶部４１に格納された操作履歴情報のうち、可能性値Ｐ（ｘ）の算出対象とする言語ｘに関連付けられた各操作履歴情報において、操作された時点から現時点までの時間を示しており、Σ（１／ｔｍ²）は、履歴情報記憶部４１に格納された操作履歴情報のうち、当該言語ｘに関連付けられた操作履歴情報の全てについての（１／ｔｍ²）の合計を示している。なお、言語可能性値推定部４２は、例えば、操作履歴情報に含まれる時点の情報と現在の時点の情報との時間差を算出するなどして、各操作履歴情報についてのｔｍを求めることができる。

同様に、ｔａは、履歴情報記憶部４１に格納された無修正推定履歴情報のうち、可能性値Ｐ（ｘ）の算出対象とする言語ｘに関連付けられた各無修正推定履歴情報において、推定された時点から現時点までの時間を示しており、Σ（１／ｔａ²）は、履歴情報記憶部４１に格納された無修正推定履歴情報のうち、当該言語ｘに関連付けられた無修正推定履歴情報の全てについての（１／ｔａ²）の合計を示している。なお、言語可能性値推定部４２は、例えば、無修正推定履歴情報に含まれる時点の情報と現在の時点の情報との時間差を算出するなどして、各無修正推定履歴情報についてのｔａを求めることができる。

また、Ｗ１およびＷ２は、右辺の各項が可能性値Ｐ（ｘ）に寄与する程度を示す重みであって、それぞれが適切な値に予め定められている。本実施形態では、例えば、”１”と”２”とのように、Ｗ２の方がＷ１よりも大きく、操作履歴情報の方が、より可能性値Ｐ（ｘ）の向上に寄与するように設定されている。

なお、上記では、一例として、言語可能性値推定部４２が算出する場合を例にして説明したが、履歴情報記憶部４１が計算機能を有している場合は、言語可能性値推定部４２は、例えば、Σ（１／ｔｍ²）の結果を問い合わせるなど、上記式（１）の一部または全部の計算結果を問い合わせて、言語ｘの可能性値Ｐ（ｘ）を決定してもよい。

一方、本実施形態に係る重み算出部４３は、予め定められた閾値よりも大きな言語可能性値Ｐ（ｘ１）の言語ｘ１と、当該閾値以下の言語可能性値Ｐ（ｘ２）の言語ｘ２とがある場合、言語ｘ２にのみ属する文字ｙの重みＱ（ｙ）を”０”に設定する。なお、可能性値Ｐ（ｘ）が”０”〜”１”の値になるように正規化した場合、上記閾値として、例えば、”０．６”などの値が好適に使用される。

これにより、上記の場合、すなわち、認識対象となる文字列の言語が、言語ｘ１のいずれかであり、言語ｘ２である可能性が殆どないと判断した場合に、重み算出部４３は、当該言語ｘ２のみに含まれる文字が、認識結果に含まれないように制御できる。

なお、本実施形態に係る認識処理部２３には、例えば、図８に示すように、認識可能な全ての文字と認識可能な全ての言語との組み合わせについて、当該文字が当該言語に含まれているか否かを示す属性が記憶された言語テーブル４５を備えており、上記重み算出部４３は、当該言語テーブル４５を参照して、各文字がいずれの言語に含まれているかを判定できる。

より詳細には、本実施形態に係る言語テーブル４５は、「属性の種類（言語の数）」×「認識対象文字数」分の表である。図８では、説明の便宜上、表の左に、属性の種類を図示し、上に認識候補文字を図示している。また、図８では、ある言語が、その言語に属している場合、その属性を”１”、属していない場合は、その属性を”０”と図示している。例えば、ある文字「Ａ（グレーブ付き）」は、フランス語には、含まれているが、ドイツ語には含まれていない。したがって、図８の表において、「Ａ（グレーブ付き）」と「フランス語」とが交差する位置には、その言語に属していることを示す値（その種類の属性を有していることを示す値）として、”１”が配置され、「ドイツ語」と交差する位置には、その言語に属していないことを示す値（その種類の属性を有していないことを示す値）として”０”が配置されている。なお、ある文字が、複数の言語で使用されることがあるため、例えば、図８に示す文字「Ａ」のように、ある文字が複数の属性を持っていてもよい。

さらに、この場合、重み算出部４３は、上記言語ｘ１のいずれかに属する文字ｙの重みＱ（ｙ）を互いに同じ値（例えば、”１”）に設定する。これにより、各言語ｘ１の言語可能性値Ｐ（ｘ１）が上記閾値を超えており、どの言語ｘ１の文字であってもおかしくない場合に、重み算出部４３が各言語ｘ１の言語可能性値Ｐ（ｘ１）を算出する際の誤差が認識結果に反映されることを防止できる。

一方、上記閾値を超える可能性値Ｐ（ｘ）を持った言語ｘが存在しない場合、重み算出部４３は、重みＱ（ｙ）が０＜Ｑ（ｙ）＜１を満たし、しかも、文字ｙの属する言語ｘの可能性値Ｐ（ｘ）が大きくなる程、重みＱ（ｙ）が大きくなるように、重みＱ（ｙ）の値を決定する。

例えば、本実施形態では、複数の属性を持つ（複数の言語に含まれる）文字は、上記で求められた、各言語ｘの可能性値Ｐ（ｘ）の最大値を用いており、重みＱ（ｙ）を、以下の式（２）に示すように、
Ｑ（ｙ）＝ＭＡＸ（Ｐ（ｙ∈ｘ）） …（２）
により決定している。なお、上式（２）において、ｙ∈ｘは、文字ｙを含む言語ｘを示し、Ｐ（ｙ∈ｘ）は、当該言語ｘの可能性値Ｐ（ｘ）の値であり、ＭＡＸ（Ｐ（ｙ∈ｘ））は、文字ｙを含む各言語ｘの可能性値Ｐ（ｘ）のうち、最大値を示している。

本実施形態に係る文字列生成部４４は、認識対象となる各文字の画像データについて、例えば、以下の式（３）に示すように、
Ｒ１（ｙ）＝Ｒ（ｙ）・Ｑ（ｙ） …（３）
を算出し、当該重み付与後の類似度Ｒ１（ｙ）の和が最大になる文字コードの並びを示すデータを、認識結果の文字列データとして出力できる。

一方、操作部１３は、言語の指定操作を受け付けた場合、例えば、重み算出部４３に指示して、当該言語の重みＱ（ｙ）を０以外の値（例えば、”１”など）に設定し、当該言語以外の重みＱ（ｙ）を”０”に設定するなどして、認識処理部２３が文字列の画像データを文字認識する際に比較対象とする文字の範囲を、当該言語に含まれる文字に限定できる。

上記構成において、カメラ付き携帯電話１が文字認識する際の動作を、図９に基づき説明すると、以下の通りである。すなわち、ステップ１（以下では、Ｓ１のように略称する）において、撮像処理部２１がユーザの撮像操作を受け付け、撮像結果を示す画像データを生成すると、画像処理部２２は、Ｓ２において、上述したように、例えば、２値化処理、行抽出処理、単語抽出処理などの画像処理を行って、上記画像データの中から、認識対象とする文字列の画像データを抽出し、認識処理部２３へ当該画像データの文字認識を指示する。

一方、認識処理部２３の重み算出部４３は、Ｓ１１において、言語可能性値推定部４２が履歴情報記憶部４１の履歴情報を参照して算出した各言語ｘの可能性値Ｐ（ｘ）に基づいて、各文字ｙの類似度Ｒ（ｙ）を評価する際の重みＱ（ｙ）を決定する。

当該重みＱ（ｙ）決定処理について、より詳細に説明すると、図１０に示すＳ２１において、言語可能性値推定部４２は、履歴情報記憶部４１を参照し、履歴情報の有無、および、直前に電源がＯＦＦされずに通信機能がＯＦＦされ、しかも、通信機能ＯＦＦの時間が予め定める期間を超えているか否かを判定する。

履歴情報が記録されており、しかも、直前に電源がＯＦＦされずに通信機能がＯＦＦされ、しかも、通信機能ＯＦＦの時間が予め定める期間を超えていることを履歴情報が示していない場合（上記Ｓ２１にて、それ以外の場合）、言語可能性値推定部４２は、Ｓ２２において、履歴情報記憶部４１の操作履歴情報および推定履歴情報に基づいて、例えば、上述の式（１）などに従って、各言語ｘの可能性値Ｐ（ｘ）を算出する。

さらに、重み算出部４３は、Ｓ２３において、これらの可能性値Ｐ（ｘ）のうち、閾値を超えたものがあるか否かを判定し、超えたものがある場合、Ｓ２４において、閾値を超えた可能性値Ｐ（ｘ）を持った言語ｘに属する文字ｙの重みＱ（ｙ）を”１”に設定し、残余の文字ｙの重みＱ（ｙ）を”０”に設定する。

これとは逆に、いずれの可能性値Ｐ（ｘ）も閾値を超えていない場合、Ｓ２５において、各言語ｘの可能性値Ｐ（ｘ）に応じ、例えば、上述の式（２）などに従って、各文字ｙの重みＱ（ｙ）を算出する。

また、上記Ｓ２１において、履歴情報が記録されていないか、あるいは、直前に電源がＯＦＦされずに通信機能がＯＦＦされ、しかも、通信機能ＯＦＦの時間が予め定める期間を超えていることを履歴情報が示している場合、重み算出部４３は、Ｓ２６において、各文字ｙの重みＱ（ｙ）を”１”に設定する。

一方、図９に示すＳ１２において、言語可能性値推定部４２は、各言語ｘの言語可能性値Ｐ（ｘ）に基づいて、認識対象となる文字列の画像データが属している言語の推定結果を示す推定結果情報を生成し、推定結果の履歴を示す推定履歴情報を履歴情報記憶部４１に格納する。

さらに、Ｓ１３において、文字認識処理部３１は、認識対象とする文字列の画像データに含まれる各文字の画像データを文字認識して、文字ｙ毎に、類似度Ｒ（ｙ）を算出し、文字列生成部４４は、当該類似度Ｒ（ｙ）に、上記Ｓ１１（Ｓ２１〜Ｓ２６）にて算出した重みＱ（ｙ）を付加して評価する。さらに、文字列生成部４４は、重み付与後の類似度Ｒ１（ｙ）が最大になる文字コードを当該文字の文字コードとして決定し、これらの文字コードの並びを示す文字列データを、認識結果とする。

一方、Ｓ１４において、辞書引き処理部２４は、上記Ｓ１３の認識結果の文字列を辞書引きして、その結果を表示する。これにより、例えば、図６に示すように、撮像した画像データを文字認識し、その認識結果の文字列を辞書引きした結果がユーザに提示される。

ここで、認識結果が正しければ、カメラ付き携帯電話１は、当該画像データに対する処理を終了するが、認識結果の言語が誤っていた場合、ユーザは、言語の修正を指示し、操作部１３が修正指示を受け付ける。

この場合（Ｓ３１にて、YES の場合）、操作部１３は、Ｓ３２において、修正指示を示す操作履歴情報を履歴情報記憶部４１に書き込む。さらに、認識処理部２３は、Ｓ３３において、指示された言語ｘに含まれる文字ｙを対象にして、文字認識を行い、その結果の文字コードの並びを示す文字列データを生成する。一方、辞書引き処理部２４は、Ｓ３４において、Ｓ１４と同様に当該文字列データの示す文字列を辞書引きし、ユーザに提示する。

このように、本実施形態に係るカメラ付き携帯電話１は、過去の履歴情報に基づいて、認識対象とする文字列が属している言語ｘの可能性値Ｐ（ｘ）を計算し、文字認識する際、当該可能性値Ｐ（ｘ）に基づいて決定した重みＱ（ｙ）を付加して、類似度Ｒ（ｙ）を評価する。これにより、利用者が文字認識時に毎回言語を指定しなくても、履歴情報を参照せずに文字認識する構成よりも高い精度で文字認識できる。

したがって、利用場所、言語などの違いに制約されることなく、画像データとして取り込まれた各言語で表記された文字を、高精度な文字認識により容易に入力することができる。このため、海外旅行先などの看板、メニューなどに記述されている文字の認識の他、自宅で複数の言語を学習している時のそれぞれの言語の文字の認識のいずれにおいても操作性を顕著に向上できる。

さらに、本実施形態に係るカメラ付き携帯電話１は、履歴情報として、上記言語の指定操作の履歴を示す操作履歴情報を記憶しており、ある言語ｘの指定操作回数が多い程、当該言語ｘの可能性値Ｐ（ｘ）、並びに、その言語ｘに含まれる文字ｙの重みＱ（ｙ）を高くしている。同様に、上記履歴情報には、各言語ｘの可能性値Ｐ（ｘ）に基づく推定結果の履歴を示す推定履歴情報が含まれており、ある言語ｘの推定回数が多い程、当該言語ｘの可能性値Ｐ（ｘ）、並びに、その言語ｘに含まれる文字ｙの重みＱ（ｙ）を高くしている。これにより、過去に推定または指定された回数が多い言語ｘ、すなわち、これからも文字認識が行われる可能性が高い言語ｘに属する文字ｙの重みＱ（ｙ）を高くすることができ、より高い精度で文字認識できる。

さらに、本実施形態に係るカメラ付き携帯電話１は、操作履歴情報および推定履歴情報の少なくとも一方を参照して可能性値Ｐ（ｘ）および重みＱ（ｙ）を決定する際、より新しい時点での履歴情報の寄与が古い時点での履歴情報の寄与よりも大きくしている。これにより、かつて文字認識の対象としていた言語と、最近文字認識の対象としている言語とが異なっている場合であっても、より新しい時点で推定または指定された言語ｘ、すなわち、これからの文字認識の対象になる可能性が高い言語ｘに属する文字ｙの重みＱ（ｙ）を高くすることができ、より高い精度で文字認識できる。これにより、例えば、連続して同一の言語ｘを文字認識させる場合の認識精度が向上される。

また、本実施形態に係るカメラ付き携帯電話１では、操作履歴情報が可能性値Ｐ（ｘ）および重みＱ（ｙ）に寄与する程度を、推定履歴情報が可能性値Ｐ（ｘ）および重みＱ（ｙ）に寄与する程度よりも大きく設定している。これにより、カメラ付き携帯電話１による推定よりも信頼性の高いユーザの言語指定を優先して、可能性値Ｐ（ｘ）および重みＱ（ｙ）に反映させることができ、より高い精度で文字認識できる。

さらに、本実施形態に係るカメラ付き携帯電話１は、ある言語ｘであると推定されても、その後に言語ｘの修正指示を受け付けた場合には、その推定結果を可能性値Ｐ（ｘ）の向上に反映させていない。これにより、過去の誤った推定結果に起因する認識精度の低下を防止できる。

また、本実施形態に係るカメラ付き携帯電話１は、履歴情報として、電源および通信機能の履歴情報も記憶しており、「直前に電源がＯＦＦされずに通信機能がＯＦＦされ、、しかも、通信機能ＯＦＦの時間が予め定める期間を超えている」ことを履歴情報が示している場合、履歴情報に応じた重みＱ（ｙ）の調整を中止する。

これにより、直前に電源がＯＦＦされずに通信機能がＯＦＦされ、しかも、通信機能ＯＦＦの時間が予め定める期間を超えている場合、すなわち、飛行機などによる長距離移動が疑われ、認識対象とする文字の属する言語が、これまで認識対象としていた言語から変化していることが疑われる場合、カメラ付き携帯電話１は、それまでの履歴情報を参照せずに文字認識できる。したがって、長距離移動した場合でも、認識精度を低下させることなく、高精度に文字認識できる。

ところで、常に入力される可能性のある言語で使用される全ての文字を認識対象（認識候補）とする構成では、認識候補中に、形状の類似した文字がより多く存在してしまうため、認識精度が低下しやすい。なお、形状の類似した文字としては、例えば、”ａ”と、グレーブ、アキュート、サーカムフレクス、チルダ、ウムラウトあるいはリングが付された”ａ”とのように、文字形状の限られた一部分のみが異なる文字同士が挙げられる。また、合字と、その合字を構成する文字との間では、文字切り出し位置の判定の失敗に起因する認識精度低下が発生する。

なお、上記文字認識精度の低下は、より複雑な文字認識処理を行うことによって、ある程度回避できるが、文字認識に必要な演算量が増加してしまう。したがって、携帯型の装置のように、携帯するために据え置き型の装置よりも高い演算能力を確保しにくい装置では、演算能力が不足して、認識時間が増加する虞れがある。

ここで、カメラ付き携帯電話のように、携帯型の装置が通信機能を有している場合は、上述した特許文献３に記載されているように、処理の一部を、ホストコンピュータに移管すれば、演算能力不足を解消できる。ただし、文字認識可能な場所は、ホストコンピュータと通信可能な場所に限定され、ホストコンピュータと通信不可能な場所（例えば、電波の届かない地下室）などでは、文字認識できなくなってしまう。

また、通信する場合には、母国以外で利用する場合には、利用する国の通信会社と通信できるようにローミング契約等を行う必要がある場合が多く、また料金も高額になるのが一般的である。したがって、例えば、旅行等で母国以外の場所で、看板、パンフレット、レストランのメニュー、電光表示板に表示されている文字を翻訳したい場合に、契約形態、コスト面での制約が発生する虞れがある。

これに対して、本実施形態に係るカメラ付き携帯電話１は、各言語ｘの可能性値Ｐ（ｘ）に基づいて、ある言語ｘの可能性が殆どないと判断した場合に、当該言語ｘのみに含まれる文字が、認識結果に含まれないように、認識結果となり得る文字ｙを変更（制限）している。したがって、常に入力される可能性のある言語で使用される全ての文字を認識対象とする構成よりも、文字認識に必要な演算量を余り増加させることなく、文字認識の精度を向上できる。この結果、カメラ付き携帯電話１のように、携帯型の装置であっても、他の装置に処理の一部を移管することなく、充分な速度かつ充分な精度で文字認識できる。したがって、ホストコンピュータと通信する場合よりも、カメラ付き携帯電話１が文字認識可能な場所を広げることができる。

また、認識対象とする言語を表示言語と連動させる構成とは異なって、本実施形態に係るカメラ付き携帯電話１は、履歴情報を参照して、文字を認識しているので、認識とする言語と表示言語とを別々に設定できる。したがって、例えば、海外旅行先などの看板、メニューなどに記述されている文字の認識の他、自宅で複数の言語を学習しているなどのように、ユーザが、認識対象とする言語を理解できない（あるいは、理解しにくい）場合であっても、表示言語を自らが理解しやすい言語に設定できる。したがって、認識対象とする言語を表示言語と連動させる構成とは異なって、以下の不具合、すなわち、認識対象とする言語を理解できない（あるいは、理解しにくい）場合に、表示メッセージが理解できず、事実上、機器を操作できなくなるという不具合の発生を防止できる。

ところで、上記では、認識対象となり得る言語全ての辞書を統合した辞書が辞書引き処理部２４に設けられている場合を例にして説明したが、各言語の辞書を個別に用意し、辞書引き処理部２４が、上記各言語ｘの可能性値Ｐ（ｘ）に基づいて、最も可能性の高い言語ｘを推定し、その言語用の辞書に切り換えて辞書引きしてもよい。また、上記では、カメラ付き携帯電話１に辞書引き処理部２４が認識結果となる文字列（単語）の意味を提示する場合を例にして説明したが、これに限るものではない。例えば、住所録などのデータベースであってもよい。認識結果となる文字列を検索語として、検索可能なデータベースであれば、いずれのデータベースを引く場合でも同様の効果が得られる。また、上記では、辞書引き処理部２４が認識結果となる文字列と一致する文字列に関連付けられたデータを提示する場合について説明したが、これに限るものではなく、予め定められた手順（例えば、検索語を含んでいるか否かなど）によって、検索してもよい。

また、上記では、カメラ付き携帯電話１に辞書引き処理部２４が設けられ、認識処理部２３が認識した文字列を示す文字列データを辞書引きした結果がユーザに提示される場合を例にして説明したが、これに限るものではない。例えば、文字列生成部４４が表示部１２へ指示するなどして、認識した文字列をユーザに提示してもよい。

また、上記では、文字列生成部４４が、重み付与後の類似度Ｒ１（ｙ）の和が最大になる文字列を認識結果とする場合について説明したが、これに限るものではない。類似度Ｒ（ｙ）だけではなく、上記各事象の履歴に由来する重みＱ（ｙ）を類似度Ｒ（ｙ）に付加して評価して文字列データを生成すれば、略同様の効果が得られる。

以下では、文字列生成部４４に代えて、他の方法で文字列データを生成する文字列生成部４４ａが設けられたカメラ付き携帯電話１ａについて説明する。図１１に示すように、当該文字列生成部４４ａにも、文字認識処理部３１および重み算出部４３から、各文字の類似度Ｒ（ｙ）と重みＱ（ｙ）とが与えられており、文字列生成部４４ａは、認識対象となる文字列に含まれる各文字の類似度Ｒ（ｙ）と、それぞれの重みＱ（ｙ）とに基づいて、各言語について、文字列全体が、その言語に属している可能性を示す言語ポイントＬ（ｘ）を算出できる。さらに、文字列生成部４４ａは、認識結果となる文字列が、最も言語ポイントＬ（ｘ）の高い言語ｘに含まれる文字ｙのみから構成されるように、認識結果となる文字列データを整形している。なお、最大の言語ポイントＬ（ｘ）を持った言語ｘが複数ある場合、文字列生成部４４ａは、これらのうち、最も言語可能性値Ｐ（ｘ）が高い言語を認識結果の言語と判定する。

また、文字列生成部４４ａが認識対象の言語を判定することに伴なって、本変形例に係るカメラ付き携帯電話１ａでは、言語可能性値推定部４２に代えて、文字列生成部４４ａが、推定結果となる言語ｘを示す推定履歴情報を、履歴情報記憶部４１に格納している。なお、本変形例に係る文字列生成部４４ａは、特許請求の範囲に記載の生成手段にも対応している。

より詳細には、本変形例に係る文字列生成部４４ａは、上記文字列生成部４４と同様に、重み付与後の類似度Ｒ１（ｙ）を求める。ただし、本変形例に係る文字列生成部４４ａは、最大の類似度Ｒ１（ｙ）を持った文字ｙだけではなく、例えば、図１２に示すように、認識対象とする文字のそれぞれについて、予め定められた順位（例えば、３位までなど）の類似度Ｒ１（ｙ１）〜Ｒ１（ｙ３）を持った文字ｙ１〜ｙ３を求めている。

さらに、上記文字列生成部４４ａは、図１３に示すように、各言語ｘの言語ポイントＬ（ｘ）を求める。具体的には、上記順位には、それぞれ、予めポイントが定められている。当該ポイントは、より順位の高い程、多くなるように設定されており、本実施形態では、一例として、１位が５ポイント、２位が３ポイント、３位が１ポイントに設定されている。また、文字列生成部４４ａは、認識対象とする文字のそれぞれについて、各言語ｘの言語ポイントＬ（ｘ）に、各順位の文字ｙのうち、当該言語ｘに属し、しかも、最も順位の高いもののポイントを加算する。

例えば、図１２の例では、英語は、最初の認識対象文字”Ａ（ウムラウト付き）”の類似度Ｒ１（ｙ）の評価結果は、評価の高いものから順に、”Ａ（ウムラウト付き）”、”Ａ（サーカムフレクス付き）”、および、”Ａ（チルダ付き）”である。したがって、ドイツ語の言語ポイントＬには、１位となる”Ａ（ウムラウト付き）”が属しているため、５ポイントが加算される。また、２位となる”Ａ（サーカムフレクス付き）”は、フランス語およびポルトガル語に属しているため、両者の言語ポイントＬに３ポイントが加算される。なお、３位となる”Ａ（チルダ付き）”が属している言語は、２位に含まれているので、ポイントは加算されない。これにより、図１３に示すように、英語、フランス語、ドイツ語、イタリア語、スペイン語、ポルトガル語およびギリシャ語のそれぞれに、０、３、５、０、０、３、０ポイントが加算される。文字列生成部４４ａは、認識対象となる文字列を構成する文字全てについて、この処理を行う。これにより、図１３の合計欄に記載されているように、上記各言語の言語ポイントＬは、２８、３１、３３、２８、２８、３１、３０となる。したがって、文字列生成部４４ａは、最も言語ポイントＬ（ｘ）の高いドイツ語を、認識対象の言語として推定する。

さらに、文字列生成部４４ａは、例えば、図１１に示す言語テーブル４５を参照するなどして、認識結果となる文字が、当該認識対象の言語に含まれているか否かを判定し、含まれていない場合は、例えば、当該文字を、当該文字の認識結果の候補のうち、認識対象の言語に含まれ、しかも、最も順位の高い文字に変更するなどして、最も言語ポイントＬ（ｘ）の高い言語ｘに含まれる文字ｙのみから構成されるように、認識結果となる文字列データを整形している。

例えば、図１２の例では、第１位の文字のうち、５番目の文字は、γであり、ドイツ語に含まれていない。したがって、文字列生成部４４ａは、”γ”を候補から外し、当該文字の認識結果の候補”γ”、”ｒ”、”ｎ”のうち、ドイツ語に属し、しかも、最も順位の高い文字”ｒ”を認識結果とする。これにより、ドイツ語に属する文字からなる文字列が認識結果として、ユーザに提示される。

また、認識結果として、例えば、図１４に示すように、複数の文字列の候補を出力する場合、あるいは、上記の順位の中に、認識対象の言語の文字がない場合、文字列生成部４４ａは、認識対象の言語に含まれる文字ｙに限定して、認識結果の候補を再度求めてもよい。

なお、上記文字列生成部４４ａは、文字列全体が、その言語に属している可能性を示す言語ポイントＬ（ｘ）を算出する際、文字毎に求めたポイントを合計したが、これに限るものではない。

例えば、文字列生成部が、図１５に示すように、単語がいずれの言語に属しているかを示す情報が予め格納された辞書を備え、認識結果となる文字列が辞書に含まれているか否かを判定すると共に、含まれている場合、その単語に対応する言語を、認識結果の言語としてもよい。

〔第２の実施形態〕
本実施形態では、予め定められた時間単位毎に、上記各事象の統計を取り、その統計処理結果（例えば、事象の分布）に基づいて、重みＱ（ｙ）を算出する構成について説明する。なお、当該構成は、第１の実施形態と同様に、辞書引き処理部２４を設けるか否か、あるいは、文字列生成部による文字列生成方法に拘わらず適用できるが、以下では、一例として、文字列生成部４４ａが文字毎の言語ポイントＬ（ｘ）を算出し、しかも、辞書引き処理部２４を設けずに文字認識結果を提示する構成について説明する。

具体的には、本実施形態に係るカメラ付き携帯電話１ｂは、図１１に示すカメラ付き携帯電話１ａと略同様の構成であるが、辞書引き処理部２４が省略されており、文字列生成部４４ａは、例えば、表示部１２へ文字列データの示す文字の表示を指示するなどして、認識結果となる文字列をユーザに提示している。

さらに、本実施形態に係るカメラ付き携帯電話１ｂには、履歴情報記憶部４１の操作および推定履歴情報を予め定められた時間単位毎に統計処理した結果を示す統計情報が記憶された統計情報記憶部（記憶装置）５１ｂと、履歴情報記憶部４１に格納された操作および推定履歴情報に基づいて、予め定められた時間単位毎の統計処理を行い、統計情報記憶部５１ｂの統計情報を更新する統計処理部５２ｂとを備えている。なお、上記統計情報記憶部５１ｂも、履歴情報記憶部４１と同様に、電源断に伴なう統計情報の損失を防止するために、読み書き可能な不揮発性の記録媒体１８に形成されている方が望ましい。

本実施形態に係る統計情報記憶部５１ｂは、統計情報として、例えば、図１７に示すように、文字認識の結果が言語ｘとなった回数を曜日毎に１時間単位で集計した値を、各言語毎に記憶している。なお、集計の単位を細かく設定すれば、より高度な統計処理が可能になり、より高精度に文字認識できるが、必要なメモリ量が増加してしまう。したがって、上記集計単位は、メモリ量と認識精度とのバランスを考慮した任意の値に設定することが望ましい。

また、文字認識の結果が言語ｘとなる回数は、文字認識の最終結果が言語ｘとなった回数であって、言語ｘとして判定され、しかも、変更が行われなかった回数と、言語変更操作で言語ｘに変更された回数の合計である。これに伴なって、本実施形態に係る統計処理部５２ｂは、時間毎および曜日毎の操作分布を求める統計処理を行っている。また、図１７では、一例として、カメラ付き携帯電話１ｂが、英語、フランス語およびドイツ語の３種類の言語を認識可能であり、統計情報記憶部５１ｂが３種類の言語のそれぞれの集計結果を記憶している場合を例示している。

一方、本実施形態に係るカメラ付き携帯電話１ｂにおいて、言語可能性値推定部４２に代えて設けられた言語可能性値推定部４２ｂは、言語可能性値推定部４２と略同様に動作しているが、上述した式（１）に代えて、以下の式（４）に示すように、
Ｐ（ｘ）＝Ｆ（ｘ，Ｄ，Ｔ）／ΣＦ（ｉ，Ｄ，Ｔ） …（４）
によって、言語可能性値Ｐ（ｘ）を算出する点で異なっている。なお、上式（４）において、Ｆ（ｘ，Ｄ，Ｔ）は、ある曜日Ｄ、時刻Ｔにおける文字認識の結果が言語ｘとなった回数であり、ΣＦ（ｉ，Ｄ，Ｔ）は、ある曜日Ｄ、時刻Ｔにおける全ての言語の判定回数の和、すなわち、ある曜日Ｄ、時刻Ｔの文字認識回数である。

上記構成では、図１８に示すように、図９と同様のステップＳ１、Ｓ２、Ｓ１１ｂおよびＳ１３が行われ、カメラ付き携帯電話１ｂは、認識対象とする文字列の画像データを抽出すると共に、各文字ｙの重みＱ（ｙ）を算出し、当該重みＱ（ｙ）を反映した文字認識処理を行う。

ただし、上記Ｓ１１ｂにおいて、認識処理部２３ｂは、図９に示すＳ１１とは異なり、統計情報を参照して、文字ｙの重みＱ（ｙ）を算出している。より詳細には、認識処理部２３ｂは、Ｓ１１ｂにおいて、図１０と略同様の処理を行って、各文字ｙの重みＱ（ｙ）を算出しているが、図１０とは異なり、Ｓ２２ｂにおいて、言語可能性値推定部４２ｂは、式（１）ではなく、上記式（４）に基づいて、各言語ｘの言語可能性値Ｐ（ｘ）を算出している。

一例として、統計情報記憶部５１ｂに図１７に示す統計情報が格納されている状態で、カメラ付き携帯電話１ｂが月曜日の１２：００〜１３：００の間に文字認識しようとしたとする。この場合、言語可能性値推定部４２ｂは、統計情報記憶部５１ｂに含まれている統計情報のうち、この曜日の、この時間帯の集計結果を示す統計情報を読み出し、それらに基づいて、各言語ｘの言語可能性値Ｐ（ｘ）を算出する。図１７の例では、Ｆ（ドイツ語，月曜日，１２：００〜１３：００）が３３、Ｆ（英語，月曜日，１２：００〜１３：００）が６、Ｆ（フランス語，月曜日，１２：００〜１３：００）が２５なので、言語可能性値推定部４２ｂは、ドイツ語、英語およびフランス語の可能性値Ｐ（ｘ）を、３３／６４、２５／６４、６／６４と算出する。

この場合、いずれの言語ｘの可能性値Ｐ（ｘ）も閾値を超えないので、重み算出部４３は、図１０に示すＳ２５において、言語の可能性値Ｐ（ｘ）に応じて各文字ｙの重みＱ（ｙ）を算出する。したがって、各言語に含まれる文字のうち、ドイツ語に含まれる文字ｙの重みＱ（ｙ）が相対的に大きくなり、類似度Ｒ（ｙ）のみを参照する場合よりも、認識結果にドイツ語に含まれる文字の頻度が高くなる。この結果、文字認識結果として、例えば、図１２に示すように、ドイツ語に含まれる文字の順位がより高くなった認識結果が得られる。

上記Ｓ１３にて、上記Ｓ１１ｂにて算出された重みＱ（ｙ）を反映した文字認識が行われると、Ｓ４１ｂにおいて、文字列生成部４４ａは、各言語ｘの言語ポイントＬ（ｘ）を比較して、最も言語ポイントＬ（ｘ）の高い言語ｘを、認識対象とする言語と推定する。さらに、文字列生成部４４ａは、Ｓ４２ｂにおいて、最も言語ポイントＬ（ｘ）の高い言語ｘに含まれる文字ｙのみから構成されるように、認識結果となる文字列データを整形し、Ｓ１４ｂにおいて、当該文字列データが認識結果としてユーザに提示される。

上記の例のように、図１２に示す認識結果が得られた場合、図１３に示すように、ドイツ語の言語ポイントＬ（ｘ）が最も高くなる。したがって、文字列生成部４４ａは、ドイツ語が認識結果の言語であると推定し、ドイツ語以外の文字（図の例では、γ）が出現しないように、認識結果となる文字列データを整形し、図１４に示すように、”Ａｎｄｅｒｕｎ（Ａは、ウムラウト付き）”を表示する。

ここで、認識結果となる言語が正しければ、ユーザは、言語の修正指示を入力しない。したがって、カメラ付き携帯電話１ｂは、言語の修正指示を受け付けることなく（Ｓ３１にて、NO）、統計処理部５２ｂは、文字認識の最終結果が当該言語であるとして、統計情報を更新する（Ｓ４３ｂ）。本実施形態では、曜日毎に１時間単位での集計結果を統計情報としているので、統計処理部５２ｂは、例えば、現在の曜日および時間帯の統計情報を増加させるなどして、統計情報を更新する。一例として、上記の例において、認識結果となる言語（ドイツ語）が正しければ、図１９に示すように、月曜日、１２：００〜１３：００およびドイツ語に関連付けられた集計結果が１増加される。

これとは逆に、認識結果となる言語が誤っていた場合、ユーザは、操作部１３を操作して、言語の修正を指示するので、操作部１３によって言語の修正指示受付が検出される（Ｓ３１にて、YES の場合）。この場合、図９と同様に、Ｓ３２およびＳ３３において、操作履歴情報が履歴情報記憶部４１に書き込まれると共に、指示された言語に限定した文字認識が行われる。さらに、Ｓ３４ｂにおいて、文字列生成部４４ａは、上記Ｓ１４ｂと同様に、認識結果となる文字列を表示する。なお、この場合、統計処理部５２ｂは、上記Ｓ４３ｂにおいて、文字認識の最終結果が上記指示された言語であるとして、統計情報を更新する。一例として、上記の例において、認識結果となる言語（ドイツ語）が誤りであり、英語への修正が指示された場合、図２０に示すように、月曜日、１２：００〜１３：００および英語に関連付けられた集計結果が１増加される。

このように、本実施形態に係るカメラ付き携帯電話１ｂでは、上記履歴情報を予め定められた時間単位毎に統計処理した結果に基づいて、文字ｙの類似度Ｒ（ｙ）を評価する際の重みＱ（ｙ）が変更される。

ここで、一般に、ユーザは、例えば、曜日周期や１日周期のパターンで類似した行動を取ることが多く、それに応じて、認識対象とする言語も周期的に変化していることが期待される。

したがって、上記周期と一致しやすいように予め定められた時間単位毎に、履歴を統計処理した結果に基づいて重みＱ（ｙ）を変更することによって、ユーザの個人的な利用形態に適応させることができ、認識の度に言語を指定する構成よりもユーザの操作回数が大幅に削減されているにも拘わらず、類似度Ｒ（ｙ）のみに基づいて文字認識する構成よりも高い精度で文字認識できる。

一例として、大学などの学校では、同一曜日、同一時間に、同一言語の講義が行われることが多い。したがって、本実施形態のように、曜日毎に時間単位で統計処理した結果に基づいて重みＱ（ｙ）を算出することによって、いずれの講義で使用されるかによって、認識対象の言語が変化する場合に高い精度で文字認識できる。

なお、上記では、統計処理部５２ｂが文字認識の最終結果に応じて統計情報記憶部５１ｂの統計情報（集計結果）を変更する場合を例にして説明したが、これに限るものではない。統計情報が必要になる度に、統計処理部５２ｂが履歴情報記憶部４１の履歴情報を統計処理して、統計情報を算出してもよい。この場合、統計情報記憶部５１ｂは不要である。ただし、本実施形態のように、統計情報記憶部５１ｂを設け、統計情報を記憶しておく方が、文字認識の最終結果が判明してから統計情報を算出するまでの演算量を削減できる。また、統計情報記憶部５１ｂがあれば、統計情報を記憶しておくことができるので、必要になる度（文字認識毎）に統計処理する場合よりも、文字認識処理に要する時間を短縮できる。

また、上記では、統計情報記憶部５１ｂと履歴情報記憶部４１との双方を設ける場合を例にして説明したが、上述したように、文字認識の最終結果に応じて、統計処理部５２ｂが統計情報記憶部５１ｂの統計情報を変更する場合には、操作履歴情報および推定履歴情報の記憶を省略してもよい。この場合でも、言語可能性値推定部４２ｂは、統計情報に基づいて、各言語ｘの可能性値Ｐ（ｘ）を算出できるので、同様の効果が得られる。

なお、上記各実施形態では、一例として、重み算出部４３が、各文字ｙの重みＱ（ｙ）を算出する際に、予め定められた値に固定された閾値を超えた言語可能性値Ｐ（ｘ）があるか否かを判定する場合について説明したが、これに限るものではない。重み算出部４３は、例えば、使用回数（文字認識回数）、あるいは、前回文字認識してからの経過時間などをパラメータとして、上記閾値を動的に変更してもよい。また、上記閾値などの定数や、可能性値Ｐ（ｘ）および重みＱ（ｙ）の計算方法は、一例であり、カメラ付き携帯電話（文字認識装置）の用途により変更してもよい。

また、上記各実施形態では、例えば、選択可能な言語を提示するなどして、言語を直接指定する操作を受け付けている場合を例にして説明したが、これに限るものではない。例えば、カメラ付き携帯電話（１〜１ｂ）が、文字の修正操作など、修正後の言語を間接的に指定する操作を受け付け、それに基づいて、指定された言語を判定してもよい。いずれの場合であっても、修正後の言語を特定可能な操作であれば、略同様の効果が得られる。ただし、この場合には、複数の候補にしか、指定された言語を絞り込めない場合があるので、上記各実施形態のように、修正後の言語を直接指定する操作を受け付ける方が、より文字認識精度を向上できる。

なお、上記では、履歴情報／統計情報の一例として、その言語の指定操作を受け付けた時点を示す操作履歴情報と、言語の推定結果を算出した時点を示す推定履歴情報と、電源および通信機能のＯＮ／ＯＦＦ時点を示す電源および通信機能履歴情報との組み合わせ、あるいは、それらを統計処理した結果を示す統計情報を記憶する場合を例にして説明したが、これに限るものではない。上記操作履歴情報および推定履歴情報の少なくとも一方を含んでいれば、文字認識精度を向上できるので、ある程度の効果が得られる。

ただし、上述したように、電源および通信機能履歴情報を、さらに含んでいれば、他の言語圏への移動が疑われる場合（例えば、通信ＯＦＦ設定が所定時間以上続いた場合など）や、長い期間放置された場合に、誤認識の可能性を抑えることができるので、さらに効果が大きい。

また、上記では、各履歴情報が時点の情報を含んでいる場合を例にして説明したが、これに限るものではない。時点の情報に代えて／加えて、前回の同じ事象からの経過時間、あるいは、同じ状態が継続している時間の情報を記憶してもよい。この場合であっても、例えば、言語の指定操作として、ある言語への指定操作のみを受け続けている時間が長いときは、短いときよりも優先して当該文字認識手段による文字認識処理に反映させたり、当該時間の情報に基づいて、通信ＯＦＦ設定が所定時間以上続いたか否かを判定するなど、時間の情報に応じた処理を行うことができ、文字認識の精度を向上できる。

なお、上記では、各事象毎に履歴情報を生成する場合について説明したが、これに限るものではなく、カメラ付き携帯電話は、例えば、一定時間内における言語の判定回数や修正回数などを履歴情報／統計情報として格納してもよい。

いずれの場合であっても、複数の文字グループ（例えば、言語）のそれぞれについて、文字の認識結果が当該文字グループでありそうだと推定したという推定事象と、認識対象とする文字の属する文字グループが当該文字グループであると指定する操作を受け付けたという操作事象との少なくとも一方の事象の発生を検出し、当該事象の履歴と、その統計処理結果との少なくとも一方を示す記憶情報を生成すれば、略同様の効果が得られる。

また、上記各実施形態に係るカメラ付き携帯電話は、履歴情報に基づいて、認識結果となり得る文字ｙを変更（制限）する処理（特定の文字ｙの重みＱ（ｙ）を０にする処理）と、履歴情報に基づいて、より優先して文字認識に反映させる処理（特定の文字ｙの重みＱ（ｙ）を大きくする処理）との双方を行っているが、いずれか一方の処理だけでも、履歴情報を用いずに文字認識する構成よりも文字認識の精度を向上できる。

なお、上記各実施形態に係るカメラ付き携帯電話は、直前に電源がＯＦＦされずに通信機能がＯＦＦされ、しかも、通信機能ＯＦＦの時間が予め定める期間を超えている場合、すなわち、飛行機などによる長距離移動が疑われ、認識対象とする文字の属する言語が、これまで認識対象としていた言語から変化していることが疑われる場合、それまでの履歴情報／統計情報を参照せずに文字認識しているが、これに限るものではない。例えば、これまでの履歴情報／統計情報によって認識結果が左右される程度を抑えても、上記誤認識の可能性を抑制できる。なお、本実施形態のように、履歴情報／統計情報に基づいて、認識結果となる可能性が低いと判定した言語のみに属する文字を認識候補から外す場合には、少なくとも、これらの文字が認識候補に入るように、認識結果が左右される程度を抑制する方が望ましい。これにより、それまでは、履歴情報／特定情報に基づいて、特定の言語を対象にした文字認識が行われていた場合でも、長距離移動などが疑われる場合には、それ以外の多言語を対象とする文字認識処理を行うことができ、上記誤認識の可能性を抑えることができる。

また、上記各実施形態では、電源や通信機能のＯＮ／ＯＦＦなど、カメラ付き携帯電話の状態に基づいて、他の言語圏への移動を推定していが、これに限るものではない。例えば、ＧＰＳなどの位置検出装置を設け、当該位置検出装置が、他の言語圏への移動を検出した場合は、これまでの履歴情報／統計情報によって認識結果が左右される程度を抑えても、上記誤認識の可能性を低下させることができる。ただし、上記各実施形態のように、電源や通信機能のＯＮ／ＯＦＦなど、カメラ付き携帯電話の状態に基づいて、他の言語圏への移動を推定する構成では、位置検出装置が不要なので、より簡単で安価なカメラ付き携帯電話を実現できる。

なお、位置検出装置を用いる構成であっても、基本的には、これまでの履歴情報／統計情報によって文字認識処理の方法および出力される文字コード列の少なくとも一方を変化させており、位置検出結果によって、これまでの履歴情報／統計情報によって認識結果が左右される程度が変更される。

したがって、特許文献４のように、機能から得られたユーザの現在位置を基に、文字認識処理や翻訳処理に用いる各種辞書を適切な専門用語辞書に置き換えて処理を行うシステムのように、位置と専門用語辞書との対応関係が固定されている場合とは異なって、現在位置から特定された言語と、認識対象としている言語とが一致していない場合でも、文字認識の精度を向上できる。なお、現在位置から特定された言語と、認識対象としている言語とが一致していない場合としては、例えば、複数の公用語がある国や地域の場合、自宅等で複数の外国語を学習している場合などが挙げられる。

なお、上記各実施形態では、履歴情報／統計情報を参照して文字認識を行う装置が、カメラ付き携帯電話である場合を例にして説明したが、これに限るものではない。文字認識機能を持つ文字認識装置であれば、翻訳装置など、他の装置にも適用できる。また、上記では、当該文字認識装置が、例えば、カメラのような撮像装置を備え、文字認識対象（被写体）を撮像できる場合を例にして説明したが、これに限るものではない。例えば、スキャナや通信装置などによって、文字の画像を取得できれば、略同様の効果が得られる。ただし、上記各実施形態のように、撮像装置を備えていれば、ユーザは、所望の文字認識対象（被写体）を撮像して、文字認識させることができるので、より効果が大きい。

また、上記では、文字の画像を文字認識する場合を例にして説明したが、これに代えて／加えて、文字認識装置は、例えば、タッチパネルなどの入力装置によって、手書き入力操作を受け付け、当該手書き入力された文字を文字認識してもよい。この場合であっても、上記各実施形態と同様に、履歴情報／統計情報を参照して、手書き入力された文字を文字認識することによって、認識の度に文字グループを指定する構成よりもユーザの操作回数が大幅に削減されているにも拘わらず、手書き入力のみを参照して文字コードに変換する構成よりも高い精度で文字認識できる。

また、上記では、文字認識装置が携帯型の装置である場合を例にして説明したが、これに限るものではない。据え置き型の文字認識装置であってもよい。ただし、上述したように、上記各実施形態のように、履歴情報／統計情報を参照して文字認識すれば、比較的少ない演算能力で、高い精度での多文字グループの文字認識とユーザの操作回数削減とを得ることができる。また、一般に携帯型の装置では、据え置き型の装置と比較して、寸法などが制限されているため、操作が煩雑になりやすく、操作回数削減が強く要求されている。したがって、上記各実施形態のように、携帯型の文字認識装置に適用すると特に効果が大きい。

さらに、上記各実施形態に係るカメラ付き携帯電話（文字認識装置）は、他の言語圏への移動が疑われる場合に、例えば、これまでの事象によって認識結果が左右される程度を抑えることができるので、移動によって認識対象とする言語が変化しやすい携帯型の文字認識装置であっても、上述した誤認識する可能性を低減できる。

また、上記各実施形態では、カメラ付き携帯電話を構成する各部材が、「中央制御部１７などの演算手段がＲＯＭやＲＡＭなどの記録媒体に格納されたプログラムコードを実行することで実現される機能ブロックである」場合を例にして説明したが、同様の処理を行うハードウェアで実現してもよい。また、処理の一部を行うハードウェアと、当該ハードウェアの制御や残余の処理を行うプログラムコードを実行する上記演算手段とを組み合わせても実現することもできる。さらに、上記各部材のうち、ハードウェアとして説明した部材であっても、処理の一部を行うハードウェアと、当該ハードウェアの制御や残余の処理を行うプログラムコードを実行する上記演算手段とを組み合わせても実現することもできる。なお、上記演算手段は、単体であってもよいし、装置内部のバスや種々の通信路を介して接続された複数の演算手段が共同してプログラムコードを実行してもよい。また、上記各部材のうちの記憶部４１・５１ｂは、メモリなどの記憶装置自体であってもよい。

上記演算手段によって直接実行可能なプログラムコード自体、または、後述する解凍などの処理によってプログラムコードを生成可能なデータとしてのプログラムは、当該プログラム（プログラムコードまたは上記データ）を記録媒体に格納し、当該記録媒体を配付したり、あるいは、上記プログラムを、有線または無線の通信路を介して伝送するための通信手段で送信したりして配付され、上記演算手段で実行される。

なお、通信路を介して伝送する場合、通信路を構成する各伝送媒体が、プログラムを示す信号列を伝搬し合うことによって、当該通信路を介して、上記プログラムが伝送される。また、信号列を伝送する際、送信装置が、プログラムを示す信号列により搬送波を変調することによって、上記信号列を搬送波に重畳してもよい。この場合、受信装置が搬送波を復調することによって信号列が復元される。一方、上記信号列を伝送する際、送信装置が、デジタルデータ列としての信号列をパケット分割して伝送してもよい。この場合、受信装置は、受信したパケット群を連結して、上記信号列を復元する。また、送信装置が、信号列を送信する際、時分割／周波数分割／符号分割などの方法で、信号列を他の信号列と多重化して伝送してもよい。この場合、受信装置は、多重化された信号列から、個々の信号列を抽出して復元する。いずれの場合であっても、通信路を介してプログラムを伝送できれば、同様の効果が得られる。

ここで、プログラムを配付する際の記録媒体は、取外し可能である方が好ましいが、プログラムを配付した後の記録媒体は、取外し可能か否かを問わない。また、上記記録媒体は、プログラムが記憶されていれば、書換え（書き込み）可能か否か、揮発性か否か、記録方法および形状を問わない。記録媒体の一例として、磁気テープやカセットテープなどのテープ、あるいは、フロッピー（登録商標）ディスクやハードディスクなどの磁気ディスク、または、ＣＤ−ＲＯＭや光磁気ディスク（ＭＯ）、ミニディスク（ＭＤ）やデジタルビデオディスク（ＤＶＤ）などのディスクが挙げられる。また、記録媒体は、ＩＣカードや光カードのようなカード、あるいは、マスクＲＯＭやＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュＲＯＭなどのような半導体メモリであってもよい。あるいは、ＣＰＵなどの演算手段内に形成されたメモリであってもよい。

なお、上記プログラムコードは、上記各処理の全手順を上記演算手段へ指示するコードであってもよいし、所定の手順で呼び出すことで、上記各処理の一部または全部を実行可能な基本プログラム（例えば、オペレーティングシステムやライブラリなど）が既に存在していれば、当該基本プログラムの呼び出しを上記演算手段へ指示するコードやポインタなどで、上記全手順の一部または全部を置き換えてもよい。

また、上記記録媒体にプログラムを格納する際の形式は、例えば、実メモリに配置した状態のように、演算手段がアクセスして実行可能な格納形式であってもよいし、実メモリに配置する前で、演算手段が常時アクセス可能なローカルな記録媒体（例えば、実メモリやハードディスクなど）にインストールした後の格納形式、あるいは、ネットワークや搬送可能な記録媒体などから上記ローカルな記録媒体にインストールする前の格納形式などであってもよい。また、プログラムは、コンパイル後のオブジェクトコードに限るものではなく、ソースコードや、インタプリトまたはコンパイルの途中で生成される中間コードとして格納されていてもよい。いずれの場合であっても、圧縮された情報の解凍、符号化された情報の復号、インタプリト、コンパイル、リンク、または、実メモリへの配置などの処理、あるいは、各処理の組み合わせによって、上記演算手段が実行可能な形式に変換可能であれば、プログラムを記録媒体に格納する際の形式に拘わらず、同様の効果を得ることができる。

複数の文字グループの文字を認識可能な携帯型の文字認識装置やカメラ付き携帯電話、あるいは、さらに、翻訳または辞書引き機能を備えた携帯型翻訳機／携帯型電子辞書をはじめとして、複数の文字グループの文字を認識可能な文字認識装置として広く好適に使用できる。

本発明の実施形態を示すものであり、カメラ付き携帯電話の認識処理部周辺の要部構成を示すブロック図である。カメラ付き携帯電話のハードウェア構成を示すブロック図である。上記カメラ付き携帯電話によって撮像された画像の一例を示す図面である。上記カメラ付き携帯電話による行切り出し処理の結果を示す図面である。上記カメラ付き携帯電話による単語切り出し処理の結果を示す図面である。上記カメラ付き携帯電話により提示される単語翻訳結果を示す図面である。上記カメラ付き携帯電話の履歴情報記憶部の内容を示す図面である。上記カメラ付き携帯電話の言語テーブルの内容を示す図面である。上記カメラ付き携帯電話の動作を示すフローチャートである。上記フローチャートの重み算出工程における上記カメラ付き携帯電話の動作を示すフローチャートである。上記カメラ付き携帯電話の変形例を示すものであり、認識処理部周辺の要部構成を示すブロック図である。上記カメラ付き携帯電話による文字単位の認識結果の一例を示す図面である。上記文字単位の認識結果から算出される言語ポイントを示す図面である。上記言語ポイントに基づいて修正された認識結果を示す図面である。上記カメラ付き携帯電話のさらに他の変形例を示すものであり、単語がいずれの言語に属しているかを示す情報が予め格納された辞書の内容の一例を示す図面である。本発明の他の実施形態を示すものであり、カメラ付き携帯電話の認識処理部周辺の要部構成を示すブロック図である。上記カメラ付き携帯電話に設けられた統計情報記憶部の内容を示す図面である。上記カメラ付き携帯電話の動作を示すフローチャートである。上記統計情報記憶部の内容を示すものであり、文字認識の最終結果がドイツ語であった場合を示す図面である。上記統計情報記憶部の内容を示すものであり、文字認識の最終結果が英語であった場合を示す図面である。

符号の説明

１・１ａ・１ｂカメラ付き携帯電話（文字認識装置）
１３操作部（生成手段）
２３・２３ａ・２３ｂ認識処理部（文字認識手段）
３１文字認識処理部（文字決定手段）
４１履歴情報記憶部（記憶装置）
４２言語可能性値推定部（生成手段；推定手段）
４４文字列生成部（文字決定手段）
４４ａ文字列生成部（生成手段；文字決定手段）
５１ｂ統計情報記憶部（記憶装置）

Claims

複数の文字グループのいずれかに含まれる文字の画像または手書き入力を受け付けた文字を文字認識して文字コードに変換する文字認識手段を有する文字認識装置において、
上記複数の文字グループのそれぞれについて、文字の認識結果が当該文字グループでありそうだと推定したという推定事象と、認識対象とする文字の属する文字グループが当該文字グループであると指定する操作を受け付けたという操作事象との少なくとも一方の事象の発生を検出し、当該事象の履歴と、その統計処理結果との少なくとも一方を示す記憶情報を生成して記憶装置に記憶する生成手段を備え、
上記文字認識手段は、上記記憶装置に記憶された記憶情報を参照して、文字の画像または手書き入力を受け付けた文字を文字コードに変換することを特徴とする文字認識装置。
上記生成手段が検出する事象には、さらに、文字認識装置の電源がＯＮまたはＯＦＦしたという事象が含まれていることを特徴とする請求項１記載の文字認識装置。
他の機器と通信する通信手段を備え、
上記生成手段が検出する事象には、さらに、当該通信手段の機能を有効または無効にしたという事象が含まれていることを特徴とする請求項１または２記載の文字認識装置。
上記記憶情報には、事象の発生時点を示す情報が含まれていることを特徴とする請求項１、２または３記載の文字認識装置。
上記生成手段が検出する事象には、上記推定事象と操作事象との双方が含まれており、
上記文字認識手段は、上記推定事象を示す記憶情報よりも上記操作事象を示す記憶情報の方を優先して、当該文字認識手段による文字認識処理に反映させることを特徴とする請求項１記載の文字認識装置。
上記生成手段は、記憶情報として、統計処理結果を示す情報を記憶することを特徴とする請求項１記載の文字認識装置。
上記生成手段は、記憶情報として、履歴を示す情報を記憶し、
上記文字認識手段は、当該記憶情報を統計処理した結果を参照して、文字の画像または手書き入力を受け付けた文字を文字コードに変換することを特徴とする請求項１記載の文字認識装置。
上記文字認識手段は、文字の画像または手書き入力を受け付けた文字と、各文字コードの示す文字との類似度を評価して、当該文字の画像または手書き入力を受け付けた文字がいずれの文字コードであるかを決定する文字決定手段と、
上記記憶情報を参照して、上記複数の文字グループのそれぞれについて、認識対象とする文字が当該文字グループに含まれる可能性を推定する推定手段とを備え、
上記文字決定手段は、当該各文字グループの可能性に基づいて、認識結果となり得る文字コードを変更することを特徴とする請求項１記載の文字認識装置。
上記文字認識手段は、文字の画像または手書き入力を受け付けた文字と、各文字コードの示す文字との類似度を評価して、当該文字の画像または手書き入力を受け付けた文字がいずれの文字コードであるかを決定する文字決定手段と、
上記記憶情報を参照して、上記複数の文字グループのそれぞれについて、認識対象とする文字が当該文字グループに含まれる可能性を推定する推定手段と、
当該各文字グループの可能性に基づいて、上記各文字との類似度を評価する際の重みを算出する重み算出手段とを備えていることを特徴とする請求項１記載の文字認識装置。
複数の文字グループのいずれかに含まれる文字の画像または手書き入力を受け付けた文字を文字認識して文字コードに変換する文字認識工程を含む文字認識方法において、
上記複数の文字グループのそれぞれについて、文字の認識結果が当該文字グループであると推定したという推定事象と、認識対象とする文字の属する文字グループが当該文字グループであると指定する操作を受け付けたという操作事象との少なくとも一方の事象の発生を検出する検出工程を含み、
上記文字認識工程は、上記検出工程にて検出された事象の履歴およびその統計処理結果の少なくとも一方を参照して、文字の画像または手書き入力を受け付けた文字を文字コードに変換することを特徴とする文字認識方法。
請求項１〜９のいずれか１項に記載の各手段として、コンピュータを動作させるプログラム。
請求項１１記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。