JP2010211075A

JP2010211075A - 携帯情報端末、情報処理方法及び情報処理プログラム

Info

Publication number: JP2010211075A
Application number: JP2009058794A
Authority: JP
Inventors: Takeshi Nitta; 岳新田
Original assignee: Sony Ericsson Mobile Communications AB
Current assignee: Sony Mobile Communications AB
Priority date: 2009-03-11
Filing date: 2009-03-11
Publication date: 2010-09-24
Anticipated expiration: 2029-03-11
Also published as: JP5583915B2

Abstract

【課題】携帯情報端末の機能を最大限に活用し、ユーザの利便性をより高めるとともに、ユーザ独特の入力音声に対しても認識率を高めることを可能とする。
【解決手段】
制御部１０は、文字入力予測候補データベース５０ｍを参照した文字入力予測変換処理、及び、その文字入力予測変換処理に応じて文字入力予測候補データベース５０ｍの更新処理を行う。また、制御部１０は、音声認識データベース４０ｍを参照した音声認識処理、及び、その音声認識処理に応じて音声認識データベース４０ｍの更新処理を行う。さらに、制御部１０は、文字入力予測候補データベース５０ｍの登録情報を音声認識データベース４０ｍへ反映させることで、音声認識処理の際に、音声認識データベース４０ｍのみならず、文字入力予測候補データベース５０ｍをも参照する。
【選択図】図１

Description

本発明は、音声認識機能を備えた携帯電話端末などの携帯情報端末と、データベースを参照した音声認識処理と文字入力予測変換処理を行う情報処理方法及び情報処理プログラムに関する。

従来より、音声認識技術として、例えば特開平３−２２４０５５号の公開特許公報（特許文献１）には、音声或いは表音記号による入力テキストのほかに、その入力テキストの元になる原情報を装置に入力して解析することにより、入力テキストの構成語情報を予測し、その予測された語を利用することで、音声或いは表音記号から文字への変換時の曖昧性を解消する技術が開示されている。

一方、特開２００７−１０８８１号の公開特許公報（特許文献２）には、会話音声データから抽出した単語によりデータベースを構築し、文字入力時にそのデータベースを参照して予測変換候補を検索する技術が開示されている。

特開平３−２２４０５５号公報（図１）特開２００７−１０８８１号公報（図１）

ところで、近年は、携帯電話端末などの携帯情報端末にも、音声認識機能を搭載することが求められている。但し、その音声認識機能は、従来から存在している音声認識技術を流用したものであり、携帯情報端末が備えている機能を最大限に生かしたものとは言い難く、ユーザの利便性をより改善できる余地があると考えられる。

また、従来の音声認識機能は、ユーザ独特の言い回しなどに対応することが難しく、そのような入力音声に対する認識率が低いことが問題となっている。

本発明は、このような実情に鑑みて提案されたものであり、携帯電話端末などの携帯情報端末に音声認識機能を搭載する場合において、その携帯情報端末が備えている機能を最大限に活用でき、ユーザの利便性をより高めることを可能にするとともに、例えばユーザ独特の入力音声に対する認識率を高めることをも可能とする、携帯情報端末、情報処理方法及び情報処理プログラムを提供することを目的とする。

本発明の携帯情報端末は、文字入力予測変換処理部と音声認識処理部と情報反映部とからなる。そして、文字入力予測変換処理部は、文字入力予測候補データベースに登録されている文字列とその使用頻度を表す情報を参照した文字入力予測変換処理、及び、文字入力予測変換処理に応じて文字入力予測候補データベースの更新処理を行う。また、音声認識処理部は、音声認識データベースに登録されている文字列とその使用頻度を表す情報を参照した音声認識処理、及び、音声認識処理に応じて音声認識データベースの更新処理を行う。また、情報反映部は、文字入力予測候補データベースの文字列とその使用頻度を表す情報を音声認識データベースへ反映させる。これにより、本発明は上述した課題を解決する。

すなわち、本発明によれば、文字入力予測変換処理に使用される文字入力予測候補データベースを、音声認識の際に音声認識データベースとともに参照する。特に、携帯情報端末において文字入力予測候補データベースは、例えばユーザによる電子メールなどの文章入力の際に使用されるため、ユーザ毎に独特の固有性を有するデータベースとなり、したがって、当該文字入力予測候補データベースを音声認識の際に参照することにより、ユーザ独特の入力音声を正確に認識可能となる。

本発明においては、文字入力予測変換処理に使用される文字入力予測候補データベースを、音声認識の際に音声認識データベースとともに参照することにより、携帯電話端末等の携帯情報端末が備えている機能を最大限に活用でき、ユーザの利便性をより高めることが可能になるとともに、例えばユーザ独特の入力音声に対しても認識率を高めることが可能となっている。

本発明実施形態の携帯電話端末の概略的な内部構成例であり、音声認識データベースと文字入力予測候補データベースがメモリ部内に用意されている場合の構成例を示す図である。本発明実施形態の携帯電話端末の概略的な内部構成例であり、音声認識データベースと文字入力予測候補データベースが外部のネットワーク上に用意されている場合の構成例を示す図である。本発明実施形態における音声認識データベースと文字入力予測候補データベースの関係説明に用いる図である。本発明実施形態の携帯電話端末において、頻度予測に基づく音声認識を行う際に、音声認識データベースの頻度予測テーブルから文字入力予測候補データベースの頻度予測テーブルをそのまま参照する例の説明に用いる図である。本発明実施形態の携帯電話端末において、頻度予測に基づく音声認識を行う際に、文字入力予測候補データベースの情報に重み付けして音声認識データベースの更新を行う例の説明に用いる図である。本発明実施形態の携帯電話端末において、頻度予測に基づく音声認識を行う際に、音声認識データベースと文字入力予測候補データベースの情報を標準化（一般化補正）して音声認識データベースの更新を行う例の説明に用いる図である。本発明実施形態の携帯電話端末において、文脈予測に基づく音声認識を行う際に、音声認識データベースの文脈予測テーブルから文字入力予測候補データベースの文脈予測テーブルをそのまま参照する例の説明に用いる図である。本発明実施形態の携帯電話端末において、文脈予測に基づく音声認識を行う際に、文字入力予測候補データベースの情報に重み付けして音声認識データベースの更新を行う例の説明に用いる図である。本発明実施形態の携帯電話端末において、文脈予測に基づく音声認識を行う際に、音声認識データベースと文字入力予測候補データベースの情報を標準化（一般化補正）して音声認識データベースの更新を行う例の説明に用いる図である。本発明実施形態の携帯電話端末において、文字入力予測候補データベースに新たに頻度項目が追加された場合に、その新規頻度項目の追加に応じて音声認識データベースが更新される様子の説明に用いる図である。本発明実施形態の携帯電話端末において、文字入力予測候補データベースの頻度スコアが変更された場合の音声認識データベースの更新例の説明に用いる図である。文字入力予測候補データベースの変更に応じた音声認識データベースの更新処理の流れを示すフローチャートである。

以下、図面を参照しながら、本発明の一実施形態について説明する。

なお、本発明が適用される一例として、本実施形態では携帯電話端末を挙げているが、勿論、ここで説明する内容はあくまで一例であり、本発明はこの例に限定されないことは言うまでもない。

［携帯電話端末の概略的な内部構成］
図１には、本発明実施形態の携帯電話端末の概略的な内部構成を示す。

図１において、通信アンテナ１２は、例えば内蔵アンテナであり、通話やパケット通信のための信号電波の送受信を行う。通信回路１１は、送受信信号の周波数変換、変調と復調等を行う。

スピーカ２０は、携帯電話端末に設けられている受話用のスピーカやリンガ（着信音）、音楽再生、アラーム音出力用のスピーカであり、ディジタル／アナログ変換器と増幅器を含み、通話音声やリンガ音，再生された楽曲のデータを、ディジタル／アナログ変換及び増幅した後、出力する。

マイクロホン２１は、送話用のマイクロホンと、後述する音声認識に用いられる音声の入力用マイクロホンとを含み、アナログ／ディジタル変換器と増幅器をも備えている。このマイクロホン２１を介して入力された音声信号は、増幅器により所定のレベルに増幅された後、アナログ／ディジタル変換器によりディジタル音声データに変換され、データラインを介して制御部１０へ送られる。

表示部１３は、本実施形態の携帯電話端末の筐体上に設けられている液晶や有機ＥＬ（ElectroLuminescent）等のディスプレイとそのディスプレイを駆動するためのディスプレイ駆動回路とからなる。ディスプレイ駆動回路は、制御部１０から供給された画像信号に基づいて、上記ディスプレイを駆動する。これにより、ディスプレイには、画像や文字、メニュー項目等が表示される。

操作部１４は、本実施形態の携帯電話端末の筐体上に設けられているテンキー（キーボード）や電源ボタン、発話／終話ボタン、ジョグダイヤルなどの各操作子と、それら各操作子が操作された時の操作信号を発生する操作信号発生器とからなる。ユーザは、この操作部１４を操作することにより、通話のための発着呼や電子メールの文章の作成、電子メールの送受信、インターネットへの接続等を行う。

メモリ部１５は、ＲＯＭ（Read Only Memory）とＲＡＭ（Random Access Memory）を含む。ＲＯＭは、ＯＳ（Operating System）、制御部１０が各部を制御するための制御プログラム、各種の初期設定値、フォントや仮名漢字変換等に用いられる辞書データ、着信音やキー操作音等の音データ、本発明実施形態にかかる音声認識処理を実行するための音声認識処理プログラムや、文字入力予測変換処理を実行するための文字予測変換処理プログラムを含む各種のアプリケーションプログラム、当該端末の機器識別情報（ＩＤ）などを記憶している。このＲＯＭは、ＮＡＮＤ型フラッシュメモリ（NAND-type flash memory）或いはＥＥＰＲＯＭ（Electrically Erasable Programmable Read-Only Memory）のような書き換え可能なＲＯＭを含み、電子メールデータ、電話帳や電子メールアドレス帳のデータ、スケジュール帳のデータ、通信履歴、インターネット等に接続した際のキャッシュデータ等の様々なデータ、ユーザ辞書データ、文字入力予測変換に用いられる文字入力予測候補データベース、音声認識に用いられる音声認識データベース、静止画や動画データ、その他、各種のユーザ設定値等をも保存可能となされている。なお、図１の例では、上記各種データやプログラムの格納領域のうち、特に、上記制御プログラム、音声認識処理プログラムや文字入力予測変換処理プログラム等の各種アプリケーションプログラムの格納部３１と、電話帳やスケジュール帳などの格納部３２、上記インターネット等に接続した際のキャッシュデータの格納部３３、上記電子メールのデータ格納部３４、上記音声認識データベース４０ｍ、上記文字入力予測候補データベース５０ｍを図示している。勿論、図示は省略しているが、当該メモリ部１５には、辞書データや初期設定値、静止画や動画データ等の格納領域も用意されている。ＲＡＭは、制御部１０が各種のデータ処理を行う際の作業領域として、随時データを格納する。

制御部１０は、ＣＰＵからなり、メモリ部１５に記憶されているＯＳや各種プログラムに基づいて、当該端末の様々な制御や、音声通話のための通話音声データの符号化／復号化、表示部１３上に画像や文字等を表示するための画像処理などを実行する。また、本実施形態の場合、制御部１０は、メモリ部１５の文字入力予測変換処理プログラムを実行することにより、文字入力予測候補データベース５０ｍの参照によるいわゆる文字入力予測変換処理や、当該文字入力予測変換処理の結果に応じた学習処理、それら文字入力予測変換処理や学習処理の結果に基づく文字入力予測候補データベース５０ｍの更新等の処理を行う。また、特に本実施形態の場合、詳細については後述するが、制御部１０は、メモリ部１５の音声認識処理プログラムを実行することにより、音声認識データベース４０ｍの参照による音声認識処理や、当該音声認識処理結果に応じた学習処理、それら音声認識処理や学習処理の結果に基づく音声認識データベース４０ｍの更新、さらには文字入力予測候補データベース５０ｍを参照した音声認識データベース４０ｍの更新等の処理を行う。

その他、図１では図示を省略しているが、本発明実施形態の携帯電話端末は、画像の撮影を行うためのカメラ部や、いわゆる電子マネーを扱うための電子財布機能部、近距離無線通信部、ＧＰＳ（Global Positioning System）機能部、外部メモリが接続されるメモリインターフェース部、外部ケーブルが接続されるケーブル用コネクタ部、ディスプレイのバックライトや着信ライト用などのＬＥＤ（発光ダイオード）とその駆動部、ディスプレイ上に設けられるタッチスクリーンセンサ、バイブレータとその駆動部、各部へ電力を供給するバッテリとその電力をコントロールするパワーマネージメントＩＣ部など、一般的な携帯電話端末に設けられる各構成要素についても全て備えている。

なお、上述の図１に示した携帯電話端末の構成では、音声認識データベースと文字入力予測候補データベースが共にメモリ部１５内に格納されている例を挙げたが、これらデータベースの何れか一方若しくは両方は、例えば所定のネットワークを介して外部に用意されていてもよい。

図２には、音声認識データベース４０ｎと文字入力予測候補データベース５０ｎの両者が、インターネット等のネットワーク１００を介して外部に設けられている場合の構成例を示している。なお、図２において、図１と同じ構成要素には同一の参照符号を付し、それらの説明は省略する。

この図２の例の場合、制御部１０は、メモリ部１５の音声認識処理プログラムの実行により音声認識を行う際、音声認識データベース４０ｎを参照する時には、通信回路１１を介してネットワーク１００に接続し、そのネットワーク１００上に用意されている音声認識データベース４０ｎを参照する。また、制御部１０は、その音声認識処理の結果に応じて音声認識データベース４０ｎの更新等も行う。同様に、制御部１０は、通信回路１１を介してネットワーク１００に接続し、文字入力予測候補データベース５０ｎを参照して文字入力予測変換処理を実行し、その文字入力予測変換処理に応じて文字入力予測候補データベース５０ｎの更新等も行う。さらに、この図２の例でも上述の図１の例と同様に、制御部１０は、文字入力予測候補データベース５０ｍを参照した音声認識データベース４０ｍの更新等の処理をも行う。

なお、以下の説明では、メモリ部１５内の音声認識データベース４０ｍと上記ネットワーク１００上の音声認識データベース４０ｎとを特に区別せずに、音声認識データベース４０と標記する。同様に、メモリ部１５内の文字入力予測候補データベース５０ｍと上記ネットワーク１００上の文字入力予測候補データベース５０ｎとを特に区別せずに、文字入力予測候補データベース５０と標記する。

［音声認識データベースから文字入力予測候補データベースの参照］
ところで、一般的な音声認識処理は、入力音声を基に音声認識データベース４０を参照することにより行われる。また、文字入力予測変換処理は、例えば電子メール等の文章作成時の入力文字を基に、文字入力予測候補データベース５０を参照して行われる。なお、本発明実施形態において、音声認識処理のアルゴリズムと文字入力予測変換処理のアルゴリズムは、それぞれ一般的なアルゴリズムが用いられる。したがって本実施形態では、それら一般的なアルゴリズムの説明については省略する。

一方、本発明実施形態の場合、音声認識処理の際には、音声認識データベース４０への参照の他に、当該音声認識データベース４０から文字入力予測候補データベース５０への参照も行われる。

図３には、本発明実施形態における音声認識データベース４０と文字入力予測候補データベース５０の関係を示す。

この図３に示すように、本実施形態の携帯電話端末は、音声認識処理の際、音声認識データベース４０の参照の他に、その音声認識データベース４０を通じた文字入力予測候補データベース５０の参照も行われる。

ここで、音声認識データベース４０は、例えば、頻度予測テーブル４１と文脈予測テーブル４２とその他のテーブル４３とを有して構成されている。

頻度予測テーブル４１には、複数の頻度項目と、それら各頻度項目毎のスコアが格納されている。当該頻度予測テーブル４１の各頻度項目には、音声認識処理により認識された単語（つまり音声を表す文字列）が登録される。なお、頻度予測テーブル４１の各頻度項目に登録される各単語としては、例えば“おはよう”、“さようなら”、“こんにちは”、“おやすみ”などを挙げることができる。勿論、それら各単語は一例であり、実際の音声認識データベース４０には膨大な数の単語が登録される。上記頻度予測テーブル４１のスコアは、各頻度項目の単語が使用された頻度を、数値により表した情報が格納され、当該スコアの数値が大きいほどその単語の使用頻度が高いことを示している。

同様に、文脈予測テーブル４２にも、複数の頻度項目とそれら各頻度項目毎のスコアが格納される。当該文脈予測テーブル４２の各頻度項目には、音声認識処理により認識された単語や文脈から、それに続くものとして予測される単語や語句が登録される。なお、当該文脈予測テーブル４２の各頻度項目に登録される各単語としては、一例として、それ以前に認識された例えば単語が“おはよう”であったとした場合、当該“おはよう”に続くと予測される例えば“ございます”、“です”、“元気”などの単語や語句を挙げることができる。勿論、それら各単語や語句は一例であり、実際の音声認識データベース４０には膨大な数の単語が登録される。上記文脈予測テーブル４２のスコアは、各頻度項目の単語や語句が使用された頻度を数値により表した情報が格納され、当該スコアの数値が大きいほどその単語や語句の使用頻度が高いことを示している。

一方、文字入力予測変換の際に参照される文字入力予測候補データベース５０も上述の音声認識データベース４０と略々同様に、頻度予測テーブル５１と文脈予測テーブル５２とその他のテーブル５３とを有して構成されている。

また、当該文字入力予測候補データベース５０の頻度予測テーブル５１についても、上述の音声認識データベース４０と略々同様に、複数の頻度項目と、それら各頻度項目毎のスコアが格納されている。そして、当該頻度予測テーブル５１の各頻度項目には、文字入力予測変換処理の際に使用された単語等の文字列が登録される。但し、この文字入力予測候補データベース５０に登録される単語等の文字列は、例えば操作部１３の操作により入力或いは選択等された文字列となる。なお、当該頻度予測テーブル５１の各頻度項目に登録される各単語としても、上述同様に、一例として“おはよう”、“さようなら”、“こんにちは”、“おやすみ”などを挙げることができる。勿論、それら各単語は一例であり、実際の文字入力予測候補データベース５０には膨大な数の単語が登録される。上記頻度予測テーブル５１のスコアは、各頻度項目の単語が使用された頻度を、数値により表した情報が格納され、当該スコアの数値が大きいほどその単語の使用頻度が高いことを示している。

また、当該文字入力予測候補データベース５０の文脈予測テーブル４２についても、上述の音声認識データベース４０と略々同様に、複数の頻度項目とそれら各頻度項目毎のスコアが格納される。当該文脈予測テーブル５２の各頻度項目には、文字入力予測変換処理により使用された単語や文脈から、それに続くものとして予測される単語や語句が登録される。当該文脈予測テーブル５２の各頻度項目に登録される各単語としては、一例として、前述の例と同様に、それ以前に使用された例えば単語が“おはよう”であったとした場合、当該“おはよう”に続くと予測される例えば“ございます”、“です”、“元気”などの単語や語句を挙げることができる。勿論、それら各単語や語句は一例であり、実際の文字入力予測候補データベース５０には膨大な数の単語が登録される。当該文字入力予測候補データベース５０の文脈予測テーブル５２のスコアは、各頻度項目の単語や語句が使用された頻度を数値により表した情報が格納され、当該スコアの数値が大きいほどその単語や語句の使用頻度が高いことを示している。

［頻度予測実行時に文字入力予測候補データベースをそのまま参照する例］
図４には、本発明実施形態の携帯電話端末において、頻度予測に基づく音声認識が行われる際に、音声認識データベース４０から文字入力予測候補データベース５０が参照される場合の一例を示す。すなわちこの図４には、音声認識データベース４０の頻度予測テーブル４１から文字入力予測候補データベース５０の頻度予測テーブル５１をそのまま参照する例を示している。

この図４の例に示すように、音声認識データベース４０には、頻度予測テーブル４１ａとして例えば頻度項目に“おはよう”，“さようなら”の単語が登録されており、頻度項目“おはよう”の頻度スコアは“１００”、頻度項目“さようなら”の頻度スコアは例えば“２０”であったとする。

また、図４の例に示すように、文字入力予測候補データベース５０には、頻度予測テーブル５１ａとして例えば頻度項目に“こんにちは”，“おやすみ”の単語が登録されており、頻度項目“こんにちは”の頻度スコアは“６０”、頻度項目“おやすみ”の頻度スコアは“３０”であったとする。

この場合、本実施形態の携帯電話端末は、音声認識データベース４０から文字入力予測候補データベース５０を参照する際に、当該文字入力予測候補データベース５０の頻度項目と頻度スコアをそのまま参照する。すなわちこの図４の例の場合、携帯電話端末は、文字入力予測候補データベース５０の頻度予測テーブル５１ａ（図４中の５１ｂ）から、頻度項目“こんにちは”及びその頻度スコア“６０”と、頻度項目“おやすみ”及びその頻度スコア３０を参照し、それら頻度項目及び頻度スコアを音声認識データベース４０へ反映させ、当該音声認識データベース４０を更新する。この反映処理により、音声認識データベース４０の頻度予測テーブル４１ａは、図４に示すような頻度予測テーブル４１ｂとなる。

これにより、本実施形態の携帯電話端末は、音声認識の際に、当該更新された頻度予測テーブル４１ｂの音声認識データベース４０を用いることにより、上記文字入力予測候補データベース５０に登録されていた情報を参照することができるようになる。なお、この例では、文字入力予測候補データベース５０の情報を、音声認識データベース４０に反映させて当該音声認識データベース４０を更新する例を挙げたが、音声認識データベース４０を更新せずに直接文字入力予測候補データベース５０を参照するような反映処理も本発明には含まれる。

［頻度予測実行時に文字入力予測候補データベースの情報に重み付けして参照する例］
図４の例では、音声認識データベース４０と文字入力予測候補データベース５０を同等に扱っているが、例えば、文字入力予測候補データベース５０の情報の方が当該携帯電話端末のユーザの嗜好や癖などの固有性をより的確に表していると考えられるような場合には、当該文字入力予測候補データベース５０の情報の優先度を上げるようにし、その情報に情報に重み付けを行って、音声認識データベース４０へ反映させるようなことも可能である。

図５には、本発明実施形態の携帯電話端末において、頻度予測に基づく音声認識を行う際に、文字入力予測候補データベース５０の情報に重み付けして音声認識データベース４０へ反映させる例を示す。すなわち図５には、文字入力予測候補データベースの頻度スコアに対して二倍の重み付けを行って音声認識データベース４０に反映させ、当該音声認識データベース４０を更新する例を挙げている。なお、前述の図４は、文字入力予測候補データベース５０の頻度スコアに対して一倍の重み付けを行って音声認識データベース４０へ反映させる例であると言い換えることもできる。

この図５の例では、音声認識データベース４０には、頻度予測テーブル４１ａとして例えば頻度項目に“おはよう”，“さようなら”の単語が登録されており、頻度項目“おはよう”の頻度スコアは“１００”、頻度項目“さようなら”の頻度スコアは例えば“２０”であったとする。

また、図５の例に示すように、文字入力予測候補データベース５０には、頻度予測テーブル５１ａとして例えば頻度項目に“こんにちは”，“おやすみ”の単語が登録されており、頻度項目“こんにちは”の頻度スコアは“６０”、頻度項目“おやすみ”の頻度スコアは“３０”であったとする。

この場合、本実施形態の携帯電話端末は、音声認識データベース４０から文字入力予測候補データベース５０を参照する際に、当該文字入力予測候補データベース５０の頻度項目の頻度スコアに対して二倍の重み付けを行うようにする。すなわちこの図５の例の場合、携帯電話端末は、文字入力予測候補データベース５０の頻度予測テーブル５１ａ（図５中の５１ｃ）から、頻度項目“こんにちは”及びその頻度スコア“６０”と、頻度項目“おやすみ”及びその頻度スコア３０を参照し、それら頻度項目の各頻度スコアに対して二倍の重み付けを行って音声認識データベース４０へ反映させる。この反映処理により、音声認識データベース４０の頻度予測テーブル４１ａは、図５に示すような頻度予測テーブル４１ｃとなる。具体的に説明すると、音声認識データベース４０は、文字入力予測候補データベース５０の頻度項目“こんにちは”の頻度スコア“６０”が二倍された頻度スコア“１２０”の頻度項目“こんにちは”と、同じく文字入力予測候補データベース５０の頻度項目“おやすみ”の頻度スコア“３０”が二倍された頻度スコア“６０”の頻度項目“こんにちは”とにより上記頻度予測テーブル４１ａが更新された頻度予測テーブル４１ｃとが新たに登録されたものとなる。つまり、更新後の音声認識データベース４０の頻度予測テーブル４１ｃは、頻度スコアが“１２０”の頻度項目“こんにちは”と、頻度スコアが“１００”の頻度項目“おはよう”と、頻度スコアが“６０”の頻度項目“おやすみ”と、頻度スコアが“２０”の頻度項目“さようなら”とを有するものとなる。

これにより、本実施形態の携帯電話端末は、音声認識の際に、更新された頻度予測テーブル４１ｃの音声認識データベース４０を用いることにより、上記文字入力予測候補データベースに重み付けした情報を参照することができるようになる。なお、この例では、文字入力予測候補データベース５０の情報を基に音声認識データベース４０を更新する例を挙げたが、音声認識データベース４０を更新せずに直接文字入力予測候補データベース５０の情報に重み付けを行ってそれを参照するような反映処理も本発明には含まれる。

［頻度予測実行時に音声認識データベースと文字入力予測候補データベースを標準化する例］
図５では、文字入力予測候補データベース５０の情報の優先度が高いような場合に、当該文字入力予測候補データベース５０の情報に重み付けして音声認識データベース４０に反映させる例を挙げたが、例えば、それら両データベースを同等に用いる場合、或いは一方に合わせる場合には、両データベースの情報を標準化することも可能である。

図６には、本発明実施形態の携帯電話端末において、頻度予測に基づく音声認識を行う際に、音声認識データベース４０と文字入力予測候補データベース５０の情報を標準化（一般化補正）して、音声認識データベース４０へ反映させる例を示す。

この図６の例において、音声認識データベース４０には、頻度予測テーブル４１ａとして例えば頻度項目に“おはよう”，“さようなら”の単語が登録されており、頻度項目“おはよう”の頻度スコアは“１００”、頻度項目“さようなら”の頻度スコアは例えば“２０”であったとする。

また、図６の例において、文字入力予測候補データベース５０には、頻度予測テーブル５１ｄとして、頻度スコア“２００”の頻度項目“おはよう”と、頻度スコア“６０”の頻度項目“こんにちは”と、頻度スコア“３０”の頻度項目“おやすみ”とが登録されているとする。

この場合、本実施形態の携帯電話端末は、音声認識データベース４０から文字入力予測候補データベース５０を参照する際に、それら両データベースの頻度スコアを標準化（一般化補正）する。すなわちこの図６の例の場合、携帯電話端末は、音声認識データベース４０と文字入力予測候補データベース５０内で同じ頻度項目を探し、同じ頻度項目が存在した場合には、それらのうち何れか一方の頻度スコアに合わせて、他方の頻度項目の頻度スコアを標準化する。なお、図６の例では、両データベース内で同じ頻度項目が存在した場合に、音声認識データベース４０側の頻度スコアに合わせて、文字入力予測候補データベース５０内の各頻度項目の頻度スコアを標準化する例を挙げている。勿論、文字入力予測候補データベース５０側の頻度スコアに合わせて音声認識データベース４０内の各頻度項目の頻度スコアを標準化する場合も本発明に含まれることは言うまでもない。

すなわちこの図６の例の場合、音声認識データベース４０と文字入力予測候補データベース５０には、同じ頻度項目として“おはよう”があり、音声認識データベース４０内の頻度項目“おはよう”の頻度スコアが“１００”、文字入力予測候補データベース５０内の頻度項目“おはよう”の頻度スコアが“２００”となっている。このため、本実施形態の携帯電話端末は、音声認識データベース４０内の頻度項目“おはよう”の頻度スコア“１００”と、文字入力予測候補データベース５０内の頻度項目“おはよう”の頻度スコア“２００”とから、文字入力予測候補データベース５０内の各頻度項目に対する標準化パラメータとして“÷２”を求める。そして、携帯電話端末は、当該標準化パラメータを用いて、文字入力予測候補データベース５０内の各頻度項目の頻度スコアに対する演算を行い頻度予測テーブル５１ｅを生成し、当該頻度予測テーブル５１ｅを音声認識データベース４０へ反映させる。この反映処理により、音声認識データベース４０の頻度予測テーブル４１ａは、図６に示すような頻度予測テーブル４１ｅとなる。具体的に説明すると、音声認識データベース４０は、文字入力予測候補データベース５０の頻度項目“おはよう”の頻度スコア“２００”が１／２された頻度スコア“１００”の頻度項目“おはよう”と、同じく文字入力予測候補データベース５０の頻度項目“こんにちは”の頻度スコア“６０”が１／２された頻度スコア“３０”の頻度項目“こんにちは”と、同じく文字入力予測候補データベース５０の頻度項目“おやすみ”の頻度スコア“３０”が１／２された頻度スコア“１５”の頻度項目“おやすみは”とにより上記頻度予測テーブル４１ａが更新された頻度予測テーブル４１ｅを有するものとなされる。つまり、上記反映処理後（更新後）の音声認識データベース４０の頻度予測テーブル４１ｅは、頻度スコアが“１００”の頻度項目“おはよう”と、頻度スコアが“３０”の頻度項目“こんにちは”と、頻度スコアが“２０”の頻度項目“さようなら”と、頻度スコアが“１５”の頻度項目“おやすみ”とを有するものとなる。

これにより、本実施形態の携帯電話端末は、音声認識の際に、上記標準化及び更新がなされた後の頻度予測テーブル４１ｅの音声認識データベース４０を用いることにより、上記文字入力予測候補データベース５０と音声認識データベース４０とで標準化がなされた情報を参照することができるようになる。なお、この例では、文字入力予測候補データベース５０の情報を基に、音声認識データベース４０を更新する例を挙げたが、音声認識データベース４０を更新せずに、直接文字入力予測候補データベース５０の情報の標準化を行ってそれを参照してもよい。

［文脈予測実行時に文字入力予測候補データベースをそのまま参照する例］
図７には、本発明実施形態の携帯電話端末において、文脈予測に基づく音声認識を行う際の、音声認識データベース４０から文字入力予測候補データベース５０への一参照例として、音声認識データベース４０の文脈予測テーブル４２から文字入力予測候補データベース５０の文脈予測テーブル５２をそのまま参照する例を示す。

この図７の例に示すように、、音声認識データベース４０には、文脈予測テーブル４２ａとして、例えば、頻度スコアが“１００”の頻度項目“ございます”と、頻度スコアが“５０”の頻度項目“です”とが登録されているとする。

また、図７の例に示すように、文字入力予測候補データベース５０には、文脈予測テーブル５２ａとして、例えば頻度スコアが“８０”の頻度項目“みんな”と、頻度スコアが“３０”の頻度項目“元気”とが登録されているとする。

この場合、本実施形態の携帯電話端末は、音声認識データベース４０から文字入力予測候補データベース５０を参照する際に、当該文字入力予測候補データベース５０の頻度項目と頻度スコアをそのまま参照する。すなわちこの図７の例の場合、携帯電話端末は、文字入力予測候補データベース５０の文脈予測テーブル５２ａ（図７中の５２ｂ）から、頻度項目“みんな”及びその頻度スコア“８０”と、頻度項目“元気”及びその頻度スコア３０を参照し、それら頻度項目及び頻度スコアを音声認識データベース４０へ反映させて当該音声認識データベース４０を更新する。この反映処理により、音声認識データベース４０の文脈予測テーブル４２ａは、図７に示すように文脈予測テーブル４２ｂとなる。

このように本実施形態の携帯電話端末は、音声認識の際に、当該更新された文脈予測テーブル４１ｂの音声認識データベース４０を用いることにより、上記文字入力予測候補データベースに登録されていた情報を参照することができるようになる。なお、この例では、文字入力予測候補データベース５０の情報を基に、音声認識データベース４０を更新する例を挙げたが、音声認識データベース４０を更新せずに直接文字入力予測候補データベース５０を参照してもよい。

［文脈予測実行時に文字入力予測候補データベースの情報に重み付けして参照する例］
図７の例は、音声認識データベース４０と文字入力予測候補データベース５０を同等に用いたが、例えば、文字入力予測候補データベース５０の情報の方が当該携帯電話端末のユーザの嗜好や癖などをより的確に表していると考えられるような場合には、当該文字入力予測候補データベース５０の情報の優先度を上げるようにし、その情報に重み付けを行って、音声認識データベース４０に反映させることも可能である。

図８には、本発明実施形態の携帯電話端末において、文脈予測に基づく音声認識を行う際に、文字入力予測候補データベース５０の情報に重み付けして音声認識データベース４０へ反映させる例を示す。図８には、文字入力予測候補データベース５０の頻度スコアに対して二倍の重み付けを行って音声認識データベース４０に反映させる場合の例を挙げている。なお、図７は、文字入力予測候補データベース５０の頻度スコアに対して一倍の重み付けを行って音声認識データベース４０へ反映させる例と言い換えることもできる。

この図８の例の場合、音声認識データベース４０には、文脈予測テーブル４２ａとして、例えば頻度スコアが“１００”の頻度項目“ございます”と、頻度スコアが“５０”の頻度項目“です”とが登録されているとする。

また、図８の例に示すように、文字入力予測候補データベース５０には、頻度予測テーブル５２ａとして、例えば頻度スコアが“８０”の頻度項目“みんな”と、頻度スコアが“３０”の頻度項目“元気”とが登録されているとする。

この場合、本実施形態の携帯電話端末は、音声認識データベース４０から文字入力予測候補データベース５０を参照する際に、頻度項目の頻度スコアに対して二倍の重み付けを行うようにする。すなわちこの図８の例の場合、携帯電話端末は、文字入力予測候補データベース５０の文脈予測テーブル５２ａ（図８中の５２ｃ）から、頻度項目“みんな”及びその頻度スコア“８０”と、頻度項目“元気”及びその頻度スコア３０を参照し、それら頻度項目の各頻度スコアに対して二倍の重み付けを行って音声認識データベース４０へ反映させる。この反映処理により、音声認識データベース４０の頻度予測テーブル４２ａは、図８に示すような頻度予測テーブル４２ｃとなる。具体的に説明すると、音声認識データベース４０は、文字入力予測候補データベース５０の頻度項目“みんな”の頻度スコア“８０”が二倍された頻度スコア“１６０”の頻度項目“みんな”と、同じく文字入力予測候補データベース５０の頻度項目“元気”の頻度スコア“３０”が二倍された頻度スコア“６０”の頻度項目“元気”とにより、上記文脈予測テーブル４２ａが更新された文脈予測テーブル４２ｃを有するものとなされる。つまり、上記更新後の音声認識データベース４０の文脈予測テーブル４２ｃは、頻度スコアが“１６０”の頻度項目“みんな”と、頻度スコアが“１００”の頻度項目“ございます”と、頻度スコアが“６０”の頻度項目“元気”と、頻度スコアが“５０”の頻度項目“です”とを有するものとなる。

このように、本実施形態の携帯電話端末は、音声認識の際に、更新された文脈予測テーブル４２ｃの音声認識データベース４０を用いることにより、上記文字入力予測候補データベース５０の重み付けした情報を参照することができるようになる。なお、この例では、文字入力予測候補データベース５０の情報を基に音声認識データベース４０を更新する例を挙げたが、音声認識データベース４０を更新せずに、直接文字入力予測候補データベース５０の情報に重み付けを行ってそれを参照してもよい。

［文脈予測実行時に音声認識データベースと文字入力予測候補データベースを標準化する例］
図８では、文字入力予測候補データベース５０の情報の優先度が高い場合に、当該文字入力予測候補データベース５０の情報に重み付けして音声認識データベース４０へ反映させる例を挙げたが、当該文脈予測時においても、それら両データベースを同等に用いる場合には、両データベースの情報を標準化することも可能である。

図９には、本発明実施形態の携帯電話端末において、文脈予測に基づく音声認識を行う際に、音声認識データベース４０と文字入力予測候補データベース５０の情報を標準化（一般化補正）して音声認識データベース４０の更新を行う例を示す。

この図９の例では、音声認識データベース４０には、文脈予測テーブル４２ａとして、例えば、頻度スコアが“１００”の頻度項目“ございます”と、頻度スコアが“７０”の頻度項目“みんな”と、頻度スコアが“５０”の頻度項目“です”とが登録されているとする。

また、図９の例に示すように、文字入力予測候補データベース５０には、文脈予測テーブル５２ｄとして、頻度スコア“２８０”の頻度項目“みんな”と、頻度スコア“１２０”の頻度項目“元気”とが登録されているとする。

この場合、本実施形態の携帯電話端末は、音声認識データベース４０から文字入力予測候補データベース５０を参照する際に、それら両データベースの頻度スコアを標準化（一般化補正）する。この図９の例の場合、携帯電話端末は、音声認識データベース４０と文字入力予測候補データベース５０内で同じ頻度項目が存在した場合、それらのうち何れか一方の頻度スコアに合わせて、他方の頻度項目の頻度スコアを標準化する。なお、図９の例では、両データベース内で同じ頻度項目が存在した場合、音声認識データベース４０側の頻度スコアに合わせて、文字入力予測候補データベース５０内の各頻度項目の頻度スコアを標準化するようにしている。勿論、文字入力予測候補データベース５０側の頻度スコアに合わせて音声認識データベース４０内の各頻度項目の頻度スコアを標準化する場合も本発明に含まれることは言うまでもない。

すなわちこの図９の例の場合、音声認識データベース４０と文字入力予測候補データベース５０には、同じ頻度項目として“みんな”があり、音声認識データベース４０内の頻度項目“ございます”の頻度スコアが“１００”、頻度項目“みんな”の頻度スコアが“７０”、頻度項目“です”の頻度スコアが“５０”となっており、一方、文字入力予測候補データベース５０内の頻度項目“みんな”の頻度スコアが“２８０”、頻度項目“元気”の頻度スコアが“１２０”となっている。このため、本実施形態の携帯電話端末は、音声認識データベース４０内の頻度項目“みんな”の頻度スコア“７０”と、文字入力予測候補データベース５０内の頻度項目“みんな”の頻度スコア“２８０”とから、文字入力予測候補データベース５０内の各頻度項目に対する標準化パラメータとして“÷４”を求める。そして、携帯電話端末は、当該標準化パラメータを用いて、文字入力予測候補データベース５０内の各頻度項目の頻度スコアに対する演算を行い文脈予測テーブル５２ｅを生成し、当該文脈予測テーブル５２ｅを音声認識データベース４０へ反映させる。この反映処理により、音声認識データベース４０の文脈予測テーブル４２ａは、図９に示すような文脈予測テーブル４２ｅとなる。具体的に説明すると、音声認識データベース４０は、文字入力予測候補データベース５０の頻度項目“みんな”の頻度スコア“２８０”が１／４された頻度スコア“７０”の頻度項目“みんな”と、同じく文字入力予測候補データベース５０の頻度項目“元気”の頻度スコア“１２０”が１／４された頻度スコア“３０”の頻度項目“元気”とにより、上記文脈予測テーブル４２ａが更新された文脈予測テーブル４２ｅを有するものとなされる。つまり、上記更新後の音声認識データベース４０の文脈予測テーブル４２ｅは、頻度スコアが“１００”の頻度項目“ございます”と、頻度スコアが“７０”の頻度項目“みんな”と、頻度スコアが“５０”の頻度項目“です”と、頻度スコアが“３０”の頻度項目“元気”とを有するものとなる。

このように、本実施形態の携帯電話端末は、音声認識の際に、上記標準化及び更新がなされた後の文脈予測テーブル４２ｅの音声認識データベース４０を用いることにより、上記文字入力予測候補データベース５０と音声認識データベース４０とで標準化がなされた情報を参照することができるようになる。なお、この例では、文字入力予測候補データベース５０の情報を基に、音声認識データベース４０を更新する例を挙げたが、音声認識データベース４０を更新せずに、直接文字入力予測候補データベース５０の情報の標準化を行ってそれを参照してもよい。

［文字入力予測候補データベースに頻度項目が追加された場合の音声認識データベースの更新例］
上述したように、本実施形態の携帯電話端末では、文字入力予測候補データベース５０を音声認識データベース４０から参照するようになされているため、例えば文字入力予測候補データベース５０の内容が変更された場合には、その変更を反映させるように上記音声認識データベースの更新が行われる。

図１０を用い、文字入力予測候補データベース５０に新たに頻度項目が追加された場合に、その新規頻度項目の追加に応じて音声認識データベース４０が更新される様子を説明する。なお、図１０では、頻度予測テーブルを例に挙げており、文脈予測テーブルの例は省略するが、当該文脈予測テーブルの更新時も頻度予測テーブルの更新と同様に行われる。

ここで、図１０において、或る時点において、音声認識データベース４０の頻度予測テーブル４１Ａには、例えば頻度スコアが“１００”の頻度項目“おはよう”と頻度スコアが“２０”の頻度項目“さようなら”が登録されおり、一方、文字入力予測候補データベース５０の頻度予測テーブル５１Ａには、頻度スコアが“１００”の頻度項目“おはよう”のみが登録されていたとする。

その後、文字入力予測候補データベース５０の頻度予測テーブル５１Ａに変更が加わることで、例えば頻度項目“こんにちは”と頻度項目“おやすみ”が追加され、上記頻度項目“こんにちは”の頻度スコアが“６０”、上記頻度項目“おやすみ”の頻度スコアが“３０”になったとする。

この場合、本実施形態の携帯電話端末は、文字入力予測候補データベース５０の頻度予測テーブル５１Ａを、図１０中の頻度予測テーブル５１Ｂに示すように更新すると共に、当該追加された頻度項目について、図中“×”印で示すように変更フラグを立てる（付与する）。

次に、携帯電話端末は、上記頻度予測テーブル５１Ｂの中で上記変更フラグが立てられた頻度項目及び頻度スコアの情報を、その頻度スコアの高い順に待ち行列（Ｑｕｅｕｅ）６０Ａへ入力する。なお、本実施形態の携帯電話端末において、上記待ち行列の格納部は、例えばメモリ部１５内に用意される。

そして、本実施形態の携帯電話端末は、上記待ち行列６０Ａから、頻度スコアの高い順に、頻度項目及びその頻度スコアの情報を読み出し、音声認識データベース４０へ登録する。これにより、音声認識データベース４０の頻度予測テーブル４１Ａは、図１０中の頻度予測テーブル４１Ｂのように更新されることになる。つまりこの例の場合、待ち行列６０Ａは、頻度スコアの高い順に頻度項目及び頻度スコアが読み出されることで図１０中の待ち行列６０Ｂのようになる。また、音声認識データベース４０の頻度予測テーブル４１Ａは、既に登録されていた頻度スコア“１００”の頻度項目“おはよう”と頻度スコア“２０”の頻度項目“さようなら”に対して、上記待ち行列６０Ｂから読み出された頻度スコア“６０”の頻度項目“こんにちは”と頻度スコア“３０”の頻度項目“おやすみ”とが追加され、さらにそれら各頻度項目が頻度スコアの高い順に並び替えられることで、図１０中の頻度予測テーブル４１Ｂのように更新される。

その後、本実施形態の携帯電話端末は、文字入力予測候補データベース５０の頻度予測テーブル５１Ｂに立てられた上記変更フラグをリセットし、図１０中の頻度予測テーブル５１Ｃのように更新する。

なお、図１０では、文字入力予測候補データベース５０の更新内容をそのまま音声認識データベース４０へ反映させる例を挙げたが、その際には前述したように重み付けや標準化を行うことも勿論可能である。

［文字入力予測候補データベースに頻度スコアが変更された場合の音声認識データベースの更新例］
図１０の例は、文字入力予測候補データベース５０に頻度項目が追加された場合の音声認識データベース４０の更新例を挙げたが、本実施形態の携帯電話端末は、図１１に示すように、例えば文字入力予測候補データベース５０の頻度スコアが変更された場合に、その変更を反映させるように音声認識データベース４０の更新を行うことも勿論可能である。なお、図１１では、頻度予測テーブルを例に挙げており、文脈予測テーブルの例は省略するが、当該文脈予測テーブルの更新時も頻度予測テーブルの更新と同様に行われる。

ここで、図１１において、或る時点において、音声認識データベース４０の頻度予測テーブル４１Ｄには、例えば頻度スコアが“１００”の頻度項目“おはよう”と頻度スコアが“５０”の頻度項目“こんにちは”と頻度スコアが“３０”の頻度項目“おやすみ”と頻度スコアが“２０”の頻度項目“さようなら”が登録されおり、一方、文字入力予測候補データベース５０の頻度予測テーブル５１Ｄには、頻度スコアが“５０”の頻度項目“こんにちは”と頻度スコアが“３０”の頻度項目“おやすみ”とが登録されていたとする。

その後、文字入力予測候補データベース５０の頻度予測テーブル５１Ｄに変更が加わることで、例えば頻度項目“こんにちは”の頻度スコアが“５０”に変更され、また、頻度項目“おやすみ”の頻度スコアが“１２０”に変更されたとする。

この場合、本実施形態の携帯電話端末は、文字入力予測候補データベース５０の頻度予測テーブル５１Ｄを、図１１中の頻度予測テーブル５１Ｅに示すように更新すると共に、上記頻度スコアが変更された頻度項目について、図中“×”印で示すように変更フラグを立てる。

次に、携帯電話端末は、上記頻度予測テーブル５１Ｅの中で上記変更フラグが立てられた頻度項目及び頻度スコアの情報を、その頻度スコアの高い順に待ち行列（Ｑｕｅｕｅ）６０Ｃへ入力する。

そして、本実施形態の携帯電話端末は、上記待ち行列６０Ｃから、頻度スコアの高い順に、頻度項目及びその頻度スコアの情報を読み出し、音声認識データベース４０へ登録する。これにより、音声認識データベース４０の頻度予測テーブル４１Ｄは、図１１中の頻度予測テーブル４１Ｅのように更新されることになる。つまりこの例の場合、待ち行列６０Ｃは、頻度スコアの高い順に頻度項目及び頻度スコアが読み出されることで図１１中の待ち行列６０Ｄのようになる。また、音声認識データベース４０の頻度予測テーブル４１Ｄは、既に登録されていた各頻度項目及びそれらの頻度スコアに対して、上記待ち行列６０Ｄから読み出された頻度スコア“１２０”の頻度項目“おやすみ”と頻度スコア“５０”の頻度項目“こんにちは”とが追加され、さらにそれら各頻度項目が頻度スコアの高い順に並び替えられることで、図１１中の頻度予測テーブル４１Ｅのように更新される。

その後、本実施形態の携帯電話端末は、文字入力予測候補データベース５０の頻度予測テーブル５１Ｅに立てられた上記変更フラグをリセットし、図１１中の頻度予測テーブル５１Ｆのように更新する。

なお、図１１では、文字入力予測候補データベース５０の更新内容をそのまま音声認識データベース４０へ反映させる例を挙げたが、前述したように重み付けや標準化を行うことも勿論可能である。

［文字入力予測候補データベースの変更に応じた音声認識データベースの更新処理のフローチャート］
図１２には、上記図１０や図１１で説明したように、文字入力予測候補データベース５０の変更に応じた音声認識データベース４０の更新処理の流れを示す。

なお、この図１２に示す更新処理のフローチャートは、本実施形態の携帯電話端末のメモリ部１５に保持されている音声認識処理プログラムのうち、特に文字入力予測候補データベース５０の更新内容を音声認識データベース４０へ反映させる情報反映プログラム部分の処理の流れを示している。またこのフローチャートの処理は、制御部１０が当該情報反映プログラム部分を実行することにより実現される。

図１２において、制御部１０は、音声認識プログラムが実行されていて、例えば、データベースの更新指示がユーザにより入力された時や、予め決められた一定時間毎が経過したり規定時刻になった時、或いは、予め決められた何らかのイベントが発生した時に、情報反映プログラム部分が動作を開始する。

当該情報反映プログラム部分が起動すると、制御部１０は、ステップＳ１の処理として、文字入力予測候補データベース５０において頻度項目の追加や削除、頻度スコアの変化など、何らかの変更があったか否かを判定する。そして、何らかの変更があったと判定した場合、制御部１０は、ステップＳ２へ処理を進める。

ステップＳ２の処理に進むと、制御部１０は、上記変更箇所（変更があった頻度項目）に対して変更フラグを立てた後、ステップＳ３へ処理を進める。

ステップＳ３の処理に進むと、制御部１０は、上記変更がなされた頻度項目及び頻度スコアを、その頻度スコアの高い順に待ち行列へ入力し、ステップＳ４へ処理を進める。

ステップＳ４の処理に進むと、制御部１０は、待ち行列から、頻度項目及び頻度スコアの情報を読み出して音声認識データベース４０へ送り、当該音声認識データベース４０−内で頻度スコアの高い順に各頻度項目を並べ替えるようにして、音声認識データベース４０を更新する。

その後、制御部１０は、ステップＳ５の処理として、文字入力予測候補データベース５０の変更フラグをリセットする。

［まとめ］
以上説明したように、本実施形態の携帯電話端末においては、音声認識処理の際に、音声認識データベース４０とともに文字入力予測候補データベース５０をも参照することにより、ユーザ毎に独特の固有性を有する電子メールなどの文章入力時に使用される文字入力予測候補データベース５０を音声認識処理に活用することができ、その結果として、音声認識の認識率を向上させることが可能になる。

なお、上述した実施形態の説明は、本発明の一例である。このため、本発明は上述した各実施形態に限定されることなく、本発明に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能であることは勿論である。例えば、上述の実施形態では、携帯電話端末を例に挙げたが、音声認識機能と文字入力予測変換機能を備えた他の携帯情報端末等にも適用可能である。

上述の実施形態では、音声認識の際に文字入力予測候補データベース５０を参照する例を挙げたが、それに加えて或いはそれとは別に、例えばキャッシュデータ格納部３３にキャッシュされているデータ、すなわち例えばユーザが閲覧等したウェブページから取得される単語等の情報を頻度項目及びその頻度スコアとして集計してデータベース化し、そのデータベースを音声認識の際に参照するようなことを行えば、ユーザが好んで閲覧等しているウェブページの情報等を音声認識に活用することが可能となる。その他にも、例えば電話帳等格納部３２に格納された電話帳に登録されている人名や住所等を頻度項目及び頻度スコアとして集計してデータベース化し、そのデータベースを音声認識時に参照することにより、それら電話帳の情報を音声認識に活用することが可能となる。

１０…制御部、１１…通信回路、１２…通信アンテナ、１３…操作部、１４…表示部、１５…メモリ部、２０…スピーカ、２１…マイクロホン、３１…プログラム格納部、３２…電話帳等格納部、３３…キャッシュデータ格納部、３４…電子メールデータ格納部、４０（４０ｍ，４０ｎ）…音声認識データベース、５０（５０ｍ，５０ｎ）…文字入力予測候補データベース、４１，５１…頻度予測テーブル、４２，５２…文脈予測テーブル、４３，５３…その他のテーブル、６０…待ち行列（Ｑｕｅｕｅ）

Claims

文字入力予測候補データベースに登録されている文字列とその使用頻度を表す情報を参照した文字入力予測変換処理、及び、上記文字入力予測変換処理に応じて上記文字入力予測候補データベースの更新処理を行う文字入力予測変換処理部と、
音声認識データベースに登録されている文字列とその使用頻度を表す情報を参照した音声認識処理、及び、上記音声認識処理に応じて上記音声認識データベースの更新処理を行う音声認識処理部と、
上記文字入力予測候補データベースの上記文字列とその使用頻度を表す情報を、上記音声認識データベースへ反映させる情報反映部と、
を有する携帯情報端末。
上記情報反映部は、上記文字入力予測候補データベースの上記使用頻度を表す情報に対して所定の重み付けを行い、上記音声認識データベースへ反映させる請求項１記載の携帯情報端末。
上記情報反映部は、上記文字入力予測候補データベースの上記使用頻度を表す情報を、上記音声認識データベースの上記使用頻度を表す情報に応じて標準化した上で、当該音声認識データベースへ反映させる請求項１記載の携帯情報端末。
上記文字入力予測変換処理部は、上記文字入力予測候補データの更新処理時に、上記更新された文字列とその使用頻度を表す情報に所定の変更フラグを付与し、
上記情報反映部は、上記所定の変更フラグが付与された上記文字列とその使用頻度を表す情報を、その使用頻度の高い順に、上記音声認識データベースへ反映させる請求項１記載の携帯情報端末。
文字入力予測変換処理部が、文字入力予測候補データベースに登録されている文字列とその使用頻度を表す情報を参照した文字入力予測変換処理、及び、上記文字入力予測変換処理に応じて上記文字入力予測候補データベースの更新処理を行うステップと、
音声認識処理部が、音声認識データベースに登録されている文字列とその使用頻度を表す情報を参照した音声認識処理、及び、上記音声認識処理に応じて上記音声認識データベースの更新処理を行うステップと、
情報反映部が、上記文字入力予測候補データベースの上記文字列とその使用頻度を表す情報を、上記音声認識データベースへ反映させるステップと、
を有する情報処理方法。
文字入力予測候補データベースに登録されている文字列とその使用頻度を表す情報を参照した文字入力予測変換処理、及び、上記文字入力予測変換処理に応じて上記文字入力予測候補データベースを更新する更新処理と、
音声認識データベースに登録されている文字列とその使用頻度を表す情報を参照した音声認識処理、及び、上記音声認識処理に応じて上記音声認識データベースを更新する更新処理と、
上記文字入力予測候補データベースの上記文字列とその使用頻度を表す情報を、上記音声認識データベースへ反映させる情報反映処理とを、
コンピュータに実行させる情報処理プログラム。