JP2010211075A - 携帯情報端末、情報処理方法及び情報処理プログラム - Google Patents

携帯情報端末、情報処理方法及び情報処理プログラム Download PDF

Info

Publication number
JP2010211075A
JP2010211075A JP2009058794A JP2009058794A JP2010211075A JP 2010211075 A JP2010211075 A JP 2010211075A JP 2009058794 A JP2009058794 A JP 2009058794A JP 2009058794 A JP2009058794 A JP 2009058794A JP 2010211075 A JP2010211075 A JP 2010211075A
Authority
JP
Japan
Prior art keywords
frequency
database
character input
speech recognition
input prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009058794A
Other languages
English (en)
Other versions
JP5583915B2 (ja
Inventor
Takeshi Nitta
岳 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Mobile Communications AB
Original Assignee
Sony Ericsson Mobile Communications AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Ericsson Mobile Communications AB filed Critical Sony Ericsson Mobile Communications AB
Priority to JP2009058794A priority Critical patent/JP5583915B2/ja
Publication of JP2010211075A publication Critical patent/JP2010211075A/ja
Application granted granted Critical
Publication of JP5583915B2 publication Critical patent/JP5583915B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】 携帯情報端末の機能を最大限に活用し、ユーザの利便性をより高めるとともに、ユーザ独特の入力音声に対しても認識率を高めることを可能とする。
【解決手段】
制御部10は、文字入力予測候補データベース50mを参照した文字入力予測変換処理、及び、その文字入力予測変換処理に応じて文字入力予測候補データベース50mの更新処理を行う。また、制御部10は、音声認識データベース40mを参照した音声認識処理、及び、その音声認識処理に応じて音声認識データベース40mの更新処理を行う。さらに、制御部10は、文字入力予測候補データベース50mの登録情報を音声認識データベース40mへ反映させることで、音声認識処理の際に、音声認識データベース40mのみならず、文字入力予測候補データベース50mをも参照する。
【選択図】 図1

Description

本発明は、音声認識機能を備えた携帯電話端末などの携帯情報端末と、データベースを参照した音声認識処理と文字入力予測変換処理を行う情報処理方法及び情報処理プログラムに関する。
従来より、音声認識技術として、例えば特開平3−224055号の公開特許公報(特許文献1)には、音声或いは表音記号による入力テキストのほかに、その入力テキストの元になる原情報を装置に入力して解析することにより、入力テキストの構成語情報を予測し、その予測された語を利用することで、音声或いは表音記号から文字への変換時の曖昧性を解消する技術が開示されている。
一方、特開2007−10881号の公開特許公報(特許文献2)には、会話音声データから抽出した単語によりデータベースを構築し、文字入力時にそのデータベースを参照して予測変換候補を検索する技術が開示されている。
特開平3−224055号公報(図1) 特開2007−10881号公報(図1)
ところで、近年は、携帯電話端末などの携帯情報端末にも、音声認識機能を搭載することが求められている。但し、その音声認識機能は、従来から存在している音声認識技術を流用したものであり、携帯情報端末が備えている機能を最大限に生かしたものとは言い難く、ユーザの利便性をより改善できる余地があると考えられる。
また、従来の音声認識機能は、ユーザ独特の言い回しなどに対応することが難しく、そのような入力音声に対する認識率が低いことが問題となっている。
本発明は、このような実情に鑑みて提案されたものであり、携帯電話端末などの携帯情報端末に音声認識機能を搭載する場合において、その携帯情報端末が備えている機能を最大限に活用でき、ユーザの利便性をより高めることを可能にするとともに、例えばユーザ独特の入力音声に対する認識率を高めることをも可能とする、携帯情報端末、情報処理方法及び情報処理プログラムを提供することを目的とする。
本発明の携帯情報端末は、文字入力予測変換処理部と音声認識処理部と情報反映部とからなる。そして、文字入力予測変換処理部は、文字入力予測候補データベースに登録されている文字列とその使用頻度を表す情報を参照した文字入力予測変換処理、及び、文字入力予測変換処理に応じて文字入力予測候補データベースの更新処理を行う。また、音声認識処理部は、音声認識データベースに登録されている文字列とその使用頻度を表す情報を参照した音声認識処理、及び、音声認識処理に応じて音声認識データベースの更新処理を行う。また、情報反映部は、文字入力予測候補データベースの文字列とその使用頻度を表す情報を音声認識データベースへ反映させる。これにより、本発明は上述した課題を解決する。
すなわち、本発明によれば、文字入力予測変換処理に使用される文字入力予測候補データベースを、音声認識の際に音声認識データベースとともに参照する。特に、携帯情報端末において文字入力予測候補データベースは、例えばユーザによる電子メールなどの文章入力の際に使用されるため、ユーザ毎に独特の固有性を有するデータベースとなり、したがって、当該文字入力予測候補データベースを音声認識の際に参照することにより、ユーザ独特の入力音声を正確に認識可能となる。
本発明においては、文字入力予測変換処理に使用される文字入力予測候補データベースを、音声認識の際に音声認識データベースとともに参照することにより、携帯電話端末等の携帯情報端末が備えている機能を最大限に活用でき、ユーザの利便性をより高めることが可能になるとともに、例えばユーザ独特の入力音声に対しても認識率を高めることが可能となっている。
本発明実施形態の携帯電話端末の概略的な内部構成例であり、音声認識データベースと文字入力予測候補データベースがメモリ部内に用意されている場合の構成例を示す図である。 本発明実施形態の携帯電話端末の概略的な内部構成例であり、音声認識データベースと文字入力予測候補データベースが外部のネットワーク上に用意されている場合の構成例を示す図である。 本発明実施形態における音声認識データベースと文字入力予測候補データベースの関係説明に用いる図である。 本発明実施形態の携帯電話端末において、頻度予測に基づく音声認識を行う際に、音声認識データベースの頻度予測テーブルから文字入力予測候補データベースの頻度予測テーブルをそのまま参照する例の説明に用いる図である。 本発明実施形態の携帯電話端末において、頻度予測に基づく音声認識を行う際に、文字入力予測候補データベースの情報に重み付けして音声認識データベースの更新を行う例の説明に用いる図である。 本発明実施形態の携帯電話端末において、頻度予測に基づく音声認識を行う際に、音声認識データベースと文字入力予測候補データベースの情報を標準化(一般化補正)して音声認識データベースの更新を行う例の説明に用いる図である。 本発明実施形態の携帯電話端末において、文脈予測に基づく音声認識を行う際に、音声認識データベースの文脈予測テーブルから文字入力予測候補データベースの文脈予測テーブルをそのまま参照する例の説明に用いる図である。 本発明実施形態の携帯電話端末において、文脈予測に基づく音声認識を行う際に、文字入力予測候補データベースの情報に重み付けして音声認識データベースの更新を行う例の説明に用いる図である。 本発明実施形態の携帯電話端末において、文脈予測に基づく音声認識を行う際に、音声認識データベースと文字入力予測候補データベースの情報を標準化(一般化補正)して音声認識データベースの更新を行う例の説明に用いる図である。 本発明実施形態の携帯電話端末において、文字入力予測候補データベースに新たに頻度項目が追加された場合に、その新規頻度項目の追加に応じて音声認識データベースが更新される様子の説明に用いる図である。 本発明実施形態の携帯電話端末において、文字入力予測候補データベースの頻度スコアが変更された場合の音声認識データベースの更新例の説明に用いる図である。 文字入力予測候補データベースの変更に応じた音声認識データベースの更新処理の流れを示すフローチャートである。
以下、図面を参照しながら、本発明の一実施形態について説明する。
なお、本発明が適用される一例として、本実施形態では携帯電話端末を挙げているが、勿論、ここで説明する内容はあくまで一例であり、本発明はこの例に限定されないことは言うまでもない。
[携帯電話端末の概略的な内部構成]
図1には、本発明実施形態の携帯電話端末の概略的な内部構成を示す。
図1において、通信アンテナ12は、例えば内蔵アンテナであり、通話やパケット通信のための信号電波の送受信を行う。通信回路11は、送受信信号の周波数変換、変調と復調等を行う。
スピーカ20は、携帯電話端末に設けられている受話用のスピーカやリンガ(着信音)、音楽再生、アラーム音出力用のスピーカであり、ディジタル/アナログ変換器と増幅器を含み、通話音声やリンガ音,再生された楽曲のデータを、ディジタル/アナログ変換及び増幅した後、出力する。
マイクロホン21は、送話用のマイクロホンと、後述する音声認識に用いられる音声の入力用マイクロホンとを含み、アナログ/ディジタル変換器と増幅器をも備えている。このマイクロホン21を介して入力された音声信号は、増幅器により所定のレベルに増幅された後、アナログ/ディジタル変換器によりディジタル音声データに変換され、データラインを介して制御部10へ送られる。
表示部13は、本実施形態の携帯電話端末の筐体上に設けられている液晶や有機EL(ElectroLuminescent)等のディスプレイとそのディスプレイを駆動するためのディスプレイ駆動回路とからなる。ディスプレイ駆動回路は、制御部10から供給された画像信号に基づいて、上記ディスプレイを駆動する。これにより、ディスプレイには、画像や文字、メニュー項目等が表示される。
操作部14は、本実施形態の携帯電話端末の筐体上に設けられているテンキー(キーボード)や電源ボタン、発話/終話ボタン、ジョグダイヤルなどの各操作子と、それら各操作子が操作された時の操作信号を発生する操作信号発生器とからなる。ユーザは、この操作部14を操作することにより、通話のための発着呼や電子メールの文章の作成、電子メールの送受信、インターネットへの接続等を行う。
メモリ部15は、ROM(Read Only Memory)とRAM(Random Access Memory)を含む。ROMは、OS(Operating System)、制御部10が各部を制御するための制御プログラム、各種の初期設定値、フォントや仮名漢字変換等に用いられる辞書データ、着信音やキー操作音等の音データ、本発明実施形態にかかる音声認識処理を実行するための音声認識処理プログラムや、文字入力予測変換処理を実行するための文字予測変換処理プログラムを含む各種のアプリケーションプログラム、当該端末の機器識別情報(ID)などを記憶している。このROMは、NAND型フラッシュメモリ(NAND-type flash memory)或いはEEPROM(Electrically Erasable Programmable Read-Only Memory)のような書き換え可能なROMを含み、電子メールデータ、電話帳や電子メールアドレス帳のデータ、スケジュール帳のデータ、通信履歴、インターネット等に接続した際のキャッシュデータ等の様々なデータ、ユーザ辞書データ、文字入力予測変換に用いられる文字入力予測候補データベース、音声認識に用いられる音声認識データベース、静止画や動画データ、その他、各種のユーザ設定値等をも保存可能となされている。なお、図1の例では、上記各種データやプログラムの格納領域のうち、特に、上記制御プログラム、音声認識処理プログラムや文字入力予測変換処理プログラム等の各種アプリケーションプログラムの格納部31と、電話帳やスケジュール帳などの格納部32、上記インターネット等に接続した際のキャッシュデータの格納部33、上記電子メールのデータ格納部34、上記音声認識データベース40m、上記文字入力予測候補データベース50mを図示している。勿論、図示は省略しているが、当該メモリ部15には、辞書データや初期設定値、静止画や動画データ等の格納領域も用意されている。RAMは、制御部10が各種のデータ処理を行う際の作業領域として、随時データを格納する。
制御部10は、CPUからなり、メモリ部15に記憶されているOSや各種プログラムに基づいて、当該端末の様々な制御や、音声通話のための通話音声データの符号化/復号化、表示部13上に画像や文字等を表示するための画像処理などを実行する。また、本実施形態の場合、制御部10は、メモリ部15の文字入力予測変換処理プログラムを実行することにより、文字入力予測候補データベース50mの参照によるいわゆる文字入力予測変換処理や、当該文字入力予測変換処理の結果に応じた学習処理、それら文字入力予測変換処理や学習処理の結果に基づく文字入力予測候補データベース50mの更新等の処理を行う。また、特に本実施形態の場合、詳細については後述するが、制御部10は、メモリ部15の音声認識処理プログラムを実行することにより、音声認識データベース40mの参照による音声認識処理や、当該音声認識処理結果に応じた学習処理、それら音声認識処理や学習処理の結果に基づく音声認識データベース40mの更新、さらには文字入力予測候補データベース50mを参照した音声認識データベース40mの更新等の処理を行う。
その他、図1では図示を省略しているが、本発明実施形態の携帯電話端末は、画像の撮影を行うためのカメラ部や、いわゆる電子マネーを扱うための電子財布機能部、近距離無線通信部、GPS(Global Positioning System)機能部、外部メモリが接続されるメモリインターフェース部、外部ケーブルが接続されるケーブル用コネクタ部、ディスプレイのバックライトや着信ライト用などのLED(発光ダイオード)とその駆動部、ディスプレイ上に設けられるタッチスクリーンセンサ、バイブレータとその駆動部、各部へ電力を供給するバッテリとその電力をコントロールするパワーマネージメントIC部など、一般的な携帯電話端末に設けられる各構成要素についても全て備えている。
なお、上述の図1に示した携帯電話端末の構成では、音声認識データベースと文字入力予測候補データベースが共にメモリ部15内に格納されている例を挙げたが、これらデータベースの何れか一方若しくは両方は、例えば所定のネットワークを介して外部に用意されていてもよい。
図2には、音声認識データベース40nと文字入力予測候補データベース50nの両者が、インターネット等のネットワーク100を介して外部に設けられている場合の構成例を示している。なお、図2において、図1と同じ構成要素には同一の参照符号を付し、それらの説明は省略する。
この図2の例の場合、制御部10は、メモリ部15の音声認識処理プログラムの実行により音声認識を行う際、音声認識データベース40nを参照する時には、通信回路11を介してネットワーク100に接続し、そのネットワーク100上に用意されている音声認識データベース40nを参照する。また、制御部10は、その音声認識処理の結果に応じて音声認識データベース40nの更新等も行う。同様に、制御部10は、通信回路11を介してネットワーク100に接続し、文字入力予測候補データベース50nを参照して文字入力予測変換処理を実行し、その文字入力予測変換処理に応じて文字入力予測候補データベース50nの更新等も行う。さらに、この図2の例でも上述の図1の例と同様に、制御部10は、文字入力予測候補データベース50mを参照した音声認識データベース40mの更新等の処理をも行う。
なお、以下の説明では、メモリ部15内の音声認識データベース40mと上記ネットワーク100上の音声認識データベース40nとを特に区別せずに、音声認識データベース40と標記する。同様に、メモリ部15内の文字入力予測候補データベース50mと上記ネットワーク100上の文字入力予測候補データベース50nとを特に区別せずに、文字入力予測候補データベース50と標記する。
[音声認識データベースから文字入力予測候補データベースの参照]
ところで、一般的な音声認識処理は、入力音声を基に音声認識データベース40を参照することにより行われる。また、文字入力予測変換処理は、例えば電子メール等の文章作成時の入力文字を基に、文字入力予測候補データベース50を参照して行われる。なお、本発明実施形態において、音声認識処理のアルゴリズムと文字入力予測変換処理のアルゴリズムは、それぞれ一般的なアルゴリズムが用いられる。したがって本実施形態では、それら一般的なアルゴリズムの説明については省略する。
一方、本発明実施形態の場合、音声認識処理の際には、音声認識データベース40への参照の他に、当該音声認識データベース40から文字入力予測候補データベース50への参照も行われる。
図3には、本発明実施形態における音声認識データベース40と文字入力予測候補データベース50の関係を示す。
この図3に示すように、本実施形態の携帯電話端末は、音声認識処理の際、音声認識データベース40の参照の他に、その音声認識データベース40を通じた文字入力予測候補データベース50の参照も行われる。
ここで、音声認識データベース40は、例えば、頻度予測テーブル41と文脈予測テーブル42とその他のテーブル43とを有して構成されている。
頻度予測テーブル41には、複数の頻度項目と、それら各頻度項目毎のスコアが格納されている。当該頻度予測テーブル41の各頻度項目には、音声認識処理により認識された単語(つまり音声を表す文字列)が登録される。なお、頻度予測テーブル41の各頻度項目に登録される各単語としては、例えば“おはよう”、“さようなら”、“こんにちは”、“おやすみ”などを挙げることができる。勿論、それら各単語は一例であり、実際の音声認識データベース40には膨大な数の単語が登録される。上記頻度予測テーブル41のスコアは、各頻度項目の単語が使用された頻度を、数値により表した情報が格納され、当該スコアの数値が大きいほどその単語の使用頻度が高いことを示している。
同様に、文脈予測テーブル42にも、複数の頻度項目とそれら各頻度項目毎のスコアが格納される。当該文脈予測テーブル42の各頻度項目には、音声認識処理により認識された単語や文脈から、それに続くものとして予測される単語や語句が登録される。なお、当該文脈予測テーブル42の各頻度項目に登録される各単語としては、一例として、それ以前に認識された例えば単語が“おはよう”であったとした場合、当該“おはよう”に続くと予測される例えば“ございます”、“です”、“元気”などの単語や語句を挙げることができる。勿論、それら各単語や語句は一例であり、実際の音声認識データベース40には膨大な数の単語が登録される。上記文脈予測テーブル42のスコアは、各頻度項目の単語や語句が使用された頻度を数値により表した情報が格納され、当該スコアの数値が大きいほどその単語や語句の使用頻度が高いことを示している。
一方、文字入力予測変換の際に参照される文字入力予測候補データベース50も上述の音声認識データベース40と略々同様に、頻度予測テーブル51と文脈予測テーブル52とその他のテーブル53とを有して構成されている。
また、当該文字入力予測候補データベース50の頻度予測テーブル51についても、上述の音声認識データベース40と略々同様に、複数の頻度項目と、それら各頻度項目毎のスコアが格納されている。そして、当該頻度予測テーブル51の各頻度項目には、文字入力予測変換処理の際に使用された単語等の文字列が登録される。但し、この文字入力予測候補データベース50に登録される単語等の文字列は、例えば操作部13の操作により入力或いは選択等された文字列となる。なお、当該頻度予測テーブル51の各頻度項目に登録される各単語としても、上述同様に、一例として“おはよう”、“さようなら”、“こんにちは”、“おやすみ”などを挙げることができる。勿論、それら各単語は一例であり、実際の文字入力予測候補データベース50には膨大な数の単語が登録される。上記頻度予測テーブル51のスコアは、各頻度項目の単語が使用された頻度を、数値により表した情報が格納され、当該スコアの数値が大きいほどその単語の使用頻度が高いことを示している。
また、当該文字入力予測候補データベース50の文脈予測テーブル42についても、上述の音声認識データベース40と略々同様に、複数の頻度項目とそれら各頻度項目毎のスコアが格納される。当該文脈予測テーブル52の各頻度項目には、文字入力予測変換処理により使用された単語や文脈から、それに続くものとして予測される単語や語句が登録される。当該文脈予測テーブル52の各頻度項目に登録される各単語としては、一例として、前述の例と同様に、それ以前に使用された例えば単語が“おはよう”であったとした場合、当該“おはよう”に続くと予測される例えば“ございます”、“です”、“元気”などの単語や語句を挙げることができる。勿論、それら各単語や語句は一例であり、実際の文字入力予測候補データベース50には膨大な数の単語が登録される。当該文字入力予測候補データベース50の文脈予測テーブル52のスコアは、各頻度項目の単語や語句が使用された頻度を数値により表した情報が格納され、当該スコアの数値が大きいほどその単語や語句の使用頻度が高いことを示している。
[頻度予測実行時に文字入力予測候補データベースをそのまま参照する例]
図4には、本発明実施形態の携帯電話端末において、頻度予測に基づく音声認識が行われる際に、音声認識データベース40から文字入力予測候補データベース50が参照される場合の一例を示す。すなわちこの図4には、音声認識データベース40の頻度予測テーブル41から文字入力予測候補データベース50の頻度予測テーブル51をそのまま参照する例を示している。
この図4の例に示すように、音声認識データベース40には、頻度予測テーブル41aとして例えば頻度項目に“おはよう”,“さようなら”の単語が登録されており、頻度項目“おはよう”の頻度スコアは“100”、頻度項目“さようなら”の頻度スコアは例えば“20”であったとする。
また、図4の例に示すように、文字入力予測候補データベース50には、頻度予測テーブル51aとして例えば頻度項目に“こんにちは”,“おやすみ”の単語が登録されており、頻度項目“こんにちは”の頻度スコアは“60”、頻度項目“おやすみ”の頻度スコアは“30”であったとする。
この場合、本実施形態の携帯電話端末は、音声認識データベース40から文字入力予測候補データベース50を参照する際に、当該文字入力予測候補データベース50の頻度項目と頻度スコアをそのまま参照する。すなわちこの図4の例の場合、携帯電話端末は、文字入力予測候補データベース50の頻度予測テーブル51a(図4中の51b)から、頻度項目“こんにちは”及びその頻度スコア“60”と、頻度項目“おやすみ”及びその頻度スコア30を参照し、それら頻度項目及び頻度スコアを音声認識データベース40へ反映させ、当該音声認識データベース40を更新する。この反映処理により、音声認識データベース40の頻度予測テーブル41aは、図4に示すような頻度予測テーブル41bとなる。
これにより、本実施形態の携帯電話端末は、音声認識の際に、当該更新された頻度予測テーブル41bの音声認識データベース40を用いることにより、上記文字入力予測候補データベース50に登録されていた情報を参照することができるようになる。なお、この例では、文字入力予測候補データベース50の情報を、音声認識データベース40に反映させて当該音声認識データベース40を更新する例を挙げたが、音声認識データベース40を更新せずに直接文字入力予測候補データベース50を参照するような反映処理も本発明には含まれる。
[頻度予測実行時に文字入力予測候補データベースの情報に重み付けして参照する例]
図4の例では、音声認識データベース40と文字入力予測候補データベース50を同等に扱っているが、例えば、文字入力予測候補データベース50の情報の方が当該携帯電話端末のユーザの嗜好や癖などの固有性をより的確に表していると考えられるような場合には、当該文字入力予測候補データベース50の情報の優先度を上げるようにし、その情報に情報に重み付けを行って、音声認識データベース40へ反映させるようなことも可能である。
図5には、本発明実施形態の携帯電話端末において、頻度予測に基づく音声認識を行う際に、文字入力予測候補データベース50の情報に重み付けして音声認識データベース40へ反映させる例を示す。すなわち図5には、文字入力予測候補データベースの頻度スコアに対して二倍の重み付けを行って音声認識データベース40に反映させ、当該音声認識データベース40を更新する例を挙げている。なお、前述の図4は、文字入力予測候補データベース50の頻度スコアに対して一倍の重み付けを行って音声認識データベース40へ反映させる例であると言い換えることもできる。
この図5の例では、音声認識データベース40には、頻度予測テーブル41aとして例えば頻度項目に“おはよう”,“さようなら”の単語が登録されており、頻度項目“おはよう”の頻度スコアは“100”、頻度項目“さようなら”の頻度スコアは例えば“20”であったとする。
また、図5の例に示すように、文字入力予測候補データベース50には、頻度予測テーブル51aとして例えば頻度項目に“こんにちは”,“おやすみ”の単語が登録されており、頻度項目“こんにちは”の頻度スコアは“60”、頻度項目“おやすみ”の頻度スコアは“30”であったとする。
この場合、本実施形態の携帯電話端末は、音声認識データベース40から文字入力予測候補データベース50を参照する際に、当該文字入力予測候補データベース50の頻度項目の頻度スコアに対して二倍の重み付けを行うようにする。すなわちこの図5の例の場合、携帯電話端末は、文字入力予測候補データベース50の頻度予測テーブル51a(図5中の51c)から、頻度項目“こんにちは”及びその頻度スコア“60”と、頻度項目“おやすみ”及びその頻度スコア30を参照し、それら頻度項目の各頻度スコアに対して二倍の重み付けを行って音声認識データベース40へ反映させる。この反映処理により、音声認識データベース40の頻度予測テーブル41aは、図5に示すような頻度予測テーブル41cとなる。具体的に説明すると、音声認識データベース40は、文字入力予測候補データベース50の頻度項目“こんにちは”の頻度スコア“60”が二倍された頻度スコア“120”の頻度項目“こんにちは”と、同じく文字入力予測候補データベース50の頻度項目“おやすみ”の頻度スコア“30”が二倍された頻度スコア“60”の頻度項目“こんにちは”とにより上記頻度予測テーブル41aが更新された頻度予測テーブル41cとが新たに登録されたものとなる。つまり、更新後の音声認識データベース40の頻度予測テーブル41cは、頻度スコアが“120”の頻度項目“こんにちは”と、頻度スコアが“100”の頻度項目“おはよう”と、頻度スコアが“60”の頻度項目“おやすみ”と、頻度スコアが“20”の頻度項目“さようなら”とを有するものとなる。
これにより、本実施形態の携帯電話端末は、音声認識の際に、更新された頻度予測テーブル41cの音声認識データベース40を用いることにより、上記文字入力予測候補データベースに重み付けした情報を参照することができるようになる。なお、この例では、文字入力予測候補データベース50の情報を基に音声認識データベース40を更新する例を挙げたが、音声認識データベース40を更新せずに直接文字入力予測候補データベース50の情報に重み付けを行ってそれを参照するような反映処理も本発明には含まれる。
[頻度予測実行時に音声認識データベースと文字入力予測候補データベースを標準化する例]
図5では、文字入力予測候補データベース50の情報の優先度が高いような場合に、当該文字入力予測候補データベース50の情報に重み付けして音声認識データベース40に反映させる例を挙げたが、例えば、それら両データベースを同等に用いる場合、或いは一方に合わせる場合には、両データベースの情報を標準化することも可能である。
図6には、本発明実施形態の携帯電話端末において、頻度予測に基づく音声認識を行う際に、音声認識データベース40と文字入力予測候補データベース50の情報を標準化(一般化補正)して、音声認識データベース40へ反映させる例を示す。
この図6の例において、音声認識データベース40には、頻度予測テーブル41aとして例えば頻度項目に“おはよう”,“さようなら”の単語が登録されており、頻度項目“おはよう”の頻度スコアは“100”、頻度項目“さようなら”の頻度スコアは例えば“20”であったとする。
また、図6の例において、文字入力予測候補データベース50には、頻度予測テーブル51dとして、頻度スコア“200”の頻度項目“おはよう”と、頻度スコア“60”の頻度項目“こんにちは”と、頻度スコア“30”の頻度項目“おやすみ”とが登録されているとする。
この場合、本実施形態の携帯電話端末は、音声認識データベース40から文字入力予測候補データベース50を参照する際に、それら両データベースの頻度スコアを標準化(一般化補正)する。すなわちこの図6の例の場合、携帯電話端末は、音声認識データベース40と文字入力予測候補データベース50内で同じ頻度項目を探し、同じ頻度項目が存在した場合には、それらのうち何れか一方の頻度スコアに合わせて、他方の頻度項目の頻度スコアを標準化する。なお、図6の例では、両データベース内で同じ頻度項目が存在した場合に、音声認識データベース40側の頻度スコアに合わせて、文字入力予測候補データベース50内の各頻度項目の頻度スコアを標準化する例を挙げている。勿論、文字入力予測候補データベース50側の頻度スコアに合わせて音声認識データベース40内の各頻度項目の頻度スコアを標準化する場合も本発明に含まれることは言うまでもない。
すなわちこの図6の例の場合、音声認識データベース40と文字入力予測候補データベース50には、同じ頻度項目として“おはよう”があり、音声認識データベース40内の頻度項目“おはよう”の頻度スコアが“100”、文字入力予測候補データベース50内の頻度項目“おはよう”の頻度スコアが“200”となっている。このため、本実施形態の携帯電話端末は、音声認識データベース40内の頻度項目“おはよう”の頻度スコア“100”と、文字入力予測候補データベース50内の頻度項目“おはよう”の頻度スコア“200”とから、文字入力予測候補データベース50内の各頻度項目に対する標準化パラメータとして“÷2”を求める。そして、携帯電話端末は、当該標準化パラメータを用いて、文字入力予測候補データベース50内の各頻度項目の頻度スコアに対する演算を行い頻度予測テーブル51eを生成し、当該頻度予測テーブル51eを音声認識データベース40へ反映させる。この反映処理により、音声認識データベース40の頻度予測テーブル41aは、図6に示すような頻度予測テーブル41eとなる。具体的に説明すると、音声認識データベース40は、文字入力予測候補データベース50の頻度項目“おはよう”の頻度スコア“200”が1/2された頻度スコア“100”の頻度項目“おはよう”と、同じく文字入力予測候補データベース50の頻度項目“こんにちは”の頻度スコア“60”が1/2された頻度スコア“30”の頻度項目“こんにちは”と、同じく文字入力予測候補データベース50の頻度項目“おやすみ”の頻度スコア“30”が1/2された頻度スコア“15”の頻度項目“おやすみは”とにより上記頻度予測テーブル41aが更新された頻度予測テーブル41eを有するものとなされる。つまり、上記反映処理後(更新後)の音声認識データベース40の頻度予測テーブル41eは、頻度スコアが“100”の頻度項目“おはよう”と、頻度スコアが“30”の頻度項目“こんにちは”と、頻度スコアが“20”の頻度項目“さようなら”と、頻度スコアが“15”の頻度項目“おやすみ”とを有するものとなる。
これにより、本実施形態の携帯電話端末は、音声認識の際に、上記標準化及び更新がなされた後の頻度予測テーブル41eの音声認識データベース40を用いることにより、上記文字入力予測候補データベース50と音声認識データベース40とで標準化がなされた情報を参照することができるようになる。なお、この例では、文字入力予測候補データベース50の情報を基に、音声認識データベース40を更新する例を挙げたが、音声認識データベース40を更新せずに、直接文字入力予測候補データベース50の情報の標準化を行ってそれを参照してもよい。
[文脈予測実行時に文字入力予測候補データベースをそのまま参照する例]
図7には、本発明実施形態の携帯電話端末において、文脈予測に基づく音声認識を行う際の、音声認識データベース40から文字入力予測候補データベース50への一参照例として、音声認識データベース40の文脈予測テーブル42から文字入力予測候補データベース50の文脈予測テーブル52をそのまま参照する例を示す。
この図7の例に示すように、、音声認識データベース40には、文脈予測テーブル42aとして、例えば、頻度スコアが“100”の頻度項目“ございます”と、頻度スコアが“50”の頻度項目“です”とが登録されているとする。
また、図7の例に示すように、文字入力予測候補データベース50には、文脈予測テーブル52aとして、例えば頻度スコアが“80”の頻度項目“みんな”と、頻度スコアが“30”の頻度項目“元気”とが登録されているとする。
この場合、本実施形態の携帯電話端末は、音声認識データベース40から文字入力予測候補データベース50を参照する際に、当該文字入力予測候補データベース50の頻度項目と頻度スコアをそのまま参照する。すなわちこの図7の例の場合、携帯電話端末は、文字入力予測候補データベース50の文脈予測テーブル52a(図7中の52b)から、頻度項目“みんな”及びその頻度スコア“80”と、頻度項目“元気”及びその頻度スコア30を参照し、それら頻度項目及び頻度スコアを音声認識データベース40へ反映させて当該音声認識データベース40を更新する。この反映処理により、音声認識データベース40の文脈予測テーブル42aは、図7に示すように文脈予測テーブル42bとなる。
このように本実施形態の携帯電話端末は、音声認識の際に、当該更新された文脈予測テーブル41bの音声認識データベース40を用いることにより、上記文字入力予測候補データベースに登録されていた情報を参照することができるようになる。なお、この例では、文字入力予測候補データベース50の情報を基に、音声認識データベース40を更新する例を挙げたが、音声認識データベース40を更新せずに直接文字入力予測候補データベース50を参照してもよい。
[文脈予測実行時に文字入力予測候補データベースの情報に重み付けして参照する例]
図7の例は、音声認識データベース40と文字入力予測候補データベース50を同等に用いたが、例えば、文字入力予測候補データベース50の情報の方が当該携帯電話端末のユーザの嗜好や癖などをより的確に表していると考えられるような場合には、当該文字入力予測候補データベース50の情報の優先度を上げるようにし、その情報に重み付けを行って、音声認識データベース40に反映させることも可能である。
図8には、本発明実施形態の携帯電話端末において、文脈予測に基づく音声認識を行う際に、文字入力予測候補データベース50の情報に重み付けして音声認識データベース40へ反映させる例を示す。図8には、文字入力予測候補データベース50の頻度スコアに対して二倍の重み付けを行って音声認識データベース40に反映させる場合の例を挙げている。なお、図7は、文字入力予測候補データベース50の頻度スコアに対して一倍の重み付けを行って音声認識データベース40へ反映させる例と言い換えることもできる。
この図8の例の場合、音声認識データベース40には、文脈予測テーブル42aとして、例えば頻度スコアが“100”の頻度項目“ございます”と、頻度スコアが“50”の頻度項目“です”とが登録されているとする。
また、図8の例に示すように、文字入力予測候補データベース50には、頻度予測テーブル52aとして、例えば頻度スコアが“80”の頻度項目“みんな”と、頻度スコアが“30”の頻度項目“元気”とが登録されているとする。
この場合、本実施形態の携帯電話端末は、音声認識データベース40から文字入力予測候補データベース50を参照する際に、頻度項目の頻度スコアに対して二倍の重み付けを行うようにする。すなわちこの図8の例の場合、携帯電話端末は、文字入力予測候補データベース50の文脈予測テーブル52a(図8中の52c)から、頻度項目“みんな”及びその頻度スコア“80”と、頻度項目“元気”及びその頻度スコア30を参照し、それら頻度項目の各頻度スコアに対して二倍の重み付けを行って音声認識データベース40へ反映させる。この反映処理により、音声認識データベース40の頻度予測テーブル42aは、図8に示すような頻度予測テーブル42cとなる。具体的に説明すると、音声認識データベース40は、文字入力予測候補データベース50の頻度項目“みんな”の頻度スコア“80”が二倍された頻度スコア“160”の頻度項目“みんな”と、同じく文字入力予測候補データベース50の頻度項目“元気”の頻度スコア“30”が二倍された頻度スコア“60”の頻度項目“元気”とにより、上記文脈予測テーブル42aが更新された文脈予測テーブル42cを有するものとなされる。つまり、上記更新後の音声認識データベース40の文脈予測テーブル42cは、頻度スコアが“160”の頻度項目“みんな”と、頻度スコアが“100”の頻度項目“ございます”と、頻度スコアが“60”の頻度項目“元気”と、頻度スコアが“50”の頻度項目“です”とを有するものとなる。
このように、本実施形態の携帯電話端末は、音声認識の際に、更新された文脈予測テーブル42cの音声認識データベース40を用いることにより、上記文字入力予測候補データベース50の重み付けした情報を参照することができるようになる。なお、この例では、文字入力予測候補データベース50の情報を基に音声認識データベース40を更新する例を挙げたが、音声認識データベース40を更新せずに、直接文字入力予測候補データベース50の情報に重み付けを行ってそれを参照してもよい。
[文脈予測実行時に音声認識データベースと文字入力予測候補データベースを標準化する例]
図8では、文字入力予測候補データベース50の情報の優先度が高い場合に、当該文字入力予測候補データベース50の情報に重み付けして音声認識データベース40へ反映させる例を挙げたが、当該文脈予測時においても、それら両データベースを同等に用いる場合には、両データベースの情報を標準化することも可能である。
図9には、本発明実施形態の携帯電話端末において、文脈予測に基づく音声認識を行う際に、音声認識データベース40と文字入力予測候補データベース50の情報を標準化(一般化補正)して音声認識データベース40の更新を行う例を示す。
この図9の例では、音声認識データベース40には、文脈予測テーブル42aとして、例えば、頻度スコアが“100”の頻度項目“ございます”と、頻度スコアが“70”の頻度項目“みんな”と、頻度スコアが“50”の頻度項目“です”とが登録されているとする。
また、図9の例に示すように、文字入力予測候補データベース50には、文脈予測テーブル52dとして、頻度スコア“280”の頻度項目“みんな”と、頻度スコア“120”の頻度項目“元気”とが登録されているとする。
この場合、本実施形態の携帯電話端末は、音声認識データベース40から文字入力予測候補データベース50を参照する際に、それら両データベースの頻度スコアを標準化(一般化補正)する。この図9の例の場合、携帯電話端末は、音声認識データベース40と文字入力予測候補データベース50内で同じ頻度項目が存在した場合、それらのうち何れか一方の頻度スコアに合わせて、他方の頻度項目の頻度スコアを標準化する。なお、図9の例では、両データベース内で同じ頻度項目が存在した場合、音声認識データベース40側の頻度スコアに合わせて、文字入力予測候補データベース50内の各頻度項目の頻度スコアを標準化するようにしている。勿論、文字入力予測候補データベース50側の頻度スコアに合わせて音声認識データベース40内の各頻度項目の頻度スコアを標準化する場合も本発明に含まれることは言うまでもない。
すなわちこの図9の例の場合、音声認識データベース40と文字入力予測候補データベース50には、同じ頻度項目として“みんな”があり、音声認識データベース40内の頻度項目“ございます”の頻度スコアが“100”、頻度項目“みんな”の頻度スコアが“70”、頻度項目“です”の頻度スコアが“50”となっており、一方、文字入力予測候補データベース50内の頻度項目“みんな”の頻度スコアが“280”、頻度項目“元気”の頻度スコアが“120”となっている。このため、本実施形態の携帯電話端末は、音声認識データベース40内の頻度項目“みんな”の頻度スコア“70”と、文字入力予測候補データベース50内の頻度項目“みんな”の頻度スコア“280”とから、文字入力予測候補データベース50内の各頻度項目に対する標準化パラメータとして“÷4”を求める。そして、携帯電話端末は、当該標準化パラメータを用いて、文字入力予測候補データベース50内の各頻度項目の頻度スコアに対する演算を行い文脈予測テーブル52eを生成し、当該文脈予測テーブル52eを音声認識データベース40へ反映させる。この反映処理により、音声認識データベース40の文脈予測テーブル42aは、図9に示すような文脈予測テーブル42eとなる。具体的に説明すると、音声認識データベース40は、文字入力予測候補データベース50の頻度項目“みんな”の頻度スコア“280”が1/4された頻度スコア“70”の頻度項目“みんな”と、同じく文字入力予測候補データベース50の頻度項目“元気”の頻度スコア“120”が1/4された頻度スコア“30”の頻度項目“元気”とにより、上記文脈予測テーブル42aが更新された文脈予測テーブル42eを有するものとなされる。つまり、上記更新後の音声認識データベース40の文脈予測テーブル42eは、頻度スコアが“100”の頻度項目“ございます”と、頻度スコアが“70”の頻度項目“みんな”と、頻度スコアが“50”の頻度項目“です”と、頻度スコアが“30”の頻度項目“元気”とを有するものとなる。
このように、本実施形態の携帯電話端末は、音声認識の際に、上記標準化及び更新がなされた後の文脈予測テーブル42eの音声認識データベース40を用いることにより、上記文字入力予測候補データベース50と音声認識データベース40とで標準化がなされた情報を参照することができるようになる。なお、この例では、文字入力予測候補データベース50の情報を基に、音声認識データベース40を更新する例を挙げたが、音声認識データベース40を更新せずに、直接文字入力予測候補データベース50の情報の標準化を行ってそれを参照してもよい。
[文字入力予測候補データベースに頻度項目が追加された場合の音声認識データベースの更新例]
上述したように、本実施形態の携帯電話端末では、文字入力予測候補データベース50を音声認識データベース40から参照するようになされているため、例えば文字入力予測候補データベース50の内容が変更された場合には、その変更を反映させるように上記音声認識データベースの更新が行われる。
図10を用い、文字入力予測候補データベース50に新たに頻度項目が追加された場合に、その新規頻度項目の追加に応じて音声認識データベース40が更新される様子を説明する。なお、図10では、頻度予測テーブルを例に挙げており、文脈予測テーブルの例は省略するが、当該文脈予測テーブルの更新時も頻度予測テーブルの更新と同様に行われる。
ここで、図10において、或る時点において、音声認識データベース40の頻度予測テーブル41Aには、例えば頻度スコアが“100”の頻度項目“おはよう”と頻度スコアが“20”の頻度項目“さようなら”が登録されおり、一方、文字入力予測候補データベース50の頻度予測テーブル51Aには、頻度スコアが“100”の頻度項目“おはよう”のみが登録されていたとする。
その後、文字入力予測候補データベース50の頻度予測テーブル51Aに変更が加わることで、例えば頻度項目“こんにちは”と頻度項目“おやすみ”が追加され、上記頻度項目“こんにちは”の頻度スコアが“60”、上記頻度項目“おやすみ”の頻度スコアが“30”になったとする。
この場合、本実施形態の携帯電話端末は、文字入力予測候補データベース50の頻度予測テーブル51Aを、図10中の頻度予測テーブル51Bに示すように更新すると共に、当該追加された頻度項目について、図中“×”印で示すように変更フラグを立てる(付与する)。
次に、携帯電話端末は、上記頻度予測テーブル51Bの中で上記変更フラグが立てられた頻度項目及び頻度スコアの情報を、その頻度スコアの高い順に待ち行列(Queue)60Aへ入力する。なお、本実施形態の携帯電話端末において、上記待ち行列の格納部は、例えばメモリ部15内に用意される。
そして、本実施形態の携帯電話端末は、上記待ち行列60Aから、頻度スコアの高い順に、頻度項目及びその頻度スコアの情報を読み出し、音声認識データベース40へ登録する。これにより、音声認識データベース40の頻度予測テーブル41Aは、図10中の頻度予測テーブル41Bのように更新されることになる。つまりこの例の場合、待ち行列60Aは、頻度スコアの高い順に頻度項目及び頻度スコアが読み出されることで図10中の待ち行列60Bのようになる。また、音声認識データベース40の頻度予測テーブル41Aは、既に登録されていた頻度スコア“100”の頻度項目“おはよう”と頻度スコア“20”の頻度項目“さようなら”に対して、上記待ち行列60Bから読み出された頻度スコア“60”の頻度項目“こんにちは”と頻度スコア“30”の頻度項目“おやすみ”とが追加され、さらにそれら各頻度項目が頻度スコアの高い順に並び替えられることで、図10中の頻度予測テーブル41Bのように更新される。
その後、本実施形態の携帯電話端末は、文字入力予測候補データベース50の頻度予測テーブル51Bに立てられた上記変更フラグをリセットし、図10中の頻度予測テーブル51Cのように更新する。
なお、図10では、文字入力予測候補データベース50の更新内容をそのまま音声認識データベース40へ反映させる例を挙げたが、その際には前述したように重み付けや標準化を行うことも勿論可能である。
[文字入力予測候補データベースに頻度スコアが変更された場合の音声認識データベースの更新例]
図10の例は、文字入力予測候補データベース50に頻度項目が追加された場合の音声認識データベース40の更新例を挙げたが、本実施形態の携帯電話端末は、図11に示すように、例えば文字入力予測候補データベース50の頻度スコアが変更された場合に、その変更を反映させるように音声認識データベース40の更新を行うことも勿論可能である。なお、図11では、頻度予測テーブルを例に挙げており、文脈予測テーブルの例は省略するが、当該文脈予測テーブルの更新時も頻度予測テーブルの更新と同様に行われる。
ここで、図11において、或る時点において、音声認識データベース40の頻度予測テーブル41Dには、例えば頻度スコアが“100”の頻度項目“おはよう”と頻度スコアが“50”の頻度項目“こんにちは”と頻度スコアが“30”の頻度項目“おやすみ”と頻度スコアが“20”の頻度項目“さようなら”が登録されおり、一方、文字入力予測候補データベース50の頻度予測テーブル51Dには、頻度スコアが“50”の頻度項目“こんにちは”と頻度スコアが“30”の頻度項目“おやすみ”とが登録されていたとする。
その後、文字入力予測候補データベース50の頻度予測テーブル51Dに変更が加わることで、例えば頻度項目“こんにちは”の頻度スコアが“50”に変更され、また、頻度項目“おやすみ”の頻度スコアが“120”に変更されたとする。
この場合、本実施形態の携帯電話端末は、文字入力予測候補データベース50の頻度予測テーブル51Dを、図11中の頻度予測テーブル51Eに示すように更新すると共に、上記頻度スコアが変更された頻度項目について、図中“×”印で示すように変更フラグを立てる。
次に、携帯電話端末は、上記頻度予測テーブル51Eの中で上記変更フラグが立てられた頻度項目及び頻度スコアの情報を、その頻度スコアの高い順に待ち行列(Queue)60Cへ入力する。
そして、本実施形態の携帯電話端末は、上記待ち行列60Cから、頻度スコアの高い順に、頻度項目及びその頻度スコアの情報を読み出し、音声認識データベース40へ登録する。これにより、音声認識データベース40の頻度予測テーブル41Dは、図11中の頻度予測テーブル41Eのように更新されることになる。つまりこの例の場合、待ち行列60Cは、頻度スコアの高い順に頻度項目及び頻度スコアが読み出されることで図11中の待ち行列60Dのようになる。また、音声認識データベース40の頻度予測テーブル41Dは、既に登録されていた各頻度項目及びそれらの頻度スコアに対して、上記待ち行列60Dから読み出された頻度スコア“120”の頻度項目“おやすみ”と頻度スコア“50”の頻度項目“こんにちは”とが追加され、さらにそれら各頻度項目が頻度スコアの高い順に並び替えられることで、図11中の頻度予測テーブル41Eのように更新される。
その後、本実施形態の携帯電話端末は、文字入力予測候補データベース50の頻度予測テーブル51Eに立てられた上記変更フラグをリセットし、図11中の頻度予測テーブル51Fのように更新する。
なお、図11では、文字入力予測候補データベース50の更新内容をそのまま音声認識データベース40へ反映させる例を挙げたが、前述したように重み付けや標準化を行うことも勿論可能である。
[文字入力予測候補データベースの変更に応じた音声認識データベースの更新処理のフローチャート]
図12には、上記図10や図11で説明したように、文字入力予測候補データベース50の変更に応じた音声認識データベース40の更新処理の流れを示す。
なお、この図12に示す更新処理のフローチャートは、本実施形態の携帯電話端末のメモリ部15に保持されている音声認識処理プログラムのうち、特に文字入力予測候補データベース50の更新内容を音声認識データベース40へ反映させる情報反映プログラム部分の処理の流れを示している。またこのフローチャートの処理は、制御部10が当該情報反映プログラム部分を実行することにより実現される。
図12において、制御部10は、音声認識プログラムが実行されていて、例えば、データベースの更新指示がユーザにより入力された時や、予め決められた一定時間毎が経過したり規定時刻になった時、或いは、予め決められた何らかのイベントが発生した時に、情報反映プログラム部分が動作を開始する。
当該情報反映プログラム部分が起動すると、制御部10は、ステップS1の処理として、文字入力予測候補データベース50において頻度項目の追加や削除、頻度スコアの変化など、何らかの変更があったか否かを判定する。そして、何らかの変更があったと判定した場合、制御部10は、ステップS2へ処理を進める。
ステップS2の処理に進むと、制御部10は、上記変更箇所(変更があった頻度項目)に対して変更フラグを立てた後、ステップS3へ処理を進める。
ステップS3の処理に進むと、制御部10は、上記変更がなされた頻度項目及び頻度スコアを、その頻度スコアの高い順に待ち行列へ入力し、ステップS4へ処理を進める。
ステップS4の処理に進むと、制御部10は、待ち行列から、頻度項目及び頻度スコアの情報を読み出して音声認識データベース40へ送り、当該音声認識データベース40−内で頻度スコアの高い順に各頻度項目を並べ替えるようにして、音声認識データベース40を更新する。
その後、制御部10は、ステップS5の処理として、文字入力予測候補データベース50の変更フラグをリセットする。
[まとめ]
以上説明したように、本実施形態の携帯電話端末においては、音声認識処理の際に、音声認識データベース40とともに文字入力予測候補データベース50をも参照することにより、ユーザ毎に独特の固有性を有する電子メールなどの文章入力時に使用される文字入力予測候補データベース50を音声認識処理に活用することができ、その結果として、音声認識の認識率を向上させることが可能になる。
なお、上述した実施形態の説明は、本発明の一例である。このため、本発明は上述した各実施形態に限定されることなく、本発明に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能であることは勿論である。例えば、上述の実施形態では、携帯電話端末を例に挙げたが、音声認識機能と文字入力予測変換機能を備えた他の携帯情報端末等にも適用可能である。
上述の実施形態では、音声認識の際に文字入力予測候補データベース50を参照する例を挙げたが、それに加えて或いはそれとは別に、例えばキャッシュデータ格納部33にキャッシュされているデータ、すなわち例えばユーザが閲覧等したウェブページから取得される単語等の情報を頻度項目及びその頻度スコアとして集計してデータベース化し、そのデータベースを音声認識の際に参照するようなことを行えば、ユーザが好んで閲覧等しているウェブページの情報等を音声認識に活用することが可能となる。その他にも、例えば電話帳等格納部32に格納された電話帳に登録されている人名や住所等を頻度項目及び頻度スコアとして集計してデータベース化し、そのデータベースを音声認識時に参照することにより、それら電話帳の情報を音声認識に活用することが可能となる。
10…制御部、11…通信回路、12…通信アンテナ、13…操作部、14…表示部、15…メモリ部、20…スピーカ、21…マイクロホン、31…プログラム格納部、32…電話帳等格納部、33…キャッシュデータ格納部、34…電子メールデータ格納部、40(40m,40n)…音声認識データベース、50(50m,50n)…文字入力予測候補データベース、41,51…頻度予測テーブル、42,52…文脈予測テーブル、43,53…その他のテーブル、60…待ち行列(Queue)

Claims (6)

  1. 文字入力予測候補データベースに登録されている文字列とその使用頻度を表す情報を参照した文字入力予測変換処理、及び、上記文字入力予測変換処理に応じて上記文字入力予測候補データベースの更新処理を行う文字入力予測変換処理部と、
    音声認識データベースに登録されている文字列とその使用頻度を表す情報を参照した音声認識処理、及び、上記音声認識処理に応じて上記音声認識データベースの更新処理を行う音声認識処理部と、
    上記文字入力予測候補データベースの上記文字列とその使用頻度を表す情報を、上記音声認識データベースへ反映させる情報反映部と、
    を有する携帯情報端末。
  2. 上記情報反映部は、上記文字入力予測候補データベースの上記使用頻度を表す情報に対して所定の重み付けを行い、上記音声認識データベースへ反映させる請求項1記載の携帯情報端末。
  3. 上記情報反映部は、上記文字入力予測候補データベースの上記使用頻度を表す情報を、上記音声認識データベースの上記使用頻度を表す情報に応じて標準化した上で、当該音声認識データベースへ反映させる請求項1記載の携帯情報端末。
  4. 上記文字入力予測変換処理部は、上記文字入力予測候補データの更新処理時に、上記更新された文字列とその使用頻度を表す情報に所定の変更フラグを付与し、
    上記情報反映部は、上記所定の変更フラグが付与された上記文字列とその使用頻度を表す情報を、その使用頻度の高い順に、上記音声認識データベースへ反映させる請求項1記載の携帯情報端末。
  5. 文字入力予測変換処理部が、文字入力予測候補データベースに登録されている文字列とその使用頻度を表す情報を参照した文字入力予測変換処理、及び、上記文字入力予測変換処理に応じて上記文字入力予測候補データベースの更新処理を行うステップと、
    音声認識処理部が、音声認識データベースに登録されている文字列とその使用頻度を表す情報を参照した音声認識処理、及び、上記音声認識処理に応じて上記音声認識データベースの更新処理を行うステップと、
    情報反映部が、上記文字入力予測候補データベースの上記文字列とその使用頻度を表す情報を、上記音声認識データベースへ反映させるステップと、
    を有する情報処理方法。
  6. 文字入力予測候補データベースに登録されている文字列とその使用頻度を表す情報を参照した文字入力予測変換処理、及び、上記文字入力予測変換処理に応じて上記文字入力予測候補データベースを更新する更新処理と、
    音声認識データベースに登録されている文字列とその使用頻度を表す情報を参照した音声認識処理、及び、上記音声認識処理に応じて上記音声認識データベースを更新する更新処理と、
    上記文字入力予測候補データベースの上記文字列とその使用頻度を表す情報を、上記音声認識データベースへ反映させる情報反映処理とを、
    コンピュータに実行させる情報処理プログラム。
JP2009058794A 2009-03-11 2009-03-11 携帯情報端末、情報処理方法及び情報処理プログラム Expired - Fee Related JP5583915B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009058794A JP5583915B2 (ja) 2009-03-11 2009-03-11 携帯情報端末、情報処理方法及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009058794A JP5583915B2 (ja) 2009-03-11 2009-03-11 携帯情報端末、情報処理方法及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2010211075A true JP2010211075A (ja) 2010-09-24
JP5583915B2 JP5583915B2 (ja) 2014-09-03

Family

ID=42971286

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009058794A Expired - Fee Related JP5583915B2 (ja) 2009-03-11 2009-03-11 携帯情報端末、情報処理方法及び情報処理プログラム

Country Status (1)

Country Link
JP (1) JP5583915B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9489944B2 (en) 2013-12-13 2016-11-08 Kabushiki Kaisha Toshiba Information processing device, method and computer program product for processing voice recognition data

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250045A (ja) * 1998-03-04 1999-09-17 Toshiba Corp 文書作成装置、入力処理方法及び記録媒体
JP2000259653A (ja) * 1999-03-09 2000-09-22 Mitsubishi Electric Corp 音声認識装置及び音声認識方法
JP2002304189A (ja) * 2001-04-05 2002-10-18 Nippon Telegr & Teleph Corp <Ntt> 音声認識利用型文書作成方法、装置、認識辞書作成プログラム、および同プログラムを記録した記録媒体
JP2007108881A (ja) * 2005-10-11 2007-04-26 Sony Ericsson Mobilecommunications Japan Inc 携帯情報端末、文字入力支援プログラム及び方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250045A (ja) * 1998-03-04 1999-09-17 Toshiba Corp 文書作成装置、入力処理方法及び記録媒体
JP2000259653A (ja) * 1999-03-09 2000-09-22 Mitsubishi Electric Corp 音声認識装置及び音声認識方法
JP2002304189A (ja) * 2001-04-05 2002-10-18 Nippon Telegr & Teleph Corp <Ntt> 音声認識利用型文書作成方法、装置、認識辞書作成プログラム、および同プログラムを記録した記録媒体
JP2007108881A (ja) * 2005-10-11 2007-04-26 Sony Ericsson Mobilecommunications Japan Inc 携帯情報端末、文字入力支援プログラム及び方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSND200302056005; 清水 理史 Masashi Shimizu: '日本IBM ViaVoice with ATOK15' DOS/V POWER REPORT 第12巻 第6号 第12巻, 20020601, p.235, 株式会社インプレス *
JPN6013006469; 清水 理史 Masashi Shimizu: '日本IBM ViaVoice with ATOK15' DOS/V POWER REPORT 第12巻 第6号 第12巻, 20020601, p.235, 株式会社インプレス *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9489944B2 (en) 2013-12-13 2016-11-08 Kabushiki Kaisha Toshiba Information processing device, method and computer program product for processing voice recognition data

Also Published As

Publication number Publication date
JP5583915B2 (ja) 2014-09-03

Similar Documents

Publication Publication Date Title
KR101221172B1 (ko) 이동 통신 장치의 음성 어휘를 자동으로 확장하는 방법 및장치
JP5184008B2 (ja) 情報処理装置および携帯電話端末
US20100114887A1 (en) Textual Disambiguation Using Social Connections
JP2009223565A (ja) 文字入力装置、文字入力支援方法及び文字入力支援プログラム
JP2008293403A (ja) 文字入力装置、携帯端末および文字入力プログラム
CN101682662B (zh) 终端、功能启动方法以及终端用程序
KR101038087B1 (ko) 이동통신 단말기에서의 하이퍼텍스트 제공 방법
JP2010198477A (ja) 情報処理装置
US8954039B2 (en) Electronic device and electronic device control method
JP2008204040A (ja) 携帯端末、プログラム及び携帯端末への表示画面制御方法
JP2006344039A (ja) 電子メール装置、および、プログラム
JP2007206978A (ja) 携帯端末、文字入力方法及び文字入力プログラム
JP5583915B2 (ja) 携帯情報端末、情報処理方法及び情報処理プログラム
JP2007148939A (ja) 通信機器及び通信方法
JP4978982B2 (ja) 携帯情報端末、文字入力支援プログラム及び方法
JP2006268217A (ja) 携帯端末の辞書最適化システム及び辞書最適化方法
JP5272491B2 (ja) 通信端末
JP4511452B2 (ja) 情報管理装置、動作制御方法、動作制御プログラム及び記録媒体
JP5442212B2 (ja) 電子機器
KR100654916B1 (ko) 전화 번호 검색 기능이 있는 이동통신 단말기 및 그 방법
JP2006099196A (ja) 文字変換装置および文字変換方法、携帯通信機
JP3045704B2 (ja) 参照予測サブセットの選択方法および情報処理装置
JP2009069979A (ja) 予測候補辞書の登録方法、予測候補登録機能付き電子機器、及び予測候補登録プログラム
JP5556115B2 (ja) 携帯端末装置及びその文字入力候補抽出方法
KR100620001B1 (ko) 이동 통신 단말기에서 주소록 관리 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120229

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120424

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120426

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140627

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140717

R150 Certificate of patent or registration of utility model

Ref document number: 5583915

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees