JP2006031092A

JP2006031092A - 音声文字入力プログラム及び携帯端末装置

Info

Publication number: JP2006031092A
Application number: JP2004204676A
Authority: JP
Inventors: Takamoto Tsuda; 崇基津田; Ikuo Terado; 育夫寺戸; Tetsuya Okuda; 哲也奥田; Tatsuya Hama; 達也浜
Original assignee: Sony Corp; Sony Ericsson Mobile Communications Japan Inc
Current assignee: Sony Corp
Priority date: 2004-07-12
Filing date: 2004-07-12
Publication date: 2006-02-02

Abstract

【課題】文字入力を行うために必要とするキーの数を省略、或いは大幅に削減する。
【解決手段】携帯電話機に音声による文字入力を指定するための音声認識指定キー１７を設ける。制御部は、この音声認識指定キー１７の押圧操作を検出すると、音声により文字入力を行う「音声文字入力モード」に移行する。ユーザは、入力を希望する文字を、マイクロホン部３に向かって発音する。制御部１０は、この発音された音声を認識し、ヒット率の高い順に複数の変換候補を辞書から検索し、これらを混合しカーソルと共に表示部７に表示制御する。制御部は、カーソルの移動を指示する音声を検出すると、次の変換候補の表示位置にカーソルを移動表示制御し、入力を決定する音声を検出すると、カーソルが現在位置している変換候補を、入力が決定された文字として表示部７に表示制御する。これにより、音声のみで文字入力を行うことができる。
【選択図】図２

Description

本発明は、例えば携帯電話機，ＰＨＳ電話機（PHS：Personal Handyphone System），ＰＤＡ装置（PDA：Personal Digital Assistant）、ノート型のパーソナルコンピュータ装置、及びデスクトップ型のパーソナルコンピュータ装置等の端末装置に設けて好適な文字入力装置に関し、特に文字入力や、入力した文字の決定等に音声認識処理を用いることで、文字入力時におけるボタン操作の軽減或いは省略を可能とした音声文字入力プログラム及び携帯端末装置に関する。

従来、特開２００１−３２５２５２号公報（特許文献１）に、「携帯端末及びその情報入力方法、辞書検索装置及び方法、媒体」が開示されている。この特許文献１に開示されている技術では、複数の単語及び複数の文例からなる辞書情報を格納したメモリが設けられており、ユーザによりキー入力部が操作され所望の文字が入力されると、ＣＰＵが、この入力された文字の文字列、或いは既に確定された文字列に対応する単語や文例を上記メモリから複数個検索し、これらを表示部に表示する。

ユーザは、この表示部に表示された単語や文例の中から所望の単語や文例を選択し、その単語や文例の入力を決定するように、回転操作キーとなっているジョグダイヤルを操作する。これにより、ジョグダイヤルを介して選択、決定された単語や文例の入力がなされることとなる。

具体的には、ユーザにより「かな」との文字が入力された場合、ＣＰＵは、この「かな」との文字に基づいて前方一致検索を行い、上記メモリから「必ず」、「悲しい」、「カナシイ」、「金具」等の変換候補となる単語を検索し、これを表示部に表示する。ユーザは、このように表示された各単語の中から所望の単語である、例えば「必ず」の文字を選択し、入力文字の決定操作を行う。

「必ず」との文字の入力を行う場合、通常、「かならず」との４文字分の入力操作を行う必要があるが、この特許文献１に記載されている技術の場合、「かな」との２文字分の入力を行うことで、「必ず」との単語の他、複数の変換候補となる単語が表示され、これら各変換候補の中から所望の文字を選択、決定するだけで所望の文字の入力が完了する。このため、少ない入力操作で文字入力を行うことができる。

特開２００１−３２５２５２号公報（第１２頁〜第１４頁：図１０〜図１３）

しかし、前述の特許文献１に開示されている技術の場合、入力操作が少なくなるとはいえ、やはり数文字分の入力操作を行う必要がある。すなわち、前述の例の場合、「必ず」との所望の単語を上記変換候補として表示させるためには、「かな」との２文字を入力操作により入力する必要がある。このため、特許文献１に開示されている技術が適用された携帯電話機等の端末装置には、キー操作部を必要とする問題があった。

本発明は、本発明が適用される機器に対して、文字入力を行うためのキー操作部を設けることを省略可能とすることを目的とし、また、キー操作部を設ける場合であっても、その設けるキー操作部の規模を小規模化することを目的とする。

本発明は、文字入力時に、音声集音手段を介して集音された音声に対する複数の音声認識結果を得るように、音声認識処理を行う音声認識手段と、
上記音声集音手段を介して集音された音声のうち、少なくとも選択操作子の移動指示、及び入力する文字の決定指示を認識する指示音声認識手段と、
上記音声認識手段で得られた各音声認識結果にそれぞれ対応する変換候補となる文字を、記憶手段に記憶されている辞書から検索する変換候補検索手段と、
上記音声認識手段で得られた上記各音声認識結果毎に、それぞれ上記辞書から検索された各文字を所定の配置で表示手段に表示制御すると共に、上記各文字の中から入力を希望する文字を選択するための選択操作子を上記表示手段に表示制御し、上記指示音声認識手段として機能することで上記選択操作子の移動指示が認識された場合、上記表示手段に表示している上記選択操作子を、該表示手段に表示している上記文字間で移動表示制御し、上記指示音声認識手段として機能することで上記入力する文字の決定指示が認識された場合、上記選択操作子が現在位置している文字を、入力が決定された文字として上記表示手段に表示制御する表示制御手段とを有する。

このような本発明は、音声による文字入力を可能とすることができるため、本発明が適用される機器に対して、文字入力を行うためのキー操作部を設けることを省略可能とすることができる。或いは、キー操作部を設ける場合であっても、その設けるキー操作部の規模を小規模化することができる。

なお、ここで言う「文字」との概念は、平仮名、カタカナ、漢字、英語等の文字の他、記号や絵文字等も含む概念である。

本発明は、本発明が適用される機器に対して、文字入力を行うためのキー操作部を設けることを省略可能とすることができる。

また、キー操作部を設ける場合であっても、その設けるキー操作部の規模を小規模化することができる。

本発明は、携帯電話機に適用することができる。

［携帯電話機の回路構成］
この本発明の実施の形態となる携帯電話機は、図１に示すように基地局との間でデータの送受信を行うアンテナ１及び通信回路２と、受話音声，動画ファイルの音声，音楽データの音声等の音声出力を得るためのスピーカ部３と、送話音声を集音すると共に、後に説明する「音声文字入力モード」時に、ユーザが発音した音声を集音するマイクロホン部４と、所望の被写体を撮像するカメラ部５と、入力操作を行うための複数のキーが設けられた操作部６とを有している。

操作部６には、キー操作により文字入力を行う「キー操作文字入力モード」から、音声により文字入力を行う「音声文字入力モード」へのモード変更を指定するための音声認識指定キー（図２の符号１７を参照）が設けられている。

また、この携帯電話機は、待ち受け画像、上記カメラ部５で撮像された画像の他、携帯メールの文字等の表示を行う表示部７と、通信処理プログラム（コミュニケーションプログラム）や、後述する文字入力処理プログラム等の各種アプリケーションプログラムの他、入力された文字に対応する複数の変換候補や接続候補（フレーズ候補）からなる辞書等が記憶されたメモリ８（ＲＯＭ）と、待ち受け画像，カメラ部５で撮像された画像、音楽データ，送受信した携帯メールの文章データ等が記憶されるメモリ９（ＲＡＭ）と、当該携帯電話機全体の動作制御を行う制御部１０とを有している。

［携帯電話機の外観構成］
この携帯電話機の外観を図２に示す。この図２において、当該携帯電話機は、上筐体３１及び下筐体３２を、表示部７の表示画面に対して略垂直となるように設けられた回転軸を介して互いの一端部同士を相互に接続することで、上筐体３１或いは下筐体３２が、該回転軸部の回転方向に沿って時計回り方向或いは反時計回り方向に回転可能とされた、いわゆる回転開閉型の携帯電話機となっている。

上筐体３１は、上記表示部７の他、回転操作部１４、右キー１５、左キー１６、オンフックキー１８、オフフックキー１９、ユーザセレクトキー２０及びクリアキー２１を備えた上操作部２２を有している。また、この上筐体３１には、上記回転操作部１４の下端部に近接して、上記「キー操作文字入力モード」から「音声文字入力モード」へのモード変更を指定するための音声認識指定キーが設けられている。

下筐体３２は、数字キー、＊キー、＃キー等を備えた下操作部２３と、当該下筐体の下端部に沿って設けられた上記アンテナ１とを有している。なお、上記カメラ部５は、当該携帯電話機の背面側に設けられている（図示せず）。

回転操作部１４は、当該回転操作部１４の最外周を形成するように設けられ、時計回り方向及び反時計回り方向に回転操作可能とされた回転操作ダイヤル２４と、回転操作ダイヤル２４の内周に沿って設けられ、少なくとも上下左右方向に押圧操作可能とされた十字キー２５と、当該回転操作部１４の中心軸上に設けられ、押圧操作可能とされた決定キー２６（Enterキー）とを有している。

［文字入力時における動作］
この携帯電話機の場合、例えば携帯メールの作成時等の文字入力時となると、図１に示す制御部１０が、メモリ８に記憶されている文字入力処理プログラムを起動し、この文字入力処理プログラムに基づいて、操作部６の入力操作に対応する文字入力処理、及び音声入力に対応する文字入力処理を実行する。

図３〜図５のフローチャートに、この文字入力処理プログラムに基づく文字入力処理の一連の流れを示す。この図３〜図５のフローチャートは、前述のように文字入力時にスタートとなり、ステップＳ１からその処理が開始される。

まず、ステップＳ１では、制御部１０が、図２に示す音声認識指定キー１７が押圧操作されたか否かを判別する。すなわち、この携帯電話機の場合、上操作部２２及び下操作部２３を手動操作することで文字入力を行う「キー操作文字入力モード」と、音声により文字入力を行う「音声文字入力モード」との２つのモードを有している。文字入力時となると、制御部１０は、デフォルトで「キー操作文字入力モード」となるのであるが、図２に示す音声認識指定キー１７が押圧操作されると、上記「音声文字入力モード」に移行する。このため、ステップＳ１では、制御部１０が、音声認識指定キー１７の押圧操作の有無を判別することにより、ユーザから音声による文字入力が指定されたか否かを判別する。そして、音声認識指定キー１７の押圧操作が検出された場合には、処理をステップＳ２に移行し、音声認識指定キー１７の押圧操作が検出された場合には、処理をステップＳ１７に移行する。

音声認識指定キー１７の押圧操作が検出されないということは、キー操作により文字入力が行われることを意味するため、制御部１０は、ステップＳ１７において、ユーザが上操作部２２及び下操作部２３を手動操作することでなされる文字入力操作に対応して文字入力処理を行う。

これに対して、音声認識指定キー１７の押圧操作が検出されたということは、ユーザから音声を用いた文字入力が指定されたことを意味するため、制御部１０は、音声認識指定キー１７の押圧操作がなされたことをユーザに認識させるために、例えば電子音や「音声文字入力モードになりました。」等の音声メッセージをスピーカ部３を介して発音制御すると共に、例えば「お話ください。」等の、ユーザに発声を促す文字メッセージを表示部７に表示制御する。なお、この制御と並行して、或いは単独制御で、発光ダイオード（ＬＥＤ）を点滅或いは点灯制御してもよい。

ユーザは、この電子音，音声メッセージ及び文字メッセージにより、音声による文字入力が可能となったことを認識し、入力を希望する文字の読みを、図２に示すマイクロホン部４に向かって、肉声で発声する。図３に示すフローチャートのステップＳ２では、制御部１０が、マイクロホン部４により検出される音声入力の有無を判別することで、ユーザから音声入力がなされたか否かを判別する。そして、ユーザからの発音入力を検出したタイミングで処理をステップＳ３に進め、このステップＳ３において、検出された音声を認識する音声認識処理を行い、ステップＳ４において、この音声認識結果に対応する変換候補を、図１に示すメモリ８に記憶されている辞書から検索し、処理をステップＳ５に進める。

ステップＳ５では、制御部１０が、ユーザの入力音声に基づいて上記辞書の検索を行った結果、少なくとも一つの変換候補が検出されたか否かを判別し、一つも変換候補が検出されなかった場合は、ステップＳ１８において、例えば「もう一度、お話しください。」等の音声メッセージやビープ音等のエラー音声をスピーカ部３を介して発音制御し、或いは「もう一度、お話しください。」等の文字メッセージを表示部７に表示制御することで、ユーザに対して再度の音声入力を促し、処理を上記ステップＳ１に戻す。

これに対して、制御部１０が、ユーザの入力音声に基づいて上記辞書の検索を行った結果、少なくとも一つの変換候補が検出された場合、制御部１０はステップＳ６において、この検出された変換候補を表示部７に表示制御する。

図６（ａ）〜（ｇ）は、このような音声認識結果に基づいて検索された変換候補が、表示部７に表示制御されるまでの流れ（＝ステップＳ３〜ステップＳ６の流れ）を模式的に示した図である。この図６（ａ）〜（ｇ）に示す例は、ユーザが「きよう」との発声を行った場合の例である。ユーザから「きよう」との発声が行われた場合、制御部１０は、この「きよう」の発声の音声パターンに合致する音声パターンを有する文字、及び「きよう」の発声の音声パターンに近い音声パターンを有する文字を、上記メモリ８に記憶されている辞書から検索する。

この検索は、ユーザから発声された音声の音声パターンを、その部分々々の音声パターン（部分音声パターン）に分割し、上記音声認識処理プログラムに記憶されているサンプルとなる音声パターン（サンプル音声パターン）の中から、上記各部分音声パターンを含む割合（ヒット率）の多い順に、いくつかのサンプル音声パターンを検出する。

換言すれば、ユーザが発声した「きよう」との音声の音声パターンを複数の部分音声パターンに分割し、上記音声認識処理プログラムに記憶されているサンプル音声パターンの中から、この部分音声パターンを多く含む順に、上記サンプル音声パターンの検出を行う。

具体的には、ユーザが発声した「きよう」との音声パターンを部分音声パターンに分割し、各部分音声パターンとサンプル音声パターンとを比較した結果、「きよう」のサンプル音声パターンに、ユーザが発声した「きよう」の部分音声パターンのうち、３０％の部分音声パターンが含まれる場合、これを制御部１０は、３０％のヒット率として検出する。

同様に、ユーザが発声した「きよう」との音声パターンの部分音声パターンとサンプル音声パターンとを比較した結果、「ひよう」のサンプル音声パターンに、ユーザが発声した「きよう」の部分音声パターンのうち、２０％の部分音声パターンが含まれる場合、これを制御部１０は、２０％のヒット率として検出する。

同様に、ユーザが発声した「きよう」との音声パターンの部分音声パターンとサンプル音声パターンとを比較した結果、「いよう」のサンプル音声パターンに、ユーザが発声した「きよう」の部分音声パターンのうち、１０％の部分音声パターンが含まれる場合、これを制御部１０は、１０％のヒット率として検出する。

制御部１０は、このようにヒット率の検出を行い、ヒット率が高い順に、そのサンプル音声パターンに対応する文字を音声認識結果とする。この例の場合、制御部１０は、図６（ａ）に示すように３０％のヒット率として検出された「きよう」のサンプル音声パターンに対応する「きよう」の文字を第１番目の音声認識結果とし、２０％のヒット率として検出された「ひよう」のサンプル音声パターンに対応する「ひよう」の文字を第２番目の音声認識結果とし、１０％のヒット率として検出された「いよう」のサンプル音声パターンに対応する「いよう」の文字を第３番目の音声認識結果とする。

次に制御部１０は、上記３０％のヒット率の音声認識結果、２０％のヒット率の音声認識結果、１０％のヒット率の音声認識結果の各文字に対応する変換候補を、上記辞書から検出する。これにより、３０％のヒット率の音声認識結果である「きよう」の文字の場合、図６（ｂ）に示すように「今日」，「京」，「起用」，「凶」，「器用」・・・・等の変換候補が検出されることとなる。

同様に、２０％のヒット率の音声認識結果である「ひよう」の文字の場合、図６（ｃ）に示すように「費用」，「表」，「評」，「票」，「俵」・・・・等の変換候補が検出されることとなる。同様に、１０％のヒット率の音声認識結果である「いよう」の文字の場合、図６（ｄ）に示すように「異様」，「医用」，「いよう」，「居よう」，「射よう」・・・・等の変換候補が検出されることとなる。

次に制御部１０は、これら各ヒット率の音声認識結果に基づいて上記辞書から検出した各変換候補を表示部７に表示制御する。図６（ｅ）〜（ｇ）は、この各変換候補を、それぞれ異なる表示形態で表示した例である。

まず、図６（ｅ）は、上記３０％のヒット率の各変換候補、２０％のヒット率の各変換候補、及び１０％のヒット率の各変換候補を順に表示した例である。この場合、３０％のヒット率の各変換候補が全て表示され、該３０％のヒット率の最後の変換候補に続いて２０％のヒット率の各変換候補が全て表示され、該２０％のヒット率の最後の変換候補に続いて１０％のヒット率の各変換候補が全て表示される。

図６（ｆ）は、上記各ヒット率の変換候補を交互に表示した例である。この場合、まず、３０％のヒット率の変換候補の先頭の変換候補である「今日」の文字が表示され、続いて２０％のヒット率の変換候補の先頭の変換候補である「費用」の文字が表示され、続いて１０％のヒット率の変換候補の先頭の変換候補である「異様」の文字が表示される。同様に、この１０％のヒット率の変換候補の先頭の変換候補である「異様」の文字に続いて、３０％のヒット率の変換候補の２番目の変換候補である「京」の文字が表示され、続いて２０％のヒット率の変換候補の２番目の変換候補である「表」の文字が表示され、続いて１０％のヒット率の変換候補の２番目の変換候補である「医用」の文字が表示される。

図６（ｇ）は、上記各ヒット率に応じて各変換候補に対して重み付けを行い、この重み付けした結果に応じて表示を行った例である。この場合、制御部１０は、３０％のヒット率の各変換候補のうち、先頭の変換候補、２番目の変換候補及び３番目の変換候補に対して、それぞれ最大値の重み付け係数、２番目の値の重み付け係数、及び３番目の値の重み付け係数をそれぞれ乗算処理する。同様に、２０％のヒット率の各変換候補のうち、先頭の変換候補、及び２番目の変換候補に対して、それぞれ４番目の重み付け係数、５番目の値の重み付け係数をそれぞれ乗算処理する。同様に、１０％のヒット率の各変換候補のうち、先頭の変換候補に対して６番目の重み付け係数をそれぞれ乗算処理する。

換言すると、この例の場合、制御部１０は、
「今日」×１（３０％のヒット率の変換候補）
「京」 ×０．９（３０％のヒット率の変換候補）
「起用」×０．８（３０％のヒット率の変換候補）
「費用」×０．７（２０％のヒット率の変換候補）
「表」 ×０．６（２０％のヒット率の変換候補）
「異様」×０．５（１０％のヒット率の変換候補）
「凶」 ×０．４（３０％のヒット率の変換候補）
「器用」×０．３（３０％のヒット率の変換候補）
「強」 ×０．２（３０％のヒット率の変換候補）
「評」 ×０．１（２０％のヒット率の変換候補）
「票」 ×０．０９（２０％のヒット率の変換候補）
「医用」×０．０８（１０％のヒット率の変換候補）
等のように各変換候補に対する重み付け処理を行う。

すなわち、ユーザにより選択される確率が一番高い変換候補は、３０％のヒット率の各変換候補の中の、先頭から３つ目までの変換候補であり、二番目にユーザにより選択される確率が高い変換候補は、２０％のヒット率の各変換候補の中の、先頭から２つ目までの変換候補であり、三番目にユーザにより選択される確率が高い変換候補は、１０％のヒット率の各変換候補の中の先頭の変換候補であり、四番目にユーザにより選択される確率が高い変換候補は、３０％のヒット率の各変換候補の中の、先頭から３つ目までの変換候補である・・・と予測することができる。このため、制御部１０は、ユーザにより選択される確率が高い順に各変換候補が並ぶように、前述の重み付け処理を行い該各変換候補を表示部７に表示制御する。

当該実施の形態の携帯電話機の場合、最高のヒット率の音声認識結果の他に、次点となるヒット率の音声認識結果にも基づいてそれぞれ変換候補を検出しているため、より多くの変換候補を検出することができる。このため、変換候補の表示を行う際に、多数の変換候補を表示することができ、ユーザが入力を希望する変換候補を表示する確率を大幅に向上させることができる。

また、各変換候補に対してヒット率に応じた重み付け処理を行い、この重み付け処理の結果に基づいて、各変換候補を表示することで、ユーザが入力を希望する変換候補が先頭或いは先頭から近い位置に表示される確率を向上させることができる。このため、ユーザによる所望の変換候補の選択操作の容易化を図ることができる。

次に、制御部１０は、各変換候補と共に、該各変換候補の中から所望の変換候補を選択するためのカーソルも表示部７に表示制御する。ユーザは、このカーソルを移動させる場合には、例えば「次（つぎ）」或いは「次の候補（つぎのこうほ）」等の音声をマイクロホン部４に向かって発声するようになっている。そして、制御部１０は、ユーザにより発声された「次（つぎ）」或いは「次の候補（つぎのこうほ）」との音声を検出する毎に、上記カーソルを、現位置の変換候補から次位置の変換候補に移動表示制御する。

このため、制御部１０は、前述のように各変換候補を表示部７に表示制御すると、図４のフローチャートのステップＳ７に処理を進め、このステップＳ７において、ユーザから上記カーソルを移動させる発声がなされたか否かを判別する。そして、このカーソルを移動させる音声を検出した場合は、ステップＳ１９において、上記カーソルを現位置の変換候補から次位置の変換候補に移動表示制御して、上記ステップＳ７に処理を戻す。これにより、ユーザが「次（つぎ）」或いは「次の候補（つぎのこうほ）」等の発声をする毎に、カーソルが、順次、次の変換候補に移動制御されることとなる。

次に、ユーザは、表示部７に表示された変換候補の中から所望の変換候補を選択決定するのであるが、この表示部７に表示された変換候補の中に所望の変換候補が見あたらない場合、再度、音声入力をやり直すことで、他の変換候補を表示させる必要がある。この場合、この携帯電話機では、ユーザがマイクロホン部４に向かって、例えば「違う」，「訂正」，「やり直し」等の音声を発声するようになっている。そして、制御部１０は、ユーザが発声した、変換候補の表示のやり直しを指定する音声を検出した場合、処理をステップＳ１に戻して、ユーザの発声待ち状態となる。

このため、制御部１０は、前述のステップＳ７でカーソルの移動を指定する音声を検出しなかった場合、処理をステップＳ８に進め、このステップＳ８おいて、変換候補の表示のやり直しを指定する音声が検出されたか否かを判別し、この音声を検出した場合は、ステップＳ１に処理を戻し、上述のように、再度、ユーザが発声した音声に基づいて変換候補を検索して表示部７に表示制御する。

次に、この携帯電話機は、カーソルが位置している変換候補を、入力を行う変換候補として決定する場合、ユーザがマイクロホン部４に向かって、例えば「決定」との音声を発声するようになっている。このため、制御部１０は、上記ステップＳ８において、変換候補の表示のやり直しを指定する音声が検出されなかった場合、処理をステップＳ９に進め、このステップＳ９において、変換候補を決定する音声が検出されたか否かを判別する。そして、変換候補を決定する音声が検出されなかった場合、処理をステップＳ７に戻して、ユーザから次の動作を指示する音声が発音されるまで待機状態となる。また、変換候補を決定する音声が検出された場合は処理をステップＳ１０に進め、制御部１０は、現在、カーソルが位置している変換候補の入力が決定されたものと認識し、この変換候補の文字を、入力が決定された文字として表示部７に表示制御する。

次に、このように入力が決定された変換候補の文字を表示部７に表示制御すると、制御部１０は、処理を図５のステップＳ１１に進める。ステップＳ１１では、制御部１０が、入力が決定された変換候補の文字に対して「フレーズ候補」が存在するか否かを判別する。

具体的には、この「フレーズ候補」は、その文字に続けて不可されることの多い文字である。図７に、この「フレーズ候補」の一例を示す。この図７の「前単語」の項に図示されている文字が、上記入力が決定された文字であり、「フレーズ候補」の項に図示されている文字が、「前単語」に対して辞書に登録されている「フレーズ候補」の文字を示している。

この図７に示すように「今日」や「京」等の前単語に対しては、「で」、「に」、「を」、「は」、「が」、「と」、「です」等のフレーズ候補が辞書に登録されている。同様に、「金沢」や「斉藤」等の前単語に対しては、「さん」、「くん」、「ちゃん」、「様」、「殿」等のフレーズ候補が辞書に登録されている。同様に、「を」、「が」、「と」等の前単語に対しては、「習います」、「見に」、「一緒に」等のフレーズ候補が辞書に登録されている。同様に、「は」の前単語に対しては、「ありがとう」、「だめ」、「いい天気」等のフレーズ候補が辞書に登録されている。この例からわかるように、フレーズ候補としては、前単語に対して、通常接続されることの多い接続詞や単語等の文字が登録されている。

制御部１０は、上記ステップＳ１１において、入力が決定された変換候補の文字に基づいて、メモリ８に記憶されている辞書を検索することで、該入力が決定された変換候補の文字に対して「フレーズ候補」が存在するか否かを判別し、「フレーズ候補」が存在しない場合は、処理を図３のフローチャートのステップＳ１に戻して、音声入力待ち状態となり、「フレーズ候補」が存在する場合は、ステップＳ１２において、この「フレーズ候補」を表示部７に表示制御する。

次に、制御部１０は、このフレーズ候補と共に、該各フレーズ候補の中から所望のフレーズ候補を選択するためのカーソルも表示部７に表示制御する。ユーザは、このカーソルを移動させる場合には、例えば「次（つぎ）」或いは「次の候補（つぎのこうほ）」等の音声をマイクロホン部４に向かって発声するようになっている。そして、制御部１０は、ユーザにより発声された「次（つぎ）」或いは「次の候補（つぎのこうほ）」との音声を検出する毎に、上記カーソルを、現位置のフレーズ候補から次位置のフレーズ候補に移動表示制御する。

このため、制御部１０は、前述のように各フレーズ候補を表示部７に表示制御すると、図５のフローチャートのステップＳ１３に処理を進め、このステップＳ１３において、ユーザから上記カーソルを移動させる発声がなされたか否かを判別する。そして、このカーソルを移動させる音声を検出した場合は、ステップＳ２０において、上記カーソルを現位置のフレーズ候補から次位置のフレーズ候補に移動表示制御して、上記ステップＳ１３に処理を戻す。これにより、ユーザが「次（つぎ）」或いは「次の候補（つぎのこうほ）」等の発声をする毎に、カーソルが、順次、次のフレーズ候補に移動制御されることとなる。

次に、ユーザは、表示部７に表示されたフレーズ候補の中から所望のフレーズ候補を選択決定するのであるが、この表示部７に表示されたフレーズ候補の中に所望のフレーズ候補が見あたらない場合、音声によりフレーズ候補の入力を行うこととなる。このため、ユーザは、マイクロホン部４に向かって、例えば「違う」，「訂正」，「やり直し」等の音声を発声する。制御部１０は、ステップＳ１４において、上記「違う」，「訂正」，「やり直し」等の音声が検出されたか否かを判別し、該音声を検出した場合、処理をステップＳ１に戻して、ユーザの発声待ち状態となる。これによりユーザは、所望のフレーズ候補を発声して入力を行うこととなる。

次に、カーソルが位置しているフレーズ候補を、入力を行うフレーズ候補として決定する場合、ユーザは、マイクロホン部４に向かって、例えば「決定」との音声を発声する。制御部１０は、ステップＳ１５において、フレーズ候補を決定する音声が検出されたか否かを判別し、フレーズ候補を決定する音声が検出されなかった場合、処理をステップＳ１３に戻して、ユーザから次の動作を指示する音声が発音されるまで待機状態となる。また、制御部１０は、フレーズ候補を決定する音声が検出された場合は処理をステップＳ１６に進め、現在、カーソルが位置しているフレーズ候補の入力が決定されたものと認識し、このフレーズ候補の文字を、上記ステップＳ１０で入力が決定された文字（図７に示す「前単語」に相当）の直後に位置させるかたちで表示部７に表示制御する。

このような図３〜図５のフローチャートに示す各処理は、音声或いはキー操作により文字入力の終了がで指定されるまで、ユーザの操作に対応して繰り返し実行される。これにより、所望の文章が作成されることとなる。

［実施の形態の効果］
以上の説明から明らかなように、この実施の形態の携帯電話機は、文字入力時に制御部１０が音声認識指定キー１７の押圧操作を検出すると、「キー操作文字入力モード」から「音声文字入力モード」に文字入力モードを移行させる。この「音声文字入力モード」となると、制御部１０は、ユーザの発声した音声に対応する変換候補やフレーズ候補を、メモリ８に記憶されている辞書から検索して表示部７に表示制御する。そして、ユーザからカーソルの移動を指示する音声が発声されると、表示部７に表示しているカーソルを次の変換候補やフレーズ候補に移動表示制御し、ユーザから変換候補やフレーズ候補を、入力する文字として決定する音声が発声されると、カーソルが現在位置している変換候補やフレーズ候補を、入力が決定された文字として表示部７に表示制御する。

これにより、文字入力モードの移行を指示するためのキー操作である上記音声認識指定キー１７を押圧する操作を除けば、音声のみで所望の文字の入力を可能とすることができる。そして、この場合、音声入力のために設けるキーを、上記音声認識指定キー１７のみとすることができ、操作部６に設ける必要のあるキーの数を大幅に削減することができる。

また、ユーザにより、音声認識指定キー１７が押圧操作された際に「音声文字入力モード」に移行することとしたが、これは、ユーザが発音した例えば「音声入力」等の音声を制御部１０が検出した際に「音声文字入力モード」に移行するようにしてもよい（＝キー操作ではなく、音声で文字入力モードの切り替えを行うようにしてもよい。）。この場合、文字入力時におけるキー操作を全て省略することができ、完全に音声のみで所望の文字の入力を可能とすることができる。この場合、音声入力のために設けるキーを不要とすることができるため、操作部６に設ける必要のあるキーの数をさらに大幅に削減することができる。

また、当該携帯電話機の場合、制御部１０が、ユーザが発声した音声に対するヒット率が高い順に複数の変換候補やフレーズ候補を検出し、これらを混合して表示部７に表示制御する。このため、表示した変換候補やフレーズ候補の中に、ユーザが入力を希望する変換候補やフレーズ候補が含まれている確率を大幅に向上させることができる。

また、当該携帯電話機の場合、制御部１０が、ユーザが発声した音声に対するヒット率に応じて、該ヒット率に対応する各変換候補やフレーズ候補に重み付けを行い、この重み付けした結果の値が大きい順に表示する。これにより、表示した変換候補やフレーズ候補の中に、ユーザが入力を希望する変換候補やフレーズ候補が含まれている確率をさらに大幅に向上させることができる。

［変形例］
上述の実施の形態の説明では、音声でのみ文字入力を行うこととしたが、これは、音声及び操作部６に設けられているキー操作を併用して該文字入力を行うようにしてもよい。例えば、制御部１０は、図２に示す回転操作部１４の十字キー２５の操作に応じて上記カーソルを移動表示制御してもよいし、決定キー２６の押圧操作を検出した際に、変換候補やフレーズ候補の各文字の入力が決定されたものとして、この変換候補やフレーズ候補の文字を表示部７に表示制御してもよい。

このように音声入力とキー操作による入力とを併用した場合でも、文字入力に必要とするキーの数を大幅に削減することができ、操作部６の小規模化を図ることができる。

また、上述の実施の形態の説明では、本発明を携帯電話機に適用することとしたが、本発明は、この他、ＰＨＳ電話機（PHS：Personal Handyphone System），ＰＤＡ装置（PDA：Personal Digital Assistant）、ノート型のパーソナルコンピュータ装置、デスクトップ型のパーソナルコンピュータ装置等のあらゆる端末装置に適用可能である。

最後に、上述の実施の形態は、あくまでも本発明の一例として開示したに過ぎない。このため、本発明は、上述の実施の形態以外であっても、本発明に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能であることは勿論であることを付け加えておく。

本発明を適用した実施の形態の携帯電話機のブロック図である。実施の形態の携帯電話機の外観を示す図である。実施の形態の携帯電話機の音声による文字入力時における動作の流れの前段部分を示すフローチャートである。実施の形態の携帯電話機の音声による文字入力時における動作の流れの中段部分を示すフローチャートである。実施の形態の携帯電話機の音声による文字入力時における動作の流れの後段部分を示すフローチャートである。実施の形態の携帯電話機の変換候補の表示例を説明するための図である。実施の形態の携帯電話機のフレーズ候補を説明するための図である。

符号の説明

１アンテナ、２通信回路、３スピーカ部、４マイクロホン部、５カメラ部、６操作部、７表示部、８メモリ（ＲＯＭ）、９メモリ（ＲＡＭ）、１０制御部、１４回転操作部、１５右キー、１６左キー、１７音声認識指定キー、１８オンフックキー、１９オフフックキー、２２上操作部、２３下操作部、２４回転ダイヤル、２５十字キー、２６決定キー、３１上筐体、３２下筐体

Claims

文字入力時に、音声集音手段を介して集音された音声に対する複数の音声認識結果を得るように、音声認識を行う音声認識手段と、
上記音声集音手段を介して集音された音声のうち、少なくとも選択操作子の移動指示、及び入力する文字の決定指示を認識する指示音声認識手段と、
上記音声認識手段として機能することで得られた各音声認識結果にそれぞれ対応する変換候補となる文字を、記憶手段に記憶されている辞書から検索する変換候補検索手段と、
上記音声認識手段として機能することで得られた上記各音声認識結果毎に、それぞれ上記辞書から検索された各文字を所定の配置で表示手段に表示制御すると共に、上記各文字の中から入力を希望する文字を選択するための選択操作子を上記表示手段に表示制御し、上記指示音声認識手段として機能することで上記選択操作子の移動指示が認識された場合、上記表示手段に表示している上記選択操作子を、該表示手段に表示している上記文字間で移動表示制御し、上記指示音声認識手段として機能することで上記入力する文字の決定指示が認識された場合、上記選択操作子が現在位置している文字を、入力が決定された文字として上記表示手段に表示制御する表示制御手段
としてコンピュータを機能させる音声文字入力プログラム。
請求項１に記載の音声文字入力プログラムであって、
上記指示音声認識手段として機能することで上記入力する文字の決定指示が認識された場合、この入力が決定された文字に接続される接続候補となる文字を、上記記憶手段に記憶されている辞書から検索する接続候補検索手段としてコンピュータを機能させ、
上記表示制御手段としてコンピュータを機能させる際に、上記接続候補検索手段として機能することで検索された上記接続候補となる文字を上記表示手段に表示制御すると共に、上記接続候補となる文字の中から、入力を希望する文字を選択するための選択操作子を上記表示手段に表示制御し、上記指示音声認識手段として機能することで上記選択操作子の移動指示が認識された場合、上記表示手段に表示している上記選択操作子を、該表示手段に表示している上記接続候補となる文字間で移動表示制御し、上記指示音声認識手段として機能することで上記入力する文字の決定指示が認識された場合、上記選択操作子が現在位置している文字を、入力が決定された上記接続候補となる文字として、上記変換候補となる文字に付加して表示手段に表示制御する表示制御手段としてコンピュータを機能させること
を特徴とする音声文字入力プログラム。
請求項１又は請求項２のうち、いずれか一項に記載の音声文字入力プログラムであって、
上記音声認識手段としてコンピュータを機能させる際に、上記音声集音手段を介して集音された音声の音声パターンを複数の部分音声パターンに分割し、この各部分音声パターンと、上記記憶手段の辞書に記憶されている各文字の音声パターンとを比較し、上記部分音声パターンを含む割合が多い順に、該部分音声パターンを含む文字を検出した結果を上記音声認識結果とする上記音声認識手段としてコンピュータを機能させること
を特徴とする音声文字入力プログラム。
請求項３に記載の音声文字入力プログラムであって、
上記表示制御手段としてコンピュータを機能させる際に、上記音声認識手段として機能することで検出された上記部分音声パターンを含む割合に応じて、それぞれ上記辞書から検索された変換候補となる各文字に対して重み付け処理を行い、この重み付け処理の結果に対応する配置で、該変換候補となる各文字を上記表示手段に表示制御する上記表示制御手段としてコンピュータを機能させること
を特徴とする音声文字入力プログラム。
文字入力時に、音声集音手段を介して集音された音声に対する複数の音声認識結果を得るように、音声認識処理を行う音声認識手段と、
上記音声集音手段を介して集音された音声のうち、少なくとも選択操作子の移動指示、及び入力する文字の決定指示を認識する指示音声認識手段と、
上記音声認識手段で得られた各音声認識結果にそれぞれ対応する変換候補となる文字を、記憶手段に記憶されている辞書から検索する変換候補検索手段と、
上記音声認識手段で得られた上記各音声認識結果毎に、それぞれ上記辞書から検索された各文字を所定の配置で表示手段に表示制御すると共に、上記各文字の中から入力を希望する文字を選択するための選択操作子を上記表示手段に表示制御し、上記指示音声認識手段として機能することで上記選択操作子の移動指示が認識された場合、上記表示手段に表示している上記選択操作子を、該表示手段に表示している上記文字間で移動表示制御し、上記指示音声認識手段として機能することで上記入力する文字の決定指示が認識された場合、上記選択操作子が現在位置している文字を、入力が決定された文字として上記表示手段に表示制御する表示制御手段と
を有する携帯端末装置。
請求項５に記載の携帯端末装置であって、
上記指示音声認識手段により、上記入力する文字の決定指示が認識された場合、この入力が決定された文字に接続される接続候補となる文字を、上記記憶手段に記憶されている辞書から検索する接続候補検索手段とを有し、
上記表示制御手段は、上記接続候補検索手段で検索された上記接続候補となる文字を上記表示手段に表示制御すると共に、上記接続候補となる文字の中から、入力を希望する文字を選択するための選択操作子を上記表示手段に表示制御し、上記指示音声認識手段で上記選択操作子の移動指示が認識された場合、上記表示手段に表示している上記選択操作子を、該表示手段に表示している上記接続候補となる文字間で移動表示制御し、上記指示音声認識手段で上記入力する文字の決定指示が認識された場合、上記選択操作子が現在位置している文字を、入力が決定された上記接続候補となる文字として、上記変換候補となる文字に付加して表示手段に表示制御すること
を特徴とする携帯端末装置。
請求項５又は請求項６のうち、いずれか一項に記載の携帯端末装置であって、
上記音声認識手段は、上記音声集音手段を介して集音された音声の音声パターンを複数の部分音声パターンに分割し、この各部分音声パターンと、上記記憶手段の辞書に記憶されている各文字の音声パターンとを比較し、上記部分音声パターンを含む割合が多い順に、該部分音声パターンを含む文字を検出した結果を上記音声認識結果とすること
を特徴とする携帯端末装置。
請求項７に記載の携帯端末装置であって、
上記表示制御手段は、上記音声認識手段で検出された上記部分音声パターンを含む割合に応じて、それぞれ上記辞書から検索された変換候補となる各文字に対して重み付け処理を行い、この重み付け処理の結果に対応する配置で、該変換候補となる各文字を上記表示手段に表示制御すること
を特徴とする携帯端末装置。