JP2006031092A - 音声文字入力プログラム及び携帯端末装置 - Google Patents
音声文字入力プログラム及び携帯端末装置 Download PDFInfo
- Publication number
- JP2006031092A JP2006031092A JP2004204676A JP2004204676A JP2006031092A JP 2006031092 A JP2006031092 A JP 2006031092A JP 2004204676 A JP2004204676 A JP 2004204676A JP 2004204676 A JP2004204676 A JP 2004204676A JP 2006031092 A JP2006031092 A JP 2006031092A
- Authority
- JP
- Japan
- Prior art keywords
- character
- voice
- display
- input
- displayed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 文字入力を行うために必要とするキーの数を省略、或いは大幅に削減する。
【解決手段】 携帯電話機に音声による文字入力を指定するための音声認識指定キー17を設ける。制御部は、この音声認識指定キー17の押圧操作を検出すると、音声により文字入力を行う「音声文字入力モード」に移行する。ユーザは、入力を希望する文字を、マイクロホン部3に向かって発音する。制御部10は、この発音された音声を認識し、ヒット率の高い順に複数の変換候補を辞書から検索し、これらを混合しカーソルと共に表示部7に表示制御する。制御部は、カーソルの移動を指示する音声を検出すると、次の変換候補の表示位置にカーソルを移動表示制御し、入力を決定する音声を検出すると、カーソルが現在位置している変換候補を、入力が決定された文字として表示部7に表示制御する。これにより、音声のみで文字入力を行うことができる。
【選択図】 図2
【解決手段】 携帯電話機に音声による文字入力を指定するための音声認識指定キー17を設ける。制御部は、この音声認識指定キー17の押圧操作を検出すると、音声により文字入力を行う「音声文字入力モード」に移行する。ユーザは、入力を希望する文字を、マイクロホン部3に向かって発音する。制御部10は、この発音された音声を認識し、ヒット率の高い順に複数の変換候補を辞書から検索し、これらを混合しカーソルと共に表示部7に表示制御する。制御部は、カーソルの移動を指示する音声を検出すると、次の変換候補の表示位置にカーソルを移動表示制御し、入力を決定する音声を検出すると、カーソルが現在位置している変換候補を、入力が決定された文字として表示部7に表示制御する。これにより、音声のみで文字入力を行うことができる。
【選択図】 図2
Description
本発明は、例えば携帯電話機,PHS電話機(PHS:Personal Handyphone System),PDA装置(PDA:Personal Digital Assistant)、ノート型のパーソナルコンピュータ装置、及びデスクトップ型のパーソナルコンピュータ装置等の端末装置に設けて好適な文字入力装置に関し、特に文字入力や、入力した文字の決定等に音声認識処理を用いることで、文字入力時におけるボタン操作の軽減或いは省略を可能とした音声文字入力プログラム及び携帯端末装置に関する。
従来、特開2001−325252号公報(特許文献1)に、「携帯端末及びその情報入力方法、辞書検索装置及び方法、媒体」が開示されている。この特許文献1に開示されている技術では、複数の単語及び複数の文例からなる辞書情報を格納したメモリが設けられており、ユーザによりキー入力部が操作され所望の文字が入力されると、CPUが、この入力された文字の文字列、或いは既に確定された文字列に対応する単語や文例を上記メモリから複数個検索し、これらを表示部に表示する。
ユーザは、この表示部に表示された単語や文例の中から所望の単語や文例を選択し、その単語や文例の入力を決定するように、回転操作キーとなっているジョグダイヤルを操作する。これにより、ジョグダイヤルを介して選択、決定された単語や文例の入力がなされることとなる。
具体的には、ユーザにより「かな」との文字が入力された場合、CPUは、この「かな」との文字に基づいて前方一致検索を行い、上記メモリから「必ず」、「悲しい」、「カナシイ」、「金具」等の変換候補となる単語を検索し、これを表示部に表示する。ユーザは、このように表示された各単語の中から所望の単語である、例えば「必ず」の文字を選択し、入力文字の決定操作を行う。
「必ず」との文字の入力を行う場合、通常、「かならず」との4文字分の入力操作を行う必要があるが、この特許文献1に記載されている技術の場合、「かな」との2文字分の入力を行うことで、「必ず」との単語の他、複数の変換候補となる単語が表示され、これら各変換候補の中から所望の文字を選択、決定するだけで所望の文字の入力が完了する。このため、少ない入力操作で文字入力を行うことができる。
しかし、前述の特許文献1に開示されている技術の場合、入力操作が少なくなるとはいえ、やはり数文字分の入力操作を行う必要がある。すなわち、前述の例の場合、「必ず」との所望の単語を上記変換候補として表示させるためには、「かな」との2文字を入力操作により入力する必要がある。このため、特許文献1に開示されている技術が適用された携帯電話機等の端末装置には、キー操作部を必要とする問題があった。
本発明は、本発明が適用される機器に対して、文字入力を行うためのキー操作部を設けることを省略可能とすることを目的とし、また、キー操作部を設ける場合であっても、その設けるキー操作部の規模を小規模化することを目的とする。
本発明は、文字入力時に、音声集音手段を介して集音された音声に対する複数の音声認識結果を得るように、音声認識処理を行う音声認識手段と、
上記音声集音手段を介して集音された音声のうち、少なくとも選択操作子の移動指示、及び入力する文字の決定指示を認識する指示音声認識手段と、
上記音声認識手段で得られた各音声認識結果にそれぞれ対応する変換候補となる文字を、記憶手段に記憶されている辞書から検索する変換候補検索手段と、
上記音声認識手段で得られた上記各音声認識結果毎に、それぞれ上記辞書から検索された各文字を所定の配置で表示手段に表示制御すると共に、上記各文字の中から入力を希望する文字を選択するための選択操作子を上記表示手段に表示制御し、上記指示音声認識手段として機能することで上記選択操作子の移動指示が認識された場合、上記表示手段に表示している上記選択操作子を、該表示手段に表示している上記文字間で移動表示制御し、上記指示音声認識手段として機能することで上記入力する文字の決定指示が認識された場合、上記選択操作子が現在位置している文字を、入力が決定された文字として上記表示手段に表示制御する表示制御手段とを有する。
上記音声集音手段を介して集音された音声のうち、少なくとも選択操作子の移動指示、及び入力する文字の決定指示を認識する指示音声認識手段と、
上記音声認識手段で得られた各音声認識結果にそれぞれ対応する変換候補となる文字を、記憶手段に記憶されている辞書から検索する変換候補検索手段と、
上記音声認識手段で得られた上記各音声認識結果毎に、それぞれ上記辞書から検索された各文字を所定の配置で表示手段に表示制御すると共に、上記各文字の中から入力を希望する文字を選択するための選択操作子を上記表示手段に表示制御し、上記指示音声認識手段として機能することで上記選択操作子の移動指示が認識された場合、上記表示手段に表示している上記選択操作子を、該表示手段に表示している上記文字間で移動表示制御し、上記指示音声認識手段として機能することで上記入力する文字の決定指示が認識された場合、上記選択操作子が現在位置している文字を、入力が決定された文字として上記表示手段に表示制御する表示制御手段とを有する。
このような本発明は、音声による文字入力を可能とすることができるため、本発明が適用される機器に対して、文字入力を行うためのキー操作部を設けることを省略可能とすることができる。或いは、キー操作部を設ける場合であっても、その設けるキー操作部の規模を小規模化することができる。
なお、ここで言う「文字」との概念は、平仮名、カタカナ、漢字、英語等の文字の他、記号や絵文字等も含む概念である。
本発明は、本発明が適用される機器に対して、文字入力を行うためのキー操作部を設けることを省略可能とすることができる。
また、キー操作部を設ける場合であっても、その設けるキー操作部の規模を小規模化することができる。
本発明は、携帯電話機に適用することができる。
[携帯電話機の回路構成]
この本発明の実施の形態となる携帯電話機は、図1に示すように基地局との間でデータの送受信を行うアンテナ1及び通信回路2と、受話音声,動画ファイルの音声,音楽データの音声等の音声出力を得るためのスピーカ部3と、送話音声を集音すると共に、後に説明する「音声文字入力モード」時に、ユーザが発音した音声を集音するマイクロホン部4と、所望の被写体を撮像するカメラ部5と、入力操作を行うための複数のキーが設けられた操作部6とを有している。
この本発明の実施の形態となる携帯電話機は、図1に示すように基地局との間でデータの送受信を行うアンテナ1及び通信回路2と、受話音声,動画ファイルの音声,音楽データの音声等の音声出力を得るためのスピーカ部3と、送話音声を集音すると共に、後に説明する「音声文字入力モード」時に、ユーザが発音した音声を集音するマイクロホン部4と、所望の被写体を撮像するカメラ部5と、入力操作を行うための複数のキーが設けられた操作部6とを有している。
操作部6には、キー操作により文字入力を行う「キー操作文字入力モード」から、音声により文字入力を行う「音声文字入力モード」へのモード変更を指定するための音声認識指定キー(図2の符号17を参照)が設けられている。
また、この携帯電話機は、待ち受け画像、上記カメラ部5で撮像された画像の他、携帯メールの文字等の表示を行う表示部7と、通信処理プログラム(コミュニケーションプログラム)や、後述する文字入力処理プログラム等の各種アプリケーションプログラムの他、入力された文字に対応する複数の変換候補や接続候補(フレーズ候補)からなる辞書等が記憶されたメモリ8(ROM)と、待ち受け画像,カメラ部5で撮像された画像、音楽データ,送受信した携帯メールの文章データ等が記憶されるメモリ9(RAM)と、当該携帯電話機全体の動作制御を行う制御部10とを有している。
[携帯電話機の外観構成]
この携帯電話機の外観を図2に示す。この図2において、当該携帯電話機は、上筐体31及び下筐体32を、表示部7の表示画面に対して略垂直となるように設けられた回転軸を介して互いの一端部同士を相互に接続することで、上筐体31或いは下筐体32が、該回転軸部の回転方向に沿って時計回り方向或いは反時計回り方向に回転可能とされた、いわゆる回転開閉型の携帯電話機となっている。
この携帯電話機の外観を図2に示す。この図2において、当該携帯電話機は、上筐体31及び下筐体32を、表示部7の表示画面に対して略垂直となるように設けられた回転軸を介して互いの一端部同士を相互に接続することで、上筐体31或いは下筐体32が、該回転軸部の回転方向に沿って時計回り方向或いは反時計回り方向に回転可能とされた、いわゆる回転開閉型の携帯電話機となっている。
上筐体31は、上記表示部7の他、回転操作部14、右キー15、左キー16、オンフックキー18、オフフックキー19、ユーザセレクトキー20及びクリアキー21を備えた上操作部22を有している。また、この上筐体31には、上記回転操作部14の下端部に近接して、上記「キー操作文字入力モード」から「音声文字入力モード」へのモード変更を指定するための音声認識指定キーが設けられている。
下筐体32は、数字キー、*キー、#キー等を備えた下操作部23と、当該下筐体の下端部に沿って設けられた上記アンテナ1とを有している。なお、上記カメラ部5は、当該携帯電話機の背面側に設けられている(図示せず)。
回転操作部14は、当該回転操作部14の最外周を形成するように設けられ、時計回り方向及び反時計回り方向に回転操作可能とされた回転操作ダイヤル24と、回転操作ダイヤル24の内周に沿って設けられ、少なくとも上下左右方向に押圧操作可能とされた十字キー25と、当該回転操作部14の中心軸上に設けられ、押圧操作可能とされた決定キー26(Enterキー)とを有している。
[文字入力時における動作]
この携帯電話機の場合、例えば携帯メールの作成時等の文字入力時となると、図1に示す制御部10が、メモリ8に記憶されている文字入力処理プログラムを起動し、この文字入力処理プログラムに基づいて、操作部6の入力操作に対応する文字入力処理、及び音声入力に対応する文字入力処理を実行する。
この携帯電話機の場合、例えば携帯メールの作成時等の文字入力時となると、図1に示す制御部10が、メモリ8に記憶されている文字入力処理プログラムを起動し、この文字入力処理プログラムに基づいて、操作部6の入力操作に対応する文字入力処理、及び音声入力に対応する文字入力処理を実行する。
図3〜図5のフローチャートに、この文字入力処理プログラムに基づく文字入力処理の一連の流れを示す。この図3〜図5のフローチャートは、前述のように文字入力時にスタートとなり、ステップS1からその処理が開始される。
まず、ステップS1では、制御部10が、図2に示す音声認識指定キー17が押圧操作されたか否かを判別する。すなわち、この携帯電話機の場合、上操作部22及び下操作部23を手動操作することで文字入力を行う「キー操作文字入力モード」と、音声により文字入力を行う「音声文字入力モード」との2つのモードを有している。文字入力時となると、制御部10は、デフォルトで「キー操作文字入力モード」となるのであるが、図2に示す音声認識指定キー17が押圧操作されると、上記「音声文字入力モード」に移行する。このため、ステップS1では、制御部10が、音声認識指定キー17の押圧操作の有無を判別することにより、ユーザから音声による文字入力が指定されたか否かを判別する。そして、音声認識指定キー17の押圧操作が検出された場合には、処理をステップS2に移行し、音声認識指定キー17の押圧操作が検出された場合には、処理をステップS17に移行する。
音声認識指定キー17の押圧操作が検出されないということは、キー操作により文字入力が行われることを意味するため、制御部10は、ステップS17において、ユーザが上操作部22及び下操作部23を手動操作することでなされる文字入力操作に対応して文字入力処理を行う。
これに対して、音声認識指定キー17の押圧操作が検出されたということは、ユーザから音声を用いた文字入力が指定されたことを意味するため、制御部10は、音声認識指定キー17の押圧操作がなされたことをユーザに認識させるために、例えば電子音や「音声文字入力モードになりました。」等の音声メッセージをスピーカ部3を介して発音制御すると共に、例えば「お話ください。」等の、ユーザに発声を促す文字メッセージを表示部7に表示制御する。なお、この制御と並行して、或いは単独制御で、発光ダイオード(LED)を点滅或いは点灯制御してもよい。
ユーザは、この電子音,音声メッセージ及び文字メッセージにより、音声による文字入力が可能となったことを認識し、入力を希望する文字の読みを、図2に示すマイクロホン部4に向かって、肉声で発声する。図3に示すフローチャートのステップS2では、制御部10が、マイクロホン部4により検出される音声入力の有無を判別することで、ユーザから音声入力がなされたか否かを判別する。そして、ユーザからの発音入力を検出したタイミングで処理をステップS3に進め、このステップS3において、検出された音声を認識する音声認識処理を行い、ステップS4において、この音声認識結果に対応する変換候補を、図1に示すメモリ8に記憶されている辞書から検索し、処理をステップS5に進める。
ステップS5では、制御部10が、ユーザの入力音声に基づいて上記辞書の検索を行った結果、少なくとも一つの変換候補が検出されたか否かを判別し、一つも変換候補が検出されなかった場合は、ステップS18において、例えば「もう一度、お話しください。」等の音声メッセージやビープ音等のエラー音声をスピーカ部3を介して発音制御し、或いは「もう一度、お話しください。」等の文字メッセージを表示部7に表示制御することで、ユーザに対して再度の音声入力を促し、処理を上記ステップS1に戻す。
これに対して、制御部10が、ユーザの入力音声に基づいて上記辞書の検索を行った結果、少なくとも一つの変換候補が検出された場合、制御部10はステップS6において、この検出された変換候補を表示部7に表示制御する。
図6(a)〜(g)は、このような音声認識結果に基づいて検索された変換候補が、表示部7に表示制御されるまでの流れ(=ステップS3〜ステップS6の流れ)を模式的に示した図である。この図6(a)〜(g)に示す例は、ユーザが「きよう」との発声を行った場合の例である。ユーザから「きよう」との発声が行われた場合、制御部10は、この「きよう」の発声の音声パターンに合致する音声パターンを有する文字、及び「きよう」の発声の音声パターンに近い音声パターンを有する文字を、上記メモリ8に記憶されている辞書から検索する。
この検索は、ユーザから発声された音声の音声パターンを、その部分々々の音声パターン(部分音声パターン)に分割し、上記音声認識処理プログラムに記憶されているサンプルとなる音声パターン(サンプル音声パターン)の中から、上記各部分音声パターンを含む割合(ヒット率)の多い順に、いくつかのサンプル音声パターンを検出する。
換言すれば、ユーザが発声した「きよう」との音声の音声パターンを複数の部分音声パターンに分割し、上記音声認識処理プログラムに記憶されているサンプル音声パターンの中から、この部分音声パターンを多く含む順に、上記サンプル音声パターンの検出を行う。
具体的には、ユーザが発声した「きよう」との音声パターンを部分音声パターンに分割し、各部分音声パターンとサンプル音声パターンとを比較した結果、「きよう」のサンプル音声パターンに、ユーザが発声した「きよう」の部分音声パターンのうち、30%の部分音声パターンが含まれる場合、これを制御部10は、30%のヒット率として検出する。
同様に、ユーザが発声した「きよう」との音声パターンの部分音声パターンとサンプル音声パターンとを比較した結果、「ひよう」のサンプル音声パターンに、ユーザが発声した「きよう」の部分音声パターンのうち、20%の部分音声パターンが含まれる場合、これを制御部10は、20%のヒット率として検出する。
同様に、ユーザが発声した「きよう」との音声パターンの部分音声パターンとサンプル音声パターンとを比較した結果、「いよう」のサンプル音声パターンに、ユーザが発声した「きよう」の部分音声パターンのうち、10%の部分音声パターンが含まれる場合、これを制御部10は、10%のヒット率として検出する。
制御部10は、このようにヒット率の検出を行い、ヒット率が高い順に、そのサンプル音声パターンに対応する文字を音声認識結果とする。この例の場合、制御部10は、図6(a)に示すように30%のヒット率として検出された「きよう」のサンプル音声パターンに対応する「きよう」の文字を第1番目の音声認識結果とし、20%のヒット率として検出された「ひよう」のサンプル音声パターンに対応する「ひよう」の文字を第2番目の音声認識結果とし、10%のヒット率として検出された「いよう」のサンプル音声パターンに対応する「いよう」の文字を第3番目の音声認識結果とする。
次に制御部10は、上記30%のヒット率の音声認識結果、20%のヒット率の音声認識結果、10%のヒット率の音声認識結果の各文字に対応する変換候補を、上記辞書から検出する。これにより、30%のヒット率の音声認識結果である「きよう」の文字の場合、図6(b)に示すように「今日」,「京」,「起用」,「凶」,「器用」・・・・等の変換候補が検出されることとなる。
同様に、20%のヒット率の音声認識結果である「ひよう」の文字の場合、図6(c)に示すように「費用」,「表」,「評」,「票」,「俵」・・・・等の変換候補が検出されることとなる。同様に、10%のヒット率の音声認識結果である「いよう」の文字の場合、図6(d)に示すように「異様」,「医用」,「いよう」,「居よう」,「射よう」・・・・等の変換候補が検出されることとなる。
次に制御部10は、これら各ヒット率の音声認識結果に基づいて上記辞書から検出した各変換候補を表示部7に表示制御する。図6(e)〜(g)は、この各変換候補を、それぞれ異なる表示形態で表示した例である。
まず、図6(e)は、上記30%のヒット率の各変換候補、20%のヒット率の各変換候補、及び10%のヒット率の各変換候補を順に表示した例である。この場合、30%のヒット率の各変換候補が全て表示され、該30%のヒット率の最後の変換候補に続いて20%のヒット率の各変換候補が全て表示され、該20%のヒット率の最後の変換候補に続いて10%のヒット率の各変換候補が全て表示される。
図6(f)は、上記各ヒット率の変換候補を交互に表示した例である。この場合、まず、30%のヒット率の変換候補の先頭の変換候補である「今日」の文字が表示され、続いて20%のヒット率の変換候補の先頭の変換候補である「費用」の文字が表示され、続いて10%のヒット率の変換候補の先頭の変換候補である「異様」の文字が表示される。同様に、この10%のヒット率の変換候補の先頭の変換候補である「異様」の文字に続いて、30%のヒット率の変換候補の2番目の変換候補である「京」の文字が表示され、続いて20%のヒット率の変換候補の2番目の変換候補である「表」の文字が表示され、続いて10%のヒット率の変換候補の2番目の変換候補である「医用」の文字が表示される。
図6(g)は、上記各ヒット率に応じて各変換候補に対して重み付けを行い、この重み付けした結果に応じて表示を行った例である。この場合、制御部10は、30%のヒット率の各変換候補のうち、先頭の変換候補、2番目の変換候補及び3番目の変換候補に対して、それぞれ最大値の重み付け係数、2番目の値の重み付け係数、及び3番目の値の重み付け係数をそれぞれ乗算処理する。同様に、20%のヒット率の各変換候補のうち、先頭の変換候補、及び2番目の変換候補に対して、それぞれ4番目の重み付け係数、5番目の値の重み付け係数をそれぞれ乗算処理する。同様に、10%のヒット率の各変換候補のうち、先頭の変換候補に対して6番目の重み付け係数をそれぞれ乗算処理する。
換言すると、この例の場合、制御部10は、
「今日」×1 (30%のヒット率の変換候補)
「京」 ×0.9 (30%のヒット率の変換候補)
「起用」×0.8 (30%のヒット率の変換候補)
「費用」×0.7 (20%のヒット率の変換候補)
「表」 ×0.6 (20%のヒット率の変換候補)
「異様」×0.5 (10%のヒット率の変換候補)
「凶」 ×0.4 (30%のヒット率の変換候補)
「器用」×0.3 (30%のヒット率の変換候補)
「強」 ×0.2 (30%のヒット率の変換候補)
「評」 ×0.1 (20%のヒット率の変換候補)
「票」 ×0.09(20%のヒット率の変換候補)
「医用」×0.08(10%のヒット率の変換候補)
等のように各変換候補に対する重み付け処理を行う。
「今日」×1 (30%のヒット率の変換候補)
「京」 ×0.9 (30%のヒット率の変換候補)
「起用」×0.8 (30%のヒット率の変換候補)
「費用」×0.7 (20%のヒット率の変換候補)
「表」 ×0.6 (20%のヒット率の変換候補)
「異様」×0.5 (10%のヒット率の変換候補)
「凶」 ×0.4 (30%のヒット率の変換候補)
「器用」×0.3 (30%のヒット率の変換候補)
「強」 ×0.2 (30%のヒット率の変換候補)
「評」 ×0.1 (20%のヒット率の変換候補)
「票」 ×0.09(20%のヒット率の変換候補)
「医用」×0.08(10%のヒット率の変換候補)
等のように各変換候補に対する重み付け処理を行う。
すなわち、ユーザにより選択される確率が一番高い変換候補は、30%のヒット率の各変換候補の中の、先頭から3つ目までの変換候補であり、二番目にユーザにより選択される確率が高い変換候補は、20%のヒット率の各変換候補の中の、先頭から2つ目までの変換候補であり、三番目にユーザにより選択される確率が高い変換候補は、10%のヒット率の各変換候補の中の先頭の変換候補であり、四番目にユーザにより選択される確率が高い変換候補は、30%のヒット率の各変換候補の中の、先頭から3つ目までの変換候補である・・・と予測することができる。このため、制御部10は、ユーザにより選択される確率が高い順に各変換候補が並ぶように、前述の重み付け処理を行い該各変換候補を表示部7に表示制御する。
当該実施の形態の携帯電話機の場合、最高のヒット率の音声認識結果の他に、次点となるヒット率の音声認識結果にも基づいてそれぞれ変換候補を検出しているため、より多くの変換候補を検出することができる。このため、変換候補の表示を行う際に、多数の変換候補を表示することができ、ユーザが入力を希望する変換候補を表示する確率を大幅に向上させることができる。
また、各変換候補に対してヒット率に応じた重み付け処理を行い、この重み付け処理の結果に基づいて、各変換候補を表示することで、ユーザが入力を希望する変換候補が先頭或いは先頭から近い位置に表示される確率を向上させることができる。このため、ユーザによる所望の変換候補の選択操作の容易化を図ることができる。
次に、制御部10は、各変換候補と共に、該各変換候補の中から所望の変換候補を選択するためのカーソルも表示部7に表示制御する。ユーザは、このカーソルを移動させる場合には、例えば「次(つぎ)」或いは「次の候補(つぎのこうほ)」等の音声をマイクロホン部4に向かって発声するようになっている。そして、制御部10は、ユーザにより発声された「次(つぎ)」或いは「次の候補(つぎのこうほ)」との音声を検出する毎に、上記カーソルを、現位置の変換候補から次位置の変換候補に移動表示制御する。
このため、制御部10は、前述のように各変換候補を表示部7に表示制御すると、図4のフローチャートのステップS7に処理を進め、このステップS7において、ユーザから上記カーソルを移動させる発声がなされたか否かを判別する。そして、このカーソルを移動させる音声を検出した場合は、ステップS19において、上記カーソルを現位置の変換候補から次位置の変換候補に移動表示制御して、上記ステップS7に処理を戻す。これにより、ユーザが「次(つぎ)」或いは「次の候補(つぎのこうほ)」等の発声をする毎に、カーソルが、順次、次の変換候補に移動制御されることとなる。
次に、ユーザは、表示部7に表示された変換候補の中から所望の変換候補を選択決定するのであるが、この表示部7に表示された変換候補の中に所望の変換候補が見あたらない場合、再度、音声入力をやり直すことで、他の変換候補を表示させる必要がある。この場合、この携帯電話機では、ユーザがマイクロホン部4に向かって、例えば「違う」,「訂正」,「やり直し」等の音声を発声するようになっている。そして、制御部10は、ユーザが発声した、変換候補の表示のやり直しを指定する音声を検出した場合、処理をステップS1に戻して、ユーザの発声待ち状態となる。
このため、制御部10は、前述のステップS7でカーソルの移動を指定する音声を検出しなかった場合、処理をステップS8に進め、このステップS8おいて、変換候補の表示のやり直しを指定する音声が検出されたか否かを判別し、この音声を検出した場合は、ステップS1に処理を戻し、上述のように、再度、ユーザが発声した音声に基づいて変換候補を検索して表示部7に表示制御する。
次に、この携帯電話機は、カーソルが位置している変換候補を、入力を行う変換候補として決定する場合、ユーザがマイクロホン部4に向かって、例えば「決定」との音声を発声するようになっている。このため、制御部10は、上記ステップS8において、変換候補の表示のやり直しを指定する音声が検出されなかった場合、処理をステップS9に進め、このステップS9において、変換候補を決定する音声が検出されたか否かを判別する。そして、変換候補を決定する音声が検出されなかった場合、処理をステップS7に戻して、ユーザから次の動作を指示する音声が発音されるまで待機状態となる。また、変換候補を決定する音声が検出された場合は処理をステップS10に進め、制御部10は、現在、カーソルが位置している変換候補の入力が決定されたものと認識し、この変換候補の文字を、入力が決定された文字として表示部7に表示制御する。
次に、このように入力が決定された変換候補の文字を表示部7に表示制御すると、制御部10は、処理を図5のステップS11に進める。ステップS11では、制御部10が、入力が決定された変換候補の文字に対して「フレーズ候補」が存在するか否かを判別する。
具体的には、この「フレーズ候補」は、その文字に続けて不可されることの多い文字である。図7に、この「フレーズ候補」の一例を示す。この図7の「前単語」の項に図示されている文字が、上記入力が決定された文字であり、「フレーズ候補」の項に図示されている文字が、「前単語」に対して辞書に登録されている「フレーズ候補」の文字を示している。
この図7に示すように「今日」や「京」等の前単語に対しては、「で」、「に」、「を」、「は」、「が」、「と」、「です」等のフレーズ候補が辞書に登録されている。同様に、「金沢」や「斉藤」等の前単語に対しては、「さん」、「くん」、「ちゃん」、「様」、「殿」等のフレーズ候補が辞書に登録されている。同様に、「を」、「が」、「と」等の前単語に対しては、「習います」、「見に」、「一緒に」等のフレーズ候補が辞書に登録されている。同様に、「は」の前単語に対しては、「ありがとう」、「だめ」、「いい天気」等のフレーズ候補が辞書に登録されている。この例からわかるように、フレーズ候補としては、前単語に対して、通常接続されることの多い接続詞や単語等の文字が登録されている。
制御部10は、上記ステップS11において、入力が決定された変換候補の文字に基づいて、メモリ8に記憶されている辞書を検索することで、該入力が決定された変換候補の文字に対して「フレーズ候補」が存在するか否かを判別し、「フレーズ候補」が存在しない場合は、処理を図3のフローチャートのステップS1に戻して、音声入力待ち状態となり、「フレーズ候補」が存在する場合は、ステップS12において、この「フレーズ候補」を表示部7に表示制御する。
次に、制御部10は、このフレーズ候補と共に、該各フレーズ候補の中から所望のフレーズ候補を選択するためのカーソルも表示部7に表示制御する。ユーザは、このカーソルを移動させる場合には、例えば「次(つぎ)」或いは「次の候補(つぎのこうほ)」等の音声をマイクロホン部4に向かって発声するようになっている。そして、制御部10は、ユーザにより発声された「次(つぎ)」或いは「次の候補(つぎのこうほ)」との音声を検出する毎に、上記カーソルを、現位置のフレーズ候補から次位置のフレーズ候補に移動表示制御する。
このため、制御部10は、前述のように各フレーズ候補を表示部7に表示制御すると、図5のフローチャートのステップS13に処理を進め、このステップS13において、ユーザから上記カーソルを移動させる発声がなされたか否かを判別する。そして、このカーソルを移動させる音声を検出した場合は、ステップS20において、上記カーソルを現位置のフレーズ候補から次位置のフレーズ候補に移動表示制御して、上記ステップS13に処理を戻す。これにより、ユーザが「次(つぎ)」或いは「次の候補(つぎのこうほ)」等の発声をする毎に、カーソルが、順次、次のフレーズ候補に移動制御されることとなる。
次に、ユーザは、表示部7に表示されたフレーズ候補の中から所望のフレーズ候補を選択決定するのであるが、この表示部7に表示されたフレーズ候補の中に所望のフレーズ候補が見あたらない場合、音声によりフレーズ候補の入力を行うこととなる。このため、ユーザは、マイクロホン部4に向かって、例えば「違う」,「訂正」,「やり直し」等の音声を発声する。制御部10は、ステップS14において、上記「違う」,「訂正」,「やり直し」等の音声が検出されたか否かを判別し、該音声を検出した場合、処理をステップS1に戻して、ユーザの発声待ち状態となる。これによりユーザは、所望のフレーズ候補を発声して入力を行うこととなる。
次に、カーソルが位置しているフレーズ候補を、入力を行うフレーズ候補として決定する場合、ユーザは、マイクロホン部4に向かって、例えば「決定」との音声を発声する。制御部10は、ステップS15において、フレーズ候補を決定する音声が検出されたか否かを判別し、フレーズ候補を決定する音声が検出されなかった場合、処理をステップS13に戻して、ユーザから次の動作を指示する音声が発音されるまで待機状態となる。また、制御部10は、フレーズ候補を決定する音声が検出された場合は処理をステップS16に進め、現在、カーソルが位置しているフレーズ候補の入力が決定されたものと認識し、このフレーズ候補の文字を、上記ステップS10で入力が決定された文字(図7に示す「前単語」に相当)の直後に位置させるかたちで表示部7に表示制御する。
このような図3〜図5のフローチャートに示す各処理は、音声或いはキー操作により文字入力の終了がで指定されるまで、ユーザの操作に対応して繰り返し実行される。これにより、所望の文章が作成されることとなる。
[実施の形態の効果]
以上の説明から明らかなように、この実施の形態の携帯電話機は、文字入力時に制御部10が音声認識指定キー17の押圧操作を検出すると、「キー操作文字入力モード」から「音声文字入力モード」に文字入力モードを移行させる。この「音声文字入力モード」となると、制御部10は、ユーザの発声した音声に対応する変換候補やフレーズ候補を、メモリ8に記憶されている辞書から検索して表示部7に表示制御する。そして、ユーザからカーソルの移動を指示する音声が発声されると、表示部7に表示しているカーソルを次の変換候補やフレーズ候補に移動表示制御し、ユーザから変換候補やフレーズ候補を、入力する文字として決定する音声が発声されると、カーソルが現在位置している変換候補やフレーズ候補を、入力が決定された文字として表示部7に表示制御する。
以上の説明から明らかなように、この実施の形態の携帯電話機は、文字入力時に制御部10が音声認識指定キー17の押圧操作を検出すると、「キー操作文字入力モード」から「音声文字入力モード」に文字入力モードを移行させる。この「音声文字入力モード」となると、制御部10は、ユーザの発声した音声に対応する変換候補やフレーズ候補を、メモリ8に記憶されている辞書から検索して表示部7に表示制御する。そして、ユーザからカーソルの移動を指示する音声が発声されると、表示部7に表示しているカーソルを次の変換候補やフレーズ候補に移動表示制御し、ユーザから変換候補やフレーズ候補を、入力する文字として決定する音声が発声されると、カーソルが現在位置している変換候補やフレーズ候補を、入力が決定された文字として表示部7に表示制御する。
これにより、文字入力モードの移行を指示するためのキー操作である上記音声認識指定キー17を押圧する操作を除けば、音声のみで所望の文字の入力を可能とすることができる。そして、この場合、音声入力のために設けるキーを、上記音声認識指定キー17のみとすることができ、操作部6に設ける必要のあるキーの数を大幅に削減することができる。
また、ユーザにより、音声認識指定キー17が押圧操作された際に「音声文字入力モード」に移行することとしたが、これは、ユーザが発音した例えば「音声入力」等の音声を制御部10が検出した際に「音声文字入力モード」に移行するようにしてもよい(=キー操作ではなく、音声で文字入力モードの切り替えを行うようにしてもよい。)。この場合、文字入力時におけるキー操作を全て省略することができ、完全に音声のみで所望の文字の入力を可能とすることができる。この場合、音声入力のために設けるキーを不要とすることができるため、操作部6に設ける必要のあるキーの数をさらに大幅に削減することができる。
また、当該携帯電話機の場合、制御部10が、ユーザが発声した音声に対するヒット率が高い順に複数の変換候補やフレーズ候補を検出し、これらを混合して表示部7に表示制御する。このため、表示した変換候補やフレーズ候補の中に、ユーザが入力を希望する変換候補やフレーズ候補が含まれている確率を大幅に向上させることができる。
また、当該携帯電話機の場合、制御部10が、ユーザが発声した音声に対するヒット率に応じて、該ヒット率に対応する各変換候補やフレーズ候補に重み付けを行い、この重み付けした結果の値が大きい順に表示する。これにより、表示した変換候補やフレーズ候補の中に、ユーザが入力を希望する変換候補やフレーズ候補が含まれている確率をさらに大幅に向上させることができる。
[変形例]
上述の実施の形態の説明では、音声でのみ文字入力を行うこととしたが、これは、音声及び操作部6に設けられているキー操作を併用して該文字入力を行うようにしてもよい。例えば、制御部10は、図2に示す回転操作部14の十字キー25の操作に応じて上記カーソルを移動表示制御してもよいし、決定キー26の押圧操作を検出した際に、変換候補やフレーズ候補の各文字の入力が決定されたものとして、この変換候補やフレーズ候補の文字を表示部7に表示制御してもよい。
上述の実施の形態の説明では、音声でのみ文字入力を行うこととしたが、これは、音声及び操作部6に設けられているキー操作を併用して該文字入力を行うようにしてもよい。例えば、制御部10は、図2に示す回転操作部14の十字キー25の操作に応じて上記カーソルを移動表示制御してもよいし、決定キー26の押圧操作を検出した際に、変換候補やフレーズ候補の各文字の入力が決定されたものとして、この変換候補やフレーズ候補の文字を表示部7に表示制御してもよい。
このように音声入力とキー操作による入力とを併用した場合でも、文字入力に必要とするキーの数を大幅に削減することができ、操作部6の小規模化を図ることができる。
また、上述の実施の形態の説明では、本発明を携帯電話機に適用することとしたが、本発明は、この他、PHS電話機(PHS:Personal Handyphone System),PDA装置(PDA:Personal Digital Assistant)、ノート型のパーソナルコンピュータ装置、デスクトップ型のパーソナルコンピュータ装置等のあらゆる端末装置に適用可能である。
最後に、上述の実施の形態は、あくまでも本発明の一例として開示したに過ぎない。このため、本発明は、上述の実施の形態以外であっても、本発明に係る技術的思想を逸脱しない範囲であれば、設計等に応じて種々の変更が可能であることは勿論であることを付け加えておく。
1 アンテナ、2 通信回路、3 スピーカ部、4 マイクロホン部、5 カメラ部、6 操作部、7 表示部、8 メモリ(ROM)、9 メモリ(RAM)、10 制御部、14 回転操作部、15 右キー、16 左キー、17 音声認識指定キー、18 オンフックキー、19 オフフックキー、22 上操作部、23 下操作部、24 回転ダイヤル、25 十字キー、26 決定キー、31 上筐体、32 下筐体
Claims (8)
- 文字入力時に、音声集音手段を介して集音された音声に対する複数の音声認識結果を得るように、音声認識を行う音声認識手段と、
上記音声集音手段を介して集音された音声のうち、少なくとも選択操作子の移動指示、及び入力する文字の決定指示を認識する指示音声認識手段と、
上記音声認識手段として機能することで得られた各音声認識結果にそれぞれ対応する変換候補となる文字を、記憶手段に記憶されている辞書から検索する変換候補検索手段と、
上記音声認識手段として機能することで得られた上記各音声認識結果毎に、それぞれ上記辞書から検索された各文字を所定の配置で表示手段に表示制御すると共に、上記各文字の中から入力を希望する文字を選択するための選択操作子を上記表示手段に表示制御し、上記指示音声認識手段として機能することで上記選択操作子の移動指示が認識された場合、上記表示手段に表示している上記選択操作子を、該表示手段に表示している上記文字間で移動表示制御し、上記指示音声認識手段として機能することで上記入力する文字の決定指示が認識された場合、上記選択操作子が現在位置している文字を、入力が決定された文字として上記表示手段に表示制御する表示制御手段
としてコンピュータを機能させる音声文字入力プログラム。 - 請求項1に記載の音声文字入力プログラムであって、
上記指示音声認識手段として機能することで上記入力する文字の決定指示が認識された場合、この入力が決定された文字に接続される接続候補となる文字を、上記記憶手段に記憶されている辞書から検索する接続候補検索手段としてコンピュータを機能させ、
上記表示制御手段としてコンピュータを機能させる際に、上記接続候補検索手段として機能することで検索された上記接続候補となる文字を上記表示手段に表示制御すると共に、上記接続候補となる文字の中から、入力を希望する文字を選択するための選択操作子を上記表示手段に表示制御し、上記指示音声認識手段として機能することで上記選択操作子の移動指示が認識された場合、上記表示手段に表示している上記選択操作子を、該表示手段に表示している上記接続候補となる文字間で移動表示制御し、上記指示音声認識手段として機能することで上記入力する文字の決定指示が認識された場合、上記選択操作子が現在位置している文字を、入力が決定された上記接続候補となる文字として、上記変換候補となる文字に付加して表示手段に表示制御する表示制御手段としてコンピュータを機能させること
を特徴とする音声文字入力プログラム。 - 請求項1又は請求項2のうち、いずれか一項に記載の音声文字入力プログラムであって、
上記音声認識手段としてコンピュータを機能させる際に、上記音声集音手段を介して集音された音声の音声パターンを複数の部分音声パターンに分割し、この各部分音声パターンと、上記記憶手段の辞書に記憶されている各文字の音声パターンとを比較し、上記部分音声パターンを含む割合が多い順に、該部分音声パターンを含む文字を検出した結果を上記音声認識結果とする上記音声認識手段としてコンピュータを機能させること
を特徴とする音声文字入力プログラム。 - 請求項3に記載の音声文字入力プログラムであって、
上記表示制御手段としてコンピュータを機能させる際に、上記音声認識手段として機能することで検出された上記部分音声パターンを含む割合に応じて、それぞれ上記辞書から検索された変換候補となる各文字に対して重み付け処理を行い、この重み付け処理の結果に対応する配置で、該変換候補となる各文字を上記表示手段に表示制御する上記表示制御手段としてコンピュータを機能させること
を特徴とする音声文字入力プログラム。 - 文字入力時に、音声集音手段を介して集音された音声に対する複数の音声認識結果を得るように、音声認識処理を行う音声認識手段と、
上記音声集音手段を介して集音された音声のうち、少なくとも選択操作子の移動指示、及び入力する文字の決定指示を認識する指示音声認識手段と、
上記音声認識手段で得られた各音声認識結果にそれぞれ対応する変換候補となる文字を、記憶手段に記憶されている辞書から検索する変換候補検索手段と、
上記音声認識手段で得られた上記各音声認識結果毎に、それぞれ上記辞書から検索された各文字を所定の配置で表示手段に表示制御すると共に、上記各文字の中から入力を希望する文字を選択するための選択操作子を上記表示手段に表示制御し、上記指示音声認識手段として機能することで上記選択操作子の移動指示が認識された場合、上記表示手段に表示している上記選択操作子を、該表示手段に表示している上記文字間で移動表示制御し、上記指示音声認識手段として機能することで上記入力する文字の決定指示が認識された場合、上記選択操作子が現在位置している文字を、入力が決定された文字として上記表示手段に表示制御する表示制御手段と
を有する携帯端末装置。 - 請求項5に記載の携帯端末装置であって、
上記指示音声認識手段により、上記入力する文字の決定指示が認識された場合、この入力が決定された文字に接続される接続候補となる文字を、上記記憶手段に記憶されている辞書から検索する接続候補検索手段とを有し、
上記表示制御手段は、上記接続候補検索手段で検索された上記接続候補となる文字を上記表示手段に表示制御すると共に、上記接続候補となる文字の中から、入力を希望する文字を選択するための選択操作子を上記表示手段に表示制御し、上記指示音声認識手段で上記選択操作子の移動指示が認識された場合、上記表示手段に表示している上記選択操作子を、該表示手段に表示している上記接続候補となる文字間で移動表示制御し、上記指示音声認識手段で上記入力する文字の決定指示が認識された場合、上記選択操作子が現在位置している文字を、入力が決定された上記接続候補となる文字として、上記変換候補となる文字に付加して表示手段に表示制御すること
を特徴とする携帯端末装置。 - 請求項5又は請求項6のうち、いずれか一項に記載の携帯端末装置であって、
上記音声認識手段は、上記音声集音手段を介して集音された音声の音声パターンを複数の部分音声パターンに分割し、この各部分音声パターンと、上記記憶手段の辞書に記憶されている各文字の音声パターンとを比較し、上記部分音声パターンを含む割合が多い順に、該部分音声パターンを含む文字を検出した結果を上記音声認識結果とすること
を特徴とする携帯端末装置。 - 請求項7に記載の携帯端末装置であって、
上記表示制御手段は、上記音声認識手段で検出された上記部分音声パターンを含む割合に応じて、それぞれ上記辞書から検索された変換候補となる各文字に対して重み付け処理を行い、この重み付け処理の結果に対応する配置で、該変換候補となる各文字を上記表示手段に表示制御すること
を特徴とする携帯端末装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004204676A JP2006031092A (ja) | 2004-07-12 | 2004-07-12 | 音声文字入力プログラム及び携帯端末装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004204676A JP2006031092A (ja) | 2004-07-12 | 2004-07-12 | 音声文字入力プログラム及び携帯端末装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006031092A true JP2006031092A (ja) | 2006-02-02 |
Family
ID=35897408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004204676A Pending JP2006031092A (ja) | 2004-07-12 | 2004-07-12 | 音声文字入力プログラム及び携帯端末装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006031092A (ja) |
Cited By (83)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013238880A (ja) * | 2013-07-09 | 2013-11-28 | Kyocera Corp | 携帯端末、編集誘導プログラムおよび編集誘導方法 |
JP2014067062A (ja) * | 2007-04-26 | 2014-04-17 | Microsoft Corp | アジア文字を生成するための認識アーキテクチャ |
JP2015501022A (ja) * | 2011-09-30 | 2015-01-08 | アップル インコーポレイテッド | ハンズフリーインタラクションに対するユーザインターフェースの自動適合化 |
US9412392B2 (en) | 2008-10-02 | 2016-08-09 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9548050B2 (en) | 2010-01-18 | 2017-01-17 | Apple Inc. | Intelligent automated assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
US9620104B2 (en) | 2013-06-07 | 2017-04-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9626955B2 (en) | 2008-04-05 | 2017-04-18 | Apple Inc. | Intelligent text-to-speech conversion |
US9633674B2 (en) | 2013-06-07 | 2017-04-25 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9633660B2 (en) | 2010-02-25 | 2017-04-25 | Apple Inc. | User profiling for voice input processing |
US9646614B2 (en) | 2000-03-16 | 2017-05-09 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9668024B2 (en) | 2014-06-30 | 2017-05-30 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9798393B2 (en) | 2011-08-29 | 2017-10-24 | Apple Inc. | Text correction processing |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9953088B2 (en) | 2012-05-14 | 2018-04-24 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9966068B2 (en) | 2013-06-08 | 2018-05-08 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10089072B2 (en) | 2016-06-11 | 2018-10-02 | Apple Inc. | Intelligent device arbitration and control |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10102359B2 (en) | 2011-03-21 | 2018-10-16 | Apple Inc. | Device access using voice authentication |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10169329B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Exemplar-based natural language processing |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10185542B2 (en) | 2013-06-09 | 2019-01-22 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
US10283110B2 (en) | 2009-07-02 | 2019-05-07 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10297253B2 (en) | 2016-06-11 | 2019-05-21 | Apple Inc. | Application integration with a digital assistant |
US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US10356243B2 (en) | 2015-06-05 | 2019-07-16 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US10373617B2 (en) | 2014-05-30 | 2019-08-06 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10410637B2 (en) | 2017-05-12 | 2019-09-10 | Apple Inc. | User-specific acoustic models |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US10482874B2 (en) | 2017-05-15 | 2019-11-19 | Apple Inc. | Hierarchical belief states for digital assistants |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10521466B2 (en) | 2016-06-11 | 2019-12-31 | Apple Inc. | Data driven natural language event detection and classification |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10755703B2 (en) | 2017-05-11 | 2020-08-25 | Apple Inc. | Offline personal assistant |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10795541B2 (en) | 2009-06-05 | 2020-10-06 | Apple Inc. | Intelligent organization of tasks items |
US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US11080012B2 (en) | 2009-06-05 | 2021-08-03 | Apple Inc. | Interface for a virtual digital assistant |
US11217255B2 (en) | 2017-05-16 | 2022-01-04 | Apple Inc. | Far-field extension for digital assistant services |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
-
2004
- 2004-07-12 JP JP2004204676A patent/JP2006031092A/ja active Pending
Cited By (103)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9646614B2 (en) | 2000-03-16 | 2017-05-09 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
JP2014067062A (ja) * | 2007-04-26 | 2014-04-17 | Microsoft Corp | アジア文字を生成するための認識アーキテクチャ |
US9865248B2 (en) | 2008-04-05 | 2018-01-09 | Apple Inc. | Intelligent text-to-speech conversion |
US9626955B2 (en) | 2008-04-05 | 2017-04-18 | Apple Inc. | Intelligent text-to-speech conversion |
US11348582B2 (en) | 2008-10-02 | 2022-05-31 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10643611B2 (en) | 2008-10-02 | 2020-05-05 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9412392B2 (en) | 2008-10-02 | 2016-08-09 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11080012B2 (en) | 2009-06-05 | 2021-08-03 | Apple Inc. | Interface for a virtual digital assistant |
US10795541B2 (en) | 2009-06-05 | 2020-10-06 | Apple Inc. | Intelligent organization of tasks items |
US10283110B2 (en) | 2009-07-02 | 2019-05-07 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10706841B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Task flow identification based on user intent |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US9548050B2 (en) | 2010-01-18 | 2017-01-17 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US9633660B2 (en) | 2010-02-25 | 2017-04-25 | Apple Inc. | User profiling for voice input processing |
US10049675B2 (en) | 2010-02-25 | 2018-08-14 | Apple Inc. | User profiling for voice input processing |
US10102359B2 (en) | 2011-03-21 | 2018-10-16 | Apple Inc. | Device access using voice authentication |
US9798393B2 (en) | 2011-08-29 | 2017-10-24 | Apple Inc. | Text correction processing |
JP2015501022A (ja) * | 2011-09-30 | 2015-01-08 | アップル インコーポレイテッド | ハンズフリーインタラクションに対するユーザインターフェースの自動適合化 |
US9953088B2 (en) | 2012-05-14 | 2018-04-24 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
US9633674B2 (en) | 2013-06-07 | 2017-04-25 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9620104B2 (en) | 2013-06-07 | 2017-04-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9966060B2 (en) | 2013-06-07 | 2018-05-08 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
US9966068B2 (en) | 2013-06-08 | 2018-05-08 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10657961B2 (en) | 2013-06-08 | 2020-05-19 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10185542B2 (en) | 2013-06-09 | 2019-01-22 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
JP2013238880A (ja) * | 2013-07-09 | 2013-11-28 | Kyocera Corp | 携帯端末、編集誘導プログラムおよび編集誘導方法 |
US10373617B2 (en) | 2014-05-30 | 2019-08-06 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10169329B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Exemplar-based natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10904611B2 (en) | 2014-06-30 | 2021-01-26 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9668024B2 (en) | 2014-06-30 | 2017-05-30 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10431204B2 (en) | 2014-09-11 | 2019-10-01 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9986419B2 (en) | 2014-09-30 | 2018-05-29 | Apple Inc. | Social reminders |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
US10311871B2 (en) | 2015-03-08 | 2019-06-04 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10356243B2 (en) | 2015-06-05 | 2019-07-16 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US11069347B2 (en) | 2016-06-08 | 2021-07-20 | Apple Inc. | Intelligent automated assistant for media exploration |
US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10521466B2 (en) | 2016-06-11 | 2019-12-31 | Apple Inc. | Data driven natural language event detection and classification |
US10297253B2 (en) | 2016-06-11 | 2019-05-21 | Apple Inc. | Application integration with a digital assistant |
US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US10089072B2 (en) | 2016-06-11 | 2018-10-02 | Apple Inc. | Intelligent device arbitration and control |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10553215B2 (en) | 2016-09-23 | 2020-02-04 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10755703B2 (en) | 2017-05-11 | 2020-08-25 | Apple Inc. | Offline personal assistant |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10410637B2 (en) | 2017-05-12 | 2019-09-10 | Apple Inc. | User-specific acoustic models |
US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10482874B2 (en) | 2017-05-15 | 2019-11-19 | Apple Inc. | Hierarchical belief states for digital assistants |
US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US11217255B2 (en) | 2017-05-16 | 2022-01-04 | Apple Inc. | Far-field extension for digital assistant services |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006031092A (ja) | 音声文字入力プログラム及び携帯端末装置 | |
US7363224B2 (en) | Method for entering text | |
JP4012143B2 (ja) | 情報処理装置およびデータ入力方法 | |
TWI296793B (en) | Speech recognition assisted autocompletion of composite characters | |
US8571862B2 (en) | Multimodal interface for input of text | |
TWI293455B (en) | System and method for disambiguating phonetic input | |
US20060293889A1 (en) | Error correction for speech recognition systems | |
US7143043B1 (en) | Constrained keyboard disambiguation using voice recognition | |
JP2005521963A (ja) | 無線通信装置における文字入力のための方法および装置 | |
JP2009514020A (ja) | モバイルデバイスにおける音声および代替入力手法の組み合わせ | |
JP2011254553A (ja) | 小型キーパッド用日本語入力メカニズム | |
JP2006048058A (ja) | 多言語による名称の音声認識のための方法とシステム | |
JP5638210B2 (ja) | 携帯電子機器 | |
JP2002116793A (ja) | データ入力システム及びその方法 | |
US9928084B2 (en) | Electronic device and method for activating application | |
JP2011186994A (ja) | 文字入力装置および文字入力方法 | |
KR100768426B1 (ko) | 휴대용 단말기의 문자 입력 장치 및 방법 | |
JP5082529B2 (ja) | 携帯情報端末および入力制御プログラム | |
KR20080052306A (ko) | 네비게이션 시스템에 이용되는 음성 인식 방법 및 장치 | |
JP2005301699A (ja) | 文章入力装置、方法、及びプログラム、並びに携帯端末装置 | |
JP2000056796A (ja) | 音声入力装置および方法 | |
KR101373206B1 (ko) | 음성인식과 영상인식을 이용한 휴대단말기에서의 문서작성방법 | |
KR20090000858A (ko) | 멀티모달 기반의 정보 검색 장치 및 방법 | |
JPH1195792A (ja) | 音声処理装置および文字入力方法 | |
WO2011037230A1 (ja) | 電子機器及びアプリケーションの起動方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070626 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071011 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080604 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20081015 |