JP2014068170A

JP2014068170A - 情報端末、音声操作プログラムおよび音声操作方法

Info

Publication number: JP2014068170A
Application number: JP2012211731A
Authority: JP
Inventors: Atsuhiko Kanda; 敦彦神田; Yuto Takenouchi; 勇人竹之内
Original assignee: Kyocera Corp
Current assignee: Kyocera Corp
Priority date: 2012-09-26
Filing date: 2012-09-26
Publication date: 2014-04-17
Anticipated expiration: 2032-09-26
Also published as: JP6068901B2; WO2014050625A1; US20150262583A1

Abstract

【課題】音声操作の利便性を向上させる。
【解決手段】携帯電話機１０は、複数のアプリケーションがインストールされ、音声入力によって任意の操作することが可能である。また、携帯電話機１０には、ユーザが実行したアプリケーションの履歴がＲＡＭに記憶される。たとえば、ユーザが「カメラを使いたい」と音声入力を行うと、カテゴリが「カメラ」のアプリケーションである、「標準カメラ」および「ＡＲカメラ」が検索結果として取得される。このとき、ユーザの利用履歴に基づいて、検索結果が絞り込まれる。たとえば、「ＡＲカメラ」よりも「標準カメラ」の利用頻度が高ければ、「標準カメラ」が実行される。つまり、アプリケーションのカテゴリが音声入力されたとしても、利用頻度に基づいて、適切にアプリケーションが実行される。
【選択図】図１

Description

この発明は、情報端末、音声操作プログラムおよび音声操作方法に関し、特に音声入力によって操作可能な、情報端末、音声操作プログラムおよび音声操作方法に関する。

音声入力によって操作可能な情報端末の一例が特許文献１に開示されている。特許文献１の音声認識／応答型携帯電話では、利用者は音声操作によって電話発信機能およびメール機能などを任意に実行することが出来る。
特開２００８−５３９３７号公報［H04M 1/00, G10L 15/00, H04M 1/26, G06F 3/16］

近頃の携帯電話機では、利用者は任意のアプリケーションを携帯電話機に自由にインストールすることが出来る。この場合、自由にアプリケーションがインストールされた場合、類似するアプリケーションが複数インストールされることがある。また、利用者は、多数のアプリケーションをインストールした場合、自身がインストールしたアプリケーションの全てを把握できなくなることがある。このような状態では、以下の問題が発生する。

たとえば、カメラに関するアプリケーションが複数インストールされている携帯電話機に対して、音声操作として「カメラを起動」が音声入力されても、カメラに関するアプリケーションが複数あるため、携帯電話機はどのアプリケーションを実行すればよいか判断できない。この場合、アプリケーション名を音声入力すれば、そのアプリケーションを起動することは可能ではあるが、利用者がインストールしたアプリケーションを把握できていなければ、ユーザは、所望のアプリケーションを指定することが出来ない。

それゆえに、この発明の主たる目的は、新規な、情報端末、音声操作プログラムおよび音声操作方法を提供することである。

この発明の他の目的は、音声操作の利便性が高い、情報端末、音声操作プログラムおよび音声操作方法を提供することである。

この発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明等は、この発明の理解を助けるために記述する実施形態との対応関係を示したものであって、この発明を何ら限定するものではない。

第１の発明は、音声入力による操作が可能である、情報端末であって、複数のアプリケーションおよびアプリケーションの利用履歴を記憶する記憶部、入力された音声に基づいて、実行するアプリケーションを特定するための特定情報を取得する取得部、利用履歴に基づいて、取得された特定情報を絞り込む絞り込み部、および絞り込み部によって絞り込まれた結果に基づいて、アプリケーションを実行する実行部を備える、情報端末である。

第１の発明では、情報端末（１０：実施例において対応する部分を例示する参照符号。以下、同じ。）は、音声入力による操作が可能であり、複数のアプリケーションがインストールされている。記憶部（４８）は、たとえばＲＡＭやＲＯＭなどの記憶媒体であり、インストールされているアプリケーションのプログラムおよびユーザが利用したアプリケーションの利用履歴などが記憶される。ユーザが音声入力を行うと、入力音声に対して音声認識処理による認識結果が得られる。そして、その認識結果から検索語が抽出される。検索語が抽出されると、実行可能なアプリケーションが検索される。取得部（３０，Ｓ３５）、このようにして検索された結果を、実行するアプリケーションを特定するための特定情報として取得する。絞り込み部（３０，Ｓ３９）は、たとえばユーザが利用したアプリケーションの利用履歴に基づいて、特定情報を絞り込む。実行部（３０，Ｓ４７，Ｓ４９）は、このようにして絞り込まれた結果に基づいて、アプリケーションを実行する。

第１の発明によれば、ユーザの利用履歴に基づいて特定情報を絞り込むことで、音声操作の利便性を向上させることが出来る。

第２の発明は、第１の発明に従属し、絞り込み部によって絞り込まれた結果を表示する表示部を備え、実行部は、絞り込まれた結果に対して選択操作がされたとき、選択された結果に基づいてアプリケーションを実行する。

第２の発明では、表示部（３０，Ｓ４３）は、絞り込んだ結果を表示する。そして、その結果に対して選択操作がされると、実行部は選択結果に基づいてアプリケーションを実行する。

第３の発明は、第２の発明に従属し、表示部は、絞り込み部によって絞り込まれた結果が複数あるとき、その結果を表示する。

第３の発明では、表示部は、絞り込んだ結果が複数である場合、絞り込まれた複数のアプリケーションを候補一覧としてする。そして、実行部は、表示されたアプリケーションの内、いずれか１つに対して選択操作がされると、選択された結果に基づいてアプリケーションを実行する。

第２の発明および第３の発明によれば、特定情報を絞り込むことが出来ない場合は、候補一覧を表示することで、ユーザに利用するアプリを選択させることが出来る。

第４の発明は、第１の発明ないし第３の発明に従属し、取得部が特定情報を取得できなかったとき、ネットワークと接続するブラウザ機能を実行するブラウザ実行部、入力された音声に基づく検索語を、ブラウザ機能によって接続されたネットワークを利用して検索する検索部、および検索部によって検索されたウェブページを表示するウェブページ表示部をさらに備える。

第４の発明では、情報端末は、ネットワーク（１００）と接続するブラウザ機能を実行することが可能である。ブラウザ実行部（３０、Ｓ６５）は、特定情報を取得できない場合、ブラウザ機能を実行する。検索部（３０，Ｓ６７）は、たとえば、ブラウザ機能が実行されると、ネットワークを介して接続される検索サイトで、入力された音声に基づく検索語を検索する。ウェブページ表示部（３０，Ｓ７１）は、このようにして検索されたウェブページを表示する。

第４の発明によれば、アプリケーションテーブルに登録されていない言葉が音声入力されたとしても、ユーザに対して情報を提供することが出来る。

第５の発明は、第４の発明に従属し、利用履歴には、ウェブページの閲覧履歴が含まれ、ウェブページ表示部は、閲覧履歴に基づいてウェブページを表示する。

第５の発明では、ユーザがウェブページを閲覧すると、ウェブページの閲覧履歴として記録される。ブラウザ実行部によってブラウザ機能が実行されると、最も閲覧頻度が高いウェブページに接続され、そのウェブページで検索語が検索される。そして、ウェブページ表示部は、このようにして検索された結果のウェブページを表示する。

第５の発明によれば、ユーザのウェブページの閲覧頻度に基づいて、特定情報を提供することが出来る。

第６の発明は、複数のアプリケーションおよびアプリケーションの利用履歴を記憶する記憶部（４８）を有し、音声入力による操作が可能である、情報端末（１０）のプロセッサ（３０）を、入力された音声に基づいて、実行するアプリケーションを特定するための特定情報を取得する取得部（Ｓ３５）、利用履歴に基づいて、取得された特定情報を絞り込む絞り込み部（Ｓ３９）、および絞り込み部によって絞り込まれた結果に基づいて、アプリケーションを実行する実行部（Ｓ４７，Ｓ４９）として機能させる、音声操作プログラムである。

第６の発明でも、第１の発明と同様、ユーザの利用履歴に基づいて特定情報を絞り込むことで、音声操作の利便性を向上させることが出来る。

第７の発明は、複数のアプリケーションおよびアプリケーションの利用履歴を記憶する記憶部（４８）を有し、音声入力による操作が可能である、情報端末（１０）の音声操作方法であって、入力された音声に基づいて、実行するアプリケーションを特定するための特定情報を取得し（Ｓ３５）、利用履歴に基づいて、取得された特定情報を絞り込み（Ｓ３９）、そして絞り込まれた結果に基づいて、アプリケーションを実行する（Ｓ４７，Ｓ４９）、音声操作方法である。

第７の発明によれば、第１の発明と同様、ユーザの利用履歴に基づいて特定情報を絞り込むことで、音声操作の利便性を向上させることが出来る。

この発明によれば、音声操作の利便性を向上させることが出来る。

この発明の上述の目的、その他の目的、特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。

図１はこの発明の一実施例の携帯電話機を示す外観図であり、図１（Ａ）は携帯電話機の主面を示し、図１（Ｂ）は携帯電話機の他面を示す。図２は図１に示す携帯電話機の電気的な構成を示す図解図である。図３は図１に示すＲＡＭに記憶されるローカルデータベースの構成の一例を示す図解図である。図４は図１に示すＲＡＭに記憶される利用履歴データの構成の一例を示す図解図である。図５は図１に示すＲＡＭに記憶されるアプリケーションテーブルの構成の一例を示す図解図である。図６は図１に示すディスプレイに表示される待機画面の一例を示す図解図である。図７は図１に示すマイクおよびスピーカを利用して行われる音声操作の一例を示す図解図であり、図７（Ａ）は音声操作機能が有効な状態を示し、図７（Ｂ）は音声操作が行われている状態の一例を示し、図７（Ｃ）は音声操作によって標準カメラが実行されている状態の一例を示す。図８は図１に示すマイクおよびスピーカを利用して行われる音声操作の一例を示す図解図であり、図８（Ａ）は音声操作機能が有効な状態を示し、図８（Ｂ）は音声操作が行われている状態の他の一例を示し、図８（Ｃ）は候補一覧が表示されている状態の一例を示す。図９は図２に示すＲＡＭのメモリマップの一例を示す図解図である。図１０は図２に示すプロセッサの履歴記録処理の一例を示すフロー図である。図１１は図２に示すプロセッサの音声操作処理の一部の一例を示すフロー図である。図１２は図２に示すプロセッサの音声操作処理の他の一部の一例であって、図１１に後続するフロー図である。図１３は図２に示すプロセッサの音声操作処理のその他の一部の一例であって、図１２に後続するフロー図である。図１４は図１に示すＲＡＭに記憶される閲覧履歴データの構成の一例を示す図解図である。図１５は図１に示すＲＡＭに記憶されるＵＲＬテーブルの構成の一例を示す図解図である。図１６は図１に示すマイクおよびスピーカを利用して行われる音声操作の一例を示す図解図であり、図１６（Ａ）は音声操作機能が有効な状態を示し、図１６（Ｂ）は音声操作が行われている状態のその他の一例を示し、図１６（Ｃ）は音声操作によってブラウザ機能が実行されている状態の一例を示す。図１７は図２に示すＲＡＭのメモリマップ一部の一例を示す図解図である。図１８は図２に示すプロセッサの音声操作処理のさらにその他の一部の一例である。

＜第１実施例＞
図１（Ａ），（Ｂ）を参照して、この発明の一実施例の携帯電話機１０は、一例としてスマートフォン（smart phone）であり、縦長の扁平矩形のハウジング１２を含む。ただし、この発明は、タブレット端末、ＰＤＡおよびナビゲーション端末など任意の情報端末に適用可能であることを予め指摘しておく。

ハウジング１２の主面（表面）には、表示装置とも呼ばれる、たとえば液晶や有機ＥＬなどのディスプレイ１４が設けられる。ディスプレイ１４の上には、タッチパネル１６が設けられる。したがって、この実施例の携帯電話機１０では、後述のハードキーの操作によるものを除く大部分の入力操作は、このタッチパネル１６を介して行われる。

ハウジング１２の縦方向一端の主面側に第１スピーカ１８が内蔵され、縦方向他端の主面側にマイク２０が内蔵される。

ハウジング１２の主面には、タッチパネル１６と共に入力操作手段を構成するハードキーとして、この実施例では、通話キー２２ａ、終話キー２２ｂおよびメニューキー２２ｃが設けられる。

また、ハウジング１２の裏面（他面）の縦方向一端には、カメラモジュール５２（図２参照）に通じるレンズ開口２４が設けられている。また、ハウジング１２の裏面には、第２スピーカ２６が内蔵される。

たとえば、ユーザは、ディスプレイ１４に表示されたダイヤルキーに対して、タッチパネル１６によってタッチ操作を行うことで電話番号を入力でき、通話キー２２ａを操作して音声通話を開始することが出来る。ユーザは終話キー２２ｂを操作すれば、音声通話を終了することが出来る。なお、ユーザは、終話キー２２ｂを長押しすることによって、携帯電話機１０の電源をオン／オフすることが出来る。

また、メニューキー２２ｃを操作すれば、ディスプレイ１４にメニュー画面が表示され、その状態でディスプレイ１４に表示されているソフトキーやメニューアイコンなどに対して、タッチパネル１６によるタッチ操作を行うことによって所望の機能を実行することが出来る。

さらに、詳細な説明は後述するが、カメラ機能が実行されると、カメラモジュール５２が起動し、ディスプレイ１４に被写界と対応するプレビュー画像（スルー画像）が表示される。そして、ユーザは、レンズ開口２４が設けられている裏面を被写体に向けて撮影操作を行うことで、被写体を撮影することが出来る。

また、携帯電話機１０には、複数のアプリケーションがインストールされている。まず、カメラ系のアプリケーションとして、標準カメラおよびＡＲ(Augmented Reality)カメラがインストールされている。標準カメラは、携帯電話機１０にプレインストール（プリインストールとも言う。）されているものであり、撮影操作に応じて画像を保存するアプリケーションである。ＡＲカメラは、ユーザが任意にインストールしたものであり、スルー画像に重ねて情報を表示するアプリケーションである。

また、メール系のアプリケーションとしては、電子メール（Ｅメール）、ＳＭＳ(Short Message Service)およびＭＭＳ(Multimedia Message Service)がインストールされている。

さらに、ブラウザ、アドレス帳、スケジュール、時刻、音楽プレーヤ、動画プレーヤなどのアプリケーションもインストールされており、ユーザはこれらのアプリケーションを任意に起動させることが出来る。

図２を参照して、図１に示す実施例の携帯電話機１０は、コンピュータまたはＣＰＵと呼ばれるプロセッサ３０などを含む。プロセッサ３０には、無線通信回路３２、Ａ／Ｄ変換器３６、第１Ｄ／Ａ変換器３８、第２Ｄ／Ａ変換機４０、入力装置４２、表示ドライバ４４、フラッシュメモリ４６、ＲＡＭ４８、タッチパネル制御回路５０およびカメラモジュール５２などが接続される。

また、無線通信回路３２はアンテナ３４を介して、ネットワーク（通信網、電話網）１００と無線接続される。サーバ１０２は、有線または無線で、ネットワーク１００と接続される。

プロセッサ３０は、携帯電話機１０の全体制御を司る。また、プロセッサ３０は、日時情報を出力するＲＴＣ３０ａを含む。記憶部として機能するＲＡＭ４８には、フラッシュメモリ４６に予め設定されているプログラムの全部または一部が使用に際して展開され、プロセッサ３０はこのＲＡＭ４８上のプログラムに従って動作する。なお、ＲＡＭ４８はさらに、プロセッサ３０のワーキング領域ないしバッファ領域として用いられる。

入力装置４２は、図１に示す、ハードキー２２ａ−ｃを含むものであり、操作部または入力部を構成する。ユーザが操作したハードキーの情報（キーデータ）はプロセッサ３０に入力される。

無線通信回路３２は、アンテナ３４を通して、音声通話やメールなどのための電波を送受信するための回路である。実施例では、無線通信回路３２は、ＣＤＭＡ方式での無線通信を行うための回路である。たとえば、ユーザが入力装置４２を操作して電話発信（発呼）を指示すると、無線通信回路３２は、プロセッサ３０の指示の下、電話発信処理を実行し、アンテナ３４を介して電話発信信号を出力する。電話発信信号は、基地局および通信網を経て相手の電話機に送信される。そして、相手の電話機において着信処理が行われると、通信可能状態が確立され、プロセッサ３０は通話処理を実行する。

Ａ／Ｄ変換器３６には図１に示すマイク２０が接続される。マイク２０からの音声信号はこのＡ／Ｄ変換器３６を通してディジタルの音声データとしてプロセッサ３０に入力される。一方、第１Ｄ／Ａ変換器３８には第１スピーカ１８が接続され、第２Ｄ／Ａ変換機４０には第２スピーカ２６が接続される。第１Ｄ／Ａ変換器３８および第２Ｄ／Ａ変換機４０は、ディジタルの音声データを音声信号に変換して、アンプを介して第１スピーカ１８および第２スピーカ２６に与える。したがって、音声データの音声が第１スピーカ１８および第２スピーカ２６から出力される。そして、通話処理が実行されている状態では、マイク２０によって集音された音声が相手の電話機に送信され、相手の電話機で集音された音声が、第１スピーカ１８から出力される。また、着信音や、後述する音声操作における音声が、第２スピーカ２６から出力される。

表示ドライバ４４には図１に示すディスプレイ１４が接続され、ディスプレイ１４はプロセッサ３０から出力される映像または画像データに従って映像または画像を表示する。つまり、表示ドライバ４４は、プロセッサ３０の指示の下、当該表示ドライバ４４に接続されたディスプレイ１４の表示を制御する。また、表示ドライバ４４は表示する画像データを一時的に記憶するビデオメモリを含む。ディスプレイ１４には、たとえばＬＥＤなどを光源とするバックライトが設けられており、表示ドライバ４４はプロセッサ３０の指示に従って、そのバックライトの明るさや、点灯／消灯を制御する。

タッチパネル制御回路５０には、図１に示すタッチパネル１６が接続される。タッチパネル制御回路５０は、タッチパネル１６に必要な電圧などを付与するとともに、ユーザによるタッチの開始を示すタッチ開始信号、ユーザによるタッチの終了を示す終了信号、およびタッチ位置を示す座標データをプロセッサ３０に入力する。したがって、プロセッサ３０はこの座標データに基づいて、ユーザが、どのアイコンやキーにタッチしたかを判断することができる。

実施例では、タッチパネル１６は、その表面と表面に接近した指などの物体との間に生じる静電容量の変化を検出する静電容量方式のタッチパネルである。タッチパネル１６は、たとえば１本または複数本の指がタッチパネル１６に触れたことを検出する。そのため、タッチパネル１６はポインティングデバイスとも呼ばれる。タッチパネル制御回路５０は検出部として機能し、タッチパネル１６のタッチ有効範囲内でのタッチ操作を検出して、そのタッチ操作の位置を示す座標データをプロセッサ３０に出力する。つまり、ユーザは、タッチパネル１６の表面に対してタッチ操作を行うことによって、操作位置や、操作方向などを携帯電話機１０に入力する。なお、本実施例のタッチ操作には、タップ操作、ロングタップ操作、フリック操作、スライド操作などが含まれる。

カメラモジュール５２は制御回路、レンズおよびイメージセンサなどを含む。プロセッサ３０は、カメラ機能を実行する操作がされると、制御回路およびイメージセンサを起動する。そして、イメージセンサから出力された信号に基づく画像データがプロセッサ３０に入力されると、被写体に対応するプレビュー画像がディスプレイ１４に表示される。

また、携帯電話機１０は、マイク２０に入力された音声を認識する音声認識機能および合成音声のデータベースに基づいて音声メッセージを出力する発話機能と、これらの機能を利用する音声操作機能とを有している。そして、本実施例の音声操作機能は、自然言語の音声入力に対応している。

たとえば、音声操作機能が実行されている携帯電話機１０に対して、ユーザが「自宅に電話をかける。」と携帯電話機１０に音声を入力すれば、音声認識機能によってユーザの音声が認識される。また、認識された音声に基づいて、携帯電話機１０は、発話機能によって「自宅に発信しますか。」と応答メッセージを出力する。このとき、ユーザが「発信する」と応答すれば、携帯電話機１０は、アドレス帳から自宅として登録されている電話番号を読み出し、その電話番号に対して発呼する。このように、音声操作機能が実行されていれば、ユーザはタッチパネル１６に対するタッチ操作を行うことなく、携帯電話機１０を操作できる。そして、ユーザは、音声ガイダンス（応答メッセージ）の内容を聞くことで、携帯電話機１０の状態を把握しやすくなる。

図３は入力音声を認識するためのローカルデータベース３３２（図９参照）である。図３を参照して、ローカルデータベース３３２は、文字列と特徴量との列を含む。文字列の列には、たとえば「カメラ」および「メール」などの文字列が記録されおり、対応する特徴量の内容を表す。特徴量の列には、特徴量が格納されている場所を示すメモリアドレスが記録されている。特徴量とは、特定の文字列を発声した音声データから抽出されたものである。そして、入力音声が認識される際、この特徴量が利用される。

具体的に説明すると、ユーザが音声入力を行い音声認識の処理が開始されると、入力音声からユーザの特徴量（以下、単にユーザ特徴量）が抽出され、ローカルデータベース３３２から読み出された各特徴量と比較される。ユーザ特徴量と各特徴量との各比較結果は尤度として算出され、最も大きい尤度と対応する特徴量が特定される。そして、特定された特徴量と対応する文字列が、ローカルデータベース３３２から読み出され、読み出された文字列が認識結果となる。たとえば、ユーザが音声入力を行い、入力音声のユーザ特徴量に基づいて読み出された文字列が「カメラ」であれば、認識結果は「カメラ」となる。

ただし、最も大きい尤度が所定値以下の場合、つまり入力音声がローカルデータベースに登録されていない場合、入力音声をサーバ１０２に送信し、サーバ１０２で音声認識処理が実行されてもよい。そして、サーバ１０２で行われた音声認識の結果が、携帯電話機１０に返送される。このように、音声入力に対して、携帯電話機１０にてローカルデータベースを利用した一部の音声認識処理を行うことで、音声認識の結果を得るまでの時間を短縮することが出来る。また、サーバ１０２に係る音声認識処理の負担を軽減することも出来る。

図４はユーザが携帯電話機１０で利用したアプリケーションの履歴を示す利用履歴データの構成を示す図解図である。利用履歴データには、日時の列とアプリケーション名の列とが含まれる。日時の列には、アプリケーションが実行された日時が記録される。アプリケーション名の列には、実行されたアプリケーションの名称が記録される。たとえば、２０ＸＸ年８月ＸＸ日、１３時１９分３３秒にＳＭＳが実行されると、日時の列には、その時の日時を表す文字列として「20XX/08/XX 13:19:33」が記録され、アプリケーション名の欄には「ＳＭＳ」が記録される。

なお、日時を表す文字列、つまり時刻情報はＲＴＣ３０ａから取得される。また、利用履歴データは、ユーザログと呼ばれることもある。

図５は各アプリケーションの利用頻度を示すアプリケーションテーブルの構成の一例を示す図解図である。図５を参照して、アプリケーションテーブルには、カテゴリの列、アプリケーション名の列および利用頻度の列が含まれる。カテゴリの列には、インストールされているアプリケーションのカテゴリとして、「カメラ」および「メール」などが記録される。アプリケーション名の列には、カテゴリの欄に対応してアプリケーションの名称が記録される。たとえば、「カメラ」のカテゴリに対応するアプリケーションとして「標準カメラ」および「ＡＲカメラ」が記録され、「メール」のカテゴリに対応するアプリケーションとして「電子メール」、「ＳＭＳ」および「ＭＭＳ」が記録される。利用頻度の列には、アプリケーション名の欄に対応して、所定期間（たとえば、一週間）内でそのアプリケーションが実行された回数（頻度）が記録される。

たとえば、カテゴリが「カメラ」に分類される、「標準カメラ」のアプリケーションは一週間以内に７回起動されており、「ＡＲカメラ」のアプリケーションは一週間以内に１回起動されている。また、カテゴリが「メール」に分類される「電子メール」および「ＭＭＳ」は一週間以内に、それぞれ４回ずつ起動され、「ＳＭＳ」は一週間以内に３回起動されている。

図６を参照して、ディスプレイ１４は状態表示領域７０および機能表示領域７２を含み、機能表示領域７２には待機画面が表示されている。状態表示領域７０には、アンテナ３４による電波受信状態を示すアイコン（ピクト）、二次電池の残電池容量を示すアイコンおよび日時が表示される。機能表示領域７２には、アプリケーションの実行や、携帯電話機１０の設定を変更するためのアイコンが表示される。

ここで、音声操作機能が実行されると、図７（Ａ）に示すように、音声操作アイコンＶＩが状態表示領域７０に表示される。上述したように、音声操作機能は、自然言語の音声入力に対応している。ところが、自然言語の音声入力の場合、ユーザの音声入力による指示が曖昧になってしまうことがある。曖昧な音声入力の例として、たとえば「カメラを使いたい」のように、アプリケーション名ではなく、カテゴリが指示されることがある。このような入力がされた場合、カメラのカテゴリには「標準カメラ」および「ＡＲカメラ」が含まれているため、携帯電話機１０はどのアプリケーションを実行すればよいか判断できない。

そこで、本実施例では、各アプリケーションの利用頻度に基づいて、曖昧な音声入力に対応する。具体的には、アプリケーションテーブルに記録される、各アプリケーションの利用頻度に基づいて、音声入力の結果が絞り込まれる。

たとえば、図７（Ｂ）に示すように、ユーザが「カメラを使いたい」と音声入力を行った場合、音声認識の認識結果には「カメラ」が含まれるため、「カメラ」が検索語として抽出される。検索語が抽出されると、その検索語がアプリケーションテーブルに含まれるか検索される。ここでは、検索語がカテゴリである「カメラ」と一致するため、「カメラ」の内容、つまり「標準カメラ」および「ＡＲカメラ」の２つが検索結果（特定情報）として取得される。

そして、検索結果が複数の場合、各アプリケーションに対応する利用頻度に基づいて、検索結果が絞り込まれる。ここでは、「標準カメラ」の利用頻度が「７」であり、「ＡＲカメラ」の利用頻度が「１」であるため、「標準カメラ」だけに絞り込まれる。したがって、携帯電話機１０は、「カメラを起動します」の音声メッセージを出力した後に、「標準カメラ」を起動する。

図７（Ｃ）を参照して、「標準カメラ」が起動すると、ディスプレイ１４にはスルー画像表示される。また、撮影操作を行うための撮影キーＳＫが表示される。そして、撮影キーＳＫに対してタッチ操作がされると、撮影処理が行われる。なお、撮影キーＳＫが表示されている状態で、ユーザが「撮影する」と音声入力を行っても、撮影処理が行われる。

このように、ユーザの利用履歴に基づいて検索結果を絞り込むことで、音声操作の利便性を向上させることが出来る。

次に、絞り込まれたアプリケーションが複数の場合について説明する。図８（Ａ），（Ｂ）を参照して、音声操作機能が実行されている状態でユーザが「メールを送る」と音声入力を行った場合、「メール」が検出語として抽出される。また、この検索語に基づいて、「電子メール」、「ＳＭＳ」および「ＭＭＳ」の３つが検索結果として取得され、利用頻度に基づいて絞り込まれる。ところが、「電子メール」および「ＭＭＳ」の利用頻度はそれぞれが同じ値であり、かつ最大値であるため、１つに絞り込むことが出来ない。そのため、携帯電話機１０は、「複数の候補があります」と音声メッセージを出力したのちに、アプリケーションの候補一覧をディスプレイ１４に表示する。

図８（Ｃ）を参照して、ディスプレイ１４には、候補一覧として、電子メールを実行するための第１実行キーＡＫ１およびＭＭＳを実行するための第２実行キーＡＫ２が表示される。そして、ユーザは、表示されている候補一覧のうち、実行しようとしているアプリケーションと対応する実行キーＡＫを操作すれば、所望のアプリケーションを利用することが出来る。

このように、検索結果を絞り込むことが出来ない場合は、候補一覧を表示することで、ユーザに利用するアプリケーションを選択させることが出来る。

また、ユーザの音声入力でアプリケーション名が指示された場合は、認識結果に対応するアプリケーションが実行される。ただし、所定時間（たとえば、１５秒）以内にアプリケーションが終了されると、音声認識の認識結果のおける２番目の候補に基づいて、候補一覧が表示される。

たとえば、音声認識の認識結果において最も尤度が高い特徴量に対応する文字列が「ＳＭＳ」であり、次に尤度が高い特徴量に対応する文字列が「ＭＭＳ」であった場合、認識結果は「ＳＭＳ」となり、ＳＭＳが実行される。この状態で、所定時間以内にＳＭＳが終了されると、音声認識の認識結果において次に尤度が高い「ＭＭＳ」が検索語として再取得される。検索語が再取得されると、アプリケーションテーブルにおいて検索語が再検索され、ここでは「ＭＭＳ」のアプリケーション名が検索結果として再取得される。検索結果としてアプリケーション名が再取得された場合は、そのアプリケーションが属するカテゴリのアプリケーションが候補一覧として表示される。つまり、「電子メール」、「ＳＭＳ」および「ＭＭＳ」を含む候補一覧が、ディスプレイ１４に表示される。

また、音声入力に基づく検索語によって検索した結果、検索結果を取得することが出来なければ、つまり検索語に対応するアプリケーションがアプリケーションテーブルに登録されていなければ、ブラウザ機能が実行される。ブラウザ機能が実行されると、所定の検索サイトに接続され、検索サイトにおいて検索語が検索される。そして、検索サイトで検索された結果がディスプレイ１４に表示される。つまり、アプリケーションテーブルに登録されていない言葉が音声入力されたとしても、ユーザに対して検索語に基づく情報を提供することが出来る。

なお、検索結果の全てのアプリケーションの利用頻度が同じであっても、候補一覧が表示されてもよい。また、他の実施例では、各アプリケーションの利用頻度の差が所定値以下（たとえば、「１」）の場合でも、候補一覧が表示されてもよい。

また、音声操作機能は、メニューキー２２ｃが長押しされると、音声操作機能が実行される。ただし、他の実施例では、音声操作機能を実行するためのソフトキー（アイコン）がディスプレイ１４に表示されていてもよい。

また、アプリケーションが実行されているときに、「違う」または「ほかのアプリケーション」などの音声が入力されると、実行中のアプリケーションは終了される。また、他の実施例では、アプリケーションが終了した後に、音声操作機能が再び実行されてもよい。

以上で実施例の特徴を概説したが、以下には、図９に示すメモリマップおよび図１０、図１１−図１３に示すフロー図を用いて詳細に説明する。

図９を参照して、図２に示すＲＡＭ４８には、プログラム記憶領域３０２とデータ記憶領域３０４とが形成される。プログラム記憶領域３０２は、先に説明したように、フラッシュメモリ４６（図２）に予め設定しているプログラムデータの一部または全部を読み出して記憶（展開）しておくための領域である。

プログラム記憶領域３０２には、利用履歴を記録するための利用履歴記録プログラム３１０、音声入力によって携帯電話機１０を操作するための音声操作プログラム３１２および入力音声を認識するための音声認識プログラム３１４などが記憶される。なお、プログラム記憶領域３０２には、各アプリケーションを実行するためのプログラムも含まれる。

続いて、ＲＡＭ４８のデータ記憶領域３０４には、音声認識バッファ３３０が設けられると共に、ローカルデータベース３３２、利用履歴データ３３４およびアプリケーションテーブル３３６が記憶される。また、データ記憶領域３０４には、誤判定カウンタ３３８も設けられる。

音声認識バッファ３３０には、音声入力された音声のデータおよび音声認識の結果が一時的に記憶される。ローカルデータベース３３２は、たとえば図３に示す構成のデータベースである。利用履歴データ３３４は、たとえば図４に示す構成のデータである。アプリケーションテーブル３３６は、たとえば図５に示す構成のテーブルである。

誤判定カウンタ３３８は、音声操作によってアプリケーションが実行されてからの時間をカウントするためのカウンタである。誤判定カウンタ３３８は初期化されると、カウントを開始し所定時間（たとえば、１５秒）が経過すると満了する。そのため、誤判定カウンタ３４０は、誤判定タイマと呼ばれることもある。

なお、データ記憶領域３０４には、コピーまたは切り取りによって記憶される文字列のデータや、待機状態で表示される画像データなどが記憶されると共に、携帯電話機１０の動作に必要なカウンタや、フラグも設けられる。

プロセッサ３０は、Ａｎｄｒｏｉｄ（登録商標）およびＲＥＸなどのＬｉｎｕｘ（登録商標）ベースのＯＳや、その他のＯＳの制御下で、図１０に示す履歴記録処理、図１１−図１３に示す音声操作処理などを含む、複数のタスクを並列的に処理する。

図１０を参照して、履歴記録処理は、携帯電話機１０の電源がオンにされると、開始される。ステップＳ１でプロセッサ３０は、アプリケーションが実行されたか否かを判断する。たとえば、アプリケーションを実行する操作がされたかが判断される。ステップＳ１で“ＮＯ”であれば、つまりアプリケーションが実行されなければ、プロセッサ３０はステップＳ１の処理を繰り返す。一方、ステップＳ１で“ＹＥＳ”であれば、つまりアプリケーションが実行されると、プロセッサ３０は、ステップＳ３で日時を取得し、ステップＳ５でアプリケーション名を取得する。つまり、アプリケーションが実行されると、アプリケーションが実行された日時とアプリケーション名とが取得される。なお、日時はＲＴＣ３０ａが出力する時刻情報を利用して取得される。

続いて、ステップＳ７でプロセッサ３０は、利用履歴を記録する。つまり、上記ステップＳ３，Ｓ５で取得された日時とアプリケーション名とを関連付けて、アプリケーションテーブル３３６に記録する。なお、ステップＳ７の処理が終了すると、プロセッサ３０はステップＳ１に戻る。

図１１は、音声操作処理の一部のフロー図である。音声操作機能を実行する操作がされると、プロセッサ３０は、ステップＳ２１でアイコンを表示する。つまり、情報表示領域７０に、音声操作アイコンＶＩが表示される。続いて、ステップＳ２３でプロセッサ３０は、アプリケーションテーブルの利用頻度を更新する。つまり、アプリケーションテーブルの利用頻度の列の値が、現時点から所定期間内に利用されたアプリケーションの利用頻度に基づいて更新される。具体的には、アプリケーションテーブルの利用頻度の列に記録されている数値が一度「０」に置き換えられる。その後、利用履歴データ３３４に記録されている所定期間分の利用履歴が読み出され、各アプリケーションの利用頻度が再び記録される。

続いて、ステップＳ２５でプロセッサ３０は、音声が入力されたか否かを判断する。つまり、ユーザが発した音声がマイク２０によって収音されたかが判断される。ステップＳ２５で“ＮＯ”であれば、つまり音声が入力されていなければ、プロセッサ３０はステップＳ２５の処理を繰り返す。ステップＳ２５で“ＹＥＳ”であれば、つまり音声が入力されると、ステップＳ２７でプロセッサ３０は、音声認識処理を実行する。つまり、入力された音声からユーザ特徴量を抽出して各特徴量との尤度を求め、最も尤度が高い特徴量と対応する文字列が認識結果とされる。

続いて、ステップＳ２９でプロセッサ３０は、認識結果から検索語を抽出する。たとえば、音声入力の認識結果から、「カメラ」の文字列が検索語として抽出される。続いて、ステップＳ３１でプロセッサ３０は、検索語に基づいて検索する。つまり、検索語がアプリケーションテーブルに含まれているかを検索する。そして、検索語がアプリケーションテーブルに記録される文字列のうち、いずれかと一致すれば、一致した文字列に基づいて検索結果が得られる。

続いて、図１２を参照して、ステップＳ３３でプロセッサ３０は、検索結果はカテゴリか否かを判断する。つまり、プロセッサ３０は、検索語がアプリケーションテーブルの「カテゴリ」の列の文字列と一致したかを判断する。ステップＳ３３で“ＮＯ”であれば、つまり検索結果がカテゴリではなければ、ステップＳ５１に進む。

また、ステップＳ３３で“ＹＥＳ”であれば、たとえば検索結果が「カメラ」であり、アプリケーションテーブルの「カメラ」のカテゴリと一致していた場合、ステップＳ３５でプロセッサ３０は、検索結果に対応するカテゴリの内容を取得する。たとえば、「カメラ」のカテゴリに含まれる、「標準カメラ」および「ＡＲカメラ」が取得される。なお、ステップＳ３５の処理を実行するプロセッサ３０は取得部として機能する。

続いて、ステップＳ３７でプロセッサ３０は、複数のアプリケーションが含まれているか否かを判断する。つまり、プロセッサ３０は、ステップＳ３５で取得されたカテゴリの内容に複数のアプリケーションが含まれているかを判断する。ステップＳ３７で“ＮＯ”であれば、つまり取得されたカテゴリの内容に複数のアプリケーションが含まれていなければ、プロセッサ３０はステップＳ４９に進む。

また、ステップＳ３７で“ＹＥＳ”であれば、複数のアプリケーションが含まれていれば、ステップＳ３９でプロセッサ３０は、絞り込み処理を実行する。つまり、複数のアプリケーションに対応する利用履歴に基づいて、最も利用履歴が多いアプリケーションを選択する。そして、選択されたアプリケーションが、絞り込まれた結果となる。なお、ステップＳ３９の処理を実行するプロセッサ３０は絞り込み部として機能する。

続いて、ステップＳ４１でプロセッサ３０は、絞り込んだ結果が１つだけか否かを判断する。つまり、プロセッサ３０は、利用履歴に基づいて絞り込まれたアプリケーションが１つだけであるかを判断する。ステップＳ４１で“ＹＥＳ”であれば、たとえば絞り込まれたアプリケーションが「標準カメラ」だけであれば、プロセッサ３０はステップＳ４９に進む。

また、ステップＳ４１で“ＮＯ”であれば、たとえば絞り込まれたアプリケーションが「電子メール」および「ＭＭＳ」であれば、ステップＳ４３でプロセッサ３０は、候補一覧を表示する。たとえば、図８（Ｃ）に示すように、候補一覧として電子メールおよびＭＭＳをそれぞれ実行するために、アプリケーション名が書かれた第１実行キーＡＫ１および第２実行キーＡＫ２がディスプレイ１４に表示される。なお、ステップＳ４３の処理を実行するプロセッサ３０は表示部として機能する。

続いて、ステップＳ４５でプロセッサ３０は、選択されたか否かを判断する。つまり、表示された候補一覧に基づいて、任意のアプリケーションが選択されたかが判断される。具体的には、プロセッサ３０は、表示された候補一覧のなかから、任意の実行キーＡＫに対してタッチ操作がされたかを判断する。ステップＳ４５で“ＮＯ”であれば、つまりアプリケーションが選択されていなければ、プロセッサ３０はステップＳ４５の処理を繰り返す。一方、ステップＳ４５で“ＹＥＳ”であれば、たとえば「電子メール」に対応する第１実行キーＡＫ１に対してタッチ操作がされると、ステップＳ４７でプロセッサ３０は、選択されたアプリケーションを実行する。たとえば、ステップＳ４７では、電子メールが実行される。そして、ステップＳ４７の処理が終了すれば、プロセッサ３０は音声操作処理を終了する。

また、検索結果のカテゴリに含まれるアプリケーションが１つであるか、絞り込み処理によって絞り込まれたアプリケーションが１つであれば、プロセッサ３０はステップＳ４９で、アプリケーションを実行する。たとえば、絞り込まれたアプリケーションが「標準カメラ」だけであれば、プロセッサ３０は標準カメラを実行する。そして、ステップＳ４９の処理が終了すれば、プロセッサ３０は音声操作処理を終了する。

なお、ステップＳ４７およびステップＳ４９の処理を実行するプロセッサ３０は実行部として機能する。

図１３を参照して、検索結果がカテゴリと一致していなければ、ステップＳ５１でプロセッサ３０は、検索結果はアプリケーション名か否かを判断する。つまり、ステップＳ５１で“ＹＥＳ”であれば、たとえばアプリケーションテーブルの「ＳＭＳ」と一致すれば、ステップＳ５３でプロセッサ３０は、検索結果に対応するアプリケーション名を取得する。たとえば、アプリケーション名として「ＳＭＳ」が取得される。

続いて、ステップＳ５５でプロセッサ３０は、アプリケーションを実行する。たとえば、取得されたアプリケーション名（「ＳＭＳ」）に基づいて、ＳＭＳが実行される。続いて、ステップＳ５７でプロセッサ３０は、誤判定タイマを初期化する。つまり、アプリケーションが実行されてからの時間を計測するために、誤判定カウンタ３３８が初期化される。

続いて、ステップＳ５９でプロセッサ３０は、誤判定タイマが満了したか否かを判断する。つまり、アプリケーションが実行されてから所定時間が経過したかが判断される。ステップＳ５９で“ＮＯ”であれば、つまりアプリケーションが実行されてから所定時間が経過していなければ、ステップＳ６１でプロセッサ３０は、終了が指示されたか否かを判断する。つまり、プロセッサ３０は、実行中のアプリケーションを終了させる音声入力や、入力操作があるかを判断する。ステップＳ６１で“ＮＯ”であれば、つまり実行中のアプリケーションを終了する操作がされなければ、プロセッサ３０はステップＳ５９に戻る。また、ステップＳ５９で“ＹＥＳ”であれば、つまりアプリケーションが実行されてから所定時間が経過すれば、プロセッサ３０は音声操作処理を終了する。

ステップＳ６１で“ＹＥＳ”であれば、たとえば音声により「違う」と入力されると、ステップＳ６３でプロセッサ３０は、認識結果を再取得する。ステップＳ６３では、まず実行中のアプリケーションが終了される。次に、音声認識バッファ３３０から、音声認識の認識結果のおける２番目の候補が取得される。続いて、プロセッサ３０はステップＳ４３に進み、候補一覧を表示する。たとえば、ステップＳ４３では、再取得された認識結果が「ＭＭＳ」である場合、ＭＭＳが分類されているカテゴリに含まれているアプリケーションが、候補一覧としてディスプレイ１４に表示される。

また、検索結果がアプリケーション名ではなければ、つまり検索語がアプリケーションテーブルに含まれていなければ、プロセッサ３０は、ステップＳ６５でブラウザ機能を実行し、ステップＳ６７で検索サイトに接続する。なお、ステップＳ６５の処理を実行するプロセッサ３０はブラウザ機能実行部として機能し、ステップＳ６７の処理を実行するプロセッサ３０は検索部として機能する。

続いて、プロセッサ３０は、ステップＳ６９で検索語を検索サイトで検索し、ステップＳ７１でｗｅｂ（ウェブ）ページを表示する。たとえば、検索語が「晩御飯」であれば、検索サイトで「晩御飯」の文字列を含むサイトが検索され、その検索結果を示すｗｅｂページがディスプレイ１４に表示される。そして、ステップＳ７１の処理が終了すれば、プロセッサ３０は音声操作処理を終了する。なお、ステップＳ７１の処理を実行するプロセッサ３０は、ｗｅｂページ表示部として機能する。

＜第２実施例＞
第２実施例では、音声操作によってブラウザ機能が実行されたときに、ユーザのｗｅｂページの閲覧頻度に基づいて、ｗｅｂページが表示される。なお、携帯電話機１０の基本的な構成については、第１実施例と略同じであるため、詳細な説明は省略する。

図１４はユーザがブラウザ機能によって閲覧したｗｅｂページの履歴を示す閲覧履歴データの構成を示す図解図である。図１４を参照して、閲覧履歴データには、日時の列およびＵＲＬの列が含まれる。日時の列には、ｗｅｂページが閲覧された日時が記録される。ＵＲＬの列には、閲覧したｗｅｂページに対応するＵＲＬが記録される。たとえば、２０ＸＸ年７月１７日、１４時３５分４０秒に、「http://sports.***.com/」に対応するｗｅｂページが、ブラウザ機能によって表示されると、時刻の欄には、その時の日時を表す文字列として「20XX/07/17 14:35:42」が記録され、ＵＲＬの欄には「http://sports.***.com/」が記録される。

図１５はｗｅｂページの閲覧頻度が記録されるＵＲＬテーブルの構成の一例を示す図解図である。図１５を参照して、ＵＲＬテーブルには、ＵＲＬの列および閲覧頻度の列が含まれる。ＵＲＬの列には、今までに閲覧されたｗｅｂページのＵＲＬが記録される。閲覧頻度の列には、ＵＲＬの欄に対応して、記録されるＵＲＬに対応するｗｅｂページが所定期間内に閲覧された頻度が記録される。たとえば、図１５に示すＵＲＬテーブルによれば、「http://sports.***.com/」に対応するｗｅｂページは、所定期間内に３０回閲覧されたことが分かる。

次に、音声入力によってブラウザ機能が実行される場合について説明する。図１６（Ａ），（Ｂ）を参照して、音声操作機能が実行されている状態でユーザが「昨日の野球の試合結果を教えて」と音声入力を行った場合、「野球」および「試合結果」が検索語として抽出される。２つの検索語はアプリケーションテーブルには含まれていないため、ブラウザ機能が実行される。このとき、ＵＲＬテーブル３４２（図１７参照）に基づいて最も閲覧頻度が高いｗｅｂページに接続される。そして、接続されたｗｅｂページで検索語が検索され、その検索結果がディスプレイ１４に表示される。

図１６（Ｃ）を参照して、閲覧頻度が最も高い「＊＊＊ｓｐｏｒｔｓ」のｗｅｂページで検索された、前日の野球の試合結果がディスプレイ１４に表示される。このように、ユーザのｗｅｂページの閲覧頻度に基づいて、検索結果を提供することが出来る。

なお、ｗｅｂページで検索語を検索する場合、ページ内に検索フォームが設けられていればその検索フォームを利用して、検索結果が取得される。一方、検索フォームが設けられていない場合は、文字列検索によって検索語と一致するリンクを特定し、そのリンク先のｗｅｂページが検索結果として取得される。

以上で第２実施例の特徴を概説したが、以下には、図１７に示すメモリマップおよび図１８に示すフロー図を用いて詳細に説明する。

第２実施例のＲＡＭ４８のデータ記憶領域３０４には、閲覧履歴データ３４０およびＵＲＬテーブル３４２が記憶される。閲覧履歴データ３４０は、たとえば図１４に示す構成のデータである。ＵＲＬテーブル３４２は、たとえば図１５に示す構成のテーブルである。

図１８は、第２実施例の音声操作処理のフロー図の一部である。なお、第２実施例の音声操作処理では、ステップＳ２１−Ｓ６５は、第１実施例と同じであるため、詳細な説明は省略する。

ステップＳ６５でブラウザ機能が実行されると、ステップＳ９１でプロセッサ３０は、閲覧頻度が高いｗｅｂページに接続する。つまり、ＵＲＬテーブル３４２を読み出し、最も閲覧頻度が高いＵＲＬに対応するｗｅｂページに接続する。たとえば、ステップＳ９１では、図１５に示すＵＲＬテーブル３４２に基づいて、「http://sports.***.com/」に対応するｗｅｂページに接続される。

続いて、ステップＳ９３でプロセッサ３０は、検索語を接続したｗｅｂページで検索する。たとえば、検索語が「野球」および「試合結果」であれば、これらの検索語が接続されたｗｅｂページ内の検索フォームなどを利用して検索される。

続いて、ステップＳ７１でプロセッサ３０は、ｗｅｂページを表示する。たとえば、図１６（Ｃ）に示すように、最も閲覧頻度が高いｗｅｂページにおいて検索語が検索された結果が、ディスプレイ１４に表示される。

なお、第１実施例および第２実施例については、任意に組み合わせることが可能であり、その組み合わせについては容易に想像できるため、ここでの詳細な説明は省略する。

また、アプリケーションのカテゴリは、「カメラ」および「メール」以外にも、「ゲーム」および「地図」などが含まれていてもよい。

また、携帯電話機１０がＧＰＳ回路およびＧＰＳアンテナをさらに備え、現在位置を測位することが出来る場合、アプリケーションの利用履歴には、位置情報が含まれていてもよい。そして、検索結果を絞り込む場合に、この位置情報が利用されてもよい。具体的には、複数のアプリケーションのうち、現在位置から所定範囲内で実行されたことのあるアプリケーションに絞り込まれてから、利用履歴に基づいてアプリケーションがさらに絞り込まれる。たとえば、自宅では標準カメラのアプリケーションが主に利用されるが、自宅外ではＡＲカメラが主に利用される場合、自宅外で音声操作機能によって「カメラ」が実行されると、ＡＲカメラが自動的に実行されるようになる。

また、他の実施例では、携帯電話機１０は、特定情報に対する絞り込み処理の結果としてＡＲカメラおよび標準カメラが得られた場合、２つのアプリケーションの選択画面をディスプレイ１４に表示してもよい。その際、自宅外であれば、ＡＲカメラは上位の位置に表示し、標準カメラはＡＲカメラの下位の位置に表示する。一方、自宅であれば、標準カメラは上位の位置に表示し、ＡＲカメラは標準カメラの下位の位置に表示する。

さらに、その他の実施例としては、アプリケーション名を上位の位置に表示せずに、アプリケーション名を示す文字列の色やサイズが変更されてもよい。

このように処理することで、ユーザは、複数の候補が表示されたとしても、特定の場所で主に利用するアプリケーションが、どのアプリケーションであるかを容易に認識することが出来る。つまり、ユーザは、特定の場所で主に利用するアプリケーションを容易に選択することが出来る。

上記実施例では、携帯電話機１０にローカルデータベース（音声認識用辞書）を設けることで、一次的な音声認識処理は携帯電話機１０で行い、二次的な音声認識処理はサーバ１０２で実行したが、他の実施例では携帯電話機１０だけで音声認識処理を行うようにしてもよいし、サーバ１０２だけで音声認識処理を行うようにしてもよい。

また、携帯電話機１０が視線入力に対応している場合、キー操作およびタッチ操作に加えて、視線操作によって携帯電話機１０が操作されてもよい。

また、本実施例で用いられたプログラムは、データ配信用のサーバのＨＤＤに記憶され、ネットワークを介して携帯電話機１０に配信されてもよい。また、ＣＤ，ＤＶＤ，ＢＤなどの光学ディスク、ＵＳＢメモリおよびメモリカードなどの記憶媒体に複数のプログラムを記憶させた状態で、その記憶媒体が販売または配布されてもよい。そして、上記したサーバや記憶媒体などを通じてダウンロードされた、プログラムが本実施例と同等の構成の情報端末にインストールされた場合、本実施例と同等の効果が得られる。

そして、本明細書中で挙げた、具体的な数値は、いずれも単なる一例であり、製品の仕様変更などに応じて適宜変更可能である。

１０ … 携帯電話機
１４ … ディスプレイ
１６ … タッチパネル
３０ … プロセッサ
３０ａ … ＲＴＣ
４２ … 入力装置
４６ … フラッシュメモリ
４８ … ＲＡＭ
１００ … ネットワーク
１０２ … サーバ

Claims

音声入力による操作が可能である、情報端末であって、
複数のアプリケーションおよびアプリケーションの利用履歴を記憶する記憶部、
入力された音声に基づいて、実行するアプリケーションを特定するための特定情報を取得する取得部、
前記利用履歴に基づいて、取得された特定情報を絞り込む絞り込み部、および
前記絞り込み部によって絞り込まれた結果に基づいて、アプリケーションを実行する実行部を備える、情報端末。
前記絞り込み部によって絞り込まれた結果を表示する表示部を備え、
前記実行部は、前記絞り込まれた結果に対して選択操作がされたとき、選択された結果に基づいてアプリケーションを実行する、請求項１記載の情報端末。
前記表示部は、前記絞り込み部によって絞り込まれた結果が複数あるとき、その結果を表示する、請求項２記載の情報端末。
前記取得部が特定情報を取得できなかったとき、ネットワークと接続するブラウザ機能を実行するブラウザ実行部、
入力された音声に基づく検索語を、前記ブラウザ機能によって接続された前記ネットワークを利用して検索する検索部、および
前記検索部によって検索されたウェブページを表示するウェブページ表示部をさらに備える、請求項１ないし３のいずれかに記載の情報端末。
前記利用履歴には、ウェブページの閲覧履歴が含まれ、
前記ウェブページ表示部は、前記閲覧履歴に基づいてウェブページを表示する、請求項４記載の情報端末。
複数のアプリケーションおよびアプリケーションの利用履歴を記憶する記憶部を有し、音声入力による操作が可能である、情報端末のプロセッサを、
入力された音声に基づいて、実行するアプリケーションを特定するための特定情報を取得する取得部、
前記利用履歴に基づいて、取得された特定情報を絞り込む絞り込み部、および
前記絞り込み部によって絞り込まれた結果に基づいて、アプリケーションを実行する実行部として機能させる、音声操作プログラム。
複数のアプリケーションおよびアプリケーションの利用履歴を記憶する記憶部を有し、音声入力による操作が可能である、情報端末の音声操作方法であって、
入力された音声に基づいて、実行するアプリケーションを特定するための特定情報を取得し、
前記利用履歴に基づいて、取得された特定情報を絞り込み、そして
絞り込まれた結果に基づいて、アプリケーションを実行する、音声操作方法。