JP2010091962A

JP2010091962A - 情報処理装置，インタフェース提供方法およびプログラム

Info

Publication number: JP2010091962A
Application number: JP2008264227A
Authority: JP
Inventors: Yusuke Katayama; 雄介片山; Ichiro Akahori; 一郎赤堀
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2008-10-10
Filing date: 2008-10-10
Publication date: 2010-04-22
Anticipated expiration: 2028-10-10
Also published as: JP5035208B2

Abstract

【課題】ユーザの音声による選択項目の選択を実現するためのユーザインタフェースとしての利便性を従来よりも向上させる。
【解決手段】まず、ユーザの音声が、いずれの選択経路におけるいずれの選択項目に対応するかを推定し、そうして推定した選択項目をユーザが選択したものとみなしている（ｓ２１０）。そして、その選択項目が選択されることにより表示させるべき別階層のメニューへとカレントメニューを遷移させ（ｓ２３０〜ｓ２４０）、これを表示部４に表示させている。このように、その音声から推定される選択項目を、そのユーザが選択した項目として、メニューの表示を随時変更していくことができる。
【選択図】図４

Description

本発明は、第１階層から第ｎ階層（ｎは任意の数）までの階層構造をなす複数のメニューそれぞれが有する各選択項目をユーザに選択させることにより、その選択項目を有するメニューから別階層のメニューへと遷移する、ように構成されたユーザインタフェースに関する。

従来、ユーザが何を発話すればよいのか戸惑うことなく、ユーザの音声による選択項目の選択を実現するために、ユーザによるボタン操作に応じた項目からなるメニューを表示部に表示させると共に音声の入力を開始し、そうして入力された音声で識別された項目に対応する処理を実行する、といったシステム（従来システム１）が提案されている（特許文献１参照）。

一方、ユーザがボタン操作を行って音声入力を開始することが困難である場合や、ボタン操作にわずらわしさを感じる等の問題に対して、ユーザが明示的にボタン操作を行うことなく、ユーザの発話を常時認識するシステム（従来システム２）が提案されている（例えば特許文献２）。
特開２００７−１７１８０９号公報特開２０００−１９４３９３号公報

しかし上述した従来システム１は、ユーザによるボタン操作がなければ、その後に識別すべき項目がメニューとして表示されないため、従来システム２のようにボタン操作を行わない常時認識システムへ適用できないという課題がある。

さらに、複数のメニューを階層構造にしたユーザインタフェース装置において複数の階層を一度に選択する音声入力を行いたい場合には、ユーザは階層に合わせた正しい順番及び正しい選択経路で各階層の選択項目を発話する必要がある。

しかし、従来システム１に代表される従来のメニュー表示技術を用いた場合、音声入力が終了し、音声認識によって選択項目が確定されるまでメニューが更新されないため、階層に合わせた正しい順番及び正しい選択経路で複数の選択項目を続けて発話することが困難になり、ユーザインタフェースとしての利便性が低くなってしまうという課題がある。

本発明は、このような課題を解決するためになされたものであり、その目的は、ユーザの音声による選択項目の選択を実現するためのユーザインタフェースとしての利便性を従来よりも向上させることである。

上記課題を解決するためには、ユーザの音声による操作を実現するためのユーザインタフェース装置を、以下に示す第１の構成（請求項１）のようにするとよい。
この構成は、第１階層から第ｎ階層（ｎは任意の数）までの階層構造をなす複数のメニューそれぞれが有する各選択項目をユーザに選択させることにより、その選択項目を有するメニューから別階層のメニューへと遷移するように構成されたユーザインタフェースを実装してなるユーザインタフェース装置である。

そして、複数のメニューそれぞれのうち、その時点で表示させるべきメニューであるカレントメニューを表示部に表示させるメニュー表示手段と、外部から入力される音声が、第ｉ階層（１≦i＜ｎ）のメニューから第ｎ階層のメニューへと遷移するまでに選択されうる選択項目からなるそれぞれの選択経路のうち、いずれの選択経路におけるいずれの選択項目に対応するかを推定する項目推定手段と、前記カレントメニューを、前記項目推定手段により推定された選択項目が選択されることにより表示させるべき別階層のメニューに遷移させるメニュー遷移手段と、を備えており、前記メニュー表示手段は、前記メニュー遷移手段によりカレントメニューとして遷移させられたメニューを示す画像を表示部に表示させる。

このように構成された情報処理装置では、まず、ユーザの音声が、いずれの選択経路におけるいずれの選択項目に対応するかを推定し、そうして推定した選択項目をユーザが選択したものとみなしている。そして、その選択項目が選択されることにより表示させるべき別階層のメニューへとカレントメニューを遷移させ、これを表示部に表示させている。

このように、現時点までに入力された音声から推定される選択項目を、そのユーザが選択した項目として、メニューの表示を随時変更していくことができる。
そのため、ユーザにとっては、表示部に表示されるメニューを見ながら、その中の選択項目を任意に選んでその内容を順番に続けて発声していくだけで、そのメニューを該当する別メニューへと表示を変更させていくことができる結果、従来のように音声認識が終了してメニューが変更されるのを待った上で次の階層の項目を発声していくといった手間がかからない点で利便性が高い。

この構成において表示部に表示させるカレントメニューは、一旦表示された以降、継続的に表示させておけばよいが、音声の入力がないまま一定期間が経過した場合は、ユーザによる選択項目の選択が中断，中止されているといえるため、表示部における表示領域の視認性を向上させるなどの観点から、その一定期間の経過をもってメニューの表示を消去させることとしてもよい。

このためには、例えば、上記構成を以下に示す第２の構成（請求項２）のようにするとよい。この構成において、前記メニュー表示手段は、メニューを示す画像を表示部に表示させた以降、外部からの音声の入力が所定期間以上なされていない場合に、メニューの前記表示部による表示を消去させる。

この構成であれば、外部から音声が入力されない期間が所定期間以上継続した場合に、メニューの表示を消去させることができ、これ以降、表示部における表示領域の視認性を向上させることができる。

また、上記各構成において、表示部にメニューが表示されていない状態で、新しくメニューを表示させる方法としては、例えば、上記構成を以下に示す第３の構成（請求項３）のようにするとよい。

この構成において、前記メニュー表示手段は、メニューが表示部に表示されていない状態で、外部から音声の入力がなされた場合に、カレントメニューを表示部に表示させる。
この構成であれば、本情報処理装置起動直後のように、メニューが表示されていない状態の場合は、内容によらず、ユーザが何らかの発話を行うことでメニューを表示することができ、利便性の高い情報処理装置を実現できる。また、第２の構成のように、外部から音声が入力されない期間が所定期間以上継続して表示が消去された後でユーザが発話を行った場合にも、カレントメニューを表示することができるため、利便性の高い情報処理装置を実現できる。

また、上記各構成におけるカレントメニューの遷移は、外部から入力される音声に基づいてのみ行われるものとすればよい。ただ、外部から入力される音声に基づいてカレントメニューが遷移した後、音声の入力がないまま一定期間が経過した場合は、ユーザによる選択項目の選択が中断，中止されているといえる。この場合、以降、ユーザが項目の選択を再度行おうとしたとき、その中断，中止前いずれのメニューがカレントメニューとなっていたかを忘れてしまい、選択項目の選択に際して混乱してしまう恐れがある。

そのため、外部から入力される音声に基づいてカレントメニューが遷移した後、音声の入力がないまま一定期間が経過した場合には、選択項目の選択を再度行うにあたって、一定の同じメニュー，例えばトップメニューから開始するようにしておくことが好適といえる。このためには、例えば、上記各構成を以下に示す第４の構成（請求項４）のようにするとよい。

この構成において、前記メニュー遷移手段は、外部からの音声の入力が所定期間以上なされていない場合に、前記カレントメニューを第１階層のメニューへと遷移させる。
この構成であれば、外部から入力される音声に基づいてカレントメニューが遷移していたとしても、外部から音声が入力されない期間が所定期間以上継続した場合には、カレントメニューが最上位階層（第１階層）のメニュー，つまりトップメニューに戻されるため、選択項目の選択を再度行うにあたってトップメニューから選択の項目を開始すればよいこととなる。

これにより、ユーザが選択項目の選択を中断，中止したとしても、その選択の再開時、常に第１階層のメニューから選択項目の選択を行えばよくなるため、選択項目の選択に際しての混乱を防止することができる結果、ユーザインタフェースとしての利便性を高めることができる。

また、上記各構成において、外部から入力された音声が、いずれの選択経路におけるいずれの選択項目に対応するかの推定は、外部から音声の入力が開始されたことをもって開始することとすればよい。

なお、この音声が入力される「外部」とは、当該ユーザインタフェース装置の外部であり、マイクを介して音声を入力可能な構成であればこのマイクのこととすればよく、また、ネットワークを介して音声を入力する経路を有している場合であればこの経路のこととすればよい。

また、外部から入力される音声が、いずれの選択経路におけるいずれの選択項目であるかは、どのように推定することとしてもよく、具体的な例としては、例えば、以下に示す第５の構成（請求項５）のようにすることが考えられる。

この構成においては、外部から入力された音声を、前記選択項目を選択するためのユーザの発話パターンを格納した発話パターン辞書における各発話パターンと比較し、その比較結果たる類似度が所定のしきい値以上となった発話パターンを認識結果として出力する音声認識手段と、を備えており、前記項目推定手段は、前記音声認識手段により順次認識された発話パターンに対応する選択項目それぞれからなる選択経路につき、該選択経路において最新の選択項目を推定結果として出力する。

この構成であれば、周知の音声認識の結果に至るまでの発話パターンそれぞれで形成される仮説探索における現時点での仮説情報を用いて、外部から入力される音声が何と発話しようとしているのかを推定したうえで、最終的にいずれの選択経路におけるいずれの選択項目を選択しようとしているのかを推定することができる。

また、この構成においては、以下に示す第６の構成（請求項６）のようにするとよい。
この構成において、前記項目推定手段は、前記音声認識手段による認識の都度、該認識に際してしきい値以上の類似度となった発話パターンが複数種類存在した場合、最も類似度の高い発話パターンに対応する選択項目それぞれからなる選択経路につき、該選択経路において最新の選択項目を推定結果として出力する。

この構成であれば、音声認識の都度、その認識に際してしきい値以上の類似度となった発話パターンが複数種類存在していたとしても、その中から最も類似度の大きな発話パターンに対応する選択項目それぞれからなる選択経路を推定することができる。

このように、最も類似度が高い発話パターンは、最も実際の発話内容として尤もらしい選択経路および選択項目に対応しているといえることから、精度よく選択経路および選択項目を推定することができる。

なお、この構成におけるある発話パターンの類似度としては、例えば当該発話パターンの発話内容に対応する確率モデルの尤度や、前記尤度を仮説探索の処理時間で正規化した値などが利用できる。

また、上記各構成においてカレントメニューの遷移は、例えば、その内容を示す情報を更新することで実現すればよく、そのための構成としては、上記各構成を以下に示す第７の構成（請求項７）のようにするとよい。

この構成において、前記メニュー遷移手段は、前記カレントメニューを示すカレント情報を、前記項目推定手段にて推定された選択項目に基づいて表示させるべき別階層のメニューを示すものに更新することでメニューを遷移させる。そして、前記メニュー表示手段は、前記カレント情報で示されるメニューを表示部に表示させる。

この構成であれば、所定の記憶領域に格納されたカレント情報を更新することにより、カレントメニューを遷移させることができる。
また、上記各構成におけるカレントメニューの遷移は、ユーザによる操作部への操作を受けた場合にも実施されるようにするとよい。

ところで、上記各構成において、表示部によるメニューの表示に際しては、常に同じ表示態様にて表示させることとしてもよいが、周辺環境に応じてその表示態様を異ならせるようにしてもよい。

例えば、外部からの入力音声が、選択経路に沿った内容の音声であるか否かにより、その表示態様を異ならせることが考えられる。
このための構成としては、上記各構成を以下に示す第８の構成（請求項８）のようにすることが考えられる。

この構成においては、外部から入力される音声に基づき、該音声が前記選択経路に沿った内容の音声であることの信頼度を特定する信頼特定手段と、前記メニュー遷移手段によりカレントメニューが遷移させられる都度、該メニューの表示態様を、前記信頼特定手段により特定された信頼度に応じて決定する第１の態様決定手段と、を備えている。そして、前記メニュー表示手段は、前記カレントメニューとして遷移させられたメニューを、該メニューについて前記第１の態様決定手段が決定した表示態様にて表示部に表示させる。

この構成であれば、音声入力部からの入力音声が、上述した選択経路に沿った内容の音声であることの信頼度に応じて、メニューを示す画像の表示態様を異ならせることができる。

この構成における「信頼度」は、例えば、特開平１１−８５１８８号公報（以降「特許文献３」という）のように競合モデルを用意して尤度比を算出する方法や、最大の類似度を持つ仮説と他の仮説との類似度の差の大きさに対応する値を用いる方法を用いることにより特定することとすればよい。

また、この構成において異ならせる表示態様としては、どのようなものであってもよいが、例えば、メニューを示す画像の大きさに基づく表示態様が考えられ、このための構成としては、以下に示す第９の構成（請求項９）のようにすることが考えられる。

この構成において、前記第１の態様決定手段は、前記カレントメニューの表示領域における大きさを、前記信頼特定手段により特定された信頼度に応じて決定して、前記メニュー表示手段は、前記カレントメニューとして遷移させられたメニューを、前記第１の態様決定手段により決定された表示領域に合わせた大きさにて表示部に表示させる。

この構成であれば、音声入力部からの入力音声における信頼度が高いほどメニューにおける表示領域を大きくすることができる。
また、メニューを示す画像の表示態様を異ならせる要因たる周辺環境としては、情報処理装置外部からの指令が考えられ、その指令に応じて表示態様を異ならせることが考えられる。

このための構成としては、上記各構成を以下に示す第１０の構成（請求項１０）のようにすることが考えられる。
この構成においては、記メニュー遷移手段によりカレントメニューが遷移させられた以降、外部からの指令を受けて、該メニューの表示態様を決定する第２の態様決定手段、を備えている。そして、前記メニュー表示手段は、前記カレントメニューとして遷移させられたメニューを、該メニューについて前記第２の態様決定手段が決定した表示態様にて表示部に表示させる。

この構成であれば、外部からの指令に応じて、メニューを示す画像の表示態様を異ならせることができる。
この構成における「外部からの指令」としては、例えば、ユーザによる音声を入力して動作する所定装置との通信を経て、この所定装置が音声入力を受けて動作しているか否かを検知した結果を用いることが考えられる。

このためには、上記構成を以下に示す第１１の構成（請求項１１）のようにすればよい。
この構成において、ユーザによる音声を入力して動作する外部の所定装置（外部装置）との通信を経て、該所定装置が音声入力を受けて動作しているか否かを判定する外部音声入力判定手段，を備えている。前記第２の態様決定手段は、前記外部音声入力判定手段により外部装置側で音声入力が行われていないと判定された場合に、前記カレントメニューを表示させるべき旨を決定する一方、外部装置側で音声入力が行われていると判定された場合に、前記カレントメニューを表示させない旨を決定する。

この構成であれば、ユーザによる音声を入力して動作する所定装置が音声入力を受けて動作している場合に、メニューの遷移が行われないようにすることができる。
このように、所定装置が音声入力を受けて動作しているということは、本情報処理装置に対する音声入力とは無関係に発声が行われている可能性が高く、そのような無関係の音声を入力してその後の処理を行ってしまうと、ユーザの意図しないメニュー遷移が行われてしまう。

そのため、上記のように、所定装置が音声入力を受けて動作している場合にメニューの表示が行われないようにすることにより、ユーザの意図しないメニュー遷移が行われないようにすることができる。

また、上述した「外部からの指令」としては、例えば、本情報処理装置の操作部或いは当該情報処理装置に接続されている所定装置がユーザにより操作されていることを検知した結果を用いることが考えられる。

このためには、上記第１０の構成または第１１の構成を以下に示す第１２の構成（請求項１２）のようにすればよい。
この構成においては、当該情報処理装置の操作部或いは当該情報処理装置に接続されている所定装置がユーザにより操作されていることを検出する操作検出手段，を備えている。そして、前記第２の態様決定手段は、前記操作検出手段により操作がなされていないと判定された場合に、前記カレントメニューを表示させるべき旨を決定する一方、前記操作検出手段により操作がなされていると判定された場合に、前記カレントメニューを表示させない旨を決定する。

この構成であれば、本情報処理装置の操作部或いは当該情報処理装置に接続されている所定装置が操作されている場合に、メニューの遷移が行われないようにすることができる。

このように、本情報処理装置の操作部或いは当該情報処理装置に接続されている所定装置が操作されているということは、本情報処理装置のメニュー選択とは無関係に発声が行われている可能性が高く、そのような無関係の音声を入力してその後の処理を行ってしまうと、ユーザの意図しないメニュー遷移が行われてしまう。

そのため、上記のように、操作部に対する操作が行われている場合にメニューの遷移が行われないようにすることにより、ユーザの意図しないメニュー遷移が行われないようにすることができる。

また、上述した「外部からの指令」としては、例えば、本情報処理装置周辺に位置しているユーザの数を検出した結果を用いることが考えられる。
このためには、上記第１０〜第１２のいずれかの構成を以下に示す第１３の構成（請求項１３）のようにすればよい。

この構成においては、当該情報処理装置周辺に位置しているユーザの数を検出するユーザ検出手段，を備えている。そして、前記第２の態様決定手段は、前記ユーザ検出手段により１人のユーザのみが位置していることが検出された場合、前記カレントメニューの表示領域の大きさを通常の大きさとして決定する一方、複数のユーザが位置していることが検出された場合、前記カレントメニューの表示領域の大きさを通常よりも小さくするように決定する。

この構成であれば、１人のユーザのみが位置していることが検出された場合には、カレントメニューの表示領域を通常の大きさとするが、複数のユーザが位置していることが検出された場合には、カレントメニューの表示領域を通常よりも小さい表示領域とすることができる。

このように、複数のユーザが周辺に位置している場合は、本情報処理装置を音声により操作する以外のユーザからすると、表示部に表示されるメニューが必ずしも必要な情報ではない。そのため、上記構成のように、このような場合におけるメニューの表示領域を小さくすることで、そのような表示態様を異ならせない構成と比べて、他のユーザにとっての表示部の視認性が低下することを防止することができる。

なお、この構成において、周辺に位置しているユーザの数を検出するためには、その周辺においてユーザが位置しうる領域付近にセンサを配置しておき、その検出結果に基づいてユーザの数を検出することとすればよい。また、周辺においてユーザが位置しうる領域をカメラで撮影しておき、その映像に含まれるユーザを画像処理で特定することにより、ユーザの数を検出することとすればよい。

また、上記各構成においては、第１４の構成（請求項１４）のように、前記項目推定手段により推定された選択項目に割り当てられた所定の処理を実施する処理実施手段，を備えているようにしてもよい。

この構成であれば、各メニューにおける選択項目のうち、最下層のメニューなどにおいて所定の処理が割り当てられた選択項目が選択されたとみなされた場合に、その割り当てられた処理を実行することができる。

また、上記課題を解決するためには、第１階層から第ｎ階層（ｎは任意の数）までの階層構造をなす複数のメニューそれぞれが有する各選択項目をユーザに選択させることにより、その選択項目を有するメニューから別階層のメニューへと遷移するように構成されたユーザインタフェースを提供するためのユーザインタフェース提供方法（請求項１５）としてもよい。

このインタフェース提供方法は、複数のメニューそれぞれのうち、その時点で表示させるべきメニューであるカレントメニューを表示部に表示させるメニュー表示手順と、外部から入力される音声が、第ｉ階層（１≦i＜ｎ）のメニューから第ｎ階層のメニューへと遷移するまでに選択されうる選択項目それぞれの選択経路のうち、いずれの選択経路におけるいずれの選択項目に対応するかを推定する項目推定手順と、前記カレントメニューを、前記項目推定手順により推定した選択項目が選択されることにより表示させるべき別階層のメニューに遷移させるメニュー遷移手順と、を含む。そして、前記メニュー表示手順では、前記メニュー遷移手順にてカレントメニューとして遷移させられたメニューを示す画像を表示部に表示させる。

このインタフェース提供方法であれば、上述した第１の構成に係るユーザインタフェース装置と同様の作用，効果を得ることができる。
なお、このインタフェース提供方法は、上述した第２〜第１４のいずれかの構成に係るユーザインタフェース装置における各手段を手順として実現した方法としてもよく、この場合、上述した第２〜第１４のいずれかの構成に係るユーザインタフェース装置と同様の作用，効果を得ることができる。

また、上記課題を解決するためには、上述した第１〜第１４のいずれかの構成に係る全ての手段として機能させるための各種処理手順をコンピュータシステムに実行させるためのプログラム（請求項１６）としてもよい。

このプログラムにより制御されるコンピュータシステムであれば、上記第１から第１４のいずれかの構成に係るユーザインタフェース装置の一部を構成することができる。
なお、上述したプログラムは、コンピュータシステムによる処理に適した命令の順番付けられた列からなるものであって、各種記録媒体や通信回線を介してユーザインタフェース，情報処理装置や、これを利用するユーザ等に提供されるものである。

以下に本発明の実施形態を図面と共に説明する。
（０）全体構成
情報処理装置１は、周知のナビゲーション装置のユーザインタフェースを実現すべく、このナビゲーション装置に実装されたものであり、図１に示すように、ＣＰＵ，ＲＯＭ，ＲＡＭなどからなる制御部１０と、入出力インタフェース（Ｉ／Ｏ）２０と、からなる周知のコンピュータシステムであって、ナビゲーション装置のうち、各種情報を記憶する記憶部２，ユーザによる操作を受け付ける操作部３，各種情報を表示する表示部４，マイク５を介した音声の入力を制御する音声入力部６などが接続されている。

これらのうち、制御部１０は、ＲＯＭに記憶されたプログラムに従って各種処理を実行することで、音声入力部６を介した音声の入力レベル（音量）によってユーザの発話音声が含まれているか否かを検出する音声検出手段３１，マイク５を介して入力される音声で示される選択項目（後述する）を推定する項目推定手段３３，マイク５を介して入力される音声の内容を周知の音声認識により解析する音声認識手段３５，音声認識手段３５の解析結果に応じた処理を実施する処理実施手段３７，項目推定手段３３による項目推定結果に基づいて表示すべきメニューを遷移させるメニュー遷移手段３８、表示部４によるメニューの表示を制御するメニュー表示手段３９などとして機能する。これら機能によって、制御部１０は、ナビゲーション装置のユーザインタフェースを実現している。

このユーザインタフェースは、第１階層から第ｎ階層（ｎは任意の数）までの階層構造をなす複数のメニューそれぞれが有する各選択項目をユーザに選択させることにより、その選択項目を有するメニューから別階層のメニューへと遷移するように構成されたものである。

具体的には、ユーザがマイク５に向けて音声を発した以降、表示部４に第１階層のメニュー（トップメニュー）が表示され（図２の画面Ａ参照）、その後、このメニューにて選択可能ないずれかの選択項目を発してなる音声をマイク５から入力すると、その選択項目が選択されたものとして、その選択項目の選択により遷移すべき別階層のメニューへと表示内容を変化させていく（図２の画面Ｂ，Ｃ参照）、といったユーザインタフェースである。そして、最下層のメニューにおいて選択された選択項目に対応する処理が実施されることとなる。

以下、上記のような構成の情報処理装置１について、制御部１０により実行される処理手順が異なる実施形態を順に説明する。
（１）第１実施形態
（１−１）指示受付処理
はじめに、情報処理装置１が起動された以降、制御部１０のＣＰＵがＲＯＭに格納されたプログラムに従って繰り返し実行する指示受付処理の処理手順を、図３に基づいて説明する。

この指示受付処理が起動されると、まず、音声入力部６を介した音声の入力が開始されるまで待機状態となる（ｓ１１０：ＮＯ）。ここでは、音声検出手段３１により検出された音声のレベルが一定以上となった場合に、ユーザの発話が開始されたと判定される。

その後、ユーザの発話が開始されたら（ｓ１１０：ＹＥＳ）、後述する表示内容決定処理が行われる（ｓ１２０）。
この表示内容決定処理では、その時点までにマイク５を介して入力された音声が、第ｉ階層（１≦i＜ｎ）のメニューから第ｎ階層のメニューへと遷移するまでに選択されうる選択項目それぞれの選択経路のうち、いずれの選択経路におけるいずれの選択項目に対応するかを推定し、その推定結果に応じて表示部４に表示させるべきメニューを決定する。

次に、上記ｓ１２０での決定事項に基づいて、表示部４にメニューを表示させるためのメニュー表示処理が行われる（ｓ１３０）。ここでは、上記ｓ１２０にて決定されたメニューが、メニュー表示手段３９により表示部４に表示させられる。

なお、上記ｓ１２０にてメニューが決定されていない場合、メニュー表示手段３９は、その時点で表示部４に表示されているメニューの表示を消去させる。ここでいう「メニューが決定されていない」とは、メニューの表示を消去させるべき旨が決定されていた場合や、表示させるべきメニューが存在していなかった場合などのことである。

次に、音声認識手段３５が、ユーザの音声に対する音声認識を終了すべき状況であるか否かをチェックする（ｓ１５０）。ここでは、上述した音声検出手段３１による音声入力の検出が所定期間以上なされていない場合に、音声認識を終了すべき状況であると判定される。

このｓ１５０で音声認識を終了すべき状況ではないと判定された場合（ｓ１５０：ＮＯ）、プロセスがｓ１２０へと戻り、以降、音声認識を終了すべき状況となるまで、上記ｓ１２０〜ｓ１５０が繰り返し行われる。

そして、音声認識を終了すべき状況となったら、上記ｓ１５０でその旨が判定され（ｓ１５０：ＹＥＳ）、音声認識手段３５が、その時点までにマイク５を介して入力され、ＣＰＵの内蔵メモリまたはＲＡＭに格納された音声に対して、周知の音声認識を行うことにより、その音声で示される文字列が特定される（ｓ１５２）。

そして、処理実施手段３７が、上記ｓ１５２にて特定された文字列に対応する選択項目に基づき、その選択項目に割り当てられた所定の処理を実行した後（ｓ１６０）、プロセスがｓ１１０へと戻る。

このｓ１６０において、例えば、選択項目が第ｎ階層のメニューにおける選択項目でないなど、選択項目に割り当てられた処理が存在していない場合には、現時点で表示されているメニュー及び現在時刻が履歴情報（カレント情報）としてメモリまたはＲＡＭの所定領域に格納され（既に格納されている場合はその履歴情報が更新され）、プロセスがｓ１１０へと戻る。

なお、本実施形態では、上記ｓ１１０で音声の入力が開始されたと判定された以降、そうして入力される音声を示す情報がメモリまたはＲＡＭに蓄積されていき、プロセスがｓ１１０へと戻るとそれまでに蓄積された音声の情報が削除されるように構成されている。
（１−２）表示内容決定処理
続いて、上記指示受付処理のｓ１２０である表示内容決定処理の処理手順を図４に基づいて説明する。

この表示内容決定処理では、まず、音声認識手段３５が後述する仮説情報を生成する（ｓ２１０）。
ここでは、まず、この時点で蓄積されている情報で示される音声，つまりその時点までにマイク５を介して入力された音声を、予め保持している音響的・言語的確率モデル及び後述する発話パターン辞書と、周知の仮説探索によって比較し、その比較結果たる類似度が最も大きい発話パターンを示す仮説（図５の「１位」参照）について、発話パターン辞書上での位置（現在位置）、類似度、及び現在時刻を示す情報を仮説情報として生成する。この類似度としては、例えば、当該発話パターンの発話内容に対応する確率モデルの尤度や、尤度を仮説探索の処理時間で正規化した値などが利用できる。

上述した発話パターン辞書は、選択項目或いは選択経路を選択するためにユーザがどのように発話するかを表す発話パターンを格納しており、本実施例では、図６に示すように、発話パターンを単語毎の接続関係で規定した有効グラフ状の形で表されている。

なお、この発話パターン辞書では、想定される複数の発話パターンを単語単位に分解し、この単語を接続していくことにより、第ｉ階層（１≦i＜ｎ）のメニューから第ｎ階層のメニューへと遷移するまでに選択されうる選択項目の選択経路がそれぞれ形成される。

次に、音声認識手段３５は、上記ｓ２１０にて生成された仮説情報をメモリにおける仮説情報用の記憶領域に記憶させる（ｓ２２０）。
次に、項目推定手段３３は、上記ｓ２２０にて記憶させた仮説情報に基づき、以下の手順に従って上記発話パターン辞書における最終的な現在位置を確定する（ｓ２３０）。

ここでは、まず、最終的な現在位置の候補となる候補位置として、あらかじめ定められた初期位置が設定される（ｓ３１０）。本実施形態では、第１階層のメニューとして定められたトップメニューに対応する位置として単語の存在しない位置が初期位置として定められており（図６「初期位置」参照）、この位置が候補位置に設定される。

続いて、この時点でメモリまたはＲＡＭに履歴情報（カレント情報）が記憶されているか否かがチェックされ（ｓ３２０）、履歴情報が記憶されていれば（ｓ３２０：ＹＥＳ）、この履歴情報で示される現在時刻と実際の現在時刻との差，つまり履歴情報が生成された以降の経過時間Ｔ０が、所定のしきい値ＴＨｓ以上である（ＴＨｓ≦Ｔｏ）か否かがチェックされる（ｓ３３０）。

なお、この「しきい値ＴＨｓ」とは、履歴情報が生成された以降、選択項目の選択が中断，中止された場合に到達しうる経過時間として定められたものである。
このｓ３３０で経過時間Ｔ０がしきい値ＴＨｓ未満である（Ｔ０＜ＴＨｓ）と判定された場合には（ｓ３３０：ＮＯ）、候補位置としてその履歴情報で示される現在位置が設定された後（ｓ３４０）、プロセスが次の処理（ｓ３５０）へと移行する。

また、上記ｓ３２０で履歴情報が記憶されていないと判定された場合（ｓ３２０：ＮＯ），または，上記ｓ３３０で経過時間Ｔ０がしきい値ＴＨｓ以上であると判定された場合（ｓ３３０：ＹＥＳ）、上記ｓ３４０が行われることなく、プロセスが次の処理（ｓ３５０）へと移行する。

次に、この時点でメモリに仮説情報が記憶されているか否かがチェックされ（ｓ３５０）、仮説情報が記憶されていれば（ｓ３５０：ＹＥＳ）、この仮説情報で示される類似度ｒが所定の最低値ＴＨａより大きい（ＴＨａ＜ｒ）か否かがチェックされる（ｓ３６０）。

このｓ３６０で類似度ｒが最低値ＴＨａより大きいと判定された場合（ｓ３６０：ＹＥＳ）、その仮説情報で示される現在位置の整合性がチェックされる（ｓ３７０）。ここでは、仮説情報で示される現在位置が、この時点でメモリに記憶されている履歴情報で示される現在位置から発話パターン辞書を順方向に辿ることで到達できる位置にあることをもって、現在位置同士の整合性があると判定される。

このｓ３７０で現在位置同士の整合性があると判定された場合（ｓ３７０：ＹＥＳ）、候補位置としてその仮説情報で示される現在位置が設定された後（ｓ３８０）、プロセスが次の処理（ｓ４００）へと移行する。

また、上記ｓ３７０で現在位置同士の整合性がないと判定された場合（ｓ３７０：ＮＯ）、この仮説情報で示される類似度ｒが所定のしきい値ＴＨｂより大きい（ＴＨｂ＜ｒ）か否かがチェックされる（ｓ３９０）。なお、この「しきい値ＴＨｂ」は、しきい値ＴＨａよりも大きな値として定められたものである。

このｓ３９０で類似度ｒがしきい値ＴＨｂより大きいと判定された場合（ｓ３９０：ＹＥＳ）、プロセスがｓ３８０へと移行し、候補位置としてその仮説情報で示される現在位置が設定される。

また、上記ｓ３５０で仮説情報が記憶されていないと判定された場合（ｓ３５０：ＮＯ），上記ｓ３６０で類似度ｒが最低値ＴＨａ以下であると判定された場合（ｓ３６０：ＮＯ），または，上記ｓ３９０で類似度ｒがしきい値ＴＨｂ以下であると判定された場合（ｓ３９０：ＮＯ）、上記ｓ３８０が行われることなく、プロセスが次の処理（ｓ４００）へと移行する。

そして、この時点における候補位置が最終的な現在位置として確定される（ｓ４００）。こうして、ｓ３１０〜ｓ４００にての発話パターン辞書における最終的な現在位置が確定された後、項目推定手段３３は、その現在位置に基づいて表示部４に表示させるべきメニューを決定する（ｓ２４０）。

発話パターン辞書は、選択項目を選択するための予め想定された発話パターンを単語毎の接続関係で規定するものであることから、この発話パターン辞書における最終的な現在位置は、いずれかの選択経路に沿って辿り着いた選択項目を示すものとなる。

そのため、このｓ２４０では、最終的な現在位置である単語に対応する選択項目が、ユーザにより選択された選択項目とみなされ、その選択項目が選択されることにより遷移させるべき別階層のメニューが存在していれば、そのメニューが表示部４に表示させるべきメニューとして決定される。

なお、音声の入力が開始された直後などのように仮説情報が記憶されておらず、かつ履歴情報も記憶されていない場合は、候補位置には予め定められた初期位置が設定されているため、表示させるべきメニューとしては初期位置に対応する第１階層のメニューが選ばれることとなる。

次に、メニュー遷移手段３８が、その時点で表示させるべきメニューであるカレントメニューを、上記ｓ２４０にて決定されたメニューに遷移させる（ｓ２５０）。ここでは、カレントメニューおよび現在時刻がメモリまたはＲＡＭの所定領域に格納され（既に格納されている場合はその内容が更新され）、これにより、カレントメニューが遷移する。

次に、メニュー表示手段３９は、過去の一定期間内にマイク５を介した音声の入力があったか否かをチェックする（ｓ２６０）。ここでは、上述した音声検出手段３１による音声入力の検出が一定期間内になされていれば、過去の一定期間内にマイク５を介した音声の入力があると判定される一方、音声入力の検出が一定期間内になされていなければ、過去の一定期間内にマイク５を介した音声の入力がないと判定される。

なお、この「一定期間」とは、ユーザによる選択項目の選択が中断，中止された場合に到達しうる経過時間として定められたものである。
このｓ２６０で、過去の一定期間内にマイク５を介した音声の入力があると判定された場合には（ｓ２６０：ＹＥＳ）、メニューを表示すべき旨の決定がなされた後（ｓ２７０）、プロセスが上記指示受付処理へと戻る（ｓ１３０へと移行する）。

一方、上記ｓ２６０で、過去の一定期間内にマイク５を介した音声の入力がないと判定された場合には（ｓ２６０：ＮＯ）、メニューの表示を消去すべき旨の決定がなされた後（ｓ２８０）、プロセスが上記指示受付処理へと戻る（ｓ１３０へと移行する）。
（１−３）作用，効果
このように構成された情報処理装置１では、まず、ユーザの音声が、いずれの選択経路におけるいずれの選択項目に対応するかを推定し、そうして推定した選択項目をユーザが選択したものとみなしている（図４のｓ２１０）。このとき、「いずれの選択経路におけるいずれの選択項目に対応するか」は、周知の音声認識の結果に至るまでの発話パターンそれぞれで形成される仮説探索の仮説情報を用いて、外部から入力される音声が何と発話しようとしているのかを推定したうえで、最終的にいずれの選択経路におけるいずれの選択項目を選択しようとしているのかを推定している。

そして、その選択項目が選択されることにより表示させるべき別階層のメニューへとカレントメニューを遷移させ（同図ｓ２３０〜ｓ２５０）、これを表示部４に表示させている（図３のｓ１３０）。このように、ユーザが実際に選択した項目に対応させて、メニューの表示を随時変更していくことができる。

そのため、ユーザにとっては、表示部４に表示されるメニューを見ながら、その中の選択項目を任意に選んでその内容を順番に続けて発声していくだけで、そのメニューを該当する別メニューへと表示を変更させていくことができる結果（図２参照）、従来のように音声認識が終了してメニューが変更されるのを待った上で次の階層の項目を発声していくといった手間がかからない点で利便性が高い。

また、上記実施形態では、外部から音声が入力されない期間が所定期間以上継続した場合に（図４のｓ２６０「ＮＯ」）、メニューの表示を消去させることができる（同図ｓ２８０，図３のｓ１３０）。

表示部４に表示させるカレントメニューは、一旦表示された以降、継続的に表示させておけばよいが、音声の入力がないまま一定期間が経過した場合は、ユーザによる選択項目の選択が中断，中止されているといえるため、表示部４における表示領域の視認性を向上させるなどの観点から、その一定期間の経過をもってメニューの表示を消去させることが望ましい。

また、上記実施形態では、本情報処理装置１の起動直後のように、メニューが表示されていない状態の場合、ユーザが何らかの発話を行うことで（図３のｓ１１０：ＹＥＳ）、初期位置として定められたトップメニューを候補位置としてカレントメニューが決定される（図４のｓ３１０〜ｓ４００）。そのため、メニューが表示されていない状態の場合、ユーザが何らかの発話を行うことで、第１階層のトップメニューを表示させることができる。

また、上記実施形態では、音声の入力が開始された直後などのように仮説情報が記憶されておらず、かつ履歴情報も記憶されていない場合は、候補位置には予め定められた初期位置が設定される結果、表示させるべきメニューとして初期位置に対応する第１階層のメニューが選ばれる（図４のｓ３１０〜ｓ４００）。

つまり、外部から入力される音声に基づいてカレントメニューが遷移していたとしても、外部から音声が入力されない期間が所定期間以上継続した場合には（同図ｓ２６０「ＮＯ」）、その後、カレントメニューが最上位階層（第１階層）のメニュー，つまりトップメニューに戻されるため、選択項目の選択を再度行うにあたってトップメニューから選択の項目を開始すればよいこととなる。

これにより、ユーザが選択項目の選択を中断，中止したとしても、その選択の再開時、常にトップメニューから選択項目の選択を行えばよくなるため、選択項目の選択に際しての混乱を防止することができる結果、ユーザインタフェースとしての利便性を高めることができる。

また、上記実施形態では、所定の記憶領域に格納されたカレント情報を更新することにより、カレントメニューを遷移させることができる（図４のｓ２５０）。
また、上記実施形態では、各メニューにおける選択項目のうち、所定の処理が割り当てられた選択項目が選択されたとみなされた場合に、その割り当てられた処理を実行することができる（図３のｓ１６０）。

また、上記実施形態では、ユーザの音声がいずれの選択経路におけるいずれの選択項目に対応するかを推定する際に実施される音声認識の都度、その認識に際してしきい値以上の類似度となった発話パターンが複数種類認識されていたとしても、その中から最も類似度の大きな発話パターンに対応する選択項目それぞれからなる選択経路を推定することができる。
（１−４）変形例
以上、本発明の実施の形態について説明したが、本発明は、上記実施形態に何ら限定されることはなく、本発明の技術的範囲に属する限り種々の形態をとり得ることはいうまでもない。

例えば、上記実施形態においては、カレントメニューが遷移させられる都度、その旨のメッセージを表示部４に表示させたり、スピーカーからメッセージ或いはビープ音を出力させることとしてもよい。この場合、カレントメニューが遷移させられた旨をその都度報知することができる。

また、上記実施形態においては、本発明の情報処理装置が、ナビゲーション装置におけるユーザインタフェースを実現するための装置として実装された構成を例示した。しかし、本発明の情報処理装置は、ナビゲーション装置以外の装置におけるユーザインタフェースを実現するための装置として実装してもよい。

また、上記実施形態では、カレントメニューが遷移した後、外部から音声が入力されない期間が所定期間以上継続した場合には、カレントメニューが直ちに最上位階層のメニュー，つまりトップメニューに戻されるように構成してもよい。

このためには、図４におけるｓ２６０で、過去の一定期間内にマイク５を介した音声の入力がないと判定された場合に（ｓ２６０：ＮＯ）、図７に示すように、カレントメニューを第１階層のメニューへと遷移させた後（ｓ２８２）、ｓ２８０へ移行してメニューの消去を決定する（図７（ａ）），または，ｓ２７０へ移行してメニューの表示を決定する（図７（ｂ）こととすればよい。

このように、カレントメニューが最上位階層のトップメニューに戻される構成であれば、選択の中断，中止前のカレントメニューに拘わらず、その選択の再開時、常に第１階層のメニューから選択項目の選択を行えばよくなり、選択項目の選択に際しての混乱を防止することができる結果、ユーザインタフェースとしての利便性を高めることができる。

また、上記実施形態においては、マイク５を介して入力される音声に基づいてメニューの遷移が実現されるように構成されたものを例示したが、このメニューの遷移を実現するための音声としては、ネットワークを介して音声を入力する経路を有している場合であれば、この経路を介して入力される音声を用いてもよい。

また、上記実施形態におけるカレントメニューの遷移は、ユーザによる操作部３への操作を受けた場合に実施されるようにしてもよい。この場合、過去の一定期間内に音声の入力が検出されなかった場合でも、メニューの第１階層への遷移やメニュー表示の消去を行わないようにする、或いは、音声入力による遷移とは異なる一定期間を設けることが望ましい。
（２）第２実施形態
この実施形態においては、表示内容決定処理の一部処理内容が一部相違しているだけであるため、この相違点についてのみ説明する。

この相違点とは、上記第１実施形態が、表示部４によるメニューの表示に際し、常に同じ表示態様にて表示させるのに対し、本実施形態が、周辺環境に応じてその表示態様を異ならせている点である。具体的には、外部からの入力音声が、選択経路に沿った内容の音声であるか否かにより、その表示態様を異ならせるように構成されている。
（２−１）表示内容決定処理
本実施形態における表示内容決定処理では、第１実施形態と同様にｓ２１０〜ｓ２５０が行われた後、図８に示すように、その時点までにマイク５を介して入力された音声に基づいて、この音声が上述した選択経路に沿った内容の音声であることの信頼度が特定される（ｓ２５１）。ここでは、その時点までにマイク５を介して入力され、ＣＰＵの内蔵メモリまたはＲＡＭに格納された音声に基づいて、上述した特許文献３のように競合モデルを用意して音声認識処理を行い、上述した仮説情報の類似度（尤度）と競合モデルの現在時刻の仮説の類似度（尤度）との尤度比を算出することにより信頼度が特定される。

なお、この信頼度の特定は、このｓ２５１ではなく、本表示内容決定処理とは独立した別の処理において実施することとしてもよく、この場合、このｓ２５１では、こうして特定された信頼度を別の処理から取得することとすればよい。

こうして特定された信頼度が所定の第１しきい値ＴＨ１より大きければ（ｓ２５２：ＹＥＳ）、通常の表示サイズによりメニューを表示すべき旨の決定がなされた後（ｓ２５３）、プロセスが上記指示受付処理へと戻る（ｓ１３０へと移行する）。

上述したｓ２５２での判定基準となる「第１しきい値ＴＨ１」とは、その時点までにマイク５を介して入力された音声が選択経路に沿った内容の音声であると判定して問題ない程度の信頼度として定められた値である。そして、上記ｓ２５３でいう「通常の表示サイズによりメニューを表示すべき旨」とは、表示部４においてメニューを表示させる際の表示領域を、第１実施形態と同様の表示領域とすべきことを意味する。

こうして指示受付処理へと戻った後は、図３のｓ１３０にて通常の表示サイズによるメニューの表示がなされることとなる。
また、上記ｓ２５１で特定された信頼度が、第１しきい値ＴＨ１より小さい値として定められた第２しきい値ＴＨ２より大きければ（ｓ２５２：ＮＯ，ｓ２５４：ＹＥＳ）、通常よりも小さい表示サイズによりメニューを表示すべき旨の決定がなされた後（ｓ２５５）、プロセスが上記指示受付処理へと戻る（ｓ１３０へと移行する）。

上述したｓ２５４での判定基準となる「第２しきい値ＴＨ２」とは、その時点までにマイク５を介して入力された音声が選択経路に沿った内容の音声であると判定するのに十分ではない信頼度として定められた値である。そして、上記ｓ２５５でいう「通常よりも小さい表示サイズによりメニューを表示すべき旨」とは、表示部４においてメニューを表示させる際の表示領域を、第１実施形態における表示領域よりも小さい表示領域とすべきことを意味する。

こうして指示受付処理へと戻った後は、図３のｓ１３０にて通常よりも小さい表示サイズによるメニューの表示がなされることとなる。
また、上記ｓ２５１で特定された信頼度が、第２しきい値ＴＨ２以下である場合（ｓ２５４：ＮＯ）、ｓ２８０へ移行し、メニューの表示を消去すべき旨の決定がなされた後で、プロセスが上記指示受付処理へと戻る（ｓ１３０へと移行する）。
（２−２）作用，効果
このように構成された情報処理装置１によれば、第１実施形態と同様の構成から得られる作用，効果の他、以下に示すような作用，効果を得ることができる。

例えば、上記実施形態においては、外部から入力される音声が、上述した選択経路に沿った内容の音声であることの信頼度に応じて、メニューを示す画像の表示態様を異ならせることができる。具体的には、外部からの入力音声における信頼度が高いほどメニューにおける表示領域を大きくすることができる。

なお、この実施形態においては、表示態様として表示サイズを異ならせるように構成されているが、こうして異ならせる表示態様としては、表示サイズ以外の態様としてもよい。
（３）第３実施形態
この実施形態においては、表示内容決定処理の一部処理内容が一部相違しているだけであるため、この相違点についてのみ説明する。

この相違点とは、上記第１実施形態が、表示部４によるメニューの表示に際し、常に同じ表示態様にて表示させるのに対し、本実施形態が、周辺環境に応じてその表示態様を異ならせている点である。具体的には、ユーザによる音声を入力して動作する所定装置７（図１参照）に対する音声の入力が行われているか否かにより、その表示態様を異ならせるように構成されている。なお、この所定装置７とは、例えば、情報処理装置１と通信可能に接続された情報端末（より具体的には携帯電話端末）などのことである。
（３−１）表示内容決定処理
本実施形態における表示内容決定処理では、第１実施形態と同様にｓ２１０〜ｓ２５０が行われた後、図９に示すように、所定装置７との通信を経て、所定装置７が音声入力を受けて動作しているか否かがチェックされる（ｓ４１０）。

このｓ４１０で、所定装置７が音声入力を受けて動作していると判定された場合には（ｓ４１０：ＹＥＳ）、プロセスがｓ２８０へと移行し、メニューの表示を消去すべき旨の決定がなされた後、プロセスが上記指示受付処理へと戻る（ｓ１３０へと移行する）。

一方、上記ｓ４１０で、所定装置７が音声入力を受けて動作していないと判定された場合には（ｓ４１０：ＮＯ）、プロセスがｓ２７０へと移行し、メニューを表示すべき旨の決定がなされた後、プロセスが上記指示受付処理へと戻る（ｓ１３０へと移行する）。
（３−２）作用，効果
このように構成された情報処理装置１によれば、第１実施形態と同様の構成から得られる作用，効果の他、以下に示すような作用，効果を得ることができる。

例えば、上記実施形態においては、ユーザによる音声を入力して動作する所定装置７が音声入力を受けて動作している場合に、メニューの表示が行われないようにすることができる。

このように、所定装置７に対する音声入力が行われているということは、本情報処理装置１に対する音声入力とは無関係に発声が行われている可能性が高く、そのような無関係の音声を入力してその後の処理を行ってしまうと、ユーザの意図しないメニュー遷移が行われてしまう。

そのため、上記のように、所定装置７が音声入力を受けて動作している場合にメニューの表示が行われないようにすることにより、ユーザの意図しないメニュー遷移が行われないようにすることができる。
（４）第４実施形態
この実施形態においては、表示内容決定処理の一部処理内容が一部相違しているだけであるため、この相違点についてのみ説明する。

この相違点とは、上記第１実施形態が、表示部４によるメニューの表示に際し、常に同じ表示態様にて表示させるのに対し、本実施形態が、周辺環境に応じてその表示態様を異ならせている点である。具体的には、操作部３或いは当該情報処理装置１に接続されている所定装置７に対する操作が行われているか否かにより、その表示態様を異ならせるように構成されている。
（４−１）表示内容決定処理
本実施形態における表示内容決定処理では、第１実施形態と同様にｓ２１０〜ｓ２５０が行われた後、図１０に示すように、操作部３或いは情報処理装置１に接続されている所定装置７において操作が行われている最中であるか否かがチェックされる（ｓ４２０）。

このｓ４２０で、操作部３或いは情報処理装置１に接続されている所定装置７において操作が行われていると判定された場合には（ｓ４２０：ＹＥＳ）、プロセスがｓ２８０へと移行し、メニューの表示を消去すべき旨の決定がなされた後、プロセスが上記指示受付処理へと戻る（ｓ１３０へと移行する）。

一方、上記ｓ４２０で、操作部３或いは情報処理装置１に接続されている所定装置７において操作が行われていないと判定された場合には（ｓ４２０：ＮＯ）、プロセスがｓ２７０へと移行し、メニューを表示すべき旨の決定がなされた後、プロセスが上記指示受付処理へと戻る（ｓ１３０へと移行する）。
（４−２）作用，効果
このように構成された情報処理装置１によれば、第１実施形態と同様の構成から得られる作用，効果の他、以下に示すような作用，効果を得ることができる。

例えば、上記実施形態においては、情報処理装置１の操作部或いは情報処理装置１に接続されている所定装置７が操作されている場合に、メニューの表示が行われないようにすることができる。

このように、情報処理装置１の操作部３或いは情報処理装置１に接続されている所定装置７が操作されているということは、情報処理装置１のメニュー選択とは無関係に発声が行われている可能性が高く、そのような無関係の音声を入力してその後の処理を行ってしまうと、ユーザの意図しないメニュー遷移が行われてしまう。

そのため、上記のように、操作部３に対する操作が行われている場合にメニューの遷移が行われないようにすることにより、ユーザの意図しないメニュー遷移が行われないようにすることができる。
（５）第５実施形態
この実施形態においては、表示内容決定処理の一部処理内容が一部相違しているだけであるため、この相違点についてのみ説明する。

この相違点とは、上記第１実施形態が、表示部４によるメニューの表示に際し、常に同じ表示態様にて表示させるのに対し、本実施形態が、周辺環境に応じてその表示態様を異ならせている点である。具体的には、情報処理装置１周辺に位置しているユーザの数に応じて、その表示態様を異ならせるように構成されている。
（５−１）表示内容決定処理
本実施形態における表示内容決定処理は、第１実施形態と同様にｓ２１０〜ｓ２６０が行われ、このｓ２６０で「ＹＥＳ」と判定された後、図１１に示すように、情報処理装置１周辺に位置するユーザの数がチェックされる（ｓ４３０）。

この実施形態では、情報処理装置１周辺に位置しているユーザの数を検出すべく、その周辺においてユーザが位置しうる領域付近にセンサが配置されているため、このｓ４３０では、それらの検出結果に基づいてユーザの数を検出する。なお、ここでは、周辺においてユーザが位置しうる領域をカメラで撮影しておき、その映像に含まれるユーザを画像処理で特定することにより、ユーザの数を検出することとしてもよい。

こうしてチェックされたユーザの数が「１」であれば（ｓ４３０：ＹＥＳ）、通常の表示サイズによりメニューを表示すべき旨の決定がなされた後（ｓ４４０）、プロセスが上記指示受付処理へと戻る（ｓ１３０へと移行する）。

また、上記ｓ４３０にてチェックされたユーザの数が複数であれば（ｓ４３０：ＮＯ）、通常よりも小さい表示サイズによりメニューを表示すべき旨の決定がなされた後（ｓ４５０）、プロセスが上記指示受付処理へと戻る（ｓ１３０へと移行する）。
（５−２）作用，効果
このように構成された情報処理装置１によれば、第１実施形態と同様の構成から得られる作用，効果の他、以下に示すような作用，効果を得ることができる。

例えば、上記実施形態においては、情報処理装置１周辺に１人のユーザのみが位置していることが検出された場合には（図１１のｓ４３０「ＹＥＳ」）、カレントメニューの表示領域を通常の大きさとするが（同図ｓ４４０）、複数のユーザが位置していることが検出された場合には（同図ｓ４３０「ＮＯ」）、カレントメニューの表示領域を通常よりも小さい表示領域とすることができる（同図ｓ４５０）。

このように、複数のユーザが周辺に位置している場合は、情報処理装置１を音声により操作する以外のユーザからすると、表示部４に表示されるメニューが必ずしも必要な情報ではない。そのため、上記構成のように、このような場合におけるメニューの表示領域を小さくすることで、そのような表示態様を異ならせない構成と比べて、他のユーザにとっての表示部４の視認性が低下することを防止することができる。

なお、この実施形態においては、表示態様として表示サイズを異ならせるように構成されているが、こうして異ならせる表示態様としては、表示サイズ以外の態様としてもよい。
（６）本発明との対応関係
以上説明した実施形態において、図８のｓ３１０は本発明における信頼特定手段であり、同図ｓ２５３，ｓ２５５は本発明における第１の態様決定手段であり，図１１のｓ４４０，ｓ４５０は本発明における第２の態様決定手段であり、図９のｓ４１０は本発明における外部音声入力判定手段であり、図１０のｓ４２０は本発明における操作検出手段であり、図１１のｓ４３０は本発明におけるユーザ検出手段であり、図３のｓ１６０は本発明における処理実施手段である。

情報処理装置の全体構成を示すブロック図表示部に表示されるメニューが遷移していく様子を示す図指示受付処理を示すフローチャート表示内容決定処理を示すフローチャートユーザが選択した選択項目を推定する過程を示す図発話パターン辞書の構成を示す図別の実施形態における表示内容決定処理を示すフローチャート第２実施形態における表示内容決定処理を示すフローチャート第３実施形態における表示内容決定処理を示すフローチャート第４実施形態における表示内容決定処理を示すフローチャート第５実施形態における表示内容決定処理を示すフローチャート

符号の説明

１…情報処理装置、２…記憶部、３…操作部、４…表示部、５…マイク、６…音声入力部、７…所定装置、１０…制御部、２０…入出力インタフェース、３１…音声検出手段、３３…項目推定手段、３５…音声認識手段、３７…処理実施手段、３８…メニュー遷移手段、３９…メニュー表示手段。

Claims

第１階層から第ｎ階層（ｎは任意の数）までの階層構造をなす複数のメニューそれぞれが有する各選択項目をユーザに選択させることにより、その選択項目を有するメニューから別階層のメニューへと遷移するように構成されたユーザインタフェースを実装してなる情報処理装置であって、
複数のメニューそれぞれのうち、その時点で表示させるべきメニューであるカレントメニューを表示部に表示させるメニュー表示手段と、
外部から入力される音声が、第ｉ階層（１≦i＜ｎ）のメニューから第ｎ階層のメニューへと遷移するまでに選択されうる選択項目からなるそれぞれの選択経路のうち、いずれの選択経路におけるいずれの選択項目に対応するかを推定する項目推定手段と、
前記カレントメニューを、前記項目推定手段により推定された選択項目が選択されることにより表示させるべき別階層のメニューに遷移させるメニュー遷移手段と、を備えており、
前記メニュー表示手段は、前記メニュー遷移手段によりカレントメニューとして遷移させられたメニューを示す画像を表示部に表示させる
ことを特徴とする情報処理装置。
前記メニュー表示手段は、メニューを示す画像を表示部に表示させた以降、外部からの音声の入力が所定期間以上なされていない場合に、メニューの前記表示部による表示を消去させる
ことを特徴とする請求項１に記載の情報処理装置。
前記メニュー表示手段は、メニューが表示部に表示されていない状態において、外部から音声の入力がなされた場合に、前記カレントメニューを表示部に表示させる
ことを特徴とする請求項１または請求項２に記載の情報処理装置。
前記メニュー遷移手段は、外部からの音声の入力が所定期間以上なされていない場合に、前記カレントメニューを第１階層のメニューへと遷移させる
ことを特徴とする請求項１から３のいずれかに記載の情報処理装置。
外部から入力された音声を、前記選択項目を選択するためのユーザの発話パターンを格納した発話パターン辞書における各発話パターンと比較し、その比較結果たる類似度が所定のしきい値以上となった発話パターンを認識結果として出力する音声認識手段と、を備えており、
前記項目推定手段は、前記音声認識手段により順次認識された発話パターンに対応する選択項目それぞれからなる選択経路につき、該選択経路において最新の選択項目を推定結果として出力する
ことを特徴とする請求項１から３のいずれかに記載の情報処理装置。
前記項目推定手段は、前記音声認識手段による認識の都度、該認識に際してしきい値以上の類似度となった発話パターンが複数種類認識された場合、最も類似度の高い発話パターンに対応する選択項目それぞれからなる選択経路につき、該選択経路において最新の選択項目を推定結果として出力する
ことを特徴とする請求項４に記載の情報処理装置。
前記メニュー遷移手段は、前記カレントメニューを示すカレント情報を、前記項目推定手段にて推定された選択項目に基づいて遷移させるべき別階層のメニューを示すものに更新することでメニューを遷移させる
ことを特徴とする請求項１から６のいずれかに記載の情報処理装置。
外部から入力される音声に基づき、該音声が前記選択経路に沿った内容の音声であることの信頼度を特定する信頼特定手段と、
前記メニュー遷移手段によりカレントメニューが遷移させられた以降、該メニューの表示態様を、前記信頼特定手段により特定された信頼度に応じて決定する第１の態様決定手段と、を備えており、
前記メニュー表示手段は、前記カレントメニューとして遷移させられたメニューを、該メニューについて前記第１の態様決定手段が決定した表示態様にて表示部に表示させる
ことを特徴とする請求項１から７のいずれかに記載の情報処理装置。
前記第１の態様決定手段は、前記カレントメニューの表示領域における大きさを、前記信頼特定手段により特定された信頼度に応じて決定して、
前記メニュー表示手段は、前記カレントメニューとして遷移させられたメニューを、前記第１の態様決定手段により決定された表示領域に合わせた大きさにて表示部に表示させる
ことを特徴とする請求項８に記載の情報処理装置。
前記メニュー遷移手段によりカレントメニューが遷移させられた以降、外部からの指令を受けて、該メニューの表示態様を決定する第２の態様決定手段、を備えており、
前記メニュー表示手段は、前記カレントメニューとして遷移させられたメニューを、該メニューについて前記第２の態様決定手段が決定した表示態様にて表示部に表示させる
ことを特徴とする請求項１から９のいずれかに記載の情報処理装置。
ユーザによる音声を入力して動作する外部の所定装置（外部装置）との通信を経て、該所定装置が音声入力を受けて動作しているか否かを判定する外部音声入力判定手段，を備えており、
前記第２の態様決定手段は、前記外部音声入力判定手段により外部装置側で音声入力が行われていないと判定された場合に、前記カレントメニューを表示させるべき旨を決定する一方、外部装置側で音声入力が行われていると判定された場合に、前記カレントメニューを表示させない旨を決定する
ことを特徴とする請求項１０に記載の情報処理装置。
当該情報処理装置の操作部或いは当該情報処理装置に接続されている所定装置がユーザにより操作されているか否かを検出する操作検出手段，を備えており、
前記第２の態様決定手段は、前記操作検出手段により操作がなされていないと判定された場合に、前記カレントメニューを表示させるべき旨を決定する一方、前記操作検出手段により操作がなされていると判定された場合に、前記カレントメニューを表示させない旨を決定する
ことを特徴とする請求項１０または請求項１１に記載の情報処理装置。
当該情報処理装置周辺に位置しているユーザの数を検出するユーザ検出手段，を備えており、
前記第２の態様決定手段は、前記ユーザ検出手段により１人のユーザのみが位置していることが検出された場合、前記カレントメニューの表示領域の大きさを通常の大きさに決定する一方、複数のユーザが位置していることが検出された場合、前記カレントメニューの表示領域の大きさを通常よりも小さくするように決定する
ことを特徴とする請求項１０から１２のいずれかに記載の情報処理装置。
前記項目推定手段により推定された選択項目に割り当てられた所定の処理を実施する処理実施手段，を備えている
ことを特徴とする請求項１から１３のいずれかに記載の情報処理装置。
第１階層から第ｎ階層（ｎは任意の数）までの階層構造をなす複数のメニューそれぞれが有する各選択項目をユーザに選択させることにより、その選択項目を有するメニューから別階層のメニューへと遷移するように構成されたユーザインタフェースを提供するためのユーザインタフェース提供方法であって、
複数のメニューそれぞれのうち、その時点で表示させるべきメニューであるカレントメニューを表示部に表示させるメニュー表示手順と、
外部から入力される音声が、第ｉ階層（１≦i＜ｎ）のメニューから第ｎ階層のメニューへと遷移するまでに選択されうる選択項目それぞれの選択経路のうち、いずれの選択経路におけるいずれの選択項目に対応するかを推定する項目推定手順と、
前記カレントメニューを、前記項目推定手順により推定した選択項目が選択されることにより表示させるべき別階層のメニューに遷移させるメニュー遷移手順と、を含み
前記メニュー表示手順では、前記メニュー遷移手順にて遷移させたメニューを示す画像を表示部に表示させる
ことを特徴とするユーザインタフェース提供方法。
請求項１から１４のいずれかに記載の全ての手段として機能させるための各種処理手順をコンピュータシステムに実行させるためのプログラム。