JP5667978B2

JP5667978B2 - オーディオユーザインターフェイス

Info

Publication number: JP5667978B2
Application number: JP2011525045A
Authority: JP
Inventors: ウィリアムブル; ベンロトラー
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2008-09-09
Filing date: 2009-07-28
Publication date: 2015-02-12
Anticipated expiration: 2029-07-28
Also published as: EP2324416B1; HK1160957A1; US20100064218A1; JP2012501035A; KR20110038735A; WO2010030440A1; DE112009002183T5; EP2324416A1; CN102150128B; CN102150128A; US8898568B2

Description

本発明は、一般的に、オーディオユーザインターフェイスに係り、より詳細には、コンピューティング装置のためのオーディオユーザインターフェイスを与える技術に係る。

関連出願の相互参照：本出願は、２００４年１１月４日に出願された“Audio User Interface For Computing Devices”と題する米国特許出願第１０／９８１，９９３号、及び２００３年７月１８日に出願された“Voice Menu System”と題する米国特許出願第１０／６２３，３３９号に関するもので、それらの開示を全ての目的でここに援用する。

ポータブルメディアプレーヤ、セルラーホン、パーソナルデジタルアシスタント（ＰＤＡ）、等の電子装置は、ドッキングステーション、等のように、それらの使用をサポートする周辺電子装置と同様に、今日の市場に広く行き渡っている。パーソナル電子市場での競争が益々過熱するにつれて、消費者は、このような装置の機能及び使い方の両面で益々需要を高めている。

ユーザは、種々のコンテキストにおけるコンテンツを聴取し、注視し、さもなければ、受け取り、そして消費する。例えば、運転中、公共交通に乗りながら、運動中、ハイキング中、家事をしながら、等々の間に、音楽を聴くことは一般的である。更に、ユーザは、現在、メディアプレーヤを使用して、メディアプレーヤに記憶されたコンテンツを再生するのに加えて、ナビゲーション及びリクリエーションのために、ラジオ、テレビ、衛星放送、グローバルポジショニング及び他の放送ベースの地域サービスを受けることが頻繁になってきている。

従来、メディアプレーヤ又はポータブルメディアプレーヤは、そのユーザの利益のためにオーディオ（例えば、歌）又はビデオ（例えば、映画）のようなメディアを再生することができる。オーディオを再生するとき、メディアプレーヤがディスプレイを備えている場合には、曲名や、アーティストの名前や、歌に関する他の情報をディスプレイに表示することができる。ビデオを再生する場合には、ディスプレイを使用してビデオを表示することができる。

携帯性を得るために、多くのハンドヘルド装置は、主として視覚上の双方向作用のためにユーザに種々のディスプレイスクリーンを提示するユーザインターフェイスを使用することができる。ユーザは、ユーザインターフェイスと双方向作用して、スクロールホイール及び／又はボタンのセットを操作し、ハンドヘルド装置のファンクションにアクセスするようにディスプレイスクリーンをナビゲートすることができる。しかしながら、これらのユーザインターフェイスは、種々の理由で、時々、使用が困難となる。その１つの理由は、ディスプレイスクリーンのサイズ及びフォームファクタが小型化の傾向にあり、それ故、見難いことである。もう１つの理由は、ユーザの読み取り視力が悪いか、さもなければ、視覚上の障害があることである。たとえディスプレイスクリーンを認知できても、ユーザは、自分の目の焦点を重要な行動から離してユーザインターフェイスに向けて移行できない状況では、ユーザインターフェイスをナビゲートすることが困難である。このような行動は、例えば、自動車の運転中、運動中、道路の横断中であることを含む。

従って、上述した問題の幾つかを解決する改良された方法及び装置が要望される。更に、上述した欠点の幾つかを緩和する改良された方法及び装置も要望される。

種々の実施形態において、メディアプレーヤ又はポータブルメディア装置のような電子装置と双方向作用するユーザの経験は、オーディオユーザインターフェイスを合体してそのオーディオユーザインターフェイスのための適当なオーディオダイアログが利用できるかどうか決定するインテリジェントな経路を与えることを通して、向上させることができる。例えば、電子装置が通信ネットワーク（例えば、インターネット）へのブロードバンド接続を有するかどうかに基づき、第１形式又はカテゴリーのオーディオファイル（例えば、高質のボイスレコード）をボイスサーバーからオーディオユーザインターフェイスで出力するために電子装置へストリーミングすることを要求するという決定がなされる。別の例では、電子装置にアクセスできるメディア記憶装置で得られる第２形式又はカテゴリーのオーディオファイル（例えば、低質のボイスレコード）だけを使用するという決定がなされる。更に別の例では、予め記録されたボイスオーディオデータを利用できない場合に、オーディオユーザインターフェイスのオーディオプロンプトとして第３のカテゴリーのオーディオデータを生成するために、１つ以上のボイス合成又はテキスト・ツー・スピーチ(text-to-speech)技術を使用するという決定がなされる。

ある実施形態では、メディアプレーヤ又はポータブルメディア装置のような電子装置のユーザは、オーディオユーザインターフェイスに提示される（例えば、再生される）オーディオプロンプトの質を決定することができる。ユーザは、オーディオユーザインターフェイスに対し、予め記録されたオーディオデータを使用すべきかどうか、１つ以上の合成技術を使用して合成されたオーディオプロンプトを使用すべきかどうか、又は慣習的なビープ又は他の非ボイスのオーディオデータを使用すべきかどうか指示する１つ以上のユーザの好みを与える。従って、メディアプレーヤ又はポータブルメディア装置のような電子装置は、ディスプレイのあるものもないものも、サービス又は他の選択基準の利用性に基づいてユーザの双方向作用を容易にするオーディオユーザインターフェイスで改善することができる。

一実施形態では、メディアプレーヤ又はポータブルメディア装置のような電子装置に関連したユーザインターフェイスとユーザとの双方向作用を表す入力が受け取られる。ユーザは、再生／休止ボタンのようなボタンを押すか、又はグラフィックユーザインターフェイスのメニューアイテムを選択／ハイライトすることで、メディアプレーヤと双方向作用することができる。電子装置は、ユーザとユーザインターフェイスとの双方向作用の可聴化(audibilizing)に関連したオーディオプロンプトを識別することができる。電子装置は、オーディオプロンプトに対応するオーディオデータの複数のカテゴリーの１つがメディアプレーヤに利用できるかどうか決定する。例えば、電子装置は、予め記録された有名人のボイスオーディオファイルが内部記憶装置に記憶されるかどうか、ボイス合成モジュール又はテキスト・ツー・スピーチエンジンが数字を合成できるかどうか、或いはボイスサーバーがオーディオユーザインターフェイスのために電子装置へオーディオデータをストリーミングできるかどうか決定する。

次いで、第１カテゴリーのオーディオデータの一部分が出力されるか、さもなければ、電子装置に提示される。ある実施形態では、第１ソースからのオーディオデータの一部分の出力に応答してメディアファイルの再生を休止し又は保留にすることができる。第１ソースからのオーディオデータの一部分の出力に応答してメディアファイルの再生ボリュームを下げ又は弱音化することができる。

ここに開示する発明によって提供される特性、効果及び改良の更なる理解は、本開示の残りの部分及び添付図面を参照することにより得ることができよう。

本開示において示される発明の実施形態及び／又は実施例を良好に説明及び例示するために、１つ以上の添付図面を参照する。添付図面を説明するのに使用される付加的な詳細又は例は、ここに開示する発明、ここに述べる実施形態及び／又は実施例、或いは本開示に提示される発明の現在最良と考えられる態様、の範囲を限定するものではない。

本発明の実施形態によるメディアプレーヤのブロック図である。本発明の一実施形態により予め記録又は合成されたオーディオプロンプトを与えるメディアプレーヤのブロック図である。本発明の一実施形態により予め記録又は合成されたオーディオプロンプトを与えるオーディオユーザインターフェイス管理システムのブロック図である。本発明の一実施形態によるストリーミングオーディオプロンプトシステムのブロック図である。本発明の一実施形態によるメディアプレーヤ及びそれに関連したユーザ入力コントロールを示す図である。本発明の別の実施形態によるメディアプレーヤ及びそれに関連したユーザ入力コントロールを示す図である。本発明の一実施形態により電子装置のユーザにオーディオユーザインターフェイスを与える方法の簡単なフローチャートである。本発明の別の実施形態により電子装置にオーディオユーザインターフェイスを与える方法のフローチャートである。本発明の別の実施形態により電子装置にオーディオユーザインターフェイスを与える方法のフローチャートである。本発明の一実施形態によりオーディオユーザインターフェイスのためのオーディオプロンプトをストリーミングする方法のフローチャートである。本発明の一実施形態により１つ以上のボイス又はテキスト・ツー・スピーチ合成技術を使用してホストコンピュータシステムにおいてオーディオプロンプトを生成する方法のフローチャートである。本発明の別の実施形態により１つ以上のボイス又はテキスト・ツー・スピーチ合成技術を使用してオーディオプロンプトを生成する方法のフローチャートである。本発明の実施形態による電子装置のブロック図である。

種々の実施形態は、オーディオ再生能力を有する電子装置、例えば、メディア装置（例えば、デジタルメディアプレーヤ又はポータブルＭＰ３プレーヤ）、又は他のポータブルマルチファンクション装置（例えば、移動電話又はパーソナルデジタルアシスタント）に良く適したものである。例えば、ポータブル装置は、デジタルメディア資産（メディアアイテム）、例えば、音楽（例えば、歌）、ビデオ（例えば、映画）、オーディオブック、ポッドキャスト、ミーティングレコード、及び／又は他のマルチメディアレコードをしばしば記憶し再生することができる。又、ポータブル装置、例えば、ポータブルメディアプレーヤ又は他のポータブルマルチファンクション装置は、小型で且つ高度にポータブルである。多くの場合、ポータブル装置は、ユーザが片手で容易に保持し且つその中に容易に入るハンドヘルドメディアプレーヤ又はハンドヘルドマルチファンクション装置のようなハンドヘルド装置である。又、ポータブル装置は、ポケットサイズで、小型で、又は着用可能でもある。

種々の実施形態において、メディアプレーヤ又はポータブルメディア装置のような電子装置と双方向作用するユーザの経験は、オーディオユーザインターフェイスを合体してそのオーディオユーザインターフェイスのための適当なオーディオダイアログが利用できるかどうか決定するインテリジェントな経路を与えることを通して、向上させることができる。例えば、電子装置が通信ネットワーク（例えば、インターネット）へのブロードバンド接続を有するかどうかに基づき、第１形式又はカテゴリーのオーディオファイル（例えば、高質のボイスレコード）をボイスサーバーからオーディオユーザインターフェイスで出力するために電子装置へストリーミングすることを要求するという決定がなされる。別の例では、電子装置にアクセスできるメディア記憶装置で得られる第２形式又はカテゴリーのオーディオファイル（例えば、低質のボイスレコード）だけを使用するという決定がなされる。更に別の例では、予め記録されたボイスオーディオデータを利用できない場合に、オーディオユーザインターフェイスのオーディオプロンプトとして第３のカテゴリーのオーディオデータを生成するために、１つ以上のボイス合成又はテキスト・ツー・スピーチ技術を使用するという決定がなされる。

ある実施形態では、メディアプレーヤ又はポータブルメディア装置のような電子装置のユーザは、オーディオユーザインターフェイスに対して提示される（例えば、再生される）オーディオプロンプトの質を決定することができる。ユーザは、オーディオユーザインターフェイスに対し、予め記録されたオーディオデータを使用すべきかどうか、１つ以上の合成技術を使用して合成されたオーディオプロンプトを使用すべきかどうか、又は慣習的なビープ又は他の非ボイスのオーディオデータを使用すべきかどうか指示する１つ以上のユーザの好みを与える。従って、メディアプレーヤ又はポータブルメディア装置のような電子装置は、ディスプレイのあるものもないものも、サービス又は他の選択基準の利用性に基づいてユーザの双方向作用を容易にするオーディオユーザインターフェイスで改善することができる。

本明細書内に見られる発明の種々の実施例及び／又は実施形態が作用するところの環境に関して最初に説明する。

図１は、本発明の実施形態によるメディアプレーヤ１００のブロック図である。一般的に、メディアプレーヤは、メディアプレーヤにおいて再生又は表示することのできるオーディオトラック、映画又は写真のようなコンテンツ及び／又はメディア資産を記憶する。メディアプレーヤ１００の一例は、カリフォルニア州クパチーノのアップル社から入手できるｉＰｏｄ（登録商標）メディアプレーヤである。メディアプレーヤ１００の別の例は、ラップトップ又はデスクトップのようなパーソナルコンピュータである。

この実施例において、メディアプレーヤ１００は、プロセッサ１１０と、記憶装置１２０と、ユーザインターフェイス１３０と、通信インターフェイス１４０とを備えている。プロセッサ１１０は、メディアプレーヤ１００に関連した種々のファンクションを制御することができる。メディアプレーヤ１００は、オーディオコンテンツ、ビデオコンテンツ、映像コンテンツ、等を出力する。メディアプレーヤ１００は、コンテンツに関連したメタデータ又は他の情報、例えば、トラック情報及びアルバムアートも出力する。

典型的に、ユーザは、記憶装置１２０を使用してメディアプレーヤ１００にコンテンツをロードし又は記憶することができる。記憶装置１２０は、リードオンリメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、不揮発性メモリ、フラッシュメモリ、フロッピー（登録商標）ディスク、ハードディスク、等を含む。ユーザは、メディアプレーヤ１００のユーザインターフェイス１３０と双方向作用して、コンテンツを見たり消費したりすることができる。ユーザインターフェイス１３０の幾つかの例は、ボタン、クリックホイール、タッチパッド、ディスプレイ、タッチスクリーン、及び他の入力／出力装置を含む。

メディアプレーヤ１００は、コンテンツをロードし、コンテンツを検索し、メディアプレーヤ１００で実行されるアプリケーションと双方向作用し、外部装置とインターフェイスし、等々に使用できる１つ以上のコネクタ又はポートを備えている。この実施例では、メディアプレーヤ１００は、通信インターフェイス１４０を含む。通信インターフェイス１４０の幾つかの例は、ユニバーサルシリアルバス（ＵＳＢ）インターフェイス、ＩＥＥＥ１３９４（又はＦｉｒｅＷｉｒｅ／ｉＬｉｎｋ（登録商標））インターフェイス、ユニバーサル非同期受信器／送信器（ＵＡＲＴ）、ワイヤード及びワイヤレスネットワークインターフェイス、トランシーバ、等を含む。メディアプレーヤ１００は、通信インターフェイス１４０を使用して、装置、アクセサリー、プライベート及びパブリック通信ネットワーク（例えば、インターネット）、等に接続される。

一実施形態では、メディアプレーヤ１００は、オーディオ及び／又は他の情報をスピーカ１５０へ出力するために、ワイヤード及び／又はワイヤレスコネクタ又はポートを経て結合することができる。別の実施例では、メディアプレーヤ１００は、オーディオ及び／又は他の情報をヘッドホン１６０へ出力するために、ワイヤード及び／又はワイヤレスコネクタ又はポートを経て結合されてもよい。更に別の実施例では、メディアプレーヤ１００は、アクセサリー１７０又はホストコンピュータ１８０とインターフェイスするためにワイヤード及び／又はワイヤレスコネクタ又はポートを経て結合されてもよい。同じコネクタ又はポートで異なる時間に異なる接続を行うことができる。

メディアプレーヤ１００は、ドッキングシステム１９０に物理的に挿入することができる。メディアプレーヤ１００は、ドッキングシステム１９０にインターフェイスするためにワイヤード及び／又はワイヤレスコネクタ又はポートを経て結合されてもよい。又、ドッキングシステム１９０は、１つ以上のアクセサリー装置１９５を、メディアプレーヤ１００とインターフェイスするようにワイヤ又はワイヤレス結合することができる。又、アクセサリー装置１７０及び１９５の多数の異なる形式及びファンクションをメディアプレーヤ１００に相互接続することができる。例えば、アクセサリーは、リモートコントロールでメディアプレーヤ１００をワイヤレス制御できるようにする。別の実施例として、自動車のコネクタにメディアプレーヤ１００を挿入し、自動車のメディアシステムがメディアプレーヤ１００と双方向作用して、メディアプレーヤ１００に記憶されたメディアコンテンツを自動車内で再生することができる。

種々の実施形態において、メディアプレーヤ１００は、コンテンツ又は他のメディア資産をコンピュータシステム（例えば、ホストコンピュータ１６０）から受け取ることができる。コンピュータシステムは、コンピュータシステムに記憶され及び／又はメディアプレーヤ１００に記憶されたメディア資産をユーザが管理できるように働く。例えば、通信インターフェイス１４０は、メディアプレーヤ１００がホストコンピュータ１６０とインターフェイスできるようにする。ホストコンピュータ１６０は、メディア管理アプリケーションを実行してメディア資産を管理し、例えば、歌、映画、写真、等をメディアプレーヤ１００にロードする。又、メディア管理アプリケーションは、プレイリスト、レコード又はリップコンテンツ、再生又は記録のためのスケジュールコンテンツ、等も生成する。メディア管理アプリケーションの一例は、カリフォルニア州クパチーノのアップル社により製造されるｉＴｕｎｅ（登録商標）である。

種々の実施形態において、メディアプレーヤ１００は、オーディオユーザインターフェイスを含む。オーディオユーザインターフェイスの実施形態は、ユーザがメディアプレーヤ１００と双方向作用するときに（例えば、ユーザがボタンを押すか、タッチスクリーンにタッチするか又はグラフィックユーザインターフェイスのアイテムを選択するときに）再生のためにオーディオダイアログから選択されたオーディオプロンプトを提示するか、さもなければ、出力する。オーディオプロンプトは、ユーザが自分の視覚上の注意を自動車の運転、運動、又は道路の横断のような他のタスクに向けながら、ユーザがユーザインターフェイス１３０と双方向作用もできるようにするオーディオインジケータを含む。例えば、オーディオプロンプトは、話された名前又は押されたハードウェアボタンの説明、バーチャルボタン又はコントロールの話されたアクチベーション、或いはユーザインターフェイス選択の話されたバージョン、例えば、選択されたファンクション又はディスプレイメニューの選択された（例えば、ハイライトされた）メニューアイテムを可聴化する。オーディオプロンプトは、予め記録されたボイスデータを含むか、或いはボイス又はスピーチ発生技術により形成される。

１つの態様において、メディアプレーヤ１００の実施形態は、オーディオユーザインターフェイスに対するオーディオプロンプトソースの利用性を効率的にレバレッジする電子装置をオーディオユーザインターフェイスに設けるための技術を含む。例えば、メディアプレーヤ１００は、オーディオダイアログのソースへの接続が利用できるかどうか、高質のソースが利用できるかどうか、等に基づき、異なるオーディオダイアログからオーディオプロンプトを選択的に出力する。一実施例では、メディアプレーヤ１００のユーザは、インターネットに接続されるまで、低質のボイスオーディオプロンプト又はメディアプレーヤ１００により合成されるオーディオプロンプトを聞き、接続時に、高質の予め記憶されたボイスオーディオプロンプトがオーディオユーザインターフェイスへダウンロードされるか又はストリーミングされる。従って、種々の実施形態では、メディアプレーヤ１００は、オーディオユーザインターフェイスに対するオーディオプロンプトのソースの利用性を決定し、そして１つのソースから別のソースへ自動的にスイッチして、利用可能な最良のオーディオフィードバックをユーザへ選択的に与えることができる。

図２は、本発明の一実施形態により予め記録又は合成されたオーディオプロンプトを与えるメディアプレーヤ２００のブロック図である。この実施例では、メディアプレーヤ２００は、メディアプレーヤ１００と同様に具現化され、そしてオーディオ、ビデオ又は映像のようなコンテンツ又は他のメディア資産を専用に処理するポータブルコンピューティング装置を含む。例えば、メディアプレーヤ２００は、音楽プレーヤ（例えば、ＭＰ３プレーヤ）、ゲームプレーヤ、ビデオプレーヤ、ビデオレコーダ、カメラ、映像ビューア、移動電話（例えば、セルラーホン）、パーソナルハンドヘルド装置、等である。これらの装置は、一般的に、バッテリ作動式で高度にポータブル性があり、ユーザは、どこに移動しても、音楽を聴き、ゲームをプレイし、ビデオを再生し、ビデオを記録し、又は写真を撮ることができる。

一実施形態では、メディアプレーヤ２００は、ユーザのポケット又は手に載せるサイズのハンドヘルド装置を含む。ハンドヘルドであることにより、メディアプレーヤ２００は、比較的小型で、ユーザにより容易に取り扱われ使用される。又、ポケットサイズであることにより、ユーザは、メディアプレーヤ２００を直接持ち運ぶ必要がなく、それ故、ユーザのほとんどの移動先へ装置を持って行くことができる（例えば、ユーザは、ポータブルコンピュータのように、大きくて、かさばりそしてしばしば重たい装置を持ち運ぶことによる制限を受けない）。更に、メディアプレーヤ２００は、ユーザの手で操作され、従って、デスクトップのような基準表面は、不要である。別の実施形態では、メディアプレーヤ２００は、メディアファイルを再生することに特に限定されないコンピューティング装置である。例えば、メディアプレーヤ２００は、移動電話又はパーソナルデジタルアシスタントでもよい。

この実施例では、メディアプレーヤ２００は、ユーザインターフェイスコントロールモジュール２１０、オーディオプロンプトデータベース２２０、及びテキスト・ツー・スピーチ(text-to-speech)エンジン２３０を含む。ユーザインターフェイスコントロールモジュール２１０は、ユーザがメディアプレーヤ２００と双方向作用（例えば、ナビゲート、コンテンツ再生の開始、等）できるようにするユーザインターフェイスを管理するためのハードウェア及び／又はソフトウェア要素を含む。ユーザインターフェイスは、例えば、メディアプレーヤ２００のユーザが、メディアプレーヤ２００に常駐するか、さもなければ、アクセスできるコンテンツ又は他のメディア資産をブラウズし、ソートし、サーチし、再生し、等々、を行えるようにする。又、ユーザインターフェイスは、メディアプレーヤ２００のユーザが、メディアプレーヤ２００にメディアアイテムをダウンロード（追加）し又はそこから削除（除去）もできるようにする。

メディアプレーヤ２００のユーザインターフェイスとの双方向作用は、オーディオユーザインターフェイスのためのオーディオプロンプトを、例えば、イヤホン又はスピーカを通して再生させる。オーディオプロンプトデータベース２２０は、オーディオプロンプトのためのオーディオデータ及びオーディオファイルを記憶するハードウェア及び／又はソフトウェア要素を含む。ある実施形態では、オーディオファイルは、メディアプレーヤ２００に予め記録され及び記憶されたオーディオプロンプトを含む。更に別の実施形態では、オーディオファイルは、１つ以上のコンピュータからストリーミングされて後で使用するためにオーディオプロンプトデータベース２２０にキャッシュされたオーディオプロンプトを含む。種々の実施形態において、オーディオファイルは、１つ以上のボイス合成技術を使用してメディアプレーヤ２００又は別の装置により発生されたオーディオプロンプトを含む。オーディオプロンプトデータベース２２０は、他のコンテンツ又はメディア資産を含む。

テキスト・ツー・スピーチ変換エンジン２３０は、テキストのようなデータを、テキストストリングのようなデータを可聴化する（例えば、人間のようなボイス、又は話された形態で言語化する）ユーザインターフェイスオーディオプロンプトを発生するように再生できるオーディオファイル又はオーディオデータへと変換するためのハードウェア及び／又はソフトウェア要素を含む。このようなテキスト・ツー・スピーチ（ＴＴＳ）エンジンは、オーディオデータ又はオーディオファイルを生成するための種々の技術を使用することができる。例えば、あるアルゴリズムは、ワードを、あるサウンドを指定するところの断片又は音節へと分解するための技術を使用する。次いで、個々のサウンドを合成することによりワードを言語化することができる。メディアコンテンツが音楽に関するものである場合には、これらのテキストストリングは、例えば、歌の題名、アルバム名、アーティスト名、連絡先名、住所、電話番号、及びプレイリスト名に対応する。

オペレーションの一例において、メディアプレーヤ２００は、オーディオプロンプトデータベース２２０及びＴＴＳエンジン２３０に対するオーディオプロンプトの利用性に基づき、オーディオユーザインターフェイスのためのオーディオプロンプトを選択的に与えることができる。例えば、メディアプレーヤ２００は、予め記録されたオーディオプロンプトがオーディオプロンプトデータベース２２０に得られるか、さもなければ、そこに記憶されているときには、オーディオプロンプトデータベース２２０からオーディオプロンプトを選択的に出力する。メディアプレーヤ２００は、更に、低質又は低ビットレートのものより高い質又はビットレートのオーディオプロンプトを提示するように、種々の質のオーディオプロンプト間で選択的に選択を行う。別の実施例では、メディアプレーヤ１００は、オーディオプロンプトデータベース２２０に記憶された予め記録されたオーディオプロンプトがないために、又は特定のシミュレーション型ボイスプロフィールに対するユーザの好みに応答して、ＴＴＳエンジン２３０により合成されたボイスプロンプト又はオーディオプロンプトを提示する。種々の実施形態では、メディアプレーヤ１００は、オーディオプロンプトデータベース２２０又はＴＴＳエンジン２３０或いはその組み合わせからオーディオプロンプトを動的に出力する。

更に別の実施形態では、メディアプレーヤ又はポータブルメディア装置のような電子装置は、オーディオユーザインターフェイス管理システムにより与えられるオーディオユーザインターフェイスを含む。オーディオユーザインターフェイス管理システムは、メディア再生装置と、このメディア再生装置にオーディオユーザインターフェイスを容易に設けるホストコンピュータ又はサーバーコンピュータシステムの１つ以上とを含む。一例として、ホストコンピュータシステムは、パーソナルコンピュータを含み、そしてメディア再生装置は、ＭＰ３プレーヤを含む。ある実施形態では、メディア再生装置は、ユーザインターフェイスとのマルチモード双方向作用を与える。例えば、ユーザは、オーディオ及びビジュアルプロンプトを通してユーザインターフェイスと双方向作用することができる。

図３は、本発明の一実施形態により予め記録又は合成されたオーディオプロンプトを与えるオーディオユーザインターフェイス管理システム３００のブロック図である。この実施例において、管理システム３００は、メディアプレーヤ３１０及びパーソナルコンピュータ（ホストコンピュータ）３４０を備えている。メディアプレーヤ３１０は、上述したメディアプレーヤ１００と同様に具現化され、そしてパーソナルコンピュータ３４０にリンク又は結合することができる。

メディアプレーヤ３１０は、図１のメディアプレーヤ１００と同様に具現化され、そして例えば、ポータブルのバッテリ作動装置を含む。一実施形態では、メディアプレーヤ３１０は、ＭＰ３プレーヤを含む。典型的に、メディアプレーヤ３１０は、１つ又は異なるデータ記憶装置（例えば、ディスクドライブ）にコンテンツ又は他のメディア資産を記憶する。メディアプレーヤ３１０は、コンテンツ又は他のメディア資産をメディアファイルに記憶する。

メディアプレーヤ３１０は、ユーザインターフェイスコントロールモジュール３２０及びオーディオプロンプトデータベース３３０を含む。ユーザインターフェイスコントロールモジュール３２０は、ユーザがメディアプレーヤ３１０と双方向作用（例えば、ナビゲート、コンテンツ再生の開始、等）できるようにするユーザインターフェイスを管理するためのハードウェア及び／又はソフトウェア要素を含む。メディアプレーヤ３１０のユーザインターフェイスとの双方向作用は、オーディオユーザインターフェイスのためのオーディオプロンプトを、例えば、イヤホン又はスピーカを経て再生できるようにする。オーディオプロンプトデータベース３３０は、オーディオプロンプトのためのオーディオデータ及びオーディオファイルを記憶するハードウェア及び／又はソフトウェア要素を含む。

パーソナルコンピュータ３４０は、メディアマネージャー３５０、オーディオプロンプトデータベース３６０及びテキスト・ツー・スピーチ（ＴＴＳ）エンジン３７０を含む。パーソナルコンピュータ３４０は、メディアプレーヤ３１０に対してホストコンピュータシステムとして働く。又、パーソナルコンピュータ３４０は、クライアントであるメディアプレーヤ３１０に対してサーバーとして働く任意の形式のコンピュータでよい。

メディアマネージャー３５０は、パーソナルコンピュータ３４０のユーザがパーソナルコンピュータ３４０に記憶されたコンテンツ又は他のメディア資産を直接管理できるようにするハードウェア及び／又はソフトウェア要素を含む。メディアマネージャー３５０は、更に、メディアプレーヤ３１０に記憶されたコンテンツ又は他のメディア資産を直接的又は間接的に管理するように構成される。一実施形態では、メディアプレーヤ３１０及びパーソナルコンピュータ３４０は、周辺ケーブルを使用して結合することができる。典型的に、周辺ケーブルは、メディアプレーヤ３１０及びパーソナルコンピュータ３４０に設けられたデータポートを一緒に結合することができる。ある実施形態では、データポートは、ＦＩＲＥＷＩＲＥポートであり、そして周辺ケーブルは、ＦＩＲＥＷＩＲＥケーブルである。別の実施形態では、データポートは、ユニバーサルシリアルバス（ＵＳＢ）ポートであり、そして周辺ケーブルは、ＵＳＢケーブルである。より一般的には、周辺ケーブルは、データリンクとして働くことができる。メディアアイテムは、周辺ケーブルを経てメディアプレーヤ３１０からパーソナルコンピュータ３４０へ及びそれとは逆に転送することができる。

種々の実施形態において、メディアマネージャー３５０は、ユーザがパーソナルコンピュータ３４０に常駐するコンテンツ又は他のメディア資産をブラウズし、ソートし、サーチし、再生し、そこからプレイリストを作成し、そのコンパクトディスク（ＣＤ）を焼く、等々を行えるようにするユーザインターフェイスも含む。又、ユーザインターフェイスは、パーソナルコンピュータ３４０のユーザが、パーソナルコンピュータ３４０にメディアアイテムをダウンロード（追加）し又はそこから削除（除去）することができるようにもする。一実施形態では、メディアマネージャー３５０及びそれに関連したユーザインターフェイスが、カリフォルニア州クパチーノのアップル社からのｉＴｕｎｅ^TMにより設けられる。

パーソナルコンピュータ３４０のオーディオプロンプトデータベース３６０は、メディアプレーヤ３１０又はパーソナルコンピュータ３４０に関連したオーディオユーザインターフェイスのオーディオプロンプトのためのオーディオデータ又はオーディオファイルを記憶するハードウェア及び／又はソフトウェア要素を含む。オーディオプロンプトデータベース３３０は、インターネットからダウンロードされるか、ＣＤからリップされるか、ユーザにより記録されるか、又はＴＴＳエンジン３７０によって発生されたオーディオダイアログのオーディオプロンプトを含む。ＴＴＳエンジン３７０は、情報又はデータを、情報を可聴化できるオーディオプロンプトとして再生できるオーディオファイル又はボイスデータへと変換するためのハードウェア及び／又はソフトウェア要素を含む。

一実施例において、オーディオプロンプトをメディアプレーヤ３１０のオーディオプロンプトデータベース３３０にアップロードするか、或いはそこに記憶されたオーディオプロンプトを、オーディオプロンプトデータベース３６０に記憶されるか又はＴＴＳエンジン３７０により発生されたオーディオプロンプトで更新するために、パーソナルコンピュータ３４０とメディアプレーヤ３１０との間の同期動作が行われる。一実施例において、各データベースからのコンテンツの比較で、パーソナルコンピュータ３４０に常駐する特定のオーディオプロンプトがメディアプレーヤ３１０に常駐しないことが指示されると、その特定のオーディオプロンプトが、例えば、ワイヤレスリンクを使用して、又は周辺ケーブルを経て、メディアプレーヤ３１０へ送信される（ダウンロードされる）。従って、パーソナルコンピュータ３４０とメディアプレーヤ３１０との間の同期動作は、メディアプレーヤ３１０が、使用可能なオーディオユーザインターフェイスを提示するのに適したオーディオデータ又はオーディオファイルを含むことを保証できるようにする。

メディアプレーヤ３１０にダウンロードされるべきオーディオファイルの数は、オーディオユーザインターフェイスのユーザ設定に依存する。例えば、ユーザは、オーディオプロンプトデータベース３６０に記憶されたオーディオファイル又は他のオーディオデータを、メディアプレーヤ３１０のオーディオユーザインターフェイスのオプション又は特徴の全部又はサブセットに関連付けるためにダウンロードすることを希望する。

図４は、本発明の一実施形態によるストリーミングオーディオプロンプトシステム４００のブロック図である。この実施例では、メディアプレーヤ４１０が通信ネットワーク４２０にリンクされる。メディアプレーヤ４１０は、図２のメディアプレーヤ２００又は図３のメディアプレーヤ３１０と同様に具現化される。ボイスサーバー４３０も通信ネットワーク４２０にリンクされ、メディアプレーヤ４１０と通信することができる。

種々の実施形態において、メディアプレーヤ４１０は、通信ネットワーク４２０を経てボイスサーバー４３０へ至る接続が存在することを検出する。動作の一例において、メディアプレーヤ４１０は、メディアプレーヤ４１０のオーディオユーザインターフェイスで提示するためにボイスサーバー４３０からオーディオプロンプトを受け取ることを選択する。メディアプレーヤ４１０は、オーディオプロンプトのための１つ以上の要求を発生し、そして要求を受け取ると、ボイスサーバー４３０は、それに対応するオーディオプロンプトをメディアプレーヤ４１０へストリーミングし、ユーザに出力する。

ボイスサーバー４３０は、オーディオプロンプトデータベース４４０及びＴＴＳエンジン４５０を含む。ボイスサーバー４３０のオーディオプロンプトデータベース４４０は、メディアプレーヤ４１０に関連したオーディオユーザインターフェイスのオーディオプロンプトに対するオーディオデータ又はオーディオファイルを記憶するためのハードウェア及び／又はソフトウェア要素を含む。オーディオプロンプトデータベース４４０は、１つ以上のコンテンツプロデューサにより予め記録されるか、コンテンツパブリッシャーにより与えられるか、又はＴＴＳエンジン４５０により発生されたオーディオダイアログのためのオーディオプロンプトを含む。ＴＴＳエンジン４５０は、情報又はデータを、情報を可聴化できるオーディオプロンプトとして再生できるオーディオファイル又はオーディオデータへと変換するためのハードウェア及び／又はソフトウェア要素を含む。

従って、メディアプレーヤ４１０は、ユーザへオーディオボイスフィードバックを与えるようにオーディオユーザインターフェイスのオーディオプロンプトのソース間で選択的に選択を行う。メディアプレーヤ４１０は、接続が失われるまでボイスサーバー４３０からオーディオプロンプト（例えば、予め記録又は合成された）を受け取る。接続が失われた時点で、メディアプレーヤ４１０は、内部オーディオプロンプトデータベース又はスピーチ合成モジュールのような異なるソースからのオーディオプロンプトを自動的に選択する。

図５は、本発明の一実施形態によるメディアプレーヤ５００及びそれに関連したユーザ入力コントロールを示す図である。メディアプレーヤ５００は、歌のファイルのようなメディアファイルを再生するためのコンピュータ装置を含む。メディアプレーヤ５００は、メディアデータベースを記憶するメモリと、メディアデータベースに記憶されたコンテンツ又は他のメディア資産を提示又は再生するための再生モジュールとを含む。ネスト状メニュー５０５のセットは、ユーザが希望の歌ファイルをナビゲートし、選択し、従って、聴取できるようにするユーザインターフェイスの少なくとも一部分を表す。ネスト状メニュー５０５のセットを使用して異なる経路を経てあるメディアファイルに到達することができる。又、ユーザインターフェイスは、ユーザが、メディアプレーヤ５００により与えられる希望のファンクションをナビゲートし選択できるようにもする。

又、図５は、メディアプレーヤ５００の代表的なユーザインターフェイスコントロール５１０も示している。一実施形態によれば、ユーザインターフェイスコントロール５１０は、メニューボタン５１５、次ボタン５２０、再生／休止ボタン５２５、及び以前ボタン５３０を含む。ユーザインターフェイスコントロール５１０は、回転できる回転ホイール装置、又は回転ユーザジェスチャーを理解するタッチパッド装置として具現化されるスクロールホイールを含む。ユーザは、ユーザインターフェイスコントロール５１０を押し、擦り、さもなければ、双方向作用して、ネスト状メニュー５０５をナビゲートする。

図６は、本発明の別の実施形態によるメディアプレーヤ６００及びそれに関連したユーザ入力コントロールを示す図である。メディアプレーヤ６００は、以前ボタン６１０、再生／休止ボタン６２０、及び次ボタン６３０を含む。ユーザに情報を伝達し、例えば、電源状態又はメディア再生状態を指示するために、ＬＥＤ６４０及び６５０が使用される。この例では、メディアプレーヤ６００は、図５のネスト状メニュー５０５のようなグラフィックユーザインターフェイスに対して構成されたディスプレイを含まない。従って、メディアプレーヤ６００の動作に関する情報を聴覚で伝達するユーザインターフェイスは、ユーザの経験を劇的に向上させる。

図７は、本発明の一実施形態により電子装置のユーザにオーディオユーザインターフェイスを与える方法の簡単なフローチャートである。図７に示す方法７００のプロセスは、コンピュータシステム又は情報処理装置のようなロジックマシンの中央処理ユニット（ＣＰＵ又はプロセッサにより、又は電子装置又は特定用途向け集積回路のハードウェアコンポーネントにより、或いはソフトウェア及びハードウェア要素の組み合わせにより実行されるときに、ソフトウェア（例えば、インストラクション又はコードモジュール）で遂行される。図７は、ステップ７１０で始まる。

ステップ７２０において、ユーザインターフェイスとユーザとの双方向作用を表す情報が受け取られる。この情報は、信号、メッセージ、割り込み、入力、等を含む。この情報は、ユーザがボタンを押し又は押圧し、クリックホイールをクリックし、タッチスクリーンにタッチし、ジェスチャーを行い、グラフィックユーザインターフェイスの要素をハイライトし又は選択し、等々を行うことを指定する。この情報は、ユーザの単一の行為又は行為の組み合わせを表す。

ステップ７３０において、ユーザの双方向作用に対応するオーディオプロンプトが識別される。このオーディオプロンプトは、登録された双方向作用のユーザへのフィードバックを発声化し、可聴化し、さもなければ、与える情報識別オーディオデータを含む。ステップ７４０において、オーディオプロンプトのためのオーディオデータの形式又はカテゴリーが決定される。種々の実施形態において、オーディオプロンプトは、オーディオデータの異なる形式又はカテゴリーにより表される。オーディオデータの形式又はカテゴリーは、例えば、異なる音質のオーディオデータ、ボイス・対・非ボイス、ビットレート、圧縮、エンコーディング、ソース、配送メカニズム、等を含む。例えば、ボイス合成モジュールにより発生される合成オーディオデータは、数字、日付、等のオーディオプロンプトを与えるのに使用される。別の実施例では、圧縮された予め記憶されたオーディオデータは、再生、休止、次、後退、前進、逆転、等のボタン双方向作用のオーディオプロンプトを与えるのに使用される。更に別の実施例では、ＣＤ品質の予め記録されたオーディオデータは、数字、日付、ボタン押し、メニュー選択、及び所与のオーディオユーザインターフェイスに含まれるユーザの他の双方向作用に対するオーディオプロンプトの全セットを与えるのに使用される。

ステップ７５０において、オーディオプロンプトのためのオーディオデータの決定された形式又はカテゴリーの利用性が決定される。例えば、オーディオユーザインターフェイスのオーディオプロンプトに対する予め記録されたオーディオダイアログ（例えば、予め記録されたオーディオファイルのセット）を使用するための選択を行うことができる。オーディオプロンプトに対するオーディオファイルが存在するかどうか決定するために電子装置はその内部記憶装置をチェックする。或いは又、電子装置は、ホストコンピュータ又はストリーミングボイスサーバーからオーディオプロンプトに対するオーディオファイルを要求してもよい。別の実施例では、予め記録されたオーディオプロンプトが電子装置にローカル記憶されていない場合には、あるオーディオプロンプトに対して予め記録されたオーディオデータを、そして他のオーディオプロンプトに対して合成されたオーディオデータを使用するように選択がなされる。

ステップ７６０において、決定された形式又はカテゴリーのオーディオデータの一部分が利用可能なソースから出力される。従って、種々の実施形態では、オーディオユーザインターフェイスのオーディオプロンプトに対するオーディオデータの異なる形式又はカテゴリーの動的な選択が行われる。更に、ある実施形態では、オーディオユーザインターフェイスの一部分として使用するために電子装置へのオーディオデータの選択又は識別された形式又はカテゴリーを得るためのメカニズムが与えられる。図７は、ステップ７７０で終了となる。

図８Ａ及び８Ｂは、本発明の別の実施形態により電子装置にオーディオユーザインターフェイスを与える方法８００のフローチャートである。この方法８００は、一般的に、オーディオユーザインターフェイスの適当なオーディオダイアログが利用できるかどうか決定し、そしてユーザへ出力するために最良の使用可能なオーディオダイアログを得るインテリジェントな判断経路を含む。図８Ａは、ステップ８０５で始まる。

ステップ８１０において、ボタン押しを表す入力が受け取られる。例えば、ユーザは、図５のメディアプレーヤ５００のユーザインターフェイスコントロール５１０とインターフェイスする。メディアプレーヤ５００は、ボタン押し、タッチ、プレッシャー、ジェスチャー、動き、等を表す１つ以上のアナログ又はデジタル信号を発生する。

ステップ８１５において、ボタン押しのオーディオプロンプトを提示すべきかどうかの決定がなされる。ある実施形態では、コントロール選択には、ユーザに選択を確認するオーディオプロンプトを出力するための指示が伴う。例えば、「再生」は、再生／休止ボタン５２５が実際に押されたというフィードバックを与えるためにユーザに対して可聴化される。これらの実施形態は、ユーザインターフェイスコントロール選択をなすために繰り返しユーザアクションを含む。例えば、ユーザは、選択を行うためにユーザインターフェイスコントロールを何回も「クリック」する。第１の「クリック」は、メディアプレーヤ５００が、選択されたユーザインターフェイスコントロールを可聴化することを決定するようにさせる。例えば、ユーザが再生ボタンを押したときに「再生」が可聴化される。この第１のオーディオプロンプトは、どのボタンが押されたかについて音声ガイドを与え、これは、ハンドヘルド装置に視覚的注意を向けられないときにユーザの助けとなる。

その後の「クリック」は、メディアプレーヤ５００がユーザインターフェイスコントロールに対応するアクションを遂行するようにさせる。例えば、再生ボタンを２回目に押すと、メディアファイルを再生させる。他方、オーディオプロンプトは、意図されない選択が行われようとしていることをユーザに通知する。それ故、ユーザは、異なるユーザインターフェイスコントロールを選択するよう試みることができる。例えば、ユーザは、再生ボタン５２５を２回目に押すように進むのではなく、「次」ボタン５２０を押すよう試みることができる。

ステップ８１５においてボタン押しのオーディオプロンプトを提示するための決定がなされた場合には、処理はインテリジェントな判断経路へと続き、オーディオプロンプトの適当なダイアログが利用できるかどうか、及び適当なオーディオダイアログを電子装置にどのように得るかを決定する。インテリジェントな判断経路は、例えば、オーディオデータの形式又はカテゴリーを発見又は識別すること、及びオーディオデータが利用できるかどうかを含む。

ステップ８２０において、高質のソースが利用できるかどうかの決定がなされる。高質のソースは、所与のビットレートにおいて所定の又は確認された周波数以上でサンプリングされるデジタルオーディオファイル又はオーディオデータを含み、そのサイズは、低質のソースに対して所定のスレッシュホールド又は限界、等を越えるものである。この決定は、高質のソースにアクセスできるところの通信ネットワークへのワイヤレス又はワイヤード接続が存在するかどうかに基づいてなされる。一実施形態では、この決定は、選択基準又はユーザ基準に基づいてなされる。例えば、１つの動作モードでは、ユーザは、ユーザが選択したアクション及びメニューアイテムごとにオーディオプロンプトを聞くことを望む。別のモードでは、ユーザは、コントロール選択（例えば、「再生」ボタン）のオーディオプロンプトをデアクチベートし、ハイライトされたメニューアイテムのオーディオプロンプトだけを聞く。別のモードでは、オーディオプロンプトは、トップレベルのメニューアイテムしか出力できない。

高質のソースが利用できるという決定がなされた場合には、ステップ８２５において、ボタン押しに対応する高質のソースからオーディオプロンプトが検索される。高質のソースの一例は、ロスのない又はＣＤ品質の予め記録されたオーディオデータ又はオーディオファイルを含む。予め記録されたオーディオデータ又はオーディオファイルは、有名人の音声の専門的に作られた録音、漫画のキャラクタ、或いはテレビのショー又はフューチャー映画からの引用を含む。

別の態様において高質のソースが利用できないという決定がなされた場合には、ステップ８３０において、低質のソースが利用できるかどうかの決定がなされる。低質のソースが利用できるという決定がなされた場合には、ステップ８３５において、ボタン押しに対応する低質のソースからオーディオプロンプトが検索される。低質のソースの一例は、ＭＰ３、ＷＭＡ、ＯＧＧ、等の１つ以上の圧縮又はエンコード技術を使用して予め記録されたオーディオデータ又はオーディオファイルを含む。予め記録されたオーディオデータ又はオーディオファイルは、人間の音声の一般的な録音、或いは１つ以上のボイス又はテキスト合成技術を使用して発生された記憶されたオーディオデータ又はオーディオファイルを含む。

図８Ｂを参照すれば、別の態様において低質のソースが利用できないという決定がなされた場合には、ステップ８４０において、テキスト・ツー・スピーチ（ＴＴＳ）又はボイス合成が利用できるかどうかの決定がなされる。１つ以上の合成ソースが利用できるという決定がなされた場合には、ステップ８４５において、ボイス合成又はＴＴＳ合成を使用してオーディオプロンプトが合成され又は発生される。

オーディオユーザインターフェイスのオーディオプロンプトのソースを決定及び選択できない場合には、ステップ８５０において、ボタン押しに対応する１つ以上のビープ又は他の一般的サウンドが出力される。好ましくは、ステップ８５５において、ボタン押しに対応するオーディオプロンプトが出力されるが、これは、ステップ８２５において高質のソースから選択的に得られたものであるか、ステップ８３５において低質のソースから得られたものであるか、又はステップ８４５において合成されたものである。オーディオプロンプトは、ある実施形態では、選択されたオーディオインターフェイスモードに基づいて再生することができる。メディアプレーヤ又はポータブルメディア装置がオーディオファイルを再生しないときには、ユーザインターフェイスに対応するオーディオファイルのみが再生され、ユーザに聞こえるようにされる。

種々の実施形態において、メディアファイルが再生されるときに、オーディオインターフェイスモードは、メディアファイル及びオーディオプロンプト再生を異なる仕方で混合するように設定できる。１つの設定によれば、メディアファイルを再生するためのボリュームは、オーディオプロンプトを再生すべきときに動的に下げることができる。例えば、歌又は映画クリップを再生するためのボリュームは、オーディオプロンプトの再生中に下げることができる。別の設定によれば、メディアファイルの再生は、オーディオプロンプトの再生中に休止され、次いで、オーディオプロンプトが再生された後に、再開される。ユーザがある時間フレーム内に複数のユーザコントロール選択を行う場合には、メディアファイルの再生を短い期間中休止して、メディアファイルの再生を何回も休止及び再開する必要がないようにする。これは、歌の再生の中断の繰り返しを回避することができる。例えば、ユーザが５秒以内に少なくとも３回のユーザコントロール選択を行う場合には、メディアファイルの再生を５秒間休止することができる。ユーザコントロール選択の期間及び回数は、ユーザの好みで変えてもよい。あるオーディオインターフェイスモードは、左、右、又は両方のスピーカ或いはイヤホンチャンネルを通してオーディオプロンプトを再生することを指定できる。

従って、例えば、電子装置又はその装置に接続されたホスト／サーバーコンピュータのいずれにおいて適当なオーディオダイアログが利用できるか、そしてユーザへ出力するための最良の利用可能なオーディオダイアログを得ることができるかどうかの決定がなされる。図８Ｂは、ステップ８６０で終了となる。

図９は、本発明の一実施形態によりオーディオユーザインターフェイスのためのオーディオプロンプトをストリーミングする方法９００のフローチャートである。この方法９００は、一般的に、ボイスサーバーへの接続に基づいてメディア再生装置へオーディオプロンプトをストリーミングすることを含む。図９は、ステップ９１０で始まる。

ステップ９２０において、メディア再生装置（例えば、メディアプレーヤ１００）がブロードバンド接続を検出する。例えば、メディア再生装置は、ワイヤレスアクセスポイントに首尾良く関連付けをする。更に別の実施例では、メディア再生装置は、インターネットへのワイヤード接続を確認する。

ステップ９３０において、メディア再生装置は、ボイスサーバーを使用してオーディオユーザインターフェイスのボイスダイアログを得ることを決定する。例えば、メディア再生装置により実行されるソフトウェアプログラムは、ボイスサーバーによりホストされる１つ以上のアプリケーションとのハンドシェークを開始及び完了する。別の実施例では、メディア再生装置は、接続が利用できるかどうか決定するためにボイスサーバーを周期的にポーリングする。

ステップ９４０において、メディア再生装置は、オーディオプロンプトの要求を発生する。この要求は、オーディオプロンプトを識別する情報、要求されたオーディオプロンプトに対応するユーザの双方向作用を識別する情報、等を含む。又、この要求は、ヘッダー、フラグ、フィールド、チェック、ハッシュ、等の１つ以上を含む。一実施形態では、この要求は、ハイパーテキストトランスポートプロトコル（ＨＴＴＰ）データ、又はリアルタイムトランスポートプロトコル（ＲＴＰ）データを含む。

ステップ９５０において、ボイスサーバーは、オーディオプロンプトをメディア再生装置へストリーミングする。ステップ９６０において、メディア再生装置は、ストリームされるオーディオプロンプトを出力する。ボイスサーバーは、メディア再生装置がオーディオプロンプトの一部分を再生前にバッファするように１つ以上のストリーミングトランスポートプロトコルを利用する（例えば、リアルタイム又はリアルタイムより速く）。

種々の実施形態において、ボイスサーバーは、アイテムごとの支払い又は契約ベースでアクセスすることができる。ボイスサーバーは、非圧縮及び圧縮（例えば、ロスなし又はロスあり）オーディオデータのストリーミングをサポートする。ボイスサーバーは、更に、ユーザが双方向作用（例えば、ナビゲート）するコンテンツ又は他のメディア資産に関連した情報、例えば、タイトル情報、アルバム情報、アーティスト情報、ジャンル情報、メタデータ、等の通信もサポートする。図９は、ステップ９７０で終了となる。

図１０は、本発明の一実施形態により１つ以上のボイス又はテキスト・ツー・スピーチ合成技術を使用してホストコンピュータシステムにおいてオーディオプロンプトを生成する方法１０００のフローチャートである。この方法１０００は、一般的に、オーディオユーザインターフェイスのオーディオプロンプトを合成し、そしてその合成されたオーディオプロンプトをメディア再生装置へ転送する。図１０は、ステップ１０１０で始まる。

ステップ１０２０において、メディア再生装置（例えば、図１のメディアプレーヤ１００）は、ホストコンピュータへの接続を検出する。例えば、メディア再生装置は、そのメディア再生装置が周辺ケーブルを使用してホストコンピュータへ結合されたことを検出する。別の実施例では、メディア再生装置は、ホストコンピュータの接近を検出し、そして例えば、ＷｉＦｉ又はＢｌｕｅｔｏｏｔｈモジュールを使用して、ワイヤレス接続を確立する。

ステップ１０３０において、メディア再生装置は、ホストコンピュータを使用してオーディオユーザインターフェイスのボイスダイアログを得ることを決定する。例えば、メディア再生装置は、メディア再生装置の内部記憶装置が、コンテンツ又は他のメディア資産に加えてオーディオプロンプトを記憶するに充分なスペースを有していないときにホストコンピュータを使用することを決定する。別の実施例では、メディア再生装置は、そのメディア再生装置がＴＴＳエンジンを含まないときにホストコンピュータを使用することを決定する。

ステップ１０４０において、ホストコンピュータは、オーディオプロンプトを合成する。ホストコンピュータは、１つ以上のボイス合成又はテキスト・ツー・スピーチ合成技術を使用して、オーディオプロンプトを発生する。例えば、ホストコンピュータは、メディア再生装置に関連したプロフィールを決定する。このプロフィールは、電子装置にとって特有のボタン押し、メニュー選択、又は他のユーザ双方向作用を通して登録された事象のテキスト記述を含む。ホストコンピュータは、合成ボイス読みを発生し記録することにより、プロフィールのテキスト記述を可聴化する。ホストコンピュータは、各テキスト記述に対して単一のオーディオプロンプトを発生する。又、ホストコンピュータは、単一のオーディオプロンプト内の所与のテキスト記述に対するオーディオデータを表す情報に加えて、各テキスト記述に対するオーディオデータを含む単一のオーディオプロンプトも発生する。

ステップ１０５０において、ホストコンピュータは、オーディオプロンプトをメディア再生装置へ転送する。１つの実施形態において、ホストコンピュータは、オーディオユーザインターフェイスのオーディオダイアログの複数のオーディオプロンプトを発生する。次いで、ホストコンピュータは、例えば、メディア再生装置においてコンテンツ又は他のメディア資産を管理するときに、その装置へ全オーディオダイアログを転送する。別の実施例では、ホストコンピュータは、実質的にリアルタイムでオーディオプロンプトを発生してメディア再生装置へ転送する。ステップ１０６０において、メディア再生装置は、オーディオプロンプトを出力する。図１０は、ステップ１０６０で終了となる。

図１１は、本発明の別の実施形態により１つ以上のボイス又はテキスト・ツー・スピーチ合成技術を使用してオーディオプロンプトを生成する方法１１００のフローチャートである。この方法１１００は、一般的に、事象のテキスト記述を表すオーディオデータを生成又は合成することを含む。図１１は、ステップ１１１０で始まる。

ステップ１１２０において、事象が識別される。事象は、電子装置で考えられるユーザインターフェイスを含む。事象は、ユーザによるボタン押し、クリック、スクロール、タッチ、選択、ハイライト、等により表される。ステップ１１３０において、識別された事象のテキスト記述が決定される。テキスト記述は、事象、装置、ユーザ、コンテンツの一部分、等を記述するワード、センテンス、等を含む。テキスト記述は、ユーザ、開発者又は他の第三者により発生される。

ステップ１１４０において、事象のテキスト記述に基づいて、ボイスオーディオが合成され、さもなければ、発生される。一実施形態では、コンピュータシステムがテキスト・ツー・スピーチ変換プロセスに対する構成設定を検索することができる。構成設定は、ボイス合成又はテキスト・ツー・スピーチ変換プロセスの種々の観点を制御することができる。例えば、構成設定は、オーディオファイルへ変換されるべきあるテキストストリング、ＴＴＳ変換の質、テキストストリングを言語化するボイスの性別、オーディオプロンプトを可聴化するスピード（例えば、ユーザがオーディオプロンプトに馴染むにつれて話す速度を高くすることができる）、及び異なるサブタスクに対するボイスのカスタム化（例えば、コントロール及びファンクションは、あるボイスで可聴化し、歌及び連絡先名のようなデータは、異なるボイスで可聴化することができる）を決定することができる。更に、構成設定は、ユーザがナビゲートするときにオーディオプロンプトの一部分のみを再生することによりユーザインターフェイスコントロールの熟達した操作を取り扱うことができる。例えば、連絡先名を辞書のようにブラウズする間に、ユーザが希望の文字で始まる連絡先名に到達するまで文字（ａ、ｂ、ｃ・・・）だけがレンダリングされる。例えば、Ｊｏｎｅｓの場合には、ｊである。従って、ＴＴＳ構成設定は、装置、構成又はユーザの希望に対応するように種々の設定をもつことができる。

種々のサウンド合成ルール及びエンジンを使用して、オーディオファイルを発生することができる。ワードをオーディオファイルへ変換するためのプロセスの一般的な例は、次のように動作する。ワード“ｂｒｏｗｓｅ（ブラウズ）”を変換するためのプロセスは、ワードを、“ｂ”“ｒ”“ｏｗ”“ｓ”のようなディホン(diphone)単位又は音節(syllable)を表す断片へと分解することにより始まる。次いで、種々の技術で各成分のオーディオプロンプトを発生し、それらを合成して、明瞭なワード又はフレーズを形成することができる。オーディオファイルは、典型的に、生成されるオーディオファイルの形式に対応する拡張子が与えられる。例えば、“ｂｒｏｗｓｅ”のオーディオファイルは、ｂｒｏｗｓｅ．ａｉｆｆファイル名によって識別することができ、ここで、．ａｉｆｆ拡張子は、オーディオファイルを指示する。

ステップ１１５０において、ボイスオーディオプロンプトが出力される。ボイスオーディオプロンプトは、オーディオユーザインターフェイスを有するメディア再生装置とユーザとの双方向作用に応答して出力される。一実施形態では、オーディオユーザインターフェイスは、対応するオーディオプロンプト又はオーディオファイルに対するポインタを含む。例えば、オーディオプロンプトに対する相関ポインタを追跡するためのルックアップテーブルが使用される。図１１は、ステップ１１６０で終了となる。

図１２は、本発明の実施形態によるコンピュータシステム１２００の簡単なブロック図である。図１２は、本発明による実施形態を例示するに過ぎず、特許請求の範囲に規定された本発明の範囲を限定するものではない。当業者であれば、他の変更、修正及び代替が明らかであろう。

一実施形態において、コンピュータシステム１２００は、プロセッサ（１つ又は複数）１２１０、ランダムアクセスメモリ（ＲＡＭ）１２２０、ディスクドライブ１２３０、入力装置（１つ又は複数）１２４０、出力装置（１つ又は複数）１２５０、ディスプレイ１２６０、通信インターフェイス（１つ又は複数）１２７０、及びこれらコンポーネントを相互接続するシステムバス１２８０を備えている。ファイルシステム、記憶ディスク、リードオンリメモリ（ＲＯＭ）、キャッシュメモリ、コーデック、等の他のコンポーネントも存在する。

ＲＡＭ１２２０及びディスクドライブ１２３０は、例えば、オーディオ、映像及び映画ファイルのようなデータや、本発明の実施形態では実行可能なコンピュータコード、人間が読めるコード、等を含むオペレーティングシステムコードを記憶するように構成された有形媒体である。他の形式の有形媒体は、フロッピー（登録商標）ディスク、取り外し可能なハードディスク、光学記憶媒体、例えば、ＣＤ−ＲＯＭ、ＤＶＤ及びバーコード、半導体メモリ、例えば、フラッシュメモリ、リードオンリメモリ（ＲＯＭ）、バッテリバックアップの揮発性メモリ、ネットワーク化された記憶装置、等を含む。

種々の実施形態において、入力装置１２４０は、典型的に、コンピュータマウス、トラックボール、トラックパッド、ジョイスティック、ワイヤレスリモート、描画タブレット、ボイスコマンドシステム、アイトラッキングシステム、マルチタッチインターフェイス、スクロールホイール、クリックホイール、タッチスクリーン、ＦＭ／ＴＶチューナ、オーディオ／ビデオ入力、等として実施される。入力装置１２４０は、ユーザが、ボタンをクリックする等のコマンドを経て、オブジェクト、アイコン、テキスト、等を選択できるようにする。種々の実施形態において、出力装置１２５０は、典型的に、ディスプレイ、プリンタ、フォースフィードバックメカニズム、オーディオ出力、ビデオコンポーネント出力、等として実施される。ディスプレイ１２６０は、ＣＲＴディスプレイ、ＬＣＤディスプレイ、プラズマディスプレイ、等を含む。

通信インターフェイス１２７０の実施形態は、コンピュータインターフェイス、例えば、イーサネット（登録商標）カード、モデム（電話、衛星、ケーブル、ＩＳＤＮ）、（非同期）デジタル加入者ライン（ＤＳＬ）ユニット、ファイアワイヤインターフェイス、ＵＳＢインターフェイス、等を含む。例えば、これらのコンピュータインターフェイスは、コンピュータネットワーク１２９０、ファイアワイヤバス、等に結合される。他の実施形態では、これらのコンピュータインターフェイスは、コンピュータシステム１２００のマザーボード又はシステムボードに物理的に一体化されてもよいし、ソフトウェアプログラム、等であってもよい。

種々の実施形態において、コンピュータシステム１２００は、ＨＴＴＰ、ＴＣＰ／ＩＰ、ＲＴＰ／ＲＴＳＰプロトコル、等のように、ネットワークを経て通信できるようにするソフトウェアを含んでもよい。本発明の別の実施形態では、例えば、ＩＰＸ、ＵＤＰ、等の他の通信ソフトウェア及び転送プロトコルも使用できる。

又、種々の実施形態において、コンピュータシステム１２００は、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）、Ｌｉｎｕｘ（登録商標）、ＭａｃＯＳＸ（登録商標）、リアルタイムオペレーティングシステム（ＲＴＯＳ）、オープンソース及び専有ＯＳ、等のオペレーティングシステムを含んでもよい。

図１２は、本発明を実施することのできるメディアプレーヤ及び／又はコンピュータシステムを表す。当業者であれば、多数の他のハードウェア及びソフトウェア構成も、本発明に使用するのに適していることが容易に明らかであろう。例えば、メディアプレーヤは、デスクトップ、ポータブル、ラックマウント型、又はタブレット構成でよい。更に、メディアプレーヤは、一連のネットワーク化されたコンピュータでよい。更に、メディアプレーヤは、移動装置、埋め込み型装置、パーソナルデジタルアシスタント、スマートホン、等でよい。更に別の実施形態では、上述した技術は、チップ又は補助的な処理ボード上で具現化されてもよい。

本発明は、ソフトウェア又はハードウェア或いはその両方の組み合わせにおけるコントロールロジックの形態で実施することができる。コントロールロジックは、本発明の実施形態に開示された１組のステップを遂行するように情報処理装置に指令するための複数のインストラクションとして情報記憶媒体に記憶される。当業者であれば、ここでの開示及び教示に基づいて、本発明を実施する他の適当な仕方及び／又は方法が明らかとなろう。

ここに述べた実施形態は、本発明の１つ以上の実施例を示すものである。本発明のこれら実施形態は、図面を参照して述べたが、ここに述べた方法及び／又は特定の構造の種々の変更又は適応が当業者に明らかであろう。本発明の教示に依存し且つこれら教示が技術を進歩させるところの変更、適応又は変形は、全て、本発明の範囲内に包含されると考えられる。従って、ここでの説明及び添付図面は、本発明を限定するものではなく、本発明は、ここに示す実施形態に何ら限定されないことを理解されたい。

以上の説明は、例示であって、それに限定されるものではない。当業者が本開示を検討したときには多数の変形が明らかとなろう。それ故、本発明の範囲は、前記説明を参照して決定されるのではなく、特許請求の範囲又はその等効物を参照して決定されねばならない。

１００：メディアプレーヤ
１１０：プロセッサ
１２０：記憶装置
１３０：ユーザインターフェイス
１４０：通信インターフェイス
１７０：アクセサリー
１９０：ドッキング
１９５：アクセサリー
２００：メディアプレーヤ
２１０：ユーザインターフェイスコントロールモジュール
２２０：オーディオプロンプトデータベース
２３０：ＴＴＳエンジン
３１０：メディアプレーヤ
３２０：ユーザインターフェイスコントロールモジュール
３３０：オーディオプロンプトデータベース
３４０：パーソナルコンピュータ
３５０：メディアマネージャー
３６０：オーディオプロンプトデータベース
３７０：ＴＴＳエンジン
４１０：メディアプレーヤ
４２０：通信ネットワーク
４３０：ボイスサーバー
４４０：オーディオプロンプトデータベース
４５０：ＴＴＳエンジン
１２１０：プロセッサ
１２２０：ランダムアクセスメモリ
１２３０：ディスクドライブ
１２４０：入力装置
１２５０：出力装置
１２６０：通信インターフェイス
１２７０：ディスプレイ

Claims

メディアプレーヤによりユーザにオーディオプロンプトを与える方法において、
前記メディアプレーヤに関連したユーザインターフェイスとユーザとの双方向作用を表す入力を受け取るステップと、
オーディオプロンプトが出力されるべきであることを決定するステップと、
前記メディアプレーヤから離れたボイスプロンプトサーバへの接続を前記メディアプレーヤが利用できるかどうかを判定するステップと、
前記ボイスプロンプトサーバへの接続が利用できるという判定に応答して、前記ボイスプロンプトサーバに記憶された複数の準備されたオーディオプロンプトから準備されたオーディオプロンプトを選択し、
前記ボイスプロンプトサーバへの接続が利用できないという判定に応答して、新たなオーディオプロンプトを発生するステップと、
前記メディアプレーヤにおいて、前記準備されたオーディオプロンプト又は前記新たなオーディオプロンプトの１つの少なくとも一部分を出力するステップと、
を備えた方法。
前記新たなオーディオプロンプトを発生する前記ステップは、テキスト・ツー・スピーチ技術を使用して前記新たなオーディオプロンプトを前記メディアプレーヤにより合成することを含む、請求項１に記載の方法。
前記複数の準備されたオーディオプロンプトは、ボイスレコーディングである、請求項１に記載の方法。
前記複数の準備されたオーディオプロンプトから前記準備されたオーディオプロンプトを選択した後、
前記ボイスプロンプトサーバからストリーミング入力を受け取ることを含み、このストリーミング入力は、前記準備されたオーディオプロンプトを含む、請求項１に記載の方法。
メディア再生ユニットと、ユーザインターフェイスと、プロセッサと、を備えたポータブルメディア再生装置であって、
前記プロセッサは、
ユーザインターフェイスとユーザとの双方向作用を表す入力を受け取り、
オーディオプロンプトが出力されるべきであることを決定し、
前記ポータブルメディア再生装置から離れたボイスプロンプトサーバへの接続を前記ポータブルメディア再生装置が利用できるかどうかを判定し、
前記ボイスプロンプトサーバへの接続が利用できるという判定に応答して、前記ボイスプロンプトサーバに記憶された複数の準備されたオーディオプロンプトから準備されたオーディオプロンプトを選択し、
前記ボイスプロンプトサーバへの接続が利用できないという判定に応答して、新たなオーディオプロンプトを発生し、
前記準備されたオーディオプロンプト又は前記新たなオーディオプロンプトの１つの少なくとも一部分を出力するように構成されている、ポータブルメディア再生装置。
前記複数の準備されたオーディオプロンプトは、ボイスレコーディングである、請求項５に記載のポータブルメディア再生装置。
前記ボイスレコーディングは、生成されたオーディオプロンプトより質が高い、請求項６に記載のポータブルメディア再生装置。
前記新たなオーディオプロンプトは、テキスト・ツー・スピーチ合成技術を使用して前記プロセッサにより発生される、請求項５に記載のポータブルメディア再生装置。
メディア再生装置のプロセッサにより実行されたときにそのプロセッサがメディア再生装置にオーディオユーザインターフェイスを与えるようにさせる１組のインストラクションを記憶するように構成されたコンピュータ読み取り可能な媒体において、
前記メディア再生装置に関連したユーザインターフェイスとユーザとの双方向作用を表す入力を前記プロセッサが受け取るようにさせるインストラクションと、
オーディオプロンプトが出力されるべきであることを前記プロセッサが決定するようにさせるインストラクションと、
前記メディア再生装置から離れたボイスプロンプトサーバへの接続を前記メディア再生装置が利用できるかどうか前記プロセッサが判定するようにさせるインストラクションと、
前記ボイスプロンプトサーバへの接続が利用できるという判定に応答して、前記ボイスプロンプトサーバに記憶された複数の準備されたオーディオプロンプトから準備されたオーディオプロンプトを前記プロセッサが選択するようにさせるインストラクションと、
前記ボイスプロンプトサーバへの接続が利用できないという判定に応答して、新たなオーディオプロンプトを前記プロセッサが合成するようにさせるインストラクションと、
前記準備されたオーディオプロンプト又は前記新たなオーディオプロンプトの１つの少なくとも一部分を前記プロセッサが出力するようにさせるインストラクションと、
を備えたコンピュータ読み取り可能な媒体。
前記ボイスレコーディングは、生成されたオーディオプロンプトより質が高い、請求項３に記載の方法。
前記ユーザインターフェイスと前記ユーザとの第２の双方向作用を表す第２の入力を受け取るステップと、
前記ボイスプロンプトサーバへの接続が利用できるという判定に応答して、前記ボイスプロンプトサーバに記憶された複数の準備されたオーディオプロンプトから第２の準備されたオーディオプロンプトを選択するステップと、
前記ボイスプロンプトサーバへの接続が利用できないという判定に応答して、前記メディアプレーヤに記憶された複数の非ボイスオーディオプロンプトから非ボイスオーディオプロンプトを選択するステップと、
前記メディアプレーヤにおいて、前記第２の準備されたオーディオプロンプト又は前記非ボイスオーディオプロンプトの１つの少なくとも一部分を出力するステップと、をさらに備える、請求項１に記載の方法。
前記プロセッサは、さらに、
前記ユーザインターフェイスと前記ユーザとの第２の双方向作用を表す第２の入力を受け取り、
前記ボイスプロンプトサーバへの接続が利用できるという判定に応答して、前記ボイスプロンプトサーバに記憶された複数の準備されたオーディオプロンプトから第２の準備されたオーディオプロンプトを選択し、
前記ボイスプロンプトサーバへの接続が利用できないという判定に応答して、前記メディアプレーヤに記憶された複数の非ボイスオーディオプロンプトから非ボイスオーディオプロンプトを選択し、
前記メディア再生装置を使用して、前記第２の準備されたオーディオプロンプト又は前記非ボイスオーディオプロンプトの１つの少なくとも一部分の再生を起動する、ように構成されている請求項５に記載のポータブルメディア再生装置。
前記ユーザインターフェイスと前記ユーザとの第２の双方向作用を表す第２の入力を前記プロセッサが受け取るようにさせるインストラクションと、
前記ボイスプロンプトサーバへの接続が利用できるという判定に応答して、前記ボイスプロンプトサーバに記憶された複数の準備されたオーディオプロンプトから第２の準備されたオーディオプロンプトを前記プロセッサが選択するようにさせるインストラクションと、
前記ボイスプロンプトサーバへの接続が利用できないという判定に応答して、前記メディアプレーヤに記憶された複数の非ボイスオーディオプロンプトから非ボイスオーディオプロンプトを前記プロセッサが選択するようにさせるインストラクションと、
前記メディア再生装置を使用して、前記第２の準備されたオーディオプロンプト又は前記非ボイスオーディオプロンプトの１つの少なくとも一部分の再生を前記プロセッサが起動するようにさせるインストラクションと、
を備える請求項９に記載のコンピュータ読み取り可能な媒体。