JP2009505321A

JP2009505321A - 再生装置の動作を制御する方法およびシステム

Info

Publication number: JP2009505321A
Application number: JP2008527223A
Authority: JP
Inventors: ブレナー，ヴァディム; ディマリア，ピーター，シー; ロバーツ，デイル，ティー; マントル，マイケル，ダブリュー; オーメ，マイケル，ダブリュー
Original assignee: グレースノートインコーポレイテッド
Priority date: 2005-08-19
Filing date: 2006-08-21
Publication date: 2009-02-05
Also published as: US20090076821A1; WO2007022533A3; EP1934828A4; KR20080043358A; WO2007022533A2; EP1934828A2

Abstract

複数のメディア項目についてメディア・メタデータがアクセス可能である（図１２参照）。メディア・メタデータは、メディア項目に関する情報を同定するいくつかのストリングを含む（図１２参照）。メディア・メタデータの前記いくつかのストリングには発音メタデータが関連付けられている（図１２参照）。発音メタデータの各部分は、ストリングの元の言語で保存される（図１２参照）。

Description

〈関係する出願への相互参照〉
本願は、2005年8月19日に出願された、“Method and Apparatus to Control Operation of a Playback Device”と題する米国仮特許出願第60/709,560号の恩恵を主張するものである。その内容全体はここに参照によって組み込まれる。

〈技術分野〉
本願は、再生装置の動作を制御する方法および装置に関する。ある実施形態では、当該方法および装置は、音声インターフェースを使ったデジタル・コンテンツの再生、ナビゲーションおよび／または動的プレイリスト化を制御しうる。

携帯電話、携帯メディア・プレーヤー（たとえばMP3プレーヤー）、乗物オーディオおよびナビゲーション・システムといったデジタル再生装置などは、典型的には当該装置の動作を制御するためにユーザーが利用する物理的なコントロールを有している。たとえば、デジタル・オーディオ・プレーヤーに設けられている「再生」「一時停止」または「停止」などといった機能は、選択された機能を可能にするためにユーザーが作動させるスイッチまたはボタンの形である。ユーザーは典型的には、指でボタン（ハードまたはソフト）を押して、任意の所与の機能を選択する。

さらに、装置がユーザーから受け取りうるコマンドは、ハードおよびソフトな物理スイッチを有するユーザー・インターフェースの物理的な大きさによって制限される。たとえば、発話入力および可聴フィードバックを組み込む道路ナビゲーション製品が有することがある、限られた物理的コントロール、表示画面領域およびグラフィカル・ユーザー・インターフェースの洗練では、発話入力および／またはスピーカー出力なしでは簡単な操作が可能でないことがありうる。

いくつかの実施形態は、限定ではなく例として、付属の図面において図示される。

再生装置の動作を制御する例示的な方法および装置について述べる。たとえば、本方法および装置は、発話（speech）（またはリスナーによる口頭での意思表示）を使ったデジタル・コンテンツの再生、ナビゲーションおよび／または動的プレイリスト化を制御しうる。以下の記述では、説明の目的で、本発明のある実施形態の十全なる理解を提供するために数多くの個別的詳細が述べられる。しかしながら、当業者には、本発明がそうした個別的詳細なしでも実施されうることは明らかであろう。あくまでも例として、デジタル・コンテンツはオーディオ（たとえば音楽）、スチール画像／写真、ビデオ（たとえばDVD）または他のいかなるデジタル・メディアであってもよい。

本発明は、例として、デジタル・オーディオを参照して記述されるが、当業者には、本発明が、いかなるデジタル・データまたはコンテンツのレンダリングまたは再生を制御するために利用されてもよいことが認識されるであろう。

ここに記載される例示的な諸方法は、数多くの異なる型のシステム上で実装されうる。たとえば、そうした諸方法の一つまたは複数は、記録物を再生する携帯型ユニットに組み込まれてもよいし、あるいは毎分何百という装置からネットワーク（たとえばインターネット）を介して受領される要求を処理する一つまたは複数のサーバーによってアクセスされてもよいし、あるいは単一のデスクトップ・コンピュータまたは構内ネットワークといった何らかの中間物であってもよい。ある例示的な実施形態では、本方法および装置は、デジタル・メディアの再生のための携帯型または移動型メディア装置（たとえば乗物オーディオ・システム、乗物ナビゲーション・システム、乗物DVDプレーヤー、携帯型ハードドライブ・ベースの音楽プレーヤー（たとえばMP3プレーヤー）、携帯電話など）において展開されてもよい。ここに記載される方法および装置は、スタンドアローン装置として展開されてもよいし、あるいは再生装置（携帯型の装置および固定位置のほうが好適な装置、たとえばホーム・ステレオ・システム）に完全に統合されてもよい。

ある例示的な実施形態は、データの型と、装置またはアプリケーションに届けられることのできる関連する声（voice）コマンドおよび制御における柔軟性を許容する。ある例示的な実施形態は、オーディオ（audio）をレンダリングするアプリケーションが要求するコマンドだけを届けうる。したがって、本方法および装置を既存の製品において展開する実装者は、自分たちが必要としており、自分たちの特定の製品が必須の機能性（たとえば乗物オーディオ・システムまたはそのようなシステム上で走るアプリケーション、MP3プレーヤーおよび該プレーヤー上で走るアプリケーション・ソフトウェアなど）を実行するために要求する、生成されたデータを使うだけでよい。ある例示的な実施形態では、本装置および方法は、レガシーの自動化発話認識（ASR: automated speech recognition）／テキスト‐スピーチ（TTS: text-to-speech）ソリューションおよび既存のアプリケーション機能とともに、精確な発話認識および音楽メタデータ合成を達成するために動作しうる。

先進的なASRおよび／またはTTS技術とともに使われるとき、本装置は装置製造業者が、あらゆる型のデジタル娯楽装置（たとえば、乗物オーディオ・システム、ナビゲーション・システム、移動電話など）において音楽コレクションに、迅速に、ハンズフリーでアクセスすることを可能にする。

メディア管理のために使われる発音が、ASRおよびTTSシステムにとって特殊な課題を呈することがありうる。ある例示的な実施形態では、音楽分野固有データを収容することは、データベースサイズのほどほどの増加で達成されうる。増強は主として、アーチスト、アルバムおよび曲名ならびにジャンル、スタイルなどといった他のメディア分野固有用語についての発音転写（phonetic transcription）から生じる。

ある例示的な実施形態は、多様なASRおよびTTS機能を容易にするために、装置またはアプリケーションに機能および発音データ（phonetic data）の送達を提供する。これらの機能は、例として上述したようなさまざまな装置およびメディア・データベースとともに使うことができる。ある例示的な実施形態では、メディア・データベースは、オンライン・アクセスをもつシステムについてはリモートでアクセスでき、あるいは常時接続でない装置についてはローカル・データベース（たとえば、組み込みローカル・データベース）を介してアクセスできる。こうして、たとえば、ローカル・データベースは、携帯再生装置のハードディスク・ドライブ（HDD）において提供されうる。

ある例示的な実施形態では、追加的なセキュリティ保護されたコンテンツおよびデータがローカルなハードディスク・ドライブに、あるいはオンライン貯蔵所に組み込まれていて、適切な声コマンドを介して、デジタル権利管理（DRM: Digital Rights Management）動作とともにアクセスできてもよい。たとえば、ユーザーは、あるトラックを購入する要求を声で発してもよい。するとそのトラックについてのアクセスがロック解除されうる。するとライセンス・キーおよび／または実際のトラックがローカルにロック解除される、ユーザーにストリーミングされる、ユーザーの装置にダウンロードされるなどできる。

ある例示的な実施形態では、本方法および装置は、ジャンル階層、時代／年階層および出自階層といった支援データ構造ならびに関係するアーチスト、アルバムおよびジャンルといった関係データとともに機能しうる。サポートされる声コマンドが目標市場のユーザーの期待と整合するよう、地域または装置固有の階層が読み込まれてもよい。さらに、本方法および装置が一つまたは複数の特定の言語のために構成されてもよい。

図１は、メディア・コンテンツの認識のための例示的な高レベルのシステム・アーキテクチャ１００を示している。これは、再生制御、ナビゲーション、メディア・コンテンツ検索、メディア・コンテンツ推薦、向上されたメタデータ（たとえば歌詞またはジャケット画像）の読み出しおよび／または送達ならびに／またはメディア・コンテンツの動的プレイリスト化を可能にするためである。アーキテクチャ１００は、メディア管理システム１０６およびアプリケーション層／ユーザー・インターフェース（UI）１０８と通信する発話認識および合成装置１０４を含んでいてもよい。

発話認識および合成装置１０４は、発話認識および発話合成を通じてそれぞれ発話入力１１６を受領し、スピーカー出力１１４を提供しうる。たとえば、発話合成のためにテキスト‐スピーチ（TTS）エンジン１１０、発話認識コマンドのために自動化発話認識（ASR）エンジン１１２を使った再生制御、ナビゲーション、メディア・コンテンツ検索、メディア・コンテンツ推薦、向上されたメタデータ（たとえば歌詞またはジャケット画像）の読み出しおよび／または送達ならびに／またはメディア・コンテンツは、たとえば、送達される発音メタデータ（phonetic metadata）１２８に基づいてナビゲーション機能（たとえば再生装置上でのコンテンツのブラウズ）を許容しうる。

ユーザーは、入力装置（たとえばマイクロホン）を介して発話入力１１６を提供しうる。該発話入力１１６は次いでASRエンジン１１２に供給される。ASRエンジン１１２の出力はアプリケーション層／UI１０８に供給され、該アプリケーション層／UI１０８はメディア管理システム１０６と通信しうる。メディア管理システム１０６は、プレイリスト・アプリケーション層１２２、声動作コマンド（VOC: voice operation commands）層１２４、リンク・アプリケーション層１３２およびメディア識別（ID: identification）アプリケーション層１３４を含む。メディア管理システム１０６は、今度は、（ローカルまたはオンラインのCDの）メディア・データベース１２６およびプレイリスト化データベース１１０と通信しうる。

ある例示的な実施形態では、メディアIDアプリケーション層１３４は、ローカル・ライブラリ・データベース１１８に保存されているメディア・コンテンツ１３６の認識プロセスを適正な識別方法（たとえば、テキスト・マッチング、オーディオおよび／またはビデオ・フィンガープリント、コンパクト・ディスクのテーブル・オブ・コンテンツTOCまたはDVDのテーブル・オブ・プログラミング）の使用によって実行するために使われうる。メディア・メタデータ１３０を関係するメディア・コンテンツ１３６と持続的に関連付けるためである。

アプリケーション層／ユーザー・インターフェース１０８は、ユーザーおよび／または組み込みアプリケーション（たとえば再生装置内の）から受領された通信を処理しうる。一方、メディア・プレーヤー１０２が、ユーザーと前記組み込みアプリケーションとの間のテキストおよび／またはグラフィックの通信を受領および／または提供しうる。

ある例示的な実施形態では、メディア・プレーヤー１０２は、ソフトウェアおよび／またはハードウェアの組み合わせであってもよく、次のうちの一つまたは複数であってもよい：コントロール、ポート（たとえばユニバーサル・シリアル・ポート（universal serial port））、ディスプレイ、記憶装置、CDプレーヤー、DVDプレーヤー、オーディオ・ファイル、記憶装置（たとえばリムーバブルおよび／または固定）、ストリーミングされたコンテンツ（たとえばFMラジオおよび衛星ラジオ）、記録機能および他のメディア。ある例示的な実施形態では、組み込みアプリケーションは、メディア・プレーヤー１０２とのインターフェースをもってもよく、それにより組み込みアプリケーションはメディア・プレーヤー１０２の機能性にアクセスし、および／またはこれを制御してもよい。

ある例示的な実施形態では、発音メタデータ１２８のサポートは、メディアIDアプリケーション層１３４において、メディア・データ構造内に発音メタデータ１２８を含めることによって提供されうる。たとえば、CD探索が成功し、メディア・メタデータ１３０（たとえばアルバム・データ）が返されるとき、すべての発音メタデータ１２８は自動的にメディア・データ構造内に含められる。

プレイリスト・アプリケーション層１２２は、プレイリスト化データベース１１０内のプレイリストの生成および／または管理を可能にしうる。たとえば、プレイリストは、メディア・データベース１２６とともに含まれうるようなメディア・コンテンツを含みうる。

図のように、メディア・データベース１２６は、メディア・メタデータ１３０を含みうる。これは発音メタデータ１２８を含むよう向上されうる。ある例示的な実施形態では、既存の発話認識および／または発話合成システムにおける何らかの不十分さに対応するために幅広いカバー範囲の発音メタデータ１２８を提供するために、編集プロセスが利用されてもよい。たとえば、個別に生成された発音データ１２８を直接、メディア・メタデータ１３０と明示的に関連付けることによって、該関連付けは、簡単に発音されない、誤って発音される、ニックネームをもつ、またはスペリング通りに発音されないアーチスト、アルバムおよびトラック名といったメディア・メタデータ１３０を効率的に処理できない既存の発話認識および／または発話合成システムを補佐しうる。

ある例示的な実施形態では、メディア・メタデータ１３０は、再生制御、ナビゲーション、メディア・コンテンツ検索、メディア・コンテンツ推薦、向上されたメタデータ（たとえば歌詞またはジャケット画像）の読み出しおよび／または送達ならびに／またはメディア・コンテンツの動的プレイリスト化のためのメタデータを含んでいてもよい。

発音メタデータ１２８は、諸機能が、あるソリューションの他の構成要素とともに機能できるようにするために、発話認識および発話合成システム１０４によって使われてもよく、持続的なインターネット接続のない装置、インターネット接続のある装置、パソコン・アプリケーションなどにおいて使われてもよい。

ある例示的な実施形態では、メディア・データベース１２６の発音メタデータ１２８から導出される一つまたは複数の発音辞書が、部分的にまたは全体的に、クリアー・テキストの形または別のフォーマットで生成されてもよい。ひとたび完成された発音辞書は、発話認識および合成装置１０４とともに使うために、組み込みアプリケーションによって提供されるか、あるいは、発話認識および合成装置１０４によってすでに使われている既存の辞書にアペンドされうる。

ある例示的な実施形態では、複数の辞書がメディア管理システム１０６によって生成されてもよい。たとえば、貢献者（アーチスト）発音辞書およびジャンル発音辞書が、発話認識および合成装置１０４による使用のために生成されてもよい。

図２を参照すると、例示的なメディア認識および管理システム２００が図示されている。ある例示的な実施形態では、前記メディア認識および管理システム１０６（図１参照）がメディア認識および管理システム２００を含んでいてもよい。

メディア認識および管理システム２００は、オペレーティング・システム（OS）２０４に結合されたプラットフォームを含みうる。プラットフォーム２０２は、ハードウェアおよび／またはソフトウェアでの、ソフトウェアの実行を可能にする枠組みであってもよい。オペレーティング・システム２０４は、データ通信２０６と通信していてもよく、さらにOS抽象化層２０８と通信してもよい。

OS抽象化層２０８は、メディア・データベース２１０、更新データベース２１２、キャッシュ２１４およびメタデータ・ローカル・データベース２１６と通信していてもよい。メディア・データベース２１０は、一つまたは複数のメディア項目２１８（たとえば、CD、デジタル・オーディオ・トラック、DVD、映画、写真など）を含みうる。メディア項目は次いでメディア・メタデータ２２０および発音メタデータ２２２に関連付けられてもよい。ある例示的な実施形態では、元の記録（参照記録）のフィンガープリントに基づいて元の記録の修正されたコピーを同定するために、十分堅牢な参照フィンガープリント・セットが生成されてもよい。

ある例示的な実施形態では、キャッシュ２１４は、データを保存するために使われるコンピューティング・システムまたは装置上のローカル記憶装置であってもよく、メディア認識および管理システム２００において、将来の問い合わせを高速化しうるよう最近問い合わせされた結果を保存することにおいて支援するために、ファイル・ベースのキャッシング機構を提供するために使われてもよい。

ユーザーのコレクションにあるメディア項目２１８のためのプレイリスト関係データが、メタデータ・ローカル・データベース２１６内に保存されてもよい。ある例示的な実施形態では、メタデータ・ローカル・データベース２１６はプレイリスト化データベース（図１参照）を含んでいてもよい。メタデータ・ローカル・データベース２１６は、プレイリスト結果セットを生成するためのプレイリスト・マネージャ２３０の指揮によるプレイリスト生成２３２の実行の間に必要とされるすべての情報を含んでいてもよい。プレイリスト化生成２３２は、プレイリスト・アプリケーション・プログラミング・インターフェース（API）２３６を通じてインターフェースをもたされてもよい。

メディア認識および管理システム２００における探索（lookup）は、OS抽象化層２０８と探索サーバー２２２との間の通信を通じて可能にされうる。探索サーバー２２２は、探索を実施するために、更新マネージャ２２８、暗号化／復号モジュール２２４および圧縮モジュール２２６と通信していてもよい。

メディア認識モジュール２４６は、更新マネージャ２２８および探索サーバー２２２と通信してもよく、メディア・データベース２１０からのメディア項目２１８に関連付けられたメディア・メタデータ２２０にアクセスすることなどによってメディアを認識するために使われてもよい。ある実施形態では、コンパクト・ディスク（オーディオCD）および／または他のメディア項目２１８は、テーブル・オブ・コンテンツ（TOC）情報またはオーディオ・フィンガープリントを使うことによって認識（または同定）できる。ひとたびTOCまたはフィンガープリントが利用可能となれば、アプリケーションまたは装置は、そのCDまたはその他のメディア・コンテンツのためのメディア項目２１８を見つけ出して、メディア・データベース２１０からメディア・メタデータ２２０を取得することができる。認識されたメディア項目２１８について発音データ２２２が存在している場合、それは、X-SAMPAのような発音転写言語において利用可能にされてもよい。メディア・データベース２１０は、ローカルに存在してもよく、ネットワーク接続を通じてアクセス可能であってもよい。ある例示的な実施形態では、発音転写言語は、精確な発音転写（phonetic transcription）（発話音のテキスト記号による表現）のために考案されたキャラクタ集合であってもよい。ある例示的な実施形態では、拡張SAM発音記号（Extended Speech Assessment Methods Phonetic Alphabet）（X-SAMPA）が、国際発音記号（International Phonetic Alphabet）をASCII記号で精密にモデル化するために考案された発音転写言語でありうる。

コンテンツIDの送達モジュール２２４は、コンテンツの識別情報を、リンクAPI２３８に直接送達しうる。一方、VOC API２４２は認識メディア・モジュール２２６およびメディアID API２４０と通信しうる。

図３を参照すれば、再生装置の動作を制御する例示的な発話認識および合成装置３００が図示されている。ある例示的な実施形態では、発話認識および合成装置１０４（図１参照）が発話認識および合成装置３００を含んでいてもよい。発話認識および合成装置３００は、ASR/TTSシステムを含んでいてもよい。

ASRエンジン１１２は、発話認識モジュール３１４、３１６、３１８、３２０を含んでいてもよい。発話認識モジュールは、メディア・メタデータ１３０のほか、メディア管理システム１０６によってサポートされるすべてのコマンドを知っていてもよく、コマンドの認識に際して、発話認識エンジン１１２は適切なコマンドを関連するハンドラに送ってもよい（図１参照）。たとえば、あるプレイリスト化アプリケーションが本実施形態に付随しているとすると、ASRエンジン１１２は、そのプレイリスト化アプリケーションに、次いでアプリケーション層／UI１０８（図１参照）に適切なコマンドを送ってもよい。該アプリケーション層／UIが次いで要求を実行しうる。

ひとたび発話認識および合成装置３００が適切なデータ（たとえば音楽分野のためにカスタマイズされた発音メタデータ１２８、２２２）をもって構成されると、発話認識および合成装置３００は、構成のベースとされたその特定の分野に関連付けられた声コマンドに応答する準備ができうる。発音メタデータ１２８はまた、それが常駐するその特定の装置と関連付けられてもよい。たとえば、その装置が再生装置であれば、発音データは、「再生」「もう一度再生」「停止」「一時停止」などといったコマンドに対応するようカスタマイズされてもよい。

TTSエンジン１１０（図１参照）は、発話合成モジュール３０６、３０８、３１０、３１２を含みうる。発話合成要求を受領すると、クライアント・アプリケーションが、発話出力されるべきコマンドを、TTSエンジン１１０に送りうる。発話合成モジュール３０６、３０８、３１０、３１２はまず、発話出力されるべきテキスト・ストリングを、その関連付けられた辞書（単数または複数）において探索しうる。辞書内でみつかったテキスト・ストリングのこの発音表現が、TTSエンジン３０６によって取り入れられてもよく、テキスト・ストリングの発音表現が発話出力されうる（たとえば、そのテキスト・ストリングのスピーカー出力３０２を生成する）。

ある例示的な実施形態では、ASR文法３１８が、すべての発音メタデータ１２８、２２２およびコマンドを含む辞書を含みうる。「演奏アーチスト」「これと似たものをもっと」「これは何？」といったコマンドが定義されうるのはここである。

ある例示的な実施形態では、TTS辞書３１０は、すべての事前定義された発音を含む、バイナリーまたはテキストのTTS辞書３１０であってもよい。たとえば、TTS辞書３１０は、アプリケーション・データベース内の認識されたコンテンツについてのメディア・データベースからのすべての発音メタデータ１２８、２２２を含みうる。TTS辞書３１０は必ずしも、TTSシステムが発音できるすべての可能な語や句を保持する必要はない。この辞書にない語は、G2Pを介して扱ってもよいからである。

コンテンツ認識ならびに発話認識および合成装置３００の更新実行後、ユーザーは、発話認識および／または発話合成のためのコマンドを実行できてもよい。しかしながら、該機能性は他の適切な仕方で実行されてもよく、上記に制限されないことは認識されるであろう。たとえば、音楽分野について好適であり、インターネットまたは他の任意の通信チャネルを介して更新されうる適切な発音メタデータ１２８、２２２が再生装置に事前ロードされていてもよい。

発話認識および合成装置３００がX-SAMPAをサポートする例示的な実施形態では、発音メタデータ１２８、２２２はそのままで提供される。しかしながら、発話認識および合成装置３００が異なる発音表記言語（phonetic language）のデータを求める実施形態では、装置３００は、X-SAMPAから、ある選択された発音表記言語に変換するためのキャラクタ・マップを含んでいてもよい。

発話認識および合成装置３００は、たとえば次のように再生装置を制御しうる：発話入力３０４はオーディオ入力（たとえばマイクロホン）に話されたコマンド（たとえばユーザーによる口頭の意思表示）であってもよい。それにより、ユーザーが該コマンドを話すと、対応する発話がASRエンジン３１４にはいっていってもよい。ここで、ユーザーの発話のデジタル読み出しを生成するよう、ピッチおよびトーンといった音声特徴が抽出されうる。この段階後、ASRエンジン３１４は諸特徴を、認識のために、発話認識および合成装置３００の検索部に送りうる。検索段階において、ASRエンジン３１４は話されたコマンドから抽出した特徴を、該エンジンのコンパイルされた文法（たとえば、参照コマンドのデータベース）における実際のコマンドと照合する。文法は、個別の実施形態に固有な発音データ１２８、２２２を含んでいてもよい。ASRエンジン３１４は、所与のまたは選択された言語についての発話の平均的な特性のガイドとして音響（acoustic）モデルを使ってもよい。それが、発音メタデータ１２８、２２２の発話との照合を許容する。ここで、ASRエンジン３１４は、コマンドに一致または「失敗」のメッセージを返しうる。

ある例示的な実施形態では、所与の個人の話されたコマンドを、より高い精度（たとえば、分野固有コマンドを認識する際のより高い精度）を提供するようよりよく理解するために発話認識および合成装置３００をトレーニングするために、ユーザー・プロファイルを利用してもよい。これは、ユーザーが特定のテキスト・ストリングの組を発話認識および合成装置３００に向かって話すことによって達成されてもよい。特定のテキスト・ストリングはあらかじめ定義されており、ASRシステム開発者によって提供されるものである。たとえば、該テキスト・ストリングは音楽分野に固有であってもよい。

ひとたびコマンドに一致が見出されたら、ASRエンジン３１４は結果を生成し、組み込みアプリケーションにコマンドを送りうる。すると組み込みアプリケーションは該コマンドを実行できる。

TTSエンジン３０６は、テキスト・ストリング（または発音表記ストリング）を取り入れ、それを処理して発話にする。TTSエンジン３０６は、テキスト・コマンドを受領し、たとえばG2Pソフトウェアを使うかあらかじめコンパイルされたバイナリー辞書（提供される発音メタデータ１２８、２２２を具備する）を検索することによって、該ストリングを処理しうる。TTS機能性が特定の分野（たとえば音楽分野）に合わせてカスタマイズされてもよいことは理解されるであろう。TTS結果は、該ストリングを「話し」うる（テキストに対応するスピーカー出力３０２を生成する）。

ある例示的な実施形態では、メタデータとともに、典型的な声コマンドおよび制御機能のリストが提供されてもよい。これらの声コマンドおよび制御機能は、ランタイムでの再コンパイルのために、初期化の際に、あるいは開発の間に、デフォルト文法に追加されてもよい。例示的なコマンドおよび制御機能（サポートされる機能）のリストが以下に与えられる。

ある実施形態では、発話認識のために文法が使用および更新されうる一方、バイナリー辞書またはテキスト辞書が発話合成のために必要とされることがありうる。TTSエンジン３０６にはいかなるテキスト・ストリングが渡されてもよい。TTSエンジン３０６は、そのストリングを、G2PおよびTTS辞書３１０によってそのために提供される発音を使って話す。

ある例示的な実施形態では、発話認識および合成装置３００は、書記素‐音素（G2P: Grapheme to Phoneme）変換をサポートしうる。これは、G2Pモジュール（単数または複数）を通じて表示テキストをその関連する発音転写に動的かつ自動的に変換しうる。G2P技術は、入力としてアプリケーションによって提供されるプレーン・テキストを取り、自動発音転写を生成する。

ユーザーはたとえば、音楽コンテンツの基本的な再生をASR技術によって声を介して制御するが、該ASR技術は、組み込まれた装置内、あるいは認識、管理、ナビゲーション、プレイリスト化、検索、推薦および／またはサードパーティー技術へのリンクを含む、当該装置のためのバンドル製品付属でありうる。

たとえば、発話認識および合成装置３００を使って、ユーザーは、ジャンル、時代、年、地域、アーチスト種別、テンポ、毎分拍数、ムードなどといった複数の基準を使って動的に自動プレイリストを生成してもよく、あるいは簡単な話されたコマンドをもってシード・ベースの自動プレイリストを生成し、似た音楽のプレイリストを生成することができる。ある例示的な実施形態では、すべての基本的な再生コマンド（たとえば、「再生」「次」「戻る」など）は、声コマンドを介して実行されうる。さらに、テキスト‐スピーチは「これと似たものをもっと」または「これは何？」のようなコマンドあるいは他のいかなる分野固有コマンドを提供してもよい。よって、発話認識および合成装置３００が、声コマンドを使ってオーディオ再生装置のような再生装置に提供されうる型および範囲のコマンドを容易にし、向上させることができることが理解されるであろう。

本装置によってサポートされうる例示的な声コマンドの例を含むテーブルを下記に示す。

図４を参照すると、例示的なメディア・データ構造４００が示されている。ある例示的な実施形態では、メディア・データ構造４００は、メディア項目２１８（図１および図２参照）のようなメディア・コンテンツのための、メディア・メタデータを表すために使用されうる。メディア・データ構造４００は、メディア・タイトル配列４０２をもつ第一のフィールド、主要アーチスト配列４０４をもつ第二のフィールドおよびトラック配列４０６をもつ第三のフィールドを含みうる。

メディア・タイトル配列４０２は、あるメディア・タイトル（たとえば、アルバムのタイトル、映画のタイトルおよびテレビ番組のタイトル）の公式な表現および一つまたは複数の代替表現を含みうる。主要アーチスト名配列４０４は、主要アーチスト名（たとえば、バンドの名前、制作会社の名前および主要俳優の名前）の公式な表現および一つまたは複数の代替表現を含みうる。トラック配列４０６は、前記メディア・タイトルについての一つまたは複数のトラック（たとえば、アルバムのデジタル・オーディオ・トラック、テレビ番組のエピソードおよび映画の中の場面）を含みうる。

例として、メディア・タイトル配列４０２は、「Led Zeppelin IV」、「Zoso」および「無題」を含んでいてもよく、主要アーチスト名配列４０４は「Led Zeppelin」および「The New Yardbirds」を含んでいてもよく、トラック配列４０６は、「Black Dog」、「Rock and Roll」、「The Battle of Evermore」、「Stairway to Heaven」、「Misty Mountain Hop」、「Four Sticks」、「Going to California」および「When the Levee Breaks」を含んでいてもよい。

ある例示的な実施形態では、メディア・データ構造４００は、オンラインまたはローカルでの探索成功イベントを通じて取得されうる。たとえば、メディア・ベースの探索（たとえば、CDベースの探索およびDVDベースの探索）は、メディア項目上のあらゆるトラックについての情報を提供するメディア・データ構造４００を返しうる。一方、ファイル・ベースの探索は、認識されたトラックについてのみ情報を提供するメディア・データ構造４００を返しうる。

図５を参照すると、例示的なトラック・データ構造５００が示されている。ある例示的な実施形態では、トラック配列４０６（図４参照）の各要素がトラック・データ構造５００を含みうる。

トラック・データ構造５００は、トラック・タイトル配列５０２をもつ第一のフィールドおよびトラック主要アーチスト名配列５０４をもつ第二のフィールドを含みうる。トラック・タイトル配列５０２は、トラック・タイトルの公式な表現および一つまたは複数の代替表現を含みうる。トラック主要アーチスト名配列５０４は、該トラックの主要アーチスト名の公式な表現および一つまたは複数の代替表現を含みうる。

図６を参照すると、例示的なコマンド・データ構造６００が示されている。コマンド・データ構造６００は、コマンド配列６０２をもつ第一のフィールドおよびプロバイダ名配列６０４をもつ第二のフィールドを含みうる。ある例示的な実施形態では、コマンド・データ構造６００は、発話認識および合成装置３００（図３参照）とともに使われる声コマンドのために使用されうる。

コマンド配列６０２は、コマンド（たとえば、ナビゲーション制御およびプレイリストに対する制御）の公式な表現および一つまたは複数の代替表現を含みうる。プロバイダ名配列６０４は、該コマンドのプロバイダの公式な表現および一つまたは複数の代替表現を含みうる。たとえば、コマンドは、ナビゲーション、プレイリスト化（たとえば、音楽の一つまたは複数のプレイリストの生成および／または使用）、再生制御（たとえば再生および停止）などを可能にしうる。

図７を参照すると、例示的なテキスト配列データ構造７００が示されている。ある例示的な実施形態では、メディア・タイトル配列４０２および／または主要アーチスト配列４０４（図４参照）がこのテキスト配列データ構造７００を含みうる。ある例示的な実施形態では、トラック・タイトル配列５０２および／またはトラック主要アーチスト名配列５０４（図５参照）がこのテキスト配列データ構造７００を含みうる。ある例示的な実施形態では、コマンド配列６０２および／またはプロバイダ名配列６０４（図６参照）がこのテキスト配列データ構造７００を含みうる。

例示的なテキスト配列データ構造７００は、公式表現フラグ７０２をもつ第一のフィールド、表示テキスト７０４をもつ第二のフィールド、書記言語（written language）識別情報（ID）７０６をもつ第三のフィールドおよび発音転写配列７０８をもつ第四のフィールドを含みうる。

公式表現フラグ７０２は、そのテキスト配列データ構造７００について、そのテキスト配列データ構造７００が前記発音転写の公式表現（たとえば公式な発音転写）を表しているか、前記発音転写の代替表現（たとえば代替的な発音転写）を表しているかを示すフラグを提供しうる。たとえば、フラグは、あるタイトルまたは名前が公式な名前であることを示しうる。

ある例示的な実施形態では、公式な発音転写は、テキスト・ストリングの正しい発音の発音転写でありうる。ある例示的な実施形態では、代替的な発音転写は、テキスト・ストリングの一般的な誤発音または代替的な発音でありうる。代替的な発音転写は、ユーザーのミスによって起こりうるようなテキスト・ストリングの一般的な非標準発音の発音転写（たとえば誤った発音の発音転写）を含んでいてもよい。代替的な音声転写はまた、地域的な言語、地方の方言、地元の慣習の多様性および／または正しい発音についての明確さが一般に欠けていることに起因して生じるテキスト・ストリングの一般的な非標準発音の発音転写（たとえば代替的な発音の発音転写）を含んでいてもよい。

ある例示的な実施形態では、公式表現は、公式に発表されたメディアに現れるテキストに一般に関連付けられるか、および／または編集上決定されるかしうる。たとえば、公式なアーチスト名、アルバム・タイトルおよびトラック・タイトルは、通常、頒布されたメディアの元のパッケージングに見出されうる。ある例示的な実施形態では、アーチストが経歴の間に公式名を変えた場合、公式表現は単一の正規化された名前でありうる（たとえばPriceおよびJohn Mellencamp）。

ある例示的な実施形態では、代替表現は、アーチスト名、アルバム・タイトル、トラック・タイトル、ジャンル名、アーチスト出身地およびアーチスト時代記述に関連付けられうるような、ニックネーム、短縮名、一般的な略語などを含みうる。のちにより詳細に述べるように、各代替表現は、表示テキストおよび任意的に一つまたは複数の発音転写を含みうる。ある例示的な実施形態では、発音転写は、話される人間言語において生起する音の記号化のテキスト表示であってもよい。

表示テキスト７０４は、人間の読み手に対する表示のために好適であるテキスト・ストリングを示しうる。表示テキスト７０４の例は、アーチスト名、アルバム・タイトル、トラック・タイトル、ジャンル名などに関連付けられた表示ストリングを含む。

書記言語ID７０６は任意的に、表示テキスト７０４の元の書記言語を指示しうる。例として、書記言語ID７０６は、「Los Lonely Boys」の表示テキストがスペイン語であることを指示しうる。

発音転写配列７０８は、さまざまな発話言語（spoken language）（アメリカ英語、イギリス英語、カナダ・フランス語、スペイン語および日本語）における発音転写を含みうる。発音転写配列７０８内に表現される各言語は、公式発音の発音転写および一つまたは複数の代替発音の発音転写を含みうる。

ある例示的な実施形態では、発音転写配列７０８またはその一部は、メディア・データベース１２６、２１０内に発音メタデータ１２８、２２２として保存されうる。

ある例示的な実施形態では、発音転写配列７０８の発音転写は、X-SAMPAアルファベットを使って保存されてもよい。ある例示的な実施形態では、発音転写はL&H+のような別の発音表記アルファベットに変換されてもよい。特定の発音表記アルファベットのサポートは、ソフトウェア・ライブラリ・ビルド構成の一部として提供されうる。

表示テキスト７０４は、辞書を生成することによって、発音転写配列７０８の公式発音転写および代替発音転写に関連付けられうる。生成された辞書は、認識イベントに先行して、発話認識および合成装置３００（図３参照）によって提供され、使用されうる。ある例示的な実施形態では、表示テキスト７０４および対応する発音転写は、認識イベントの発生に際して提供されうる。

発音メタデータ１２８、２２２についてのごく一般的に誤発音されるストリングの代替発音または発音異形の発音転写が提供されてもよい。代替発音または発音異形は、書記素‐音素技術を使って数多くのプレーンテキスト・ストリングを扱うよう自動化発話認識エンジン１１２を適応させるために使用されうる。しかしながら、認識は、若干の顕著な例外については問題となりうる（たとえば、Shade［シャーデー］、Beyonce［ビヨンセ］、AC/DC、311、B-52s、R.E.M.など）。追加的または代替的に、ある実施形態は、ユーザーがよく誤発音する名前についての発音異形を含んでいてもよい。たとえば、Sade［シャーデー］（たとえば「セイド」

外１

と誤発音される）、Beyonce（たとえば「ビヨンス」

外２

と誤発音される）およびBrian Eno（たとえば「エーノ」

外３

と誤発音される）のようなアーチストである。

ある例示的な実施形態では、あるアーチストを呼ぶときに使いうる代替名の発音表現が提供され、通例ASRシステムに見出される厳格さを下げる。たとえば、「アーチスト：フランク・シナトラ（Frank Sinatra）を再生」「アーチスト：オール・ブルー・アイズ（Ol' Blue Eyes）を再生」「会長（The Chairman of the Board）を再生」といったコマンドがみな等価であるように、コンテンツを編集できる。

一連の例として、第一の使用事例は、ビーチ・ボーイズについてありうる。ビーチ・ボーイズは、「ビーチ・ボーイズ」と言う英語の一つの発音転写を有しうる。第二の使用事例（たとえば、ニックネームについて）は、エルビス・プレスリーについてでありうる。プレスリーはその名前にニックネーム、すなわち「ザ・キング」または「キング・オブ・ロックンロール」が関連付けられている。ニックネームのストリングそれぞれは、別個のテキスト配列データ構造７００を有し、それに付随する発音転写配列７０８内に公式な発音転写を有していてもよい。第三の使用事例（たとえば、複数の発音について）は、Eisley Brothersについてでありうる。Eisley Brothersは発音転写配列７０８内に、Eisley Brothersについての第一の公式な発音転写およびIsley Brothersについての第二の誤発音転写をもつ単一のテキスト配列データ構造７００を有しうる。

上の例を続けると、第四の使用事例（たとえば、複数言語について）は、スペイン語での発音転写をもつアーチストLos Lobosを有しうる。メディア・データベース１２６内の発音メタデータ１２８はスペイン語で保存されてもよく、発音転写はスペイン語で保存され、しかるべくタグ付けされてもよい。第五の使用事例（たとえば、ニックネームおよび地域化された例外における外国語について）は、エルビス・プレスリーの中国での「Mao Wong」というニックネームのような、外国語のニックネームを含みうる。ニックネームについての発音転写は、Mao Wongとして保存されてもよく、該発音転写は中国語に関連付けられてもよい。第六の使用事例（たとえば、誤発音地域化された例外）は、ACDCについてでありうる。AC/DCは関連付けられた英語での公式転写をもち、それはAC/DCでありうるが、話される言語がフランス語であるときはACDCについてのフランス語の転写が提供されることになる。

図８を参照すると、例示的な発音転写データ構造８００が示されている。ある例示的な実施形態では、発音転写配列７０８（図７参照）の各要素が発音転写データ構造８００を含みうる。たとえば、発音転写は、発音転写データ構造８００を含みうる。

発音転写データ構造８００は、発音転写ストリング８０２をもつ第一のフィールド、発話言語ID８０４をもつ第二のフィールド、元の言語転写フラグ８０６をもつ第三のフィールドおよび正しい発音フラグ８０８をもつ第四のフィールドを含みうる。

発音転写ストリング８０２は、発音のために使われる発音キャラクタのテキスト・ストリングを含みうる。たとえば、発音転写ストリング８０２は、ASR/TTSシステムによって使用されるのに好適でありうる。

ある例示的な実施形態では、発音転写ストリング８０２はネイティブな発話言語（たとえば、発音転写ストリング８０２の元の言語）でメディア・データベース１２６に保存されうる。

ある例示的な実施形態では、発音キャラクタのストリングのために使われるアルファベットは、一般的な発音表記言語（たとえばX-SAMPA）において保存されてもよく、それがASRおよび／またはTTSシステム固有の文字コードに翻訳されてもよい。ある例示的な実施形態では、発音キャラクタのストリングのために使われるアルファベットはL&H+でもよい。

発話言語ID８０４は、任意的に、発音転写ストリング８０２の元の発話言語を指示してもよい。たとえば、発話言語ID８０４は、発話転写ストリング８０２に取り込まれているのが、その発話言語ID８０４によって同定される言語の話者が関連付けられた表示テキスト７０４（図７参照）をどのように発音するかであることを示しうる。

元の言語転写フラグ８０６は、その転写が、表示テキスト７０４（図７参照）の書記言語ID７０６に対応するかどうかを示しうる。ある例示的な実施形態では、発音転写が表示テキスト７０４と同じ言語であるとき、発音転写は元の言語（たとえば、そのストリングが発話されるであろう言語）でありうる。

正しい発音フラグ８０８は、発音転写ストリング８０２が、発話言語IDによって同定される発話言語における正しい発音を表しているかどうかを示しうる。

ある例示的な実施形態では、正しい発音とは、ある発音が、ある所与の言語の話者によって一般に正しいとして受け容れられているときのものである。単一の表示テキスト７０４について複数の正しい発音が存在することもありうる。ここで、そのような発音のそれぞれが、ある所与の発話言語における「正しい」発音を表す。たとえば、「AC/DC」についての英語での正しい発音の発音転写（エイ・シー・ディー・シー）は、「AC/DC」のフランス語での正しい発音についての発音転写（アー・セー・デー・セー）とは異なっていることがありうる。

ある例示的な実施形態では、誤発音とは、ある発音が、ある所与の言語の話者によって一般に誤発音として受け容れられているときのものである。単一の表示テキスト７０４について複数の誤発音が存在できる。ここで、そのような発音のそれぞれが、ある所与の発話言語における誤発音を表しうる。たとえば、誤発音が十分一般的で、ユーザーがその発音をすることが比較的ありそうである場合には、その誤発音の発音転写が組み込みアプリケーションに提供されてもよい。

ある例示的な実施形態では、ある表現（たとえば、アーチスト名、メディア・タイトルなど）についての目標発話言語における諸発音転写（たとえば、正しい発音および誤発音についての）を取得するために、ある表現の発音転写配列７０８（図７参照）が横断され（traversed）、目標発音転写ストリング８０２が取得され、各発音転写の正しい発音フラグ８０８が問い合わされてもよい。

ある例示的な実施形態では、表示テキスト７０４、発音転写配列７０８の発音転写および任意的に発話言語ID８０４を含むメディア・データ構造４００からのデータが使用され、発話認識および合成装置３００（図３参照）のための文法３１８および辞書３１０（および任意的には他の辞書）に中身を入れてもよい。

図９を参照すると、例示的な代替句マッピング器データ構造９００が示されている。代替句マッピング器データ構造９００は、代替句９０２をもつ第一のフィールド、公式句配列９０４をもつ第二のフィールドおよび句種別９０６をもつ第三のフィールドを含みうる。代替句マッピング器データ構造９００は、代替句マッピング器をサポートするために使用されうる。その使用についてはのちに詳細に述べる。

代替句９０２は、公式句に対する代替句を含みうる。ここで、句とは、アーチスト名、メディアまたはトラック・タイトル、ジャンル名、（アーチスト種別、アーチスト出身地またはアーチストの時代の）記述などを指しうる。公式句配列９０４は、代替句９０２に対応する一つまたは複数の公式句を含みうる。

たとえば、代替句は、公式名をもつ人物、アルバム、曲、ジャンルまたは時代を表すと普通に知られている、ニックネーム、短縮名、略語などを含みうる。貢献者代替名は、ニックネーム、短縮名、長い名前、出生名、頭字語およびイニシャルを含みうる。ジャンル代替名は、公式名が「R&B」である場合の「リズム・アンド・ブルース」を含みうる。たとえばアーチスト名、アルバム・タイトル、トラック・タイトル、ジャンル名および時代記述のそれぞれは、その公式表現（たとえば、代替句のための公式な発音転写）とは別に、潜在的に、一つまたは複数の代替表現（たとえば、代替句のための代替的な発音転写）を有しうる。

ある例示的な実施形態では、代替句のための発音転写は、別の名前（たとえば、ニックネーム、略語または出生名）に言及するためのある代替的な名前を表すテキスト・ストリングの発音転写でありうる。

ある例示的な実施形態では、代替句マッピング器は、別個のデータベースを使ってもよい。その際、探索成功のたびに、代替句マッピング器データベースは、代替句（返されたメディア・データに存在していれば）を公式句にマッピングする代替句マッピング器データ構造９００をもって、自動的に中身が入れられうる。

ある例示的な実施形態では、代替句のための発音転写は、辞書（たとえば、貢献者発音辞書および／またはジャンル発音辞書）として、発話認識および合成装置３００の辞書エントリー３２０内に保存されうる（図３参照）。それによりユーザーは、公式句の代わりに代替句を入力として話すことが可能になる。辞書の使用は、ASRエンジン３１４が、話された入力１１６を、辞書のうちの一つからの正しい表示テキスト７０４（図７参照）と対応付けることを可能にしうる。次いで、ASRエンジン３１４からのテキスト・コマンド３１６は、さらなる処理のために、VOCアプリケーション層１２４および／またはプレイリスト・アプリケーション層１２２などに提供されうる（図１および図３参照）。

句種別９０６は、メディア・データ構造４００（図４参照）に対応しうるような句の種別を含みうる。たとえば、句種別９０６の値は、アーチスト名、アルバム・タイトル、トラック・タイトルおよびコマンドを含みうる。

図１０を参照すると、ある例示的な実施形態に基づくデータベース上で発音メタデータ１２８、２２２を管理するための方法１０００が示されている。ある例示的な実施形態では、該データベースはメディア・データベース１２６、２１０（図１および図２参照）を含みうる。

ブロック１００２でデータベースがアクセスされうる。判断ブロック１００４では、発音メタデータ１２８、２２２が変更されるかどうかについての判定がなされうる。発音メタデータ１２８、２２２が変更される場合、発音メタデータ１２８、２２２はブロック１００６で変更される。発音メタデータ１２８、２２２を変更するある例示的な実施形態は、のちにより詳細に述べる。判断ブロック１００４で発音メタデータ１２８、２２２が変更されない場合、あるいはブロック１００６の後、本方法１０００は、判断ブロック１００８に進みうる。

判断ブロック１００８では、データベースからメタデータ（たとえば、発音メタデータ１２８、２２２および／またはメディア・メタデータ１３０、２２０）が提供されるべきかどうかについての判定がなされうる。

メタデータが提供されるべきである場合、該メタデータはブロック１０１０でデータベースから提供される。ある例示的な実施形態では、メタデータの提供は、ローカル・ライブラリ・データベース１１８（図１参照）に当該データのための要求されたメタデータを提供することを含みうる。

ある例示的な実施形態では、地域的な発音転写のための発音メタデータ１２８がデータベースから、および／またはデータベースに提供されてもよく、目標地域のネイティブな発話言語において保存されてもよい。

ある例示的な実施形態では、ブロック１０１０でのメタデータの提供は、組み込みアプリケーションの音楽ライブラリを解析して、アクセス可能なデジタル・オーディオ・トラックを判別し、発話認識および合成装置３００（図３参照）での貢献者／アーチスト発音辞書および汎用発音辞書を生成することを含みうる。たとえば、所与のアプリケーションのためにサポートされうるすべての関連する発話言語について発音メタデータ１２８、２２２が受領され、ブロック１０１０での組み込みアプリケーションによる使用のために保存されうる。

判断ブロック１００８でメタデータが提供されない場合、あるいはブロック１０１０の後、本方法１０００は、終了するかどうかを判定するために判断ブロック１０１２に進みうる。本方法１０００が動作を続ける場合、本方法１０００は判断ブロック１００４に戻りうる。そうでない場合には、本方法１０００は終了しうる。

ある例示的な実施形態では、メタデータは、認識イベントが起こるときは常に、ブロック１０１０でリアルタイムで提供されうる。認識イベントの生起はたとえば、組み込みアプリケーションを走らせている装置中へのCDの挿入、該組み込みによるアクセスのためのファイルのアップロード、音楽ナビゲーションのためのコマンド・データの取得などによる。ある例示的な実施形態では、発音メタデータ１２８、２２２を動的に提供することは、組み込みアプリケーション内でデータを照合するための検索時間を短縮しうる。

ある例示的な実施形態では、代替句マッピング器によって使われる代替句データが同じようにして、ブロック１０１０で発音メタデータ１２８、２２２として提供されうる。たとえば、代替句データは、自動的に、探索成功によって返されるメディア・メタデータ１３０、２２０の一部でありうる。

図１１を参照すると、ある例示的な実施形態に基づく、データベースの発音メタデータを変更する方法１１００が示されている。方法１１００は、ブロック１００２（図１０参照）で実行されうるものである。ある例示的な実施形態では、データベースはメディア・データベース１２６、２１０（図１および図２参照）を含みうる。ブロック１１０２でストリングがアクセスされうる。該ストリングはたとえば、メディア・メタデータ２２０のフィールド内に含まれている複数のストリングのうちのストリングである。ある例示的な実施形態では、ストリングはメディア項目２１８（図２参照）のある側面を記述しうる。たとえば、該ストリングは、メディア・タイトル配列４０２のメディア・タイトルの表現、主要アーチスト名配列４０４の主要アーチスト名の表現、トラック・タイトル配列５０２のトラック・タイトルの表現、トラック主要アーチスト名配列５０４の主要アーチスト名の表現、コマンド配列６０２のコマンドの表現および／またはプロバイダ名配列６０４のプロバイダの表現でありうる。

判断ブロック１１０４で、そのストリングに書記言語ID７０６（図７参照）が割り当てられるべきかどうかについて判定がなされうる。本方法１１００が、そのストリングの書記言語ID７０６が割り当てられるべきだと判定する場合、そのストリングの書記言語ID７０６がブロック１１０６で割り当てられうる。例として、Celine Dionはカナダ・フランス語という発話言語を割り当てられてもよく、Los Lobosはスペイン語という発話言語を割り当てられてもよい。

ある例示的な実施形態では、あるストリングを書記言語ID７０６と関連付ける判定は、コンテンツ・エディタによってなされうる。たとえば、あるストリングをある書記言語と関連付ける判定は、そのストリングに関する、メディア関係のウェブサイト（たとえばAllMusic.comおよびWikipedia.com）などから利用可能な情報にアクセスすることによってなされうる。

本方法１１００がブロック１１０４でそのストリングの書記言語が割り当ておよび／または再割り当てされるべきではない（当該ストリングがすでに正しい書記言語が割り当てられているため）と判定する場合、またはブロック１１０６の後、本方法１１００は判断ブロック１１０８に進みうる。

ブロック１１０６での動作の完了に際して、本方法１１００は、そのストリングに公式な発音転写を割り当てうる。これはたとえば、そのストリングの発話言語での発音転写を生成する処理を使う自動化されたソースを通じてである。

本方法１１００は、判断ブロック１１０８において、そのストリングについての公式発音転写に関して作用をすべきかどうかを判定しうる。たとえば、公式な発音転写は、発音転写配列７０８（図７参照）に関して保持されうる。そのストリングについての公式な発音転写内で作用をすべきである場合、そのストリングのためのその公式な発音転写はブロック１１１０で、生成、修正および／または削除されうる。判断ブロック１１０８においてそのストリングについての公式な発音転写に関して作用をすべきではない場合、あるいはブロック１１１０の後、本方法１１００は判断ブロック１１１２に進みうる。

判断ブロック１１１２では、本方法１１００は、一つまたは複数の代替的な発音転写に関して作用をするべきかどうかを判定しうる。たとえば、代替発音転写の一つまたは複数は、発音転写配列７０８（図７参照）に関して保持されうる。そのストリングについての代替発音転写に関して作用をすべきである場合、そのストリングのためのその代替発音転写はブロック１１１４で、生成、修正および／または削除されうる。判断ブロック１１１２においてそのストリングについての公式な発音転写に関して作用をすべきではない場合、あるいはブロック１１１４の後、本方法１１００は判断ブロック１１１６に進みうる。

ある例示的な実施形態では、代替発音転写は、そのストリングの元でない言語について生成されてもよい。

ある例示的な実施形態では、代替発音転写は、そのストリングが話されうる発話言語のそれぞれについては生成されない。むしろ、代替発音転写は、その発音転写が、その発話言語の話者に正しくないと聞こえる発話言語についてのみ生成されてもよい。

本方法１１００は、判断ブロック１１１６で、さらなるアクセスが所望されるかどうかを判定しうる。たとえば、該さらなるアクセスは、現在のストリングおよび／または別のストリングに提供されてもよい。さらなるアクセスが所望される場合、本方法１１００は、ブロック１１０２に戻りうる。ブロック１１１６でさらなるアクセスが所望されない場合、本方法１１００は終了しうる。

ある例示的な実施形態では、発音転写は、サポートされる言語での編集校閲を受けてもよい。たとえば、英語話者が英語の発音転写を聞いてもよい。転写が英語で保存されていないときは、英語話者は英語以外の言語で保存され、英語に翻訳された発音転写を聞いてもよい。英語話者は、発音転写のうちで、たとえばその発音転写の地域化された例外に置き換える必要のあるものを特定しうる。

図１２を参照すると、ある例示的な実施形態に基づくアプリケーションとともにメタデータを使用する方法１２００が示されている。ある例示的な実施形態では、該アプリケーションは組み込みアプリケーションでありうる。したがって、本方法１２００は、移動MP3プレーヤー、カー・オーディオ・システムなどといったいかなるオーディオ設備に展開され、統合されてもよい。

メタデータ（たとえば、発音メタデータ１２８、２２２および／またはメディア・メタデータ１３０、２２０）は、ブロック１２０２で前記アプリケーションのために構成され、アクセスされうる（図１〜図３参照）。アプリケーションのためにメタデータを構成し、これにアクセスするある例示的な実施形態は、のちにより詳細に述べる。

ある例示的な実施形態では、メタデータを構成し、これにアクセスしたのち、あるメディア項目について発音メタデータ１２８、２２２を提供する前記段階が、発話合成を用いて再現される。ある例示的な実施形態では、メタデータを構成し、これにアクセスしたのち、発音メタデータ１２８、２２２および／またはメディア・メタデータ１３０、２２０を提供する前記段階が、前記メディア項目のアクセスの間にサードパーティ装置に提供されてもよい。

方法１２００は、追加的なメディアのアクセス可能性に基づいて、ブロック１２０２でメタデータに改めてアクセスし、これを改めて構成してもよい。

判断ブロック１２０４では、本方法１２００は、声認識を呼び出すかどうかを判定しうる。声認識を呼び出すべきであれば、ブロック１２０６において、発話認識および合成装置３００（図３参照）によってコマンドが処理されうる。声認識を用いてコマンドを処理するための方法のある例示的な実施形態は、のちにより詳細に述べる。判断ブロック１２０４において声認識が呼び出されるべきでない場合、あるいはブロック１２０６の後、本方法１２００は判断ブロック１２０８に進みうる。

本方法１２００は判断ブロック１２０８で、発話合成を呼び出すかどうかを判定しうる。発話合成が呼び出されるべきであれば、本方法１２００はブロック１２１０で、発話認識および合成装置３００を通じて出力ストリングを提供しうる。発話認識および合成装置３００によって出力ストリングを提供するための方法のある例示的な実施形態は、のちにより詳細に述べる。判断ブロック１２０８において発話合成が呼び出されるべきではない場合、あるいはブロック１２１０の後、本方法１２００は判断ブロック１２１４に進みうる。

判断ブロック１２１４では、本方法１２００は終了すべきかどうかを判定しうる。本方法１２００がさらに動作すべきであれば、本方法１２００は判断ブロック１２０４に戻りうる。そうでない場合には、本方法１２００は終了しうる。

図１３を参照すると、ある例示的な実施形態に基づいてあるアプリケーションのためにメタデータにアクセスし、これを構成する方法１３００が示されている。ある例示的な実施形態では、該アプリケーションは組み込みアプリケーションでありうる。本方法１３００はたとえばブロック１２０２（図１２参照）において実行されうるものである。

判断ブロック１３０２において、本方法１３００は、音楽メタデータおよび関連付けられた発音メタデータ１２８、２２２（図１および図２参照）にアクセスし、これを構成すべきかどうかを判定しうる。音楽メタデータおよび関連付けられた発音メタデータ１２８、２２２がアクセスされ、構成されるべきである場合、本方法１３００は、ブロック１３０４で、前記音楽メタデータおよび関連付けられた発音メタデータ１２８、２２２にアクセスし、これを構成しうる。メディア・メタデータ１３０、２２０（たとえば音楽メタデータ）を構成するある例示的な実施形態は、のちにより詳細に述べる。判断ブロック１３０２において音楽メタデータおよび関連付けられた発音メタデータ１２８、２２２がアクセスされるべきではない場合、あるいはブロック１３０４の後、本方法１３００は判断ブロック１３０６に進みうる。

本方法１３００は判断ブロック１３０６で、ナビゲーション・メタデータおよび関連付けられた発音メタデータ１２８、２２２にアクセスし、これを構成すべきかどうかを判定しうる。ナビゲーション・メタデータおよび関連付けられた発音メタデータ１２８、２２２がアクセスされ、構成されるべきである場合、本方法１３００は、ブロック１３０８で、前記ナビゲーション・メタデータおよび関連付けられた発音メタデータ１２８、２２２にアクセスし、これを構成しうる。メディア・メタデータ１３０、２２０（たとえばナビゲーション・メタデータ）を構成するある例示的な実施形態は、のちにより詳細に述べる。判断ブロック１３０６においてナビゲーション・メタデータおよび関連付けられた発音メタデータ１２８、２２２がアクセスされるべきではない場合、あるいはブロック１３０８の後、本方法１３００は判断ブロック１３１０に進みうる。

判断ブロック１３１０において、本方法１３００は、その他メタデータおよび関連付けられた発音メタデータ１２８、２２２にアクセスし、これを構成すべきかどうかを判定しうる。その他メタデータおよび関連付けられた発音メタデータ１２８、２２２がアクセスされ、構成されるべきである場合、本方法１３００は、ブロック１３１２で、前記その他メタデータおよび関連付けられた発音メタデータ１２８、２２２にアクセスし、これを構成しうる。メディア・メタデータ１３０、２２０を構成するある例示的な実施形態は、のちにより詳細に述べる。判断ブロック１３１０においてその他メタデータおよび関連付けられた発音メタデータ１２８、２２２がアクセスされるべきではない場合、あるいはブロック１３１２の後、本方法１３００は判断ブロック１３１４に進みうる。

ある例示的な実施形態では、その他メタデータは、プレイリスト化メタデータを含みうる。たとえば、ユーザーは、ブロック１３１２で、コア・メタデータの一部についてまたは声コマンドについて、自分独自の発音メタデータを入力してもよいし、個人的な嗜好に基づいてジャンル類似性、格付けおよびその他の記述情報を割り当ててもよい。このように、ユーザーは、自分独自のジャンルを生成してもよいし、The Whoを「お気に入りのバンド」と名前を付け直してもよいし、またさらには声コマンドについての新しいシンタックスを設定してもよい。ユーザーは、車内でキーボードまたはスクロール・パッド・インターフェースを使って、あるいは声による異形を話すことによって、手動でカスタム異形を入力できる。ある代替的な解決策は、ユーザーが、カスタム発音異形の追加を、そのスペルを声に出して言うことによってできるようにしてもよい。

本方法１３００は、判断ブロック１３１４で、メディア・メタデータ１３０、２２０および関連付けられた発音メタデータ１２８、２２２のさらなるアクセスおよび構成が所望されるかどうかを判定しうる。さらなるアクセスおよび構成が所望される場合、本方法は、ブロック１３０２に戻りうる。判断ブロック１３１４でさらなるアクセスおよび構成が所望されない場合、本方法１３００は終了しうる。

図１４を参照すると、ある例示的な実施形態に基づいてあるアプリケーションのためのメディア・メタデータにアクセスし、これを構成する方法１４００が示されている。ある例示的な実施形態では、本方法１４００は、ブロック１３０４、ブロック１３０８および／またはブロック１３１２（図１３参照）において実行されうるものである。

ブロック１４０２において、一つまたは複数のメディア項目（たとえば、デジタル・オーディオ・トラック、デジタル・ビデオ・セグメントおよびナビゲーション項目）がメディア・ライブラリからアクセスされうる。ある例示的な実施形態では、メディア・ライブラリは、メディア・データベース１２６、２１０（図１および図２参照）内に具現されてもよい。ある例示的な実施形態では、メディア・ライブラリはローカルなライブラリ・データベース１１８（図１参照）内に具現されてもよい。

本方法１４００は、ブロック１４０４でメディア項目の認識を試みうる。判断ブロック１４０６では、本方法１４００は、認識が成功だったかどうかを判定しうる。認識が成功であれば、本方法１４００は、ブロック１４０８において、メディア・メタデータ１３０、２２０および関連付けられた発音メタデータ１２８、２２２にアクセスし、ブロック１４１０においてメディア・メタデータ１３０、２２０および関連付けられた発音メタデータ１２８、２２２を構成しうる。判断ブロック１４０６で認識が成功でなかった場合には、本方法１４００は終了しうる。

ある例示的な実施形態では、本方法１４００を動作させるアプリケーションを実装する装置は、音楽サービス・コンテンツを制御し、ナビゲートし、プレイリスト化し、および／またはリンクするために使用されうる。該音楽サービス・コンテンツはすでに、リンクされた識別子を含んでいてもよい。オンデマンド・ストリーミング、ラジオ・ストリーミング局、衛星ラジオなどといったものである。ひとたび判断ブロック１４０６においてそのコンテンツの認識が成功すると、ブロック１４０８で関連付けられたメタデータおよび発音メタデータ１２８、２２２が得られてもよく、ブロック１４１０で当該装置のために構成されてもよい。

例示的な音楽分野では、一部のアーチストやグループが同じ名前を共有していることがありうる。たとえば、90年代のロック・バンドNirvanaは70年代のクリスチャン・フォーク・グループと同じ名前だし、90年代と00年代のカリフォルニアのポスト・ハードコア・グループCamera Obscuraはグラスゴーのインディーズのポップ・グループと同じ名前である。さらに、一部のアーチストは、他のアーチストの本名と同じニックネームをもつ。たとえば、フランク・シナトラは「The Chairman of the Board（会長）」として知られているが、これも「The Chairmen of the Board」と呼ばれる70年代のソウル・グループの名前と発音が非常に似ている。さらに、たとえば、ユーザーが両方のCamera Obscuraバンドを携帯音楽プレーヤー上に（たとえば該プレーヤーのハードドライブ上に）有していて、そのユーザーが装置に「Camera Obscuraを再生」と指示するというまれなできごとからも曖昧さが生じうる。

重複名に対応するために用いられうる例示的な方法論は、次のようなものがありうる。ある実施形態では、再生すべきアーチストまたはアルバムの選択は、ユーザーの以前の再生挙動または明示的な入力に基づきうる。たとえば、Kurt Cobainのバンドと70年代のフォーク・バンドの両方をユーザーの再生装置（たとえば、携帯MP3プレーヤー、パーソナル・コンピュータなど）上にもつユーザーが「Nirvanaを再生」と言ったとしよう。アプリケーションは、プレイリスト化技術を使って、各アーチストについての再生頻度および関係するジャンルについての再生頻度の両方を検査しうる。こうして、ユーザーが頻繁に90年代初期のグランジを再生していれば、グランジNirvanaが再生されうる。ユーザーが頻繁にフォークを再生していれば、フォークNirvanaが再生されうる。本装置は、選好されるアーチストと非選好アーチストとの間のトグルまたは切り換えを許容してもよい。たとえば、ユーザーがフォークのNirvanaを聞きたいのにグランジのNirvanaが出た場合には、ユーザーは「他のNirvanaを再生」と言って、フォークのNirvanaに切り換えることができる。

追加的または代替的に、ユーザーは二つ以上の一致（たとえば、アルバム識別情報当たり二つ以上の一致）の認識に際して、促されてもよい。たとえば、ユーザーが「アーチストCamera Obscuraを再生」と言うとき、装置は二つのエントリーをみつけて、ユーザーに促す（たとえば、TTS機能性を使って）：「カリフォルニアのCamera Obscuraを求めていますか、それともスコットランドのCamera Obscuraを求めていますか」あるいはメディア・データベース中の他の項目を使った、他の曖昧さを解消する質問でもよい。その際、ユーザーは自分で要求の曖昧さを解消してもよい。本装置がナビゲーション環境において展開される場合は、町／都市の名、通りの名なども同様の仕方で処理されてもよい。

ある例示的な実施形態では、個々のアルバムが巻番号（たとえば、「第１０巻」）以外は同じ名前を持つ一連のアルバムがある場合、いかなる同一の発音転写も等価として扱われうる。したがって、促されるとき、本装置は、すべての対象について一致を返しうる。この実施例は、たとえば、「Now That's What I Call Music!」シリーズのようなアルバムに適用されうる。この実施例では、アプリケーションは、ユーザーが「アルバムNow That's What I Call Musicを再生」と言う場合にはみつかったすべての一致するファイルが再生されるが、ユーザーが「アルバムNow That's What I Call Music第５巻を再生」と言う場合には第５巻のみが再生されるよう、転写を扱いうる。この機能性は、２枚組アルバムにも適用されうる。たとえば、「アルバムAll Things Must Passを再生」は自動的にその２枚組アルバムのディスク１およびディスク２両方からのトラックを再生しうる。代替的に、ユーザーが「アルバムAll Things Must Passディスク２を再生」と言う場合には、ディスク２からのトラックのみが再生されうる。

ある例示的な実施形態では、本装置は、「お気に入りのバンド」「お気に入りの年」または「マイクのサーフ・ロック・コレクション」といったような用語に意味を与えるために、ユーザー側でのカスタム異形エントリーにも対応していてもよい。たとえば、本装置は「発話編集」（たとえば、本装置に「Foo Fightersを『お気に入りのバンド』と呼ぶ」と命令する）を許容してもよい。追加的または代替的に、この機能性を実行するために、テキスト・ベースのエントリーが使用されてもよい。発音メタデータ１２８、２２２はコア・メタデータの構成要素でありうるので、ユーザーはコンピュータ上でエントリーを編集し、次いでそれを何らかの種類のタグとしてファイルとともにアップロードすることができてもよい。こうして、ある実施形態では、ユーザーは、事実上、従来の物理的なタッチ・インターフェースでは利用可能でないユーザー定義コマンドを追加しうるのである。

図１５を参照すると、ある例示的な実施形態に基づいて声認識によって受領される句を処理する方法１５００が示されている。本方法１５００は、ブロック１２０６（図１２参照）で実行されうるものである。

ブロック１５０２で句が取得されうる。たとえば、句は、発話入力１１６によって、自動化発話認識エンジン１１２（図１参照）を通じて受領されうる。句は次いで、ブロック１５０４において、たとえば自動化発話認識エンジン１１２を使うことにより、テキスト・ストリングに変換されうる。

変換されたテキスト・ストリングは、次いで、ブロック１５０６でメディア・ストリングと識別されうる。変換されたテキスト・ストリングを識別する例示的な実施形態は、のちにより詳細に述べる。

ある例示的な実施形態では、変換されたテキスト・ストリングの一部が識別のために提供されてもよく、残りの部分は保持され、識別のために提供されなくてもよい。たとえば、識別のために提供される第一の部分は、メディア項目の潜在的な名前であってもよく、識別のために提供されない第二の部分はアプリケーションへのコマンドであってもよい（たとえば、「Billy Idolを再生」は「Billy Idol」という第一の部分および「を再生」という第二の部分を有しうる）。

判断ブロック１５０８において、本方法１５００は、メディア・ストリングが識別されたかどうかを判定しうる。メディア・ストリングが識別されていれば、識別されたテキスト・ストリングがブロック１５１０での使用のために提供されうる。たとえば、句は、発話合成を用いてストリングが再現されうるようにするなどの使用のためにアプリケーションに返されうる。

ストリングが識別されなかった場合には、ブロック１５１２で非識別プロセスが実行されうる。たとえば、非識別プロセスは、何の作用もしないこと、エラー・コードをもって応答することおよび／またはストリングについての最良推定をもって意図された作用をすることを非識別プロセスとすることでありうる。ブロック１５１０またはブロック１５１２での動作の完了後、本方法１５００は終了しうる。

図１６は、ある例示的な実施形態に基づいて変換されたテキスト・ストリングを識別する方法１６００を示している。ある例示的な実施形態では、方法１６００はブロック１５０６（図１５参照）において実行されうるものである。

変換されたテキスト・ストリングは、ブロック１６０２でメディア項目の表示テキスト７０４と照合されうる。判断ブロック１６０４では、本方法１６００は、一致が識別されたかどうかを判定しうる。一致が識別されなかった場合、ブロック１６０６で一致が識別されなかったという指示が返されうる。判断ブロック１６０４でストリング一致が識別された場合、本方法１６００はブロック１６０８に進みうる。

変換されるテキスト・ストリングは、ブロック１６０８において、代替句マッピング器を通じて処理されうる。たとえば、代替句マッピング器は、変換されたテキスト・ストリングについて代替句が存在するかどうか（たとえば、識別されうるかどうか）を判定する。

ある例示的な実施形態では、代替句マッピング器は、代替句の、対応する公式な句へのマッピングを容易にするために使われうる。代替句マッピング器は、発話認識および合成装置３００（図３参照）内で使用されうる。これにより、発音された代替句が表示テキスト７０４の公式な表現に導く。たとえば、「The Stones」が発話入力１１４として提供される場合、自動化発話認識エンジン１１２は発音された名前の音声を解析し、「The Stones」の定義されている表示テキスト７０４を生成しうる（図１および図７参照）。「The Stones」は代替句マッピング器に提出されてもよく、該代替句マッピング器は公式名「The Rolling Stones」を返すことになる。

ある例示的な実施形態では、代替句マッピング器は、単一の入力代替句に応答して、複数の公式な句を返すことがありうる。同じ代替句について二つ以上の公式な句がありうるからである。

判断ブロック１６１０では、本方法１６００は、代替句が識別されたかどうかを判定しうる。代替句が識別されていない場合、得られている発音転写についてのストリングが返されうる。判断ブロック１６１０で代替句が識別されていた場合、公式な転写に関連付けられたストリングが返されうる。ブロック１６１２またはブロック１６１４での動作の完了後、本方法１６００は終了しうる。

図１７を参照すると、ある例示的な実施形態に基づいて、発話合成によって出力ストリングを提供するための方法１７００が示されている。ある例示的な実施形態では、本方法１７００はブロック１７０６（図１３参照）で実行されうるものである。

ブロック１７０２でストリングがアクセスされうる。たとえば、アクセスされるストリングは、発話合成が望まれるストリングであってもよい。ブロック１７０４で、そのストリングについての発音転写がアクセスされうる。たとえば、そのストリングに対応する発話言語についての正しい発音転写がアクセスされうる。そのストリングについての発音転写にアクセスするある例示的な実施形態は、のちにより詳細に述べる。

ある例では、ストリングについての発音転写が、メディア・データベース１２６および／またはローカル・ライブラリ・データベース１１８内で利用可能でないことがありうる。発音転写を生成するためのある例示的な実施形態はのちにより詳細に述べる。

発音転写は、ブロック１７０６において、発話合成を通じてアプリケーションの言語で出力されうる。たとえば、発音転写は、TTSエンジン１１０から発話出力１１４（図１参照）として出力されうる。ブロック１７０６での動作の完了後、本方法１７００は終了しうる。

図１８を参照すると、ある例示的な実施形態に基づいてストリングについての発音転写にアクセスする方法１８００が示されている。ある例示的な実施形態では、本方法１８００は、ブロック１７０４（図１７参照）において実行されうるものである。

ブロック１８０２でストリングの書記言語検出（たとえば書記言語を検出すること）および目標アプリケーションの発話言語検出（目標装置上で具現されうるような）が実行されうる。ある例示的な実施形態では、該ストリングは、メディア・タイトル配列４０２のメディア・タイトルの表現、主要アーチスト名配列４０４の主要アーチスト名の表現、トラック・タイトル配列５０２のトラック・タイトルの表現、トラック主要アーチスト名配列５０４の主要アーチスト名の表現、コマンド配列６０２のコマンドの表現および／またはプロバイダ名配列６０４のプロバイダの表現でありうる。ある例示的な実施形態では、目標アプリケーションは、前記組み込みアプリケーションでありうる。

判断ブロック１８０４で、本方法１８００は、そのストリングについて地域的例外が利用可能であるかどうかを判定しうる。地域的例外が利用可能であれば、ブロック１８０６で、そのストリングに関連付けられた地域的な発音転写がアクセスされうる。ある例示的な実施形態では、地域的な発音転写は、地域的な言語、地方の方言および／または地元の慣習の多様性に起因しうるような代替的な発音転写であってもよい。

ブロック１８０６が完了すると、本方法１８００は判断ブロック１８１４に進みうる。判断ブロック１８０４で、そのストリングについて地域化された例外が利用可能でない場合、本方法１８００は判断ブロック１８０８に進みうる。

本方法１８００は、判断ブロック１８０８で、そのストリングについて転写が利用可能であるかどうかを判定しうる。転写が利用可能であれば、ブロック１８１０で、そのストリングに関連付けられた転写がアクセスされうる。

ある例示的な実施形態では、本方法１８００は、ブロック１８１０で、まずストリング言語に一致する主要転写が利用可能であればこれにアクセスしてもよく、利用可能でなければ別の利用可能な転写（たとえば英語の転写）にアクセスしてもよい。

判断ブロック１８０８でそのストリングについて転写が利用可能でない場合、本方法１８００は、ブロック１８１２で、プログラム的に発音転写を生成してもよい。たとえば、ある話者のネイティブ言語における地域的な誤発音についての代替的な発音転写をプログラム的に生成することは、アプリケーションを動作させる装置にすでにロードされているデフォルトのG2Pを使ってもよい。それにより、コンテンツが認識されると、受領されたテキスト・ストリングはデフォルトのG2Pに通されてもよい。発音転写のプログラム的生成の例示的な実施形態はのちにより詳細に述べる。ブロック１８１０および１８１２での動作が完了すると、本方法１８００は判断ブロック１８１４に進みうる。

判断ブロック１８１４では、本方法１８００は、ストリングの書記言語が目標アプリケーションの発話言語に一致するかどうかを判定しうる。ストリングの書記言語が目標アプリケーションの発話言語に一致しない場合、得られた発音転写はブロック１８１６で目標アプリケーションの発話言語（たとえば目標言語）に変換されうる。得られた発音転写を変換する方法についての例示的な実施形態はのちにより詳細に述べる。

ある例示的な実施形態では、ブロック１８１６において、発音転写は、ストリングのネイティブな発話言語から、装置を動作させているアプリケーションの目標言語に、音素変換マップを使って変換されうる。

判断ブロック１８１４においてストリングの書記言語が目標アプリケーションの発話言語に一致する場合、あるいはブロック１８１６の後、ブロック１８１８においてそのストリングについての発音転写がアプリケーションに提供されうる。ブロック１８１８での動作の完了後、本方法１８００は終了しうる。

ある例示的な実施形態では、本方法１８００は、ブロック１８１８での動作を遂行する前に、発音表記アルファベットの変換を実行して、発音転写を装置が使用できる転写に変換しうる。ある例示的な実施形態では、発音表記アルファベットの変換は、そのストリングについての発音転写が提供された後に実行されうる。

図１９を参照すると、発音転写をプログラム的に生成する方法１９００が示されている。ある例示的な実施形態では、本方法１９００はブロック１８１２（図１８参照）で実行されうるものである。

判断ブロック１９０２において、本方法１９００はあるテキスト・ストリングが書記言語ID７０６（図７参照）を含むかどうかを判定しうる。ストリングが書記言語ID７０６を含む場合、本方法１９００は、ブロック１９０４で、プログラム的に、アプリケーションの発話言語における地域的な誤発音についての発音転写を、G2Pを使って生成しうる。

判断ブロック１９０２でテキスト・ストリングが書記言語ID７０６を含まない場合、ブロック１９０６で、テキスト・ストリングの、書記言語における発音転写が生成されうる。たとえば、テキスト・ストリングの書記言語における発音転写を生成するために、発話認識および合成装置３００（図３参照）は言語固有のG2Pを使用してもよい。

ブロック１９０８において、音素変換マップを使って、テキスト・ストリングの書記言語における発音転写が、アプリケーションのそれぞれ一つまたは複数の目標発話言語についての一つまたは複数の発音転写に変換されうる。

ある例示的な実施形態では、音素転写の変換は、単一の音素転写から複数の音素転写へであってもよい。

ブロック１９０４またはブロック１９１０における動作の完了後、本方法１９００は、発音転写をアプリケーションに提供しうる。ブロック１９２０での動作の完了後、本方法１９００は終了しうる。

図２０を参照すると、音素変換を実行する方法２０００が示されている。ある例示的な実施形態では、方法２０００はブロック１８１６（図１８参照）で実行されうるものである。

ブロック２００２で、アプリケーション（たとえば前記組み込みアプリケーション）の発話言語ID８０４（図８参照）がアクセスされうる。ある例示的な実施形態では、アプリケーションの発話言語ID８０４は事前設定されていてもよい。ある例示的な実施形態では、アプリケーションの発話言語ID８０４は修正可能であってもよく、それにより組み込みアプリケーションの言語が選択できてもよい。

ブロック２００４では発音転写がアクセスされうる。その後、ブロック２００６で、その発音転写についての書記言語ID７０６（図７参照）がアクセスされうる。

判断ブロック２００８で、本方法２０００は、組み込みアプリケーションの発話言語ID８０４が発音転写の書記言語ID７０６に一致するかどうかを判定しうる。一致がなければ、本方法２０００は、ブロック２０１０で、発音転写を、書記言語から発話言語に変換しうる。判断ブロックにおいて発話言語ID８０４が書記言語ID７０６に一致するない場合、あるいはブロック２０１０の後、本方法２０００は終了しうる。

図２１を参照すると、ある例示的な実施形態に基づいて発音転写を目標言語に変換する方法２１００が示されている。ある例示的な実施形態では、方法２１００は、ブロック２０１０（図２０参照）で実行されうるものである。

ブロック２１０２で、目標発音転写を利用することになる組み込みアプリケーション（たとえば目標アプリケーション）の言語が決定されうる。ブロック２１０４で、起点発音転写について、発音表記言語変換マップがアクセスされうる。ある例示的な実施形態では、発音表記言語変換マップは音素変換マップでありうる。

ブロック２１０６で、起点発音転写は、目標発音転写に、発音表記変換マップを使って変換されうる。ブロック２１０６での動作の完了後、本方法２１００は終了しうる。

ある例示的な実施形態では、一般的な発音表記言語と発話認識および合成装置３００（図３参照）が使用する発音表記言語との間のキャラクタ・マッピングが生成され、メディア管理システム１０６とともに使用されてもよい。ブロック２１０６での動作の完了に際して、本方法２１００は終了しうる。

図２２は、本稿で論じた方法論の任意の一つまたは複数を機械に実行させるための命令の組が実行されうるコンピュータ・システム２２００という例示的な形の機械の図的な表現を示している。代替的な諸実施形態において、該機械はスタンドアローン装置として動作するか、あるいは他の機械に接続（たとえばネットワーク接続）されてもよい。ネットワーク接続された展開では、該機械は、サーバー‐クライアント・ネットワーク環境におけるサーバーまたはクライアント機械の役割において、あるいはピアツーピア（または分散）ネットワーク環境におけるピア機械として、動作しうる。該機械は、パーソナル・コンピュータ（PC）、タブレットPC、セットトップボックス（STB）、携帯情報端末（PDA）、携帯電話、携帯音楽プレーヤー（たとえばMP3プレーヤーのような携帯ハード・ドライブ・オーディオ装置）、カー・オーディオ装置、ウェブ・アプライアンス、ネットワーク・ルータ、スイッチまたはブリッジ、あるいはその機械が取るべき行動を指定する命令の組（逐次的でもそうでなくても）を実行できる任意の機械でありうる。さらに、単一の機械しか示されていないが、「機械」の用語は、ここで論じた方法論のうち任意の一つまたは複数を実行するために個々にまたは共同して命令の組（または複数の組）を実行する、複数の機械の任意の集合をも含むと解されるものとする。

例示的なコンピュータ・システム２２００は、プロセッサ２２０２（たとえば、中央処理ユニット（CPU）、グラフィック処理ユニット（GPU）またはその両方）、メインメモリ２２０４および静的メモリ２２０６を含む。これらは互いにバス２２０８を介して通信する。コンピュータ・システム２２００はさらに、ビデオ・ディスプレイ・ユニット２２１０（たとえば、液晶ディスプレイ（LCD）または陰極線管（CRT））を含みうる。コンピュータ・システム２２００はまた、英数字入力装置２２１２（たとえばキーボード）、カーソル制御装置２２１４（たとえばマウス）、ディスク・ドライブ・ユニット２２１６、信号生成装置２２１８（たとえばスピーカー）およびネットワーク・インターフェース装置２２３０をも含む。

ディスク・ドライブ・ユニット２２１６は、ここで論じた方法論または機能のうちの任意の一つまたは複数を具現する一つまたは複数の組の命令（たとえばソフトウェア２２２４）が保存されている機械可読媒体２２２２を含む。ソフトウェア２２２４は、コンピュータ・システム２２００によるその実行の間、完全にまたは部分的に、メインメモリ２２０４内におよび／またはプロセッサ２２０２内にも存在していて、メインメモリ２２０４およびプロセッサ２２０２も機械可読媒体をなすのでもよい。

ソフトウェア２２２４はさらに、ネットワーク・インターフェース装置２２３０を介してネットワーク２２２６を通じて送信または受信されてもよい。

機械可読媒体２２２２は例示的な実施形態において単一の媒体として示されているが、「機械可読媒体」の用語は、前記一つまたは複数の組の命令を保存する単一の媒体または複数の媒体（たとえば、中央集中または分散データベースおよび／または関連するキャッシュおよびサーバー）を含むものと解されるべきである。「機械可読媒体」の用語は、機械による実行のための命令の組を保存、エンコードまたは担持でき、該機械をして本発明の方法論の任意の一つまたは複数を実行させるいかなる媒体をも含むものと解されるものである。したがって、「機械可読媒体」の用語は、これに限られないが、半導体メモリ、光学式および磁気式媒体ならびに搬送波信号を含むと解されるものである。

ここに記載された実施形態は、コンピュータ上にインストールされたソフトウェアを有する動作環境において、ハードウェアにおいてあるいはソフトウェアとハードウェアの組み合わせにおいて実装されうる。

本発明について個別的な例示的な実施形態を参照しつつ述べてきたが、本発明のより広い精神および範囲から外れることなくそれらの実施形態にさまざまな修正および変更をなしうることは明らかであろう。したがって、明細書および図面は、制限する意味ではなく例示的な意味に解されるべきである。

本開示の要約は、読む者が本技術的開示の性質を素早く見定められるようにする要約を必須とする米国連邦規則集（C.F.R.）§1.72(b)に準拠するために提供されている。この要約は、請求項の範囲または意味を解釈または限定するために使われないという理解のもとに提出される。さらに、以上の詳細な説明において、開示の流れをよくする目的で、さまざまな特徴が単一の実施形態のうちにまとめられていることが見て取れる。この開示方法は、特許請求される実施態様が各請求項において明示的に挙げられているよりも多くの特徴を要求するという意図を反映したものと解釈すべきではない。むしろ、付属の請求項に反映されるように、本発明の主題は、ある単一の開示された実施形態の全部よりも少ない特徴のうちに存するものである。よって、付属の請求項はここに詳細な記述に組み込まれ、各請求項自身が独立した実施形態をなすものである。

ある例示的な実施形態に基づく、音声インターフェースを使ったデジタル・コンテンツの再生制御、ナビゲーションおよび動的プレイリスト化のためのシステム・アーキテクチャを示す図である。ある例示的な実施形態に基づく、メディア認識および管理システムのブロック図である。ある例示的な実施形態に基づく、発話認識および合成モジュールのブロック図である。ある例示的な実施形態に基づく、メディア・データ構造のブロック図である。ある例示的な実施形態に基づく、トラック・データ構造のブロック図である。ある例示的な実施形態に基づく、ナビゲーション・データ構造のブロック図である。ある例示的な実施形態に基づく、テキスト配列データ構造のブロック図である。ある例示的な実施形態に基づく、発音転写データ構造のブロック図である。ある例示的な実施形態に基づく、代替句マッピング器データ構造のブロック図である。ある例示的な実施形態に基づく、データベース上で発音メタデータを管理する方法を示すフローチャートである。ある例示的な実施形態に基づく、データベースの発音メタデータを変更する方法を示すフローチャートである。ある例示的な実施形態に基づく、アプリケーションとともにメタデータを使う方法を示すフローチャートである。ある例示的な実施形態に基づく、アプリケーションのためにメタデータにアクセスし、これを構成する方法を示すフローチャートである。ある例示的な実施形態に基づく、メディア・メタデータにアクセスし、これを構成する方法を示すフローチャートである。ある例示的な実施形態に基づく、声認識によって受領される句を処理する方法を示すフローチャートである。ある例示的な実施形態に基づく、変換されたテキスト・ストリングを識別する方法を示すフローチャートである。ある例示的な実施形態に基づく、発話合成によって出力ストリングを提供する方法を示すフローチャートである。ある例示的な実施形態に基づく、ストリングのための発音転写にアクセスする方法を示すフローチャートである。ある例示的な実施形態に基づく、前記発音転写をプログラム的に生成する方法を示すフローチャートである。ある例示的な実施形態に基づく、音素変換を実行する方法を示すフローチャートである。ある例示的な実施形態に基づく、発音転写を目標言語に変換する方法を示すフローチャートである。本稿で論じる方法論の任意の一つまたは複数を機械に実行させるための命令の組が実行されうるコンピュータ・システムの形の例示的な機械の図的な表現を示す図である。

Claims

複数のメディア項目についての、複数のストリングを有するメディア・メタデータであって、各ストリングは前記複数のメディア項目のある側面を記述する、メディア・メタデータと；
前記複数のストリングに関連付けられた発音メタデータであって、該発音メタデータの各部分はストリングの元の言語で保存されている発音メタデータとを有する装置。
メディア項目が、コンパクト・ディスク、デジタル・オーディオ・トラック、デジタル多用途ディスク（digital versatile disc）、映画または写真のうちの少なくとも一つから選択される、請求項１記載の装置。
前記メディア項目の前記側面が、メディア・タイトル、主要アーチスト名、トラック・タイトル、コマンドまたはプロバイダのうちの少なくとも一つから選択される、請求項１記載の装置。
前記ストリングの元の言語が、前記ストリングが話されるであろう言語を含む、請求項４記載の装置。
表示のために好適なテキストを含む表示テキストを含む第一のフィールドと；
前記表示テキストの起点言語で保存された前記表示テキストの公式な発音転写を含む第二のフィールドとを含むデータ構造を保存するメモリを有する装置。
前記第二のフィールドがさらに、前記表示テキストの一つまたは複数の代替発音転写を含む、請求項５記載の装置。
前記表示テキストの前記一つまたは複数の代替発音転写が：
一つもしくは複数の正しい発音の発音転写または一つもしくは複数の正しくない発音の発音転写のうちの少なくとも一つを含む、請求項６記載の装置。
前記表示テキストの元の書記言語を指示する書記言語識別情報（ID）をさらに含む、請求項５記載の装置。
前記表示テキストが公式表現であるか代替表現であるかを指示する公式表現フラグをさらに有する、請求項５記載の装置。
前記公式表現が、公式に公表されたメディアに現れるテキストまたは編集的に決定されたテキストのうちの少なくとも一方であり、前記代替表現がニックネーム、短縮名または一般的な略語のうちの少なくとも一つである、請求項９記載の装置。
前記第二のフィールドの各発音転写に関連付けられて、該発音転写が書記言語IDに対応するものかどうかを指示する元の言語転写フラグをさらに有する、請求項９記載の装置。
前記第二のフィールドの各発音転写に関連付けられて、該発音転写が表示テキストの正しい発音であるか誤発音であるかを指示する正しい発音フラグをさらに有する、請求項５記載の装置。
前記表示テキストが、メディア・タイトル、主要アーチスト、トラック・タイトル、トラック主要アーチスト名、コマンド配列またはプロバイダのうちの少なくとも一つから選択される、請求項５記載の装置。
メディア・メタデータの複数のストリングにアクセスする段階と；
前記複数のストリングのそれぞれについて、各ストリングの元の言語での少なくとも一つの公式発音転写を生成する段階とを有する方法。
前記複数のストリングのそれぞれに、該複数のストリングのそれぞれの元の言語を指示する発話言語識別情報（ID）を割り当てる段階をさらに有する、請求項１４記載の方法。
前記複数のストリングがそれぞれ表示テキストの表現であり、当該方法がさらに：
メディア・タイトル、主要アーチスト、トラック・タイトル、トラック主要アーチスト名、コマンド配列またはプロバイダのうちの少なくとも一つを表示テキストとして選択する段階をさらに有する、請求項１４記載の方法。
前記複数のストリングの少なくとも一部分について、各ストリングの元の言語以外の言語での少なくとも一つの代替発音転写を生成する段階をさらに有する、請求項１５記載の方法。
デジタル・フィンガープリントをもつメディア項目を認識して該メディア項目についてのメタデータを得る段階と；
前記メディア項目についてのメディア・メタデータおよび関連する発音メタデータにアクセスする段階とを有しており、前記発音メタデータとは前記メディア項目の元の言語での少なくとも一つの発音転写を含む、方法。
前記メディア・メタデータおよび前記関連する発音メタデータをあるアプリケーションのために構成する段階をさらに有する、請求項１８記載の方法。
音楽メタデータ、プレイリスト化メタデータまたはナビゲーション・メタデータのうちの少なくとも一つを前記のメディア・メタデータとして選択する段階をさらに有する、請求項１８記載の方法。
前記メディア項目のアクセスの間に前記関連する発音メタデータをある装置に提供する段階をさらに有する、請求項１８記載の方法。
前記メディア項目のアクセスの間に前記関連する発音メタデータを発話合成により再生する段階をさらに有する、請求項１８記載の方法。
変換されたテキスト・ストリングをメディア・項目とマッチさせる段階と；
前記変換されたテキストを代替句マッピング器を通して処理して、前記メディア項目の前記変換されたテキスト・ストリングについての公式な発音転写と関連付けられたストリングを同定する段階とを有する方法。
前記メディア項目についての公式な発音転写に関連付けられた前記ストリングを、あるアプリケーションによる使用のために提供する段階をさらに有する、請求項２３記載の方法。
前記アプリケーションを走らせている装置上で、公式な発音転写に関連付けられた前記ストリングを使ってあるコマンドを処理する段階をさらに有する、請求項２４記載の方法。
句を取得する段階と；
前記句を、発話認識により、変換されたテキスト・ストリングに変換する段階とを有する、請求項２３記載の方法。
あるストリングおよび目標アプリケーションの発話言語を検出する段階と；
前記ストリングに関連付けられた発音転写にアクセスする段階と；
前記ストリングに関連付けられた前記発音転写を前記目標アプリケーションの前記発話言語で提供する段階とを有する方法。
前記ストリングの前記発音転写を発話合成を通じて再生する段階をさらに有する、請求項２７記載の方法。
メディア・タイトル、主要アーチスト、トラック・タイトル、トラック主要アーチスト名、コマンド配列またはプロバイダのうちの少なくとも一つの表示テキストを含むストリングにアクセスする段階をさらに有する、請求項２７記載の方法。
前記ストリングに関連付けられた発音転写にアクセスする前記段階が：
前記目標アプリケーションの発話言語について、地域化された例外が利用可能であるときには、該ストリングに関連付けられた地域化された発音転写にアクセスすることを含む、請求項２７記載の方法。
前記ストリングについての、前記目標アプリケーションの発話言語での発音転写を、G2Pを使って生成する段階をさらに有する、請求項２７記載の方法。
前記ストリングについての、該ストリングの発話言語での発音転写を生成する段階と；
該発音転写を前記目標アプリケーションの発話言語に、音素変換マップを使って変換する段階をさらに有する、請求項２７記載の方法。
前記発音転写を前記目標アプリケーションの発話言語に変換する段階をさらに有する、請求項２７記載の方法。
前記発音転写についての発音表記言語変換マップにアクセスする段階と；
前記発音表記言語変換マップを使って、前記発音転写を前記アプリケーションの言語に変換する段階をさらに有する、請求項２７記載の方法。
前記発音転写を、再生装置の組み込みアプリケーションを用いて再生する、請求項２７記載の方法。
命令を有する機械可読媒体であって、該命令は、機械によって実行されたときに、該機械をして：
メディア・メタデータの複数のストリングにアクセスする段階と；
前記複数のストリングのそれぞれについて、各ストリングの元の言語での少なくとも一つの公式発音転写を生成する段階とを実行させる、機械可読媒体。
さらなる命令を有する請求項３６記載の機械可読媒体であって、該命令は、機械によって実行されたときに、該機械をして：
前記複数のストリングの少なくとも一部分について、各ストリングの元の言語以外の言語での少なくとも一つの代替発音転写を生成する段階を実行させる、機械可読媒体。
命令を有する機械可読媒体であって、該命令は、機械によって実行されたときに、該機械をして：
変換されたテキスト・ストリングをメディア・項目とマッチさせる段階と；
前記変換されたテキストを代替句マッピング器を通して処理して、前記メディア項目の前記変換されたテキスト・ストリングについての公式な発音転写と関連付けられたストリングを同定する段階と；
前記公式な発音転写に関連付けられた前記ストリングを発話合成によって処理する段階とを実行させる、機械可読媒体。
命令を有する機械可読媒体であって、該命令は、機械によって実行されたときに、該機械をして：
あるストリングおよび目標アプリケーションの発話言語検出を実行する段階と；
前記ストリングに関連付けられた発音転写にアクセスする段階と；
前記ストリングに関連付けられた前記発音転写を、発話合成を通じて、前記目標アプリケーションの前記発話言語で再生する段階とを実行させる、機械可読媒体。
メディア・メタデータの複数のストリングにアクセスする手段と；
前記複数のストリングのそれぞれについて、各ストリングの元の言語での少なくとも一つの公式発音転写を生成する手段とを有する装置。
前記複数のストリングの少なくとも一部分について、各ストリングの元の言語以外の言語での少なくとも一つの代替発音転写を生成する手段をさらに有する、請求項４０記載の装置。