JP2009505321A - 再生装置の動作を制御する方法およびシステム - Google Patents

再生装置の動作を制御する方法およびシステム Download PDF

Info

Publication number
JP2009505321A
JP2009505321A JP2008527223A JP2008527223A JP2009505321A JP 2009505321 A JP2009505321 A JP 2009505321A JP 2008527223 A JP2008527223 A JP 2008527223A JP 2008527223 A JP2008527223 A JP 2008527223A JP 2009505321 A JP2009505321 A JP 2009505321A
Authority
JP
Japan
Prior art keywords
pronunciation
string
metadata
language
media
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2008527223A
Other languages
English (en)
Other versions
JP2009505321A5 (ja
Inventor
ブレナー,ヴァディム
ディマリア,ピーター,シー
ロバーツ,デイル,ティー
マントル,マイケル,ダブリュー
オーメ,マイケル,ダブリュー
Original Assignee
グレースノート インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by グレースノート インコーポレイテッド filed Critical グレースノート インコーポレイテッド
Publication of JP2009505321A publication Critical patent/JP2009505321A/ja
Publication of JP2009505321A5 publication Critical patent/JP2009505321A5/ja
Abandoned legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/64Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • G06F16/4387Presentation of query results by the use of playlists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/638Presentation of query results
    • G06F16/639Presentation of query results using playlists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Television Signal Processing For Recording (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

複数のメディア項目についてメディア・メタデータがアクセス可能である(図12参照)。メディア・メタデータは、メディア項目に関する情報を同定するいくつかのストリングを含む(図12参照)。メディア・メタデータの前記いくつかのストリングには発音メタデータが関連付けられている(図12参照)。発音メタデータの各部分は、ストリングの元の言語で保存される(図12参照)。

Description

〈関係する出願への相互参照〉
本願は、2005年8月19日に出願された、“Method and Apparatus to Control Operation of a Playback Device”と題する米国仮特許出願第60/709,560号の恩恵を主張するものである。その内容全体はここに参照によって組み込まれる。
〈技術分野〉
本願は、再生装置の動作を制御する方法および装置に関する。ある実施形態では、当該方法および装置は、音声インターフェースを使ったデジタル・コンテンツの再生、ナビゲーションおよび/または動的プレイリスト化を制御しうる。
携帯電話、携帯メディア・プレーヤー(たとえばMP3プレーヤー)、乗物オーディオおよびナビゲーション・システムといったデジタル再生装置などは、典型的には当該装置の動作を制御するためにユーザーが利用する物理的なコントロールを有している。たとえば、デジタル・オーディオ・プレーヤーに設けられている「再生」「一時停止」または「停止」などといった機能は、選択された機能を可能にするためにユーザーが作動させるスイッチまたはボタンの形である。ユーザーは典型的には、指でボタン(ハードまたはソフト)を押して、任意の所与の機能を選択する。
さらに、装置がユーザーから受け取りうるコマンドは、ハードおよびソフトな物理スイッチを有するユーザー・インターフェースの物理的な大きさによって制限される。たとえば、発話入力および可聴フィードバックを組み込む道路ナビゲーション製品が有することがある、限られた物理的コントロール、表示画面領域およびグラフィカル・ユーザー・インターフェースの洗練では、発話入力および/またはスピーカー出力なしでは簡単な操作が可能でないことがありうる。
いくつかの実施形態は、限定ではなく例として、付属の図面において図示される。
再生装置の動作を制御する例示的な方法および装置について述べる。たとえば、本方法および装置は、発話(speech)(またはリスナーによる口頭での意思表示)を使ったデジタル・コンテンツの再生、ナビゲーションおよび/または動的プレイリスト化を制御しうる。以下の記述では、説明の目的で、本発明のある実施形態の十全なる理解を提供するために数多くの個別的詳細が述べられる。しかしながら、当業者には、本発明がそうした個別的詳細なしでも実施されうることは明らかであろう。あくまでも例として、デジタル・コンテンツはオーディオ(たとえば音楽)、スチール画像/写真、ビデオ(たとえばDVD)または他のいかなるデジタル・メディアであってもよい。
本発明は、例として、デジタル・オーディオを参照して記述されるが、当業者には、本発明が、いかなるデジタル・データまたはコンテンツのレンダリングまたは再生を制御するために利用されてもよいことが認識されるであろう。
ここに記載される例示的な諸方法は、数多くの異なる型のシステム上で実装されうる。たとえば、そうした諸方法の一つまたは複数は、記録物を再生する携帯型ユニットに組み込まれてもよいし、あるいは毎分何百という装置からネットワーク(たとえばインターネット)を介して受領される要求を処理する一つまたは複数のサーバーによってアクセスされてもよいし、あるいは単一のデスクトップ・コンピュータまたは構内ネットワークといった何らかの中間物であってもよい。ある例示的な実施形態では、本方法および装置は、デジタル・メディアの再生のための携帯型または移動型メディア装置(たとえば乗物オーディオ・システム、乗物ナビゲーション・システム、乗物DVDプレーヤー、携帯型ハードドライブ・ベースの音楽プレーヤー(たとえばMP3プレーヤー)、携帯電話など)において展開されてもよい。ここに記載される方法および装置は、スタンドアローン装置として展開されてもよいし、あるいは再生装置(携帯型の装置および固定位置のほうが好適な装置、たとえばホーム・ステレオ・システム)に完全に統合されてもよい。
ある例示的な実施形態は、データの型と、装置またはアプリケーションに届けられることのできる関連する声(voice)コマンドおよび制御における柔軟性を許容する。ある例示的な実施形態は、オーディオ(audio)をレンダリングするアプリケーションが要求するコマンドだけを届けうる。したがって、本方法および装置を既存の製品において展開する実装者は、自分たちが必要としており、自分たちの特定の製品が必須の機能性(たとえば乗物オーディオ・システムまたはそのようなシステム上で走るアプリケーション、MP3プレーヤーおよび該プレーヤー上で走るアプリケーション・ソフトウェアなど)を実行するために要求する、生成されたデータを使うだけでよい。ある例示的な実施形態では、本装置および方法は、レガシーの自動化発話認識(ASR: automated speech recognition)/テキスト‐スピーチ(TTS: text-to-speech)ソリューションおよび既存のアプリケーション機能とともに、精確な発話認識および音楽メタデータ合成を達成するために動作しうる。
先進的なASRおよび/またはTTS技術とともに使われるとき、本装置は装置製造業者が、あらゆる型のデジタル娯楽装置(たとえば、乗物オーディオ・システム、ナビゲーション・システム、移動電話など)において音楽コレクションに、迅速に、ハンズフリーでアクセスすることを可能にする。
メディア管理のために使われる発音が、ASRおよびTTSシステムにとって特殊な課題を呈することがありうる。ある例示的な実施形態では、音楽分野固有データを収容することは、データベースサイズのほどほどの増加で達成されうる。増強は主として、アーチスト、アルバムおよび曲名ならびにジャンル、スタイルなどといった他のメディア分野固有用語についての発音転写(phonetic transcription)から生じる。
ある例示的な実施形態は、多様なASRおよびTTS機能を容易にするために、装置またはアプリケーションに機能および発音データ(phonetic data)の送達を提供する。これらの機能は、例として上述したようなさまざまな装置およびメディア・データベースとともに使うことができる。ある例示的な実施形態では、メディア・データベースは、オンライン・アクセスをもつシステムについてはリモートでアクセスでき、あるいは常時接続でない装置についてはローカル・データベース(たとえば、組み込みローカル・データベース)を介してアクセスできる。こうして、たとえば、ローカル・データベースは、携帯再生装置のハードディスク・ドライブ(HDD)において提供されうる。
ある例示的な実施形態では、追加的なセキュリティ保護されたコンテンツおよびデータがローカルなハードディスク・ドライブに、あるいはオンライン貯蔵所に組み込まれていて、適切な声コマンドを介して、デジタル権利管理(DRM: Digital Rights Management)動作とともにアクセスできてもよい。たとえば、ユーザーは、あるトラックを購入する要求を声で発してもよい。するとそのトラックについてのアクセスがロック解除されうる。するとライセンス・キーおよび/または実際のトラックがローカルにロック解除される、ユーザーにストリーミングされる、ユーザーの装置にダウンロードされるなどできる。
ある例示的な実施形態では、本方法および装置は、ジャンル階層、時代/年階層および出自階層といった支援データ構造ならびに関係するアーチスト、アルバムおよびジャンルといった関係データとともに機能しうる。サポートされる声コマンドが目標市場のユーザーの期待と整合するよう、地域または装置固有の階層が読み込まれてもよい。さらに、本方法および装置が一つまたは複数の特定の言語のために構成されてもよい。
図1は、メディア・コンテンツの認識のための例示的な高レベルのシステム・アーキテクチャ100を示している。これは、再生制御、ナビゲーション、メディア・コンテンツ検索、メディア・コンテンツ推薦、向上されたメタデータ(たとえば歌詞またはジャケット画像)の読み出しおよび/または送達ならびに/またはメディア・コンテンツの動的プレイリスト化を可能にするためである。アーキテクチャ100は、メディア管理システム106およびアプリケーション層/ユーザー・インターフェース(UI)108と通信する発話認識および合成装置104を含んでいてもよい。
発話認識および合成装置104は、発話認識および発話合成を通じてそれぞれ発話入力116を受領し、スピーカー出力114を提供しうる。たとえば、発話合成のためにテキスト‐スピーチ(TTS)エンジン110、発話認識コマンドのために自動化発話認識(ASR)エンジン112を使った再生制御、ナビゲーション、メディア・コンテンツ検索、メディア・コンテンツ推薦、向上されたメタデータ(たとえば歌詞またはジャケット画像)の読み出しおよび/または送達ならびに/またはメディア・コンテンツは、たとえば、送達される発音メタデータ(phonetic metadata)128に基づいてナビゲーション機能(たとえば再生装置上でのコンテンツのブラウズ)を許容しうる。
ユーザーは、入力装置(たとえばマイクロホン)を介して発話入力116を提供しうる。該発話入力116は次いでASRエンジン112に供給される。ASRエンジン112の出力はアプリケーション層/UI108に供給され、該アプリケーション層/UI108はメディア管理システム106と通信しうる。メディア管理システム106は、プレイリスト・アプリケーション層122、声動作コマンド(VOC: voice operation commands)層124、リンク・アプリケーション層132およびメディア識別(ID: identification)アプリケーション層134を含む。メディア管理システム106は、今度は、(ローカルまたはオンラインのCDの)メディア・データベース126およびプレイリスト化データベース110と通信しうる。
ある例示的な実施形態では、メディアIDアプリケーション層134は、ローカル・ライブラリ・データベース118に保存されているメディア・コンテンツ136の認識プロセスを適正な識別方法(たとえば、テキスト・マッチング、オーディオおよび/またはビデオ・フィンガープリント、コンパクト・ディスクのテーブル・オブ・コンテンツTOCまたはDVDのテーブル・オブ・プログラミング)の使用によって実行するために使われうる。メディア・メタデータ130を関係するメディア・コンテンツ136と持続的に関連付けるためである。
アプリケーション層/ユーザー・インターフェース108は、ユーザーおよび/または組み込みアプリケーション(たとえば再生装置内の)から受領された通信を処理しうる。一方、メディア・プレーヤー102が、ユーザーと前記組み込みアプリケーションとの間のテキストおよび/またはグラフィックの通信を受領および/または提供しうる。
ある例示的な実施形態では、メディア・プレーヤー102は、ソフトウェアおよび/またはハードウェアの組み合わせであってもよく、次のうちの一つまたは複数であってもよい:コントロール、ポート(たとえばユニバーサル・シリアル・ポート(universal serial port))、ディスプレイ、記憶装置、CDプレーヤー、DVDプレーヤー、オーディオ・ファイル、記憶装置(たとえばリムーバブルおよび/または固定)、ストリーミングされたコンテンツ(たとえばFMラジオおよび衛星ラジオ)、記録機能および他のメディア。ある例示的な実施形態では、組み込みアプリケーションは、メディア・プレーヤー102とのインターフェースをもってもよく、それにより組み込みアプリケーションはメディア・プレーヤー102の機能性にアクセスし、および/またはこれを制御してもよい。
ある例示的な実施形態では、発音メタデータ128のサポートは、メディアIDアプリケーション層134において、メディア・データ構造内に発音メタデータ128を含めることによって提供されうる。たとえば、CD探索が成功し、メディア・メタデータ130(たとえばアルバム・データ)が返されるとき、すべての発音メタデータ128は自動的にメディア・データ構造内に含められる。
プレイリスト・アプリケーション層122は、プレイリスト化データベース110内のプレイリストの生成および/または管理を可能にしうる。たとえば、プレイリストは、メディア・データベース126とともに含まれうるようなメディア・コンテンツを含みうる。
図のように、メディア・データベース126は、メディア・メタデータ130を含みうる。これは発音メタデータ128を含むよう向上されうる。ある例示的な実施形態では、既存の発話認識および/または発話合成システムにおける何らかの不十分さに対応するために幅広いカバー範囲の発音メタデータ128を提供するために、編集プロセスが利用されてもよい。たとえば、個別に生成された発音データ128を直接、メディア・メタデータ130と明示的に関連付けることによって、該関連付けは、簡単に発音されない、誤って発音される、ニックネームをもつ、またはスペリング通りに発音されないアーチスト、アルバムおよびトラック名といったメディア・メタデータ130を効率的に処理できない既存の発話認識および/または発話合成システムを補佐しうる。
ある例示的な実施形態では、メディア・メタデータ130は、再生制御、ナビゲーション、メディア・コンテンツ検索、メディア・コンテンツ推薦、向上されたメタデータ(たとえば歌詞またはジャケット画像)の読み出しおよび/または送達ならびに/またはメディア・コンテンツの動的プレイリスト化のためのメタデータを含んでいてもよい。
発音メタデータ128は、諸機能が、あるソリューションの他の構成要素とともに機能できるようにするために、発話認識および発話合成システム104によって使われてもよく、持続的なインターネット接続のない装置、インターネット接続のある装置、パソコン・アプリケーションなどにおいて使われてもよい。
ある例示的な実施形態では、メディア・データベース126の発音メタデータ128から導出される一つまたは複数の発音辞書が、部分的にまたは全体的に、クリアー・テキストの形または別のフォーマットで生成されてもよい。ひとたび完成された発音辞書は、発話認識および合成装置104とともに使うために、組み込みアプリケーションによって提供されるか、あるいは、発話認識および合成装置104によってすでに使われている既存の辞書にアペンドされうる。
ある例示的な実施形態では、複数の辞書がメディア管理システム106によって生成されてもよい。たとえば、貢献者(アーチスト)発音辞書およびジャンル発音辞書が、発話認識および合成装置104による使用のために生成されてもよい。
図2を参照すると、例示的なメディア認識および管理システム200が図示されている。ある例示的な実施形態では、前記メディア認識および管理システム106(図1参照)がメディア認識および管理システム200を含んでいてもよい。
メディア認識および管理システム200は、オペレーティング・システム(OS)204に結合されたプラットフォームを含みうる。プラットフォーム202は、ハードウェアおよび/またはソフトウェアでの、ソフトウェアの実行を可能にする枠組みであってもよい。オペレーティング・システム204は、データ通信206と通信していてもよく、さらにOS抽象化層208と通信してもよい。
OS抽象化層208は、メディア・データベース210、更新データベース212、キャッシュ214およびメタデータ・ローカル・データベース216と通信していてもよい。メディア・データベース210は、一つまたは複数のメディア項目218(たとえば、CD、デジタル・オーディオ・トラック、DVD、映画、写真など)を含みうる。メディア項目は次いでメディア・メタデータ220および発音メタデータ222に関連付けられてもよい。ある例示的な実施形態では、元の記録(参照記録)のフィンガープリントに基づいて元の記録の修正されたコピーを同定するために、十分堅牢な参照フィンガープリント・セットが生成されてもよい。
ある例示的な実施形態では、キャッシュ214は、データを保存するために使われるコンピューティング・システムまたは装置上のローカル記憶装置であってもよく、メディア認識および管理システム200において、将来の問い合わせを高速化しうるよう最近問い合わせされた結果を保存することにおいて支援するために、ファイル・ベースのキャッシング機構を提供するために使われてもよい。
ユーザーのコレクションにあるメディア項目218のためのプレイリスト関係データが、メタデータ・ローカル・データベース216内に保存されてもよい。ある例示的な実施形態では、メタデータ・ローカル・データベース216はプレイリスト化データベース(図1参照)を含んでいてもよい。メタデータ・ローカル・データベース216は、プレイリスト結果セットを生成するためのプレイリスト・マネージャ230の指揮によるプレイリスト生成232の実行の間に必要とされるすべての情報を含んでいてもよい。プレイリスト化生成232は、プレイリスト・アプリケーション・プログラミング・インターフェース(API)236を通じてインターフェースをもたされてもよい。
メディア認識および管理システム200における探索(lookup)は、OS抽象化層208と探索サーバー222との間の通信を通じて可能にされうる。探索サーバー222は、探索を実施するために、更新マネージャ228、暗号化/復号モジュール224および圧縮モジュール226と通信していてもよい。
メディア認識モジュール246は、更新マネージャ228および探索サーバー222と通信してもよく、メディア・データベース210からのメディア項目218に関連付けられたメディア・メタデータ220にアクセスすることなどによってメディアを認識するために使われてもよい。ある実施形態では、コンパクト・ディスク(オーディオCD)および/または他のメディア項目218は、テーブル・オブ・コンテンツ(TOC)情報またはオーディオ・フィンガープリントを使うことによって認識(または同定)できる。ひとたびTOCまたはフィンガープリントが利用可能となれば、アプリケーションまたは装置は、そのCDまたはその他のメディア・コンテンツのためのメディア項目218を見つけ出して、メディア・データベース210からメディア・メタデータ220を取得することができる。認識されたメディア項目218について発音データ222が存在している場合、それは、X-SAMPAのような発音転写言語において利用可能にされてもよい。メディア・データベース210は、ローカルに存在してもよく、ネットワーク接続を通じてアクセス可能であってもよい。ある例示的な実施形態では、発音転写言語は、精確な発音転写(phonetic transcription)(発話音のテキスト記号による表現)のために考案されたキャラクタ集合であってもよい。ある例示的な実施形態では、拡張SAM発音記号(Extended Speech Assessment Methods Phonetic Alphabet)(X-SAMPA)が、国際発音記号(International Phonetic Alphabet)をASCII記号で精密にモデル化するために考案された発音転写言語でありうる。
コンテンツIDの送達モジュール224は、コンテンツの識別情報を、リンクAPI238に直接送達しうる。一方、VOC API242は認識メディア・モジュール226およびメディアID API240と通信しうる。
図3を参照すれば、再生装置の動作を制御する例示的な発話認識および合成装置300が図示されている。ある例示的な実施形態では、発話認識および合成装置104(図1参照)が発話認識および合成装置300を含んでいてもよい。発話認識および合成装置300は、ASR/TTSシステムを含んでいてもよい。
ASRエンジン112は、発話認識モジュール314、316、318、320を含んでいてもよい。発話認識モジュールは、メディア・メタデータ130のほか、メディア管理システム106によってサポートされるすべてのコマンドを知っていてもよく、コマンドの認識に際して、発話認識エンジン112は適切なコマンドを関連するハンドラに送ってもよい(図1参照)。たとえば、あるプレイリスト化アプリケーションが本実施形態に付随しているとすると、ASRエンジン112は、そのプレイリスト化アプリケーションに、次いでアプリケーション層/UI108(図1参照)に適切なコマンドを送ってもよい。該アプリケーション層/UIが次いで要求を実行しうる。
ひとたび発話認識および合成装置300が適切なデータ(たとえば音楽分野のためにカスタマイズされた発音メタデータ128、222)をもって構成されると、発話認識および合成装置300は、構成のベースとされたその特定の分野に関連付けられた声コマンドに応答する準備ができうる。発音メタデータ128はまた、それが常駐するその特定の装置と関連付けられてもよい。たとえば、その装置が再生装置であれば、発音データは、「再生」「もう一度再生」「停止」「一時停止」などといったコマンドに対応するようカスタマイズされてもよい。
TTSエンジン110(図1参照)は、発話合成モジュール306、308、310、312を含みうる。発話合成要求を受領すると、クライアント・アプリケーションが、発話出力されるべきコマンドを、TTSエンジン110に送りうる。発話合成モジュール306、308、310、312はまず、発話出力されるべきテキスト・ストリングを、その関連付けられた辞書(単数または複数)において探索しうる。辞書内でみつかったテキスト・ストリングのこの発音表現が、TTSエンジン306によって取り入れられてもよく、テキスト・ストリングの発音表現が発話出力されうる(たとえば、そのテキスト・ストリングのスピーカー出力302を生成する)。
ある例示的な実施形態では、ASR文法318が、すべての発音メタデータ128、222およびコマンドを含む辞書を含みうる。「演奏アーチスト」「これと似たものをもっと」「これは何?」といったコマンドが定義されうるのはここである。
ある例示的な実施形態では、TTS辞書310は、すべての事前定義された発音を含む、バイナリーまたはテキストのTTS辞書310であってもよい。たとえば、TTS辞書310は、アプリケーション・データベース内の認識されたコンテンツについてのメディア・データベースからのすべての発音メタデータ128、222を含みうる。TTS辞書310は必ずしも、TTSシステムが発音できるすべての可能な語や句を保持する必要はない。この辞書にない語は、G2Pを介して扱ってもよいからである。
コンテンツ認識ならびに発話認識および合成装置300の更新実行後、ユーザーは、発話認識および/または発話合成のためのコマンドを実行できてもよい。しかしながら、該機能性は他の適切な仕方で実行されてもよく、上記に制限されないことは認識されるであろう。たとえば、音楽分野について好適であり、インターネットまたは他の任意の通信チャネルを介して更新されうる適切な発音メタデータ128、222が再生装置に事前ロードされていてもよい。
発話認識および合成装置300がX-SAMPAをサポートする例示的な実施形態では、発音メタデータ128、222はそのままで提供される。しかしながら、発話認識および合成装置300が異なる発音表記言語(phonetic language)のデータを求める実施形態では、装置300は、X-SAMPAから、ある選択された発音表記言語に変換するためのキャラクタ・マップを含んでいてもよい。
発話認識および合成装置300は、たとえば次のように再生装置を制御しうる:発話入力304はオーディオ入力(たとえばマイクロホン)に話されたコマンド(たとえばユーザーによる口頭の意思表示)であってもよい。それにより、ユーザーが該コマンドを話すと、対応する発話がASRエンジン314にはいっていってもよい。ここで、ユーザーの発話のデジタル読み出しを生成するよう、ピッチおよびトーンといった音声特徴が抽出されうる。この段階後、ASRエンジン314は諸特徴を、認識のために、発話認識および合成装置300の検索部に送りうる。検索段階において、ASRエンジン314は話されたコマンドから抽出した特徴を、該エンジンのコンパイルされた文法(たとえば、参照コマンドのデータベース)における実際のコマンドと照合する。文法は、個別の実施形態に固有な発音データ128、222を含んでいてもよい。ASRエンジン314は、所与のまたは選択された言語についての発話の平均的な特性のガイドとして音響(acoustic)モデルを使ってもよい。それが、発音メタデータ128、222の発話との照合を許容する。ここで、ASRエンジン314は、コマンドに一致または「失敗」のメッセージを返しうる。
ある例示的な実施形態では、所与の個人の話されたコマンドを、より高い精度(たとえば、分野固有コマンドを認識する際のより高い精度)を提供するようよりよく理解するために発話認識および合成装置300をトレーニングするために、ユーザー・プロファイルを利用してもよい。これは、ユーザーが特定のテキスト・ストリングの組を発話認識および合成装置300に向かって話すことによって達成されてもよい。特定のテキスト・ストリングはあらかじめ定義されており、ASRシステム開発者によって提供されるものである。たとえば、該テキスト・ストリングは音楽分野に固有であってもよい。
ひとたびコマンドに一致が見出されたら、ASRエンジン314は結果を生成し、組み込みアプリケーションにコマンドを送りうる。すると組み込みアプリケーションは該コマンドを実行できる。
TTSエンジン306は、テキスト・ストリング(または発音表記ストリング)を取り入れ、それを処理して発話にする。TTSエンジン306は、テキスト・コマンドを受領し、たとえばG2Pソフトウェアを使うかあらかじめコンパイルされたバイナリー辞書(提供される発音メタデータ128、222を具備する)を検索することによって、該ストリングを処理しうる。TTS機能性が特定の分野(たとえば音楽分野)に合わせてカスタマイズされてもよいことは理解されるであろう。TTS結果は、該ストリングを「話し」うる(テキストに対応するスピーカー出力302を生成する)。
ある例示的な実施形態では、メタデータとともに、典型的な声コマンドおよび制御機能のリストが提供されてもよい。これらの声コマンドおよび制御機能は、ランタイムでの再コンパイルのために、初期化の際に、あるいは開発の間に、デフォルト文法に追加されてもよい。例示的なコマンドおよび制御機能(サポートされる機能)のリストが以下に与えられる。
ある実施形態では、発話認識のために文法が使用および更新されうる一方、バイナリー辞書またはテキスト辞書が発話合成のために必要とされることがありうる。TTSエンジン306にはいかなるテキスト・ストリングが渡されてもよい。TTSエンジン306は、そのストリングを、G2PおよびTTS辞書310によってそのために提供される発音を使って話す。
ある例示的な実施形態では、発話認識および合成装置300は、書記素‐音素(G2P: Grapheme to Phoneme)変換をサポートしうる。これは、G2Pモジュール(単数または複数)を通じて表示テキストをその関連する発音転写に動的かつ自動的に変換しうる。G2P技術は、入力としてアプリケーションによって提供されるプレーン・テキストを取り、自動発音転写を生成する。
ユーザーはたとえば、音楽コンテンツの基本的な再生をASR技術によって声を介して制御するが、該ASR技術は、組み込まれた装置内、あるいは認識、管理、ナビゲーション、プレイリスト化、検索、推薦および/またはサードパーティー技術へのリンクを含む、当該装置のためのバンドル製品付属でありうる。
たとえば、発話認識および合成装置300を使って、ユーザーは、ジャンル、時代、年、地域、アーチスト種別、テンポ、毎分拍数、ムードなどといった複数の基準を使って動的に自動プレイリストを生成してもよく、あるいは簡単な話されたコマンドをもってシード・ベースの自動プレイリストを生成し、似た音楽のプレイリストを生成することができる。ある例示的な実施形態では、すべての基本的な再生コマンド(たとえば、「再生」「次」「戻る」など)は、声コマンドを介して実行されうる。さらに、テキスト‐スピーチは「これと似たものをもっと」または「これは何?」のようなコマンドあるいは他のいかなる分野固有コマンドを提供してもよい。よって、発話認識および合成装置300が、声コマンドを使ってオーディオ再生装置のような再生装置に提供されうる型および範囲のコマンドを容易にし、向上させることができることが理解されるであろう。
本装置によってサポートされうる例示的な声コマンドの例を含むテーブルを下記に示す。
Figure 2009505321
Figure 2009505321
Figure 2009505321
Figure 2009505321
図4を参照すると、例示的なメディア・データ構造400が示されている。ある例示的な実施形態では、メディア・データ構造400は、メディア項目218(図1および図2参照)のようなメディア・コンテンツのための、メディア・メタデータを表すために使用されうる。メディア・データ構造400は、メディア・タイトル配列402をもつ第一のフィールド、主要アーチスト配列404をもつ第二のフィールドおよびトラック配列406をもつ第三のフィールドを含みうる。
メディア・タイトル配列402は、あるメディア・タイトル(たとえば、アルバムのタイトル、映画のタイトルおよびテレビ番組のタイトル)の公式な表現および一つまたは複数の代替表現を含みうる。主要アーチスト名配列404は、主要アーチスト名(たとえば、バンドの名前、制作会社の名前および主要俳優の名前)の公式な表現および一つまたは複数の代替表現を含みうる。トラック配列406は、前記メディア・タイトルについての一つまたは複数のトラック(たとえば、アルバムのデジタル・オーディオ・トラック、テレビ番組のエピソードおよび映画の中の場面)を含みうる。
例として、メディア・タイトル配列402は、「Led Zeppelin IV」、「Zoso」および「無題」を含んでいてもよく、主要アーチスト名配列404は「Led Zeppelin」および「The New Yardbirds」を含んでいてもよく、トラック配列406は、「Black Dog」、「Rock and Roll」、「The Battle of Evermore」、「Stairway to Heaven」、「Misty Mountain Hop」、「Four Sticks」、「Going to California」および「When the Levee Breaks」を含んでいてもよい。
ある例示的な実施形態では、メディア・データ構造400は、オンラインまたはローカルでの探索成功イベントを通じて取得されうる。たとえば、メディア・ベースの探索(たとえば、CDベースの探索およびDVDベースの探索)は、メディア項目上のあらゆるトラックについての情報を提供するメディア・データ構造400を返しうる。一方、ファイル・ベースの探索は、認識されたトラックについてのみ情報を提供するメディア・データ構造400を返しうる。
図5を参照すると、例示的なトラック・データ構造500が示されている。ある例示的な実施形態では、トラック配列406(図4参照)の各要素がトラック・データ構造500を含みうる。
トラック・データ構造500は、トラック・タイトル配列502をもつ第一のフィールドおよびトラック主要アーチスト名配列504をもつ第二のフィールドを含みうる。トラック・タイトル配列502は、トラック・タイトルの公式な表現および一つまたは複数の代替表現を含みうる。トラック主要アーチスト名配列504は、該トラックの主要アーチスト名の公式な表現および一つまたは複数の代替表現を含みうる。
図6を参照すると、例示的なコマンド・データ構造600が示されている。コマンド・データ構造600は、コマンド配列602をもつ第一のフィールドおよびプロバイダ名配列604をもつ第二のフィールドを含みうる。ある例示的な実施形態では、コマンド・データ構造600は、発話認識および合成装置300(図3参照)とともに使われる声コマンドのために使用されうる。
コマンド配列602は、コマンド(たとえば、ナビゲーション制御およびプレイリストに対する制御)の公式な表現および一つまたは複数の代替表現を含みうる。プロバイダ名配列604は、該コマンドのプロバイダの公式な表現および一つまたは複数の代替表現を含みうる。たとえば、コマンドは、ナビゲーション、プレイリスト化(たとえば、音楽の一つまたは複数のプレイリストの生成および/または使用)、再生制御(たとえば再生および停止)などを可能にしうる。
図7を参照すると、例示的なテキスト配列データ構造700が示されている。ある例示的な実施形態では、メディア・タイトル配列402および/または主要アーチスト配列404(図4参照)がこのテキスト配列データ構造700を含みうる。ある例示的な実施形態では、トラック・タイトル配列502および/またはトラック主要アーチスト名配列504(図5参照)がこのテキスト配列データ構造700を含みうる。ある例示的な実施形態では、コマンド配列602および/またはプロバイダ名配列604(図6参照)がこのテキスト配列データ構造700を含みうる。
例示的なテキスト配列データ構造700は、公式表現フラグ702をもつ第一のフィールド、表示テキスト704をもつ第二のフィールド、書記言語(written language)識別情報(ID)706をもつ第三のフィールドおよび発音転写配列708をもつ第四のフィールドを含みうる。
公式表現フラグ702は、そのテキスト配列データ構造700について、そのテキスト配列データ構造700が前記発音転写の公式表現(たとえば公式な発音転写)を表しているか、前記発音転写の代替表現(たとえば代替的な発音転写)を表しているかを示すフラグを提供しうる。たとえば、フラグは、あるタイトルまたは名前が公式な名前であることを示しうる。
ある例示的な実施形態では、公式な発音転写は、テキスト・ストリングの正しい発音の発音転写でありうる。ある例示的な実施形態では、代替的な発音転写は、テキスト・ストリングの一般的な誤発音または代替的な発音でありうる。代替的な発音転写は、ユーザーのミスによって起こりうるようなテキスト・ストリングの一般的な非標準発音の発音転写(たとえば誤った発音の発音転写)を含んでいてもよい。代替的な音声転写はまた、地域的な言語、地方の方言、地元の慣習の多様性および/または正しい発音についての明確さが一般に欠けていることに起因して生じるテキスト・ストリングの一般的な非標準発音の発音転写(たとえば代替的な発音の発音転写)を含んでいてもよい。
ある例示的な実施形態では、公式表現は、公式に発表されたメディアに現れるテキストに一般に関連付けられるか、および/または編集上決定されるかしうる。たとえば、公式なアーチスト名、アルバム・タイトルおよびトラック・タイトルは、通常、頒布されたメディアの元のパッケージングに見出されうる。ある例示的な実施形態では、アーチストが経歴の間に公式名を変えた場合、公式表現は単一の正規化された名前でありうる(たとえばPriceおよびJohn Mellencamp)。
ある例示的な実施形態では、代替表現は、アーチスト名、アルバム・タイトル、トラック・タイトル、ジャンル名、アーチスト出身地およびアーチスト時代記述に関連付けられうるような、ニックネーム、短縮名、一般的な略語などを含みうる。のちにより詳細に述べるように、各代替表現は、表示テキストおよび任意的に一つまたは複数の発音転写を含みうる。ある例示的な実施形態では、発音転写は、話される人間言語において生起する音の記号化のテキスト表示であってもよい。
表示テキスト704は、人間の読み手に対する表示のために好適であるテキスト・ストリングを示しうる。表示テキスト704の例は、アーチスト名、アルバム・タイトル、トラック・タイトル、ジャンル名などに関連付けられた表示ストリングを含む。
書記言語ID706は任意的に、表示テキスト704の元の書記言語を指示しうる。例として、書記言語ID706は、「Los Lonely Boys」の表示テキストがスペイン語であることを指示しうる。
発音転写配列708は、さまざまな発話言語(spoken language)(アメリカ英語、イギリス英語、カナダ・フランス語、スペイン語および日本語)における発音転写を含みうる。発音転写配列708内に表現される各言語は、公式発音の発音転写および一つまたは複数の代替発音の発音転写を含みうる。
ある例示的な実施形態では、発音転写配列708またはその一部は、メディア・データベース126、210内に発音メタデータ128、222として保存されうる。
ある例示的な実施形態では、発音転写配列708の発音転写は、X-SAMPAアルファベットを使って保存されてもよい。ある例示的な実施形態では、発音転写はL&H+のような別の発音表記アルファベットに変換されてもよい。特定の発音表記アルファベットのサポートは、ソフトウェア・ライブラリ・ビルド構成の一部として提供されうる。
表示テキスト704は、辞書を生成することによって、発音転写配列708の公式発音転写および代替発音転写に関連付けられうる。生成された辞書は、認識イベントに先行して、発話認識および合成装置300(図3参照)によって提供され、使用されうる。ある例示的な実施形態では、表示テキスト704および対応する発音転写は、認識イベントの発生に際して提供されうる。
発音メタデータ128、222についてのごく一般的に誤発音されるストリングの代替発音または発音異形の発音転写が提供されてもよい。代替発音または発音異形は、書記素‐音素技術を使って数多くのプレーンテキスト・ストリングを扱うよう自動化発話認識エンジン112を適応させるために使用されうる。しかしながら、認識は、若干の顕著な例外については問題となりうる(たとえば、Shade[シャーデー]、Beyonce[ビヨンセ]、AC/DC、311、B-52s、R.E.M.など)。追加的または代替的に、ある実施形態は、ユーザーがよく誤発音する名前についての発音異形を含んでいてもよい。たとえば、Sade[シャーデー](たとえば「セイド」
外1

Figure 2009505321
と誤発音される)、Beyonce(たとえば「ビヨンス」
外2

Figure 2009505321
と誤発音される)およびBrian Eno(たとえば「エーノ」
外3

Figure 2009505321
と誤発音される)のようなアーチストである。
ある例示的な実施形態では、あるアーチストを呼ぶときに使いうる代替名の発音表現が提供され、通例ASRシステムに見出される厳格さを下げる。たとえば、「アーチスト:フランク・シナトラ(Frank Sinatra)を再生」「アーチスト:オール・ブルー・アイズ(Ol' Blue Eyes)を再生」「会長(The Chairman of the Board)を再生」といったコマンドがみな等価であるように、コンテンツを編集できる。
一連の例として、第一の使用事例は、ビーチ・ボーイズについてありうる。ビーチ・ボーイズは、「ビーチ・ボーイズ」と言う英語の一つの発音転写を有しうる。第二の使用事例(たとえば、ニックネームについて)は、エルビス・プレスリーについてでありうる。プレスリーはその名前にニックネーム、すなわち「ザ・キング」または「キング・オブ・ロックンロール」が関連付けられている。ニックネームのストリングそれぞれは、別個のテキスト配列データ構造700を有し、それに付随する発音転写配列708内に公式な発音転写を有していてもよい。第三の使用事例(たとえば、複数の発音について)は、Eisley Brothersについてでありうる。Eisley Brothersは発音転写配列708内に、Eisley Brothersについての第一の公式な発音転写およびIsley Brothersについての第二の誤発音転写をもつ単一のテキスト配列データ構造700を有しうる。
上の例を続けると、第四の使用事例(たとえば、複数言語について)は、スペイン語での発音転写をもつアーチストLos Lobosを有しうる。メディア・データベース126内の発音メタデータ128はスペイン語で保存されてもよく、発音転写はスペイン語で保存され、しかるべくタグ付けされてもよい。第五の使用事例(たとえば、ニックネームおよび地域化された例外における外国語について)は、エルビス・プレスリーの中国での「Mao Wong」というニックネームのような、外国語のニックネームを含みうる。ニックネームについての発音転写は、Mao Wongとして保存されてもよく、該発音転写は中国語に関連付けられてもよい。第六の使用事例(たとえば、誤発音地域化された例外)は、ACDCについてでありうる。AC/DCは関連付けられた英語での公式転写をもち、それはAC/DCでありうるが、話される言語がフランス語であるときはACDCについてのフランス語の転写が提供されることになる。
図8を参照すると、例示的な発音転写データ構造800が示されている。ある例示的な実施形態では、発音転写配列708(図7参照)の各要素が発音転写データ構造800を含みうる。たとえば、発音転写は、発音転写データ構造800を含みうる。
発音転写データ構造800は、発音転写ストリング802をもつ第一のフィールド、発話言語ID804をもつ第二のフィールド、元の言語転写フラグ806をもつ第三のフィールドおよび正しい発音フラグ808をもつ第四のフィールドを含みうる。
発音転写ストリング802は、発音のために使われる発音キャラクタのテキスト・ストリングを含みうる。たとえば、発音転写ストリング802は、ASR/TTSシステムによって使用されるのに好適でありうる。
ある例示的な実施形態では、発音転写ストリング802はネイティブな発話言語(たとえば、発音転写ストリング802の元の言語)でメディア・データベース126に保存されうる。
ある例示的な実施形態では、発音キャラクタのストリングのために使われるアルファベットは、一般的な発音表記言語(たとえばX-SAMPA)において保存されてもよく、それがASRおよび/またはTTSシステム固有の文字コードに翻訳されてもよい。ある例示的な実施形態では、発音キャラクタのストリングのために使われるアルファベットはL&H+でもよい。
発話言語ID804は、任意的に、発音転写ストリング802の元の発話言語を指示してもよい。たとえば、発話言語ID804は、発話転写ストリング802に取り込まれているのが、その発話言語ID804によって同定される言語の話者が関連付けられた表示テキスト704(図7参照)をどのように発音するかであることを示しうる。
元の言語転写フラグ806は、その転写が、表示テキスト704(図7参照)の書記言語ID706に対応するかどうかを示しうる。ある例示的な実施形態では、発音転写が表示テキスト704と同じ言語であるとき、発音転写は元の言語(たとえば、そのストリングが発話されるであろう言語)でありうる。
正しい発音フラグ808は、発音転写ストリング802が、発話言語IDによって同定される発話言語における正しい発音を表しているかどうかを示しうる。
ある例示的な実施形態では、正しい発音とは、ある発音が、ある所与の言語の話者によって一般に正しいとして受け容れられているときのものである。単一の表示テキスト704について複数の正しい発音が存在することもありうる。ここで、そのような発音のそれぞれが、ある所与の発話言語における「正しい」発音を表す。たとえば、「AC/DC」についての英語での正しい発音の発音転写(エイ・シー・ディー・シー)は、「AC/DC」のフランス語での正しい発音についての発音転写(アー・セー・デー・セー)とは異なっていることがありうる。
ある例示的な実施形態では、誤発音とは、ある発音が、ある所与の言語の話者によって一般に誤発音として受け容れられているときのものである。単一の表示テキスト704について複数の誤発音が存在できる。ここで、そのような発音のそれぞれが、ある所与の発話言語における誤発音を表しうる。たとえば、誤発音が十分一般的で、ユーザーがその発音をすることが比較的ありそうである場合には、その誤発音の発音転写が組み込みアプリケーションに提供されてもよい。
ある例示的な実施形態では、ある表現(たとえば、アーチスト名、メディア・タイトルなど)についての目標発話言語における諸発音転写(たとえば、正しい発音および誤発音についての)を取得するために、ある表現の発音転写配列708(図7参照)が横断され(traversed)、目標発音転写ストリング802が取得され、各発音転写の正しい発音フラグ808が問い合わされてもよい。
ある例示的な実施形態では、表示テキスト704、発音転写配列708の発音転写および任意的に発話言語ID804を含むメディア・データ構造400からのデータが使用され、発話認識および合成装置300(図3参照)のための文法318および辞書310(および任意的には他の辞書)に中身を入れてもよい。
図9を参照すると、例示的な代替句マッピング器データ構造900が示されている。代替句マッピング器データ構造900は、代替句902をもつ第一のフィールド、公式句配列904をもつ第二のフィールドおよび句種別906をもつ第三のフィールドを含みうる。代替句マッピング器データ構造900は、代替句マッピング器をサポートするために使用されうる。その使用についてはのちに詳細に述べる。
代替句902は、公式句に対する代替句を含みうる。ここで、句とは、アーチスト名、メディアまたはトラック・タイトル、ジャンル名、(アーチスト種別、アーチスト出身地またはアーチストの時代の)記述などを指しうる。公式句配列904は、代替句902に対応する一つまたは複数の公式句を含みうる。
たとえば、代替句は、公式名をもつ人物、アルバム、曲、ジャンルまたは時代を表すと普通に知られている、ニックネーム、短縮名、略語などを含みうる。貢献者代替名は、ニックネーム、短縮名、長い名前、出生名、頭字語およびイニシャルを含みうる。ジャンル代替名は、公式名が「R&B」である場合の「リズム・アンド・ブルース」を含みうる。たとえばアーチスト名、アルバム・タイトル、トラック・タイトル、ジャンル名および時代記述のそれぞれは、その公式表現(たとえば、代替句のための公式な発音転写)とは別に、潜在的に、一つまたは複数の代替表現(たとえば、代替句のための代替的な発音転写)を有しうる。
ある例示的な実施形態では、代替句のための発音転写は、別の名前(たとえば、ニックネーム、略語または出生名)に言及するためのある代替的な名前を表すテキスト・ストリングの発音転写でありうる。
ある例示的な実施形態では、代替句マッピング器は、別個のデータベースを使ってもよい。その際、探索成功のたびに、代替句マッピング器データベースは、代替句(返されたメディア・データに存在していれば)を公式句にマッピングする代替句マッピング器データ構造900をもって、自動的に中身が入れられうる。
ある例示的な実施形態では、代替句のための発音転写は、辞書(たとえば、貢献者発音辞書および/またはジャンル発音辞書)として、発話認識および合成装置300の辞書エントリー320内に保存されうる(図3参照)。それによりユーザーは、公式句の代わりに代替句を入力として話すことが可能になる。辞書の使用は、ASRエンジン314が、話された入力116を、辞書のうちの一つからの正しい表示テキスト704(図7参照)と対応付けることを可能にしうる。次いで、ASRエンジン314からのテキスト・コマンド316は、さらなる処理のために、VOCアプリケーション層124および/またはプレイリスト・アプリケーション層122などに提供されうる(図1および図3参照)。
句種別906は、メディア・データ構造400(図4参照)に対応しうるような句の種別を含みうる。たとえば、句種別906の値は、アーチスト名、アルバム・タイトル、トラック・タイトルおよびコマンドを含みうる。
図10を参照すると、ある例示的な実施形態に基づくデータベース上で発音メタデータ128、222を管理するための方法1000が示されている。ある例示的な実施形態では、該データベースはメディア・データベース126、210(図1および図2参照)を含みうる。
ブロック1002でデータベースがアクセスされうる。判断ブロック1004では、発音メタデータ128、222が変更されるかどうかについての判定がなされうる。発音メタデータ128、222が変更される場合、発音メタデータ128、222はブロック1006で変更される。発音メタデータ128、222を変更するある例示的な実施形態は、のちにより詳細に述べる。判断ブロック1004で発音メタデータ128、222が変更されない場合、あるいはブロック1006の後、本方法1000は、判断ブロック1008に進みうる。
判断ブロック1008では、データベースからメタデータ(たとえば、発音メタデータ128、222および/またはメディア・メタデータ130、220)が提供されるべきかどうかについての判定がなされうる。
メタデータが提供されるべきである場合、該メタデータはブロック1010でデータベースから提供される。ある例示的な実施形態では、メタデータの提供は、ローカル・ライブラリ・データベース118(図1参照)に当該データのための要求されたメタデータを提供することを含みうる。
ある例示的な実施形態では、地域的な発音転写のための発音メタデータ128がデータベースから、および/またはデータベースに提供されてもよく、目標地域のネイティブな発話言語において保存されてもよい。
ある例示的な実施形態では、ブロック1010でのメタデータの提供は、組み込みアプリケーションの音楽ライブラリを解析して、アクセス可能なデジタル・オーディオ・トラックを判別し、発話認識および合成装置300(図3参照)での貢献者/アーチスト発音辞書および汎用発音辞書を生成することを含みうる。たとえば、所与のアプリケーションのためにサポートされうるすべての関連する発話言語について発音メタデータ128、222が受領され、ブロック1010での組み込みアプリケーションによる使用のために保存されうる。
判断ブロック1008でメタデータが提供されない場合、あるいはブロック1010の後、本方法1000は、終了するかどうかを判定するために判断ブロック1012に進みうる。本方法1000が動作を続ける場合、本方法1000は判断ブロック1004に戻りうる。そうでない場合には、本方法1000は終了しうる。
ある例示的な実施形態では、メタデータは、認識イベントが起こるときは常に、ブロック1010でリアルタイムで提供されうる。認識イベントの生起はたとえば、組み込みアプリケーションを走らせている装置中へのCDの挿入、該組み込みによるアクセスのためのファイルのアップロード、音楽ナビゲーションのためのコマンド・データの取得などによる。ある例示的な実施形態では、発音メタデータ128、222を動的に提供することは、組み込みアプリケーション内でデータを照合するための検索時間を短縮しうる。
ある例示的な実施形態では、代替句マッピング器によって使われる代替句データが同じようにして、ブロック1010で発音メタデータ128、222として提供されうる。たとえば、代替句データは、自動的に、探索成功によって返されるメディア・メタデータ130、220の一部でありうる。
図11を参照すると、ある例示的な実施形態に基づく、データベースの発音メタデータを変更する方法1100が示されている。方法1100は、ブロック1002(図10参照)で実行されうるものである。ある例示的な実施形態では、データベースはメディア・データベース126、210(図1および図2参照)を含みうる。ブロック1102でストリングがアクセスされうる。該ストリングはたとえば、メディア・メタデータ220のフィールド内に含まれている複数のストリングのうちのストリングである。ある例示的な実施形態では、ストリングはメディア項目218(図2参照)のある側面を記述しうる。たとえば、該ストリングは、メディア・タイトル配列402のメディア・タイトルの表現、主要アーチスト名配列404の主要アーチスト名の表現、トラック・タイトル配列502のトラック・タイトルの表現、トラック主要アーチスト名配列504の主要アーチスト名の表現、コマンド配列602のコマンドの表現および/またはプロバイダ名配列604のプロバイダの表現でありうる。
判断ブロック1104で、そのストリングに書記言語ID706(図7参照)が割り当てられるべきかどうかについて判定がなされうる。本方法1100が、そのストリングの書記言語ID706が割り当てられるべきだと判定する場合、そのストリングの書記言語ID706がブロック1106で割り当てられうる。例として、Celine Dionはカナダ・フランス語という発話言語を割り当てられてもよく、Los Lobosはスペイン語という発話言語を割り当てられてもよい。
ある例示的な実施形態では、あるストリングを書記言語ID706と関連付ける判定は、コンテンツ・エディタによってなされうる。たとえば、あるストリングをある書記言語と関連付ける判定は、そのストリングに関する、メディア関係のウェブサイト(たとえばAllMusic.comおよびWikipedia.com)などから利用可能な情報にアクセスすることによってなされうる。
本方法1100がブロック1104でそのストリングの書記言語が割り当ておよび/または再割り当てされるべきではない(当該ストリングがすでに正しい書記言語が割り当てられているため)と判定する場合、またはブロック1106の後、本方法1100は判断ブロック1108に進みうる。
ブロック1106での動作の完了に際して、本方法1100は、そのストリングに公式な発音転写を割り当てうる。これはたとえば、そのストリングの発話言語での発音転写を生成する処理を使う自動化されたソースを通じてである。
本方法1100は、判断ブロック1108において、そのストリングについての公式発音転写に関して作用をすべきかどうかを判定しうる。たとえば、公式な発音転写は、発音転写配列708(図7参照)に関して保持されうる。そのストリングについての公式な発音転写内で作用をすべきである場合、そのストリングのためのその公式な発音転写はブロック1110で、生成、修正および/または削除されうる。判断ブロック1108においてそのストリングについての公式な発音転写に関して作用をすべきではない場合、あるいはブロック1110の後、本方法1100は判断ブロック1112に進みうる。
判断ブロック1112では、本方法1100は、一つまたは複数の代替的な発音転写に関して作用をするべきかどうかを判定しうる。たとえば、代替発音転写の一つまたは複数は、発音転写配列708(図7参照)に関して保持されうる。そのストリングについての代替発音転写に関して作用をすべきである場合、そのストリングのためのその代替発音転写はブロック1114で、生成、修正および/または削除されうる。判断ブロック1112においてそのストリングについての公式な発音転写に関して作用をすべきではない場合、あるいはブロック1114の後、本方法1100は判断ブロック1116に進みうる。
ある例示的な実施形態では、代替発音転写は、そのストリングの元でない言語について生成されてもよい。
ある例示的な実施形態では、代替発音転写は、そのストリングが話されうる発話言語のそれぞれについては生成されない。むしろ、代替発音転写は、その発音転写が、その発話言語の話者に正しくないと聞こえる発話言語についてのみ生成されてもよい。
本方法1100は、判断ブロック1116で、さらなるアクセスが所望されるかどうかを判定しうる。たとえば、該さらなるアクセスは、現在のストリングおよび/または別のストリングに提供されてもよい。さらなるアクセスが所望される場合、本方法1100は、ブロック1102に戻りうる。ブロック1116でさらなるアクセスが所望されない場合、本方法1100は終了しうる。
ある例示的な実施形態では、発音転写は、サポートされる言語での編集校閲を受けてもよい。たとえば、英語話者が英語の発音転写を聞いてもよい。転写が英語で保存されていないときは、英語話者は英語以外の言語で保存され、英語に翻訳された発音転写を聞いてもよい。英語話者は、発音転写のうちで、たとえばその発音転写の地域化された例外に置き換える必要のあるものを特定しうる。
図12を参照すると、ある例示的な実施形態に基づくアプリケーションとともにメタデータを使用する方法1200が示されている。ある例示的な実施形態では、該アプリケーションは組み込みアプリケーションでありうる。したがって、本方法1200は、移動MP3プレーヤー、カー・オーディオ・システムなどといったいかなるオーディオ設備に展開され、統合されてもよい。
メタデータ(たとえば、発音メタデータ128、222および/またはメディア・メタデータ130、220)は、ブロック1202で前記アプリケーションのために構成され、アクセスされうる(図1〜図3参照)。アプリケーションのためにメタデータを構成し、これにアクセスするある例示的な実施形態は、のちにより詳細に述べる。
ある例示的な実施形態では、メタデータを構成し、これにアクセスしたのち、あるメディア項目について発音メタデータ128、222を提供する前記段階が、発話合成を用いて再現される。ある例示的な実施形態では、メタデータを構成し、これにアクセスしたのち、発音メタデータ128、222および/またはメディア・メタデータ130、220を提供する前記段階が、前記メディア項目のアクセスの間にサードパーティ装置に提供されてもよい。
方法1200は、追加的なメディアのアクセス可能性に基づいて、ブロック1202でメタデータに改めてアクセスし、これを改めて構成してもよい。
判断ブロック1204では、本方法1200は、声認識を呼び出すかどうかを判定しうる。声認識を呼び出すべきであれば、ブロック1206において、発話認識および合成装置300(図3参照)によってコマンドが処理されうる。声認識を用いてコマンドを処理するための方法のある例示的な実施形態は、のちにより詳細に述べる。判断ブロック1204において声認識が呼び出されるべきでない場合、あるいはブロック1206の後、本方法1200は判断ブロック1208に進みうる。
本方法1200は判断ブロック1208で、発話合成を呼び出すかどうかを判定しうる。発話合成が呼び出されるべきであれば、本方法1200はブロック1210で、発話認識および合成装置300を通じて出力ストリングを提供しうる。発話認識および合成装置300によって出力ストリングを提供するための方法のある例示的な実施形態は、のちにより詳細に述べる。判断ブロック1208において発話合成が呼び出されるべきではない場合、あるいはブロック1210の後、本方法1200は判断ブロック1214に進みうる。
判断ブロック1214では、本方法1200は終了すべきかどうかを判定しうる。本方法1200がさらに動作すべきであれば、本方法1200は判断ブロック1204に戻りうる。そうでない場合には、本方法1200は終了しうる。
図13を参照すると、ある例示的な実施形態に基づいてあるアプリケーションのためにメタデータにアクセスし、これを構成する方法1300が示されている。ある例示的な実施形態では、該アプリケーションは組み込みアプリケーションでありうる。本方法1300はたとえばブロック1202(図12参照)において実行されうるものである。
判断ブロック1302において、本方法1300は、音楽メタデータおよび関連付けられた発音メタデータ128、222(図1および図2参照)にアクセスし、これを構成すべきかどうかを判定しうる。音楽メタデータおよび関連付けられた発音メタデータ128、222がアクセスされ、構成されるべきである場合、本方法1300は、ブロック1304で、前記音楽メタデータおよび関連付けられた発音メタデータ128、222にアクセスし、これを構成しうる。メディア・メタデータ130、220(たとえば音楽メタデータ)を構成するある例示的な実施形態は、のちにより詳細に述べる。判断ブロック1302において音楽メタデータおよび関連付けられた発音メタデータ128、222がアクセスされるべきではない場合、あるいはブロック1304の後、本方法1300は判断ブロック1306に進みうる。
本方法1300は判断ブロック1306で、ナビゲーション・メタデータおよび関連付けられた発音メタデータ128、222にアクセスし、これを構成すべきかどうかを判定しうる。ナビゲーション・メタデータおよび関連付けられた発音メタデータ128、222がアクセスされ、構成されるべきである場合、本方法1300は、ブロック1308で、前記ナビゲーション・メタデータおよび関連付けられた発音メタデータ128、222にアクセスし、これを構成しうる。メディア・メタデータ130、220(たとえばナビゲーション・メタデータ)を構成するある例示的な実施形態は、のちにより詳細に述べる。判断ブロック1306においてナビゲーション・メタデータおよび関連付けられた発音メタデータ128、222がアクセスされるべきではない場合、あるいはブロック1308の後、本方法1300は判断ブロック1310に進みうる。
判断ブロック1310において、本方法1300は、その他メタデータおよび関連付けられた発音メタデータ128、222にアクセスし、これを構成すべきかどうかを判定しうる。その他メタデータおよび関連付けられた発音メタデータ128、222がアクセスされ、構成されるべきである場合、本方法1300は、ブロック1312で、前記その他メタデータおよび関連付けられた発音メタデータ128、222にアクセスし、これを構成しうる。メディア・メタデータ130、220を構成するある例示的な実施形態は、のちにより詳細に述べる。判断ブロック1310においてその他メタデータおよび関連付けられた発音メタデータ128、222がアクセスされるべきではない場合、あるいはブロック1312の後、本方法1300は判断ブロック1314に進みうる。
ある例示的な実施形態では、その他メタデータは、プレイリスト化メタデータを含みうる。たとえば、ユーザーは、ブロック1312で、コア・メタデータの一部についてまたは声コマンドについて、自分独自の発音メタデータを入力してもよいし、個人的な嗜好に基づいてジャンル類似性、格付けおよびその他の記述情報を割り当ててもよい。このように、ユーザーは、自分独自のジャンルを生成してもよいし、The Whoを「お気に入りのバンド」と名前を付け直してもよいし、またさらには声コマンドについての新しいシンタックスを設定してもよい。ユーザーは、車内でキーボードまたはスクロール・パッド・インターフェースを使って、あるいは声による異形を話すことによって、手動でカスタム異形を入力できる。ある代替的な解決策は、ユーザーが、カスタム発音異形の追加を、そのスペルを声に出して言うことによってできるようにしてもよい。
本方法1300は、判断ブロック1314で、メディア・メタデータ130、220および関連付けられた発音メタデータ128、222のさらなるアクセスおよび構成が所望されるかどうかを判定しうる。さらなるアクセスおよび構成が所望される場合、本方法は、ブロック1302に戻りうる。判断ブロック1314でさらなるアクセスおよび構成が所望されない場合、本方法1300は終了しうる。
図14を参照すると、ある例示的な実施形態に基づいてあるアプリケーションのためのメディア・メタデータにアクセスし、これを構成する方法1400が示されている。ある例示的な実施形態では、本方法1400は、ブロック1304、ブロック1308および/またはブロック1312(図13参照)において実行されうるものである。
ブロック1402において、一つまたは複数のメディア項目(たとえば、デジタル・オーディオ・トラック、デジタル・ビデオ・セグメントおよびナビゲーション項目)がメディア・ライブラリからアクセスされうる。ある例示的な実施形態では、メディア・ライブラリは、メディア・データベース126、210(図1および図2参照)内に具現されてもよい。ある例示的な実施形態では、メディア・ライブラリはローカルなライブラリ・データベース118(図1参照)内に具現されてもよい。
本方法1400は、ブロック1404でメディア項目の認識を試みうる。判断ブロック1406では、本方法1400は、認識が成功だったかどうかを判定しうる。認識が成功であれば、本方法1400は、ブロック1408において、メディア・メタデータ130、220および関連付けられた発音メタデータ128、222にアクセスし、ブロック1410においてメディア・メタデータ130、220および関連付けられた発音メタデータ128、222を構成しうる。判断ブロック1406で認識が成功でなかった場合には、本方法1400は終了しうる。
ある例示的な実施形態では、本方法1400を動作させるアプリケーションを実装する装置は、音楽サービス・コンテンツを制御し、ナビゲートし、プレイリスト化し、および/またはリンクするために使用されうる。該音楽サービス・コンテンツはすでに、リンクされた識別子を含んでいてもよい。オンデマンド・ストリーミング、ラジオ・ストリーミング局、衛星ラジオなどといったものである。ひとたび判断ブロック1406においてそのコンテンツの認識が成功すると、ブロック1408で関連付けられたメタデータおよび発音メタデータ128、222が得られてもよく、ブロック1410で当該装置のために構成されてもよい。
例示的な音楽分野では、一部のアーチストやグループが同じ名前を共有していることがありうる。たとえば、90年代のロック・バンドNirvanaは70年代のクリスチャン・フォーク・グループと同じ名前だし、90年代と00年代のカリフォルニアのポスト・ハードコア・グループCamera Obscuraはグラスゴーのインディーズのポップ・グループと同じ名前である。さらに、一部のアーチストは、他のアーチストの本名と同じニックネームをもつ。たとえば、フランク・シナトラは「The Chairman of the Board(会長)」として知られているが、これも「The Chairmen of the Board」と呼ばれる70年代のソウル・グループの名前と発音が非常に似ている。さらに、たとえば、ユーザーが両方のCamera Obscuraバンドを携帯音楽プレーヤー上に(たとえば該プレーヤーのハードドライブ上に)有していて、そのユーザーが装置に「Camera Obscuraを再生」と指示するというまれなできごとからも曖昧さが生じうる。
重複名に対応するために用いられうる例示的な方法論は、次のようなものがありうる。ある実施形態では、再生すべきアーチストまたはアルバムの選択は、ユーザーの以前の再生挙動または明示的な入力に基づきうる。たとえば、Kurt Cobainのバンドと70年代のフォーク・バンドの両方をユーザーの再生装置(たとえば、携帯MP3プレーヤー、パーソナル・コンピュータなど)上にもつユーザーが「Nirvanaを再生」と言ったとしよう。アプリケーションは、プレイリスト化技術を使って、各アーチストについての再生頻度および関係するジャンルについての再生頻度の両方を検査しうる。こうして、ユーザーが頻繁に90年代初期のグランジを再生していれば、グランジNirvanaが再生されうる。ユーザーが頻繁にフォークを再生していれば、フォークNirvanaが再生されうる。本装置は、選好されるアーチストと非選好アーチストとの間のトグルまたは切り換えを許容してもよい。たとえば、ユーザーがフォークのNirvanaを聞きたいのにグランジのNirvanaが出た場合には、ユーザーは「他のNirvanaを再生」と言って、フォークのNirvanaに切り換えることができる。
追加的または代替的に、ユーザーは二つ以上の一致(たとえば、アルバム識別情報当たり二つ以上の一致)の認識に際して、促されてもよい。たとえば、ユーザーが「アーチストCamera Obscuraを再生」と言うとき、装置は二つのエントリーをみつけて、ユーザーに促す(たとえば、TTS機能性を使って):「カリフォルニアのCamera Obscuraを求めていますか、それともスコットランドのCamera Obscuraを求めていますか」あるいはメディア・データベース中の他の項目を使った、他の曖昧さを解消する質問でもよい。その際、ユーザーは自分で要求の曖昧さを解消してもよい。本装置がナビゲーション環境において展開される場合は、町/都市の名、通りの名なども同様の仕方で処理されてもよい。
ある例示的な実施形態では、個々のアルバムが巻番号(たとえば、「第10巻」)以外は同じ名前を持つ一連のアルバムがある場合、いかなる同一の発音転写も等価として扱われうる。したがって、促されるとき、本装置は、すべての対象について一致を返しうる。この実施例は、たとえば、「Now That's What I Call Music!」シリーズのようなアルバムに適用されうる。この実施例では、アプリケーションは、ユーザーが「アルバムNow That's What I Call Musicを再生」と言う場合にはみつかったすべての一致するファイルが再生されるが、ユーザーが「アルバムNow That's What I Call Music第5巻を再生」と言う場合には第5巻のみが再生されるよう、転写を扱いうる。この機能性は、2枚組アルバムにも適用されうる。たとえば、「アルバムAll Things Must Passを再生」は自動的にその2枚組アルバムのディスク1およびディスク2両方からのトラックを再生しうる。代替的に、ユーザーが「アルバムAll Things Must Passディスク2を再生」と言う場合には、ディスク2からのトラックのみが再生されうる。
ある例示的な実施形態では、本装置は、「お気に入りのバンド」「お気に入りの年」または「マイクのサーフ・ロック・コレクション」といったような用語に意味を与えるために、ユーザー側でのカスタム異形エントリーにも対応していてもよい。たとえば、本装置は「発話編集」(たとえば、本装置に「Foo Fightersを『お気に入りのバンド』と呼ぶ」と命令する)を許容してもよい。追加的または代替的に、この機能性を実行するために、テキスト・ベースのエントリーが使用されてもよい。発音メタデータ128、222はコア・メタデータの構成要素でありうるので、ユーザーはコンピュータ上でエントリーを編集し、次いでそれを何らかの種類のタグとしてファイルとともにアップロードすることができてもよい。こうして、ある実施形態では、ユーザーは、事実上、従来の物理的なタッチ・インターフェースでは利用可能でないユーザー定義コマンドを追加しうるのである。
図15を参照すると、ある例示的な実施形態に基づいて声認識によって受領される句を処理する方法1500が示されている。本方法1500は、ブロック1206(図12参照)で実行されうるものである。
ブロック1502で句が取得されうる。たとえば、句は、発話入力116によって、自動化発話認識エンジン112(図1参照)を通じて受領されうる。句は次いで、ブロック1504において、たとえば自動化発話認識エンジン112を使うことにより、テキスト・ストリングに変換されうる。
変換されたテキスト・ストリングは、次いで、ブロック1506でメディア・ストリングと識別されうる。変換されたテキスト・ストリングを識別する例示的な実施形態は、のちにより詳細に述べる。
ある例示的な実施形態では、変換されたテキスト・ストリングの一部が識別のために提供されてもよく、残りの部分は保持され、識別のために提供されなくてもよい。たとえば、識別のために提供される第一の部分は、メディア項目の潜在的な名前であってもよく、識別のために提供されない第二の部分はアプリケーションへのコマンドであってもよい(たとえば、「Billy Idolを再生」は「Billy Idol」という第一の部分および「を再生」という第二の部分を有しうる)。
判断ブロック1508において、本方法1500は、メディア・ストリングが識別されたかどうかを判定しうる。メディア・ストリングが識別されていれば、識別されたテキスト・ストリングがブロック1510での使用のために提供されうる。たとえば、句は、発話合成を用いてストリングが再現されうるようにするなどの使用のためにアプリケーションに返されうる。
ストリングが識別されなかった場合には、ブロック1512で非識別プロセスが実行されうる。たとえば、非識別プロセスは、何の作用もしないこと、エラー・コードをもって応答することおよび/またはストリングについての最良推定をもって意図された作用をすることを非識別プロセスとすることでありうる。ブロック1510またはブロック1512での動作の完了後、本方法1500は終了しうる。
図16は、ある例示的な実施形態に基づいて変換されたテキスト・ストリングを識別する方法1600を示している。ある例示的な実施形態では、方法1600はブロック1506(図15参照)において実行されうるものである。
変換されたテキスト・ストリングは、ブロック1602でメディア項目の表示テキスト704と照合されうる。判断ブロック1604では、本方法1600は、一致が識別されたかどうかを判定しうる。一致が識別されなかった場合、ブロック1606で一致が識別されなかったという指示が返されうる。判断ブロック1604でストリング一致が識別された場合、本方法1600はブロック1608に進みうる。
変換されるテキスト・ストリングは、ブロック1608において、代替句マッピング器を通じて処理されうる。たとえば、代替句マッピング器は、変換されたテキスト・ストリングについて代替句が存在するかどうか(たとえば、識別されうるかどうか)を判定する。
ある例示的な実施形態では、代替句マッピング器は、代替句の、対応する公式な句へのマッピングを容易にするために使われうる。代替句マッピング器は、発話認識および合成装置300(図3参照)内で使用されうる。これにより、発音された代替句が表示テキスト704の公式な表現に導く。たとえば、「The Stones」が発話入力114として提供される場合、自動化発話認識エンジン112は発音された名前の音声を解析し、「The Stones」の定義されている表示テキスト704を生成しうる(図1および図7参照)。「The Stones」は代替句マッピング器に提出されてもよく、該代替句マッピング器は公式名「The Rolling Stones」を返すことになる。
ある例示的な実施形態では、代替句マッピング器は、単一の入力代替句に応答して、複数の公式な句を返すことがありうる。同じ代替句について二つ以上の公式な句がありうるからである。
判断ブロック1610では、本方法1600は、代替句が識別されたかどうかを判定しうる。代替句が識別されていない場合、得られている発音転写についてのストリングが返されうる。判断ブロック1610で代替句が識別されていた場合、公式な転写に関連付けられたストリングが返されうる。ブロック1612またはブロック1614での動作の完了後、本方法1600は終了しうる。
図17を参照すると、ある例示的な実施形態に基づいて、発話合成によって出力ストリングを提供するための方法1700が示されている。ある例示的な実施形態では、本方法1700はブロック1706(図13参照)で実行されうるものである。
ブロック1702でストリングがアクセスされうる。たとえば、アクセスされるストリングは、発話合成が望まれるストリングであってもよい。ブロック1704で、そのストリングについての発音転写がアクセスされうる。たとえば、そのストリングに対応する発話言語についての正しい発音転写がアクセスされうる。そのストリングについての発音転写にアクセスするある例示的な実施形態は、のちにより詳細に述べる。
ある例では、ストリングについての発音転写が、メディア・データベース126および/またはローカル・ライブラリ・データベース118内で利用可能でないことがありうる。発音転写を生成するためのある例示的な実施形態はのちにより詳細に述べる。
発音転写は、ブロック1706において、発話合成を通じてアプリケーションの言語で出力されうる。たとえば、発音転写は、TTSエンジン110から発話出力114(図1参照)として出力されうる。ブロック1706での動作の完了後、本方法1700は終了しうる。
図18を参照すると、ある例示的な実施形態に基づいてストリングについての発音転写にアクセスする方法1800が示されている。ある例示的な実施形態では、本方法1800は、ブロック1704(図17参照)において実行されうるものである。
ブロック1802でストリングの書記言語検出(たとえば書記言語を検出すること)および目標アプリケーションの発話言語検出(目標装置上で具現されうるような)が実行されうる。ある例示的な実施形態では、該ストリングは、メディア・タイトル配列402のメディア・タイトルの表現、主要アーチスト名配列404の主要アーチスト名の表現、トラック・タイトル配列502のトラック・タイトルの表現、トラック主要アーチスト名配列504の主要アーチスト名の表現、コマンド配列602のコマンドの表現および/またはプロバイダ名配列604のプロバイダの表現でありうる。ある例示的な実施形態では、目標アプリケーションは、前記組み込みアプリケーションでありうる。
判断ブロック1804で、本方法1800は、そのストリングについて地域的例外が利用可能であるかどうかを判定しうる。地域的例外が利用可能であれば、ブロック1806で、そのストリングに関連付けられた地域的な発音転写がアクセスされうる。ある例示的な実施形態では、地域的な発音転写は、地域的な言語、地方の方言および/または地元の慣習の多様性に起因しうるような代替的な発音転写であってもよい。
ブロック1806が完了すると、本方法1800は判断ブロック1814に進みうる。判断ブロック1804で、そのストリングについて地域化された例外が利用可能でない場合、本方法1800は判断ブロック1808に進みうる。
本方法1800は、判断ブロック1808で、そのストリングについて転写が利用可能であるかどうかを判定しうる。転写が利用可能であれば、ブロック1810で、そのストリングに関連付けられた転写がアクセスされうる。
ある例示的な実施形態では、本方法1800は、ブロック1810で、まずストリング言語に一致する主要転写が利用可能であればこれにアクセスしてもよく、利用可能でなければ別の利用可能な転写(たとえば英語の転写)にアクセスしてもよい。
判断ブロック1808でそのストリングについて転写が利用可能でない場合、本方法1800は、ブロック1812で、プログラム的に発音転写を生成してもよい。たとえば、ある話者のネイティブ言語における地域的な誤発音についての代替的な発音転写をプログラム的に生成することは、アプリケーションを動作させる装置にすでにロードされているデフォルトのG2Pを使ってもよい。それにより、コンテンツが認識されると、受領されたテキスト・ストリングはデフォルトのG2Pに通されてもよい。発音転写のプログラム的生成の例示的な実施形態はのちにより詳細に述べる。ブロック1810および1812での動作が完了すると、本方法1800は判断ブロック1814に進みうる。
判断ブロック1814では、本方法1800は、ストリングの書記言語が目標アプリケーションの発話言語に一致するかどうかを判定しうる。ストリングの書記言語が目標アプリケーションの発話言語に一致しない場合、得られた発音転写はブロック1816で目標アプリケーションの発話言語(たとえば目標言語)に変換されうる。得られた発音転写を変換する方法についての例示的な実施形態はのちにより詳細に述べる。
ある例示的な実施形態では、ブロック1816において、発音転写は、ストリングのネイティブな発話言語から、装置を動作させているアプリケーションの目標言語に、音素変換マップを使って変換されうる。
判断ブロック1814においてストリングの書記言語が目標アプリケーションの発話言語に一致する場合、あるいはブロック1816の後、ブロック1818においてそのストリングについての発音転写がアプリケーションに提供されうる。ブロック1818での動作の完了後、本方法1800は終了しうる。
ある例示的な実施形態では、本方法1800は、ブロック1818での動作を遂行する前に、発音表記アルファベットの変換を実行して、発音転写を装置が使用できる転写に変換しうる。ある例示的な実施形態では、発音表記アルファベットの変換は、そのストリングについての発音転写が提供された後に実行されうる。
図19を参照すると、発音転写をプログラム的に生成する方法1900が示されている。ある例示的な実施形態では、本方法1900はブロック1812(図18参照)で実行されうるものである。
判断ブロック1902において、本方法1900はあるテキスト・ストリングが書記言語ID706(図7参照)を含むかどうかを判定しうる。ストリングが書記言語ID706を含む場合、本方法1900は、ブロック1904で、プログラム的に、アプリケーションの発話言語における地域的な誤発音についての発音転写を、G2Pを使って生成しうる。
判断ブロック1902でテキスト・ストリングが書記言語ID706を含まない場合、ブロック1906で、テキスト・ストリングの、書記言語における発音転写が生成されうる。たとえば、テキスト・ストリングの書記言語における発音転写を生成するために、発話認識および合成装置300(図3参照)は言語固有のG2Pを使用してもよい。
ブロック1908において、音素変換マップを使って、テキスト・ストリングの書記言語における発音転写が、アプリケーションのそれぞれ一つまたは複数の目標発話言語についての一つまたは複数の発音転写に変換されうる。
ある例示的な実施形態では、音素転写の変換は、単一の音素転写から複数の音素転写へであってもよい。
ブロック1904またはブロック1910における動作の完了後、本方法1900は、発音転写をアプリケーションに提供しうる。ブロック1920での動作の完了後、本方法1900は終了しうる。
図20を参照すると、音素変換を実行する方法2000が示されている。ある例示的な実施形態では、方法2000はブロック1816(図18参照)で実行されうるものである。
ブロック2002で、アプリケーション(たとえば前記組み込みアプリケーション)の発話言語ID804(図8参照)がアクセスされうる。ある例示的な実施形態では、アプリケーションの発話言語ID804は事前設定されていてもよい。ある例示的な実施形態では、アプリケーションの発話言語ID804は修正可能であってもよく、それにより組み込みアプリケーションの言語が選択できてもよい。
ブロック2004では発音転写がアクセスされうる。その後、ブロック2006で、その発音転写についての書記言語ID706(図7参照)がアクセスされうる。
判断ブロック2008で、本方法2000は、組み込みアプリケーションの発話言語ID804が発音転写の書記言語ID706に一致するかどうかを判定しうる。一致がなければ、本方法2000は、ブロック2010で、発音転写を、書記言語から発話言語に変換しうる。判断ブロックにおいて発話言語ID804が書記言語ID706に一致するない場合、あるいはブロック2010の後、本方法2000は終了しうる。
図21を参照すると、ある例示的な実施形態に基づいて発音転写を目標言語に変換する方法2100が示されている。ある例示的な実施形態では、方法2100は、ブロック2010(図20参照)で実行されうるものである。
ブロック2102で、目標発音転写を利用することになる組み込みアプリケーション(たとえば目標アプリケーション)の言語が決定されうる。ブロック2104で、起点発音転写について、発音表記言語変換マップがアクセスされうる。ある例示的な実施形態では、発音表記言語変換マップは音素変換マップでありうる。
ブロック2106で、起点発音転写は、目標発音転写に、発音表記変換マップを使って変換されうる。ブロック2106での動作の完了後、本方法2100は終了しうる。
ある例示的な実施形態では、一般的な発音表記言語と発話認識および合成装置300(図3参照)が使用する発音表記言語との間のキャラクタ・マッピングが生成され、メディア管理システム106とともに使用されてもよい。ブロック2106での動作の完了に際して、本方法2100は終了しうる。
図22は、本稿で論じた方法論の任意の一つまたは複数を機械に実行させるための命令の組が実行されうるコンピュータ・システム2200という例示的な形の機械の図的な表現を示している。代替的な諸実施形態において、該機械はスタンドアローン装置として動作するか、あるいは他の機械に接続(たとえばネットワーク接続)されてもよい。ネットワーク接続された展開では、該機械は、サーバー‐クライアント・ネットワーク環境におけるサーバーまたはクライアント機械の役割において、あるいはピアツーピア(または分散)ネットワーク環境におけるピア機械として、動作しうる。該機械は、パーソナル・コンピュータ(PC)、タブレットPC、セットトップボックス(STB)、携帯情報端末(PDA)、携帯電話、携帯音楽プレーヤー(たとえばMP3プレーヤーのような携帯ハード・ドライブ・オーディオ装置)、カー・オーディオ装置、ウェブ・アプライアンス、ネットワーク・ルータ、スイッチまたはブリッジ、あるいはその機械が取るべき行動を指定する命令の組(逐次的でもそうでなくても)を実行できる任意の機械でありうる。さらに、単一の機械しか示されていないが、「機械」の用語は、ここで論じた方法論のうち任意の一つまたは複数を実行するために個々にまたは共同して命令の組(または複数の組)を実行する、複数の機械の任意の集合をも含むと解されるものとする。
例示的なコンピュータ・システム2200は、プロセッサ2202(たとえば、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)またはその両方)、メインメモリ2204および静的メモリ2206を含む。これらは互いにバス2208を介して通信する。コンピュータ・システム2200はさらに、ビデオ・ディスプレイ・ユニット2210(たとえば、液晶ディスプレイ(LCD)または陰極線管(CRT))を含みうる。コンピュータ・システム2200はまた、英数字入力装置2212(たとえばキーボード)、カーソル制御装置2214(たとえばマウス)、ディスク・ドライブ・ユニット2216、信号生成装置2218(たとえばスピーカー)およびネットワーク・インターフェース装置2230をも含む。
ディスク・ドライブ・ユニット2216は、ここで論じた方法論または機能のうちの任意の一つまたは複数を具現する一つまたは複数の組の命令(たとえばソフトウェア2224)が保存されている機械可読媒体2222を含む。ソフトウェア2224は、コンピュータ・システム2200によるその実行の間、完全にまたは部分的に、メインメモリ2204内におよび/またはプロセッサ2202内にも存在していて、メインメモリ2204およびプロセッサ2202も機械可読媒体をなすのでもよい。
ソフトウェア2224はさらに、ネットワーク・インターフェース装置2230を介してネットワーク2226を通じて送信または受信されてもよい。
機械可読媒体2222は例示的な実施形態において単一の媒体として示されているが、「機械可読媒体」の用語は、前記一つまたは複数の組の命令を保存する単一の媒体または複数の媒体(たとえば、中央集中または分散データベースおよび/または関連するキャッシュおよびサーバー)を含むものと解されるべきである。「機械可読媒体」の用語は、機械による実行のための命令の組を保存、エンコードまたは担持でき、該機械をして本発明の方法論の任意の一つまたは複数を実行させるいかなる媒体をも含むものと解されるものである。したがって、「機械可読媒体」の用語は、これに限られないが、半導体メモリ、光学式および磁気式媒体ならびに搬送波信号を含むと解されるものである。
ここに記載された実施形態は、コンピュータ上にインストールされたソフトウェアを有する動作環境において、ハードウェアにおいてあるいはソフトウェアとハードウェアの組み合わせにおいて実装されうる。
本発明について個別的な例示的な実施形態を参照しつつ述べてきたが、本発明のより広い精神および範囲から外れることなくそれらの実施形態にさまざまな修正および変更をなしうることは明らかであろう。したがって、明細書および図面は、制限する意味ではなく例示的な意味に解されるべきである。
本開示の要約は、読む者が本技術的開示の性質を素早く見定められるようにする要約を必須とする米国連邦規則集(C.F.R.)§1.72(b)に準拠するために提供されている。この要約は、請求項の範囲または意味を解釈または限定するために使われないという理解のもとに提出される。さらに、以上の詳細な説明において、開示の流れをよくする目的で、さまざまな特徴が単一の実施形態のうちにまとめられていることが見て取れる。この開示方法は、特許請求される実施態様が各請求項において明示的に挙げられているよりも多くの特徴を要求するという意図を反映したものと解釈すべきではない。むしろ、付属の請求項に反映されるように、本発明の主題は、ある単一の開示された実施形態の全部よりも少ない特徴のうちに存するものである。よって、付属の請求項はここに詳細な記述に組み込まれ、各請求項自身が独立した実施形態をなすものである。
ある例示的な実施形態に基づく、音声インターフェースを使ったデジタル・コンテンツの再生制御、ナビゲーションおよび動的プレイリスト化のためのシステム・アーキテクチャを示す図である。 ある例示的な実施形態に基づく、メディア認識および管理システムのブロック図である。 ある例示的な実施形態に基づく、発話認識および合成モジュールのブロック図である。 ある例示的な実施形態に基づく、メディア・データ構造のブロック図である。 ある例示的な実施形態に基づく、トラック・データ構造のブロック図である。 ある例示的な実施形態に基づく、ナビゲーション・データ構造のブロック図である。 ある例示的な実施形態に基づく、テキスト配列データ構造のブロック図である。 ある例示的な実施形態に基づく、発音転写データ構造のブロック図である。 ある例示的な実施形態に基づく、代替句マッピング器データ構造のブロック図である。 ある例示的な実施形態に基づく、データベース上で発音メタデータを管理する方法を示すフローチャートである。 ある例示的な実施形態に基づく、データベースの発音メタデータを変更する方法を示すフローチャートである。 ある例示的な実施形態に基づく、アプリケーションとともにメタデータを使う方法を示すフローチャートである。 ある例示的な実施形態に基づく、アプリケーションのためにメタデータにアクセスし、これを構成する方法を示すフローチャートである。 ある例示的な実施形態に基づく、メディア・メタデータにアクセスし、これを構成する方法を示すフローチャートである。 ある例示的な実施形態に基づく、声認識によって受領される句を処理する方法を示すフローチャートである。 ある例示的な実施形態に基づく、変換されたテキスト・ストリングを識別する方法を示すフローチャートである。 ある例示的な実施形態に基づく、発話合成によって出力ストリングを提供する方法を示すフローチャートである。 ある例示的な実施形態に基づく、ストリングのための発音転写にアクセスする方法を示すフローチャートである。 ある例示的な実施形態に基づく、前記発音転写をプログラム的に生成する方法を示すフローチャートである。 ある例示的な実施形態に基づく、音素変換を実行する方法を示すフローチャートである。 ある例示的な実施形態に基づく、発音転写を目標言語に変換する方法を示すフローチャートである。 本稿で論じる方法論の任意の一つまたは複数を機械に実行させるための命令の組が実行されうるコンピュータ・システムの形の例示的な機械の図的な表現を示す図である。

Claims (41)

  1. 複数のメディア項目についての、複数のストリングを有するメディア・メタデータであって、各ストリングは前記複数のメディア項目のある側面を記述する、メディア・メタデータと;
    前記複数のストリングに関連付けられた発音メタデータであって、該発音メタデータの各部分はストリングの元の言語で保存されている発音メタデータとを有する装置。
  2. メディア項目が、コンパクト・ディスク、デジタル・オーディオ・トラック、デジタル多用途ディスク(digital versatile disc)、映画または写真のうちの少なくとも一つから選択される、請求項1記載の装置。
  3. 前記メディア項目の前記側面が、メディア・タイトル、主要アーチスト名、トラック・タイトル、コマンドまたはプロバイダのうちの少なくとも一つから選択される、請求項1記載の装置。
  4. 前記ストリングの元の言語が、前記ストリングが話されるであろう言語を含む、請求項4記載の装置。
  5. 表示のために好適なテキストを含む表示テキストを含む第一のフィールドと;
    前記表示テキストの起点言語で保存された前記表示テキストの公式な発音転写を含む第二のフィールドとを含むデータ構造を保存するメモリを有する装置。
  6. 前記第二のフィールドがさらに、前記表示テキストの一つまたは複数の代替発音転写を含む、請求項5記載の装置。
  7. 前記表示テキストの前記一つまたは複数の代替発音転写が:
    一つもしくは複数の正しい発音の発音転写または一つもしくは複数の正しくない発音の発音転写のうちの少なくとも一つを含む、請求項6記載の装置。
  8. 前記表示テキストの元の書記言語を指示する書記言語識別情報(ID)をさらに含む、請求項5記載の装置。
  9. 前記表示テキストが公式表現であるか代替表現であるかを指示する公式表現フラグをさらに有する、請求項5記載の装置。
  10. 前記公式表現が、公式に公表されたメディアに現れるテキストまたは編集的に決定されたテキストのうちの少なくとも一方であり、前記代替表現がニックネーム、短縮名または一般的な略語のうちの少なくとも一つである、請求項9記載の装置。
  11. 前記第二のフィールドの各発音転写に関連付けられて、該発音転写が書記言語IDに対応するものかどうかを指示する元の言語転写フラグをさらに有する、請求項9記載の装置。
  12. 前記第二のフィールドの各発音転写に関連付けられて、該発音転写が表示テキストの正しい発音であるか誤発音であるかを指示する正しい発音フラグをさらに有する、請求項5記載の装置。
  13. 前記表示テキストが、メディア・タイトル、主要アーチスト、トラック・タイトル、トラック主要アーチスト名、コマンド配列またはプロバイダのうちの少なくとも一つから選択される、請求項5記載の装置。
  14. メディア・メタデータの複数のストリングにアクセスする段階と;
    前記複数のストリングのそれぞれについて、各ストリングの元の言語での少なくとも一つの公式発音転写を生成する段階とを有する方法。
  15. 前記複数のストリングのそれぞれに、該複数のストリングのそれぞれの元の言語を指示する発話言語識別情報(ID)を割り当てる段階をさらに有する、請求項14記載の方法。
  16. 前記複数のストリングがそれぞれ表示テキストの表現であり、当該方法がさらに:
    メディア・タイトル、主要アーチスト、トラック・タイトル、トラック主要アーチスト名、コマンド配列またはプロバイダのうちの少なくとも一つを表示テキストとして選択する段階をさらに有する、請求項14記載の方法。
  17. 前記複数のストリングの少なくとも一部分について、各ストリングの元の言語以外の言語での少なくとも一つの代替発音転写を生成する段階をさらに有する、請求項15記載の方法。
  18. デジタル・フィンガープリントをもつメディア項目を認識して該メディア項目についてのメタデータを得る段階と;
    前記メディア項目についてのメディア・メタデータおよび関連する発音メタデータにアクセスする段階とを有しており、前記発音メタデータとは前記メディア項目の元の言語での少なくとも一つの発音転写を含む、方法。
  19. 前記メディア・メタデータおよび前記関連する発音メタデータをあるアプリケーションのために構成する段階をさらに有する、請求項18記載の方法。
  20. 音楽メタデータ、プレイリスト化メタデータまたはナビゲーション・メタデータのうちの少なくとも一つを前記のメディア・メタデータとして選択する段階をさらに有する、請求項18記載の方法。
  21. 前記メディア項目のアクセスの間に前記関連する発音メタデータをある装置に提供する段階をさらに有する、請求項18記載の方法。
  22. 前記メディア項目のアクセスの間に前記関連する発音メタデータを発話合成により再生する段階をさらに有する、請求項18記載の方法。
  23. 変換されたテキスト・ストリングをメディア・項目とマッチさせる段階と;
    前記変換されたテキストを代替句マッピング器を通して処理して、前記メディア項目の前記変換されたテキスト・ストリングについての公式な発音転写と関連付けられたストリングを同定する段階とを有する方法。
  24. 前記メディア項目についての公式な発音転写に関連付けられた前記ストリングを、あるアプリケーションによる使用のために提供する段階をさらに有する、請求項23記載の方法。
  25. 前記アプリケーションを走らせている装置上で、公式な発音転写に関連付けられた前記ストリングを使ってあるコマンドを処理する段階をさらに有する、請求項24記載の方法。
  26. 句を取得する段階と;
    前記句を、発話認識により、変換されたテキスト・ストリングに変換する段階とを有する、請求項23記載の方法。
  27. あるストリングおよび目標アプリケーションの発話言語を検出する段階と;
    前記ストリングに関連付けられた発音転写にアクセスする段階と;
    前記ストリングに関連付けられた前記発音転写を前記目標アプリケーションの前記発話言語で提供する段階とを有する方法。
  28. 前記ストリングの前記発音転写を発話合成を通じて再生する段階をさらに有する、請求項27記載の方法。
  29. メディア・タイトル、主要アーチスト、トラック・タイトル、トラック主要アーチスト名、コマンド配列またはプロバイダのうちの少なくとも一つの表示テキストを含むストリングにアクセスする段階をさらに有する、請求項27記載の方法。
  30. 前記ストリングに関連付けられた発音転写にアクセスする前記段階が:
    前記目標アプリケーションの発話言語について、地域化された例外が利用可能であるときには、該ストリングに関連付けられた地域化された発音転写にアクセスすることを含む、請求項27記載の方法。
  31. 前記ストリングについての、前記目標アプリケーションの発話言語での発音転写を、G2Pを使って生成する段階をさらに有する、請求項27記載の方法。
  32. 前記ストリングについての、該ストリングの発話言語での発音転写を生成する段階と;
    該発音転写を前記目標アプリケーションの発話言語に、音素変換マップを使って変換する段階をさらに有する、請求項27記載の方法。
  33. 前記発音転写を前記目標アプリケーションの発話言語に変換する段階をさらに有する、請求項27記載の方法。
  34. 前記発音転写についての発音表記言語変換マップにアクセスする段階と;
    前記発音表記言語変換マップを使って、前記発音転写を前記アプリケーションの言語に変換する段階をさらに有する、請求項27記載の方法。
  35. 前記発音転写を、再生装置の組み込みアプリケーションを用いて再生する、請求項27記載の方法。
  36. 命令を有する機械可読媒体であって、該命令は、機械によって実行されたときに、該機械をして:
    メディア・メタデータの複数のストリングにアクセスする段階と;
    前記複数のストリングのそれぞれについて、各ストリングの元の言語での少なくとも一つの公式発音転写を生成する段階とを実行させる、機械可読媒体。
  37. さらなる命令を有する請求項36記載の機械可読媒体であって、該命令は、機械によって実行されたときに、該機械をして:
    前記複数のストリングの少なくとも一部分について、各ストリングの元の言語以外の言語での少なくとも一つの代替発音転写を生成する段階を実行させる、機械可読媒体。
  38. 命令を有する機械可読媒体であって、該命令は、機械によって実行されたときに、該機械をして:
    変換されたテキスト・ストリングをメディア・項目とマッチさせる段階と;
    前記変換されたテキストを代替句マッピング器を通して処理して、前記メディア項目の前記変換されたテキスト・ストリングについての公式な発音転写と関連付けられたストリングを同定する段階と;
    前記公式な発音転写に関連付けられた前記ストリングを発話合成によって処理する段階とを実行させる、機械可読媒体。
  39. 命令を有する機械可読媒体であって、該命令は、機械によって実行されたときに、該機械をして:
    あるストリングおよび目標アプリケーションの発話言語検出を実行する段階と;
    前記ストリングに関連付けられた発音転写にアクセスする段階と;
    前記ストリングに関連付けられた前記発音転写を、発話合成を通じて、前記目標アプリケーションの前記発話言語で再生する段階とを実行させる、機械可読媒体。
  40. メディア・メタデータの複数のストリングにアクセスする手段と;
    前記複数のストリングのそれぞれについて、各ストリングの元の言語での少なくとも一つの公式発音転写を生成する手段とを有する装置。
  41. 前記複数のストリングの少なくとも一部分について、各ストリングの元の言語以外の言語での少なくとも一つの代替発音転写を生成する手段をさらに有する、請求項40記載の装置。
JP2008527223A 2005-08-19 2006-08-21 再生装置の動作を制御する方法およびシステム Abandoned JP2009505321A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US70956005P 2005-08-19 2005-08-19
PCT/US2006/032722 WO2007022533A2 (en) 2005-08-19 2006-08-21 Method and system to control operation of a playback device

Publications (2)

Publication Number Publication Date
JP2009505321A true JP2009505321A (ja) 2009-02-05
JP2009505321A5 JP2009505321A5 (ja) 2009-09-17

Family

ID=37758509

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008527223A Abandoned JP2009505321A (ja) 2005-08-19 2006-08-21 再生装置の動作を制御する方法およびシステム

Country Status (5)

Country Link
US (1) US20090076821A1 (ja)
EP (1) EP1934828A4 (ja)
JP (1) JP2009505321A (ja)
KR (1) KR20080043358A (ja)
WO (1) WO2007022533A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719028B2 (en) 2009-01-08 2014-05-06 Alpine Electronics, Inc. Information processing apparatus and text-to-speech method

Families Citing this family (333)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
EP2136306B1 (en) 2000-08-23 2013-03-20 Gracenote, Inc. Method and system for obtaining information
WO2002065782A1 (en) 2001-02-12 2002-08-22 Koninklijke Philips Electronics N.V. Generating and matching hashes of multimedia content
US8090309B2 (en) * 2004-10-27 2012-01-03 Chestnut Hill Sound, Inc. Entertainment system with unified content selection
US20190278560A1 (en) 2004-10-27 2019-09-12 Chestnut Hill Sound, Inc. Media appliance with auxiliary source module docking and fail-safe alarm modes
US7885622B2 (en) * 2004-10-27 2011-02-08 Chestnut Hill Sound Inc. Entertainment system with bandless tuning
WO2006114451A1 (es) * 2005-04-22 2006-11-02 Musicstrands, S.A.U. Sistema y método para adquirir y agregar datos sobre la reproducción de elementos o ficheros multimedia
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
WO2007103583A2 (en) * 2006-03-09 2007-09-13 Gracenote, Inc. Method and system for media navigation
CN101449538A (zh) * 2006-04-04 2009-06-03 约翰逊控制技术公司 媒体文件的文本-语法改进
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US7831423B2 (en) * 2006-05-25 2010-11-09 Multimodal Technologies, Inc. Replacing text representing a concept with an alternate written form of the concept
EP2033489B1 (en) 2006-06-14 2015-10-28 Personics Holdings, LLC. Earguard monitoring system
WO2008008730A2 (en) 2006-07-08 2008-01-17 Personics Holdings Inc. Personal audio assistant device and method
KR20080015567A (ko) * 2006-08-16 2008-02-20 삼성전자주식회사 휴대 장치를 위한 음성기반 파일 정보 안내 시스템 및 방법
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7930644B2 (en) * 2006-09-13 2011-04-19 Savant Systems, Llc Programming environment and metadata management for programmable multimedia controller
US9087507B2 (en) * 2006-09-15 2015-07-21 Yahoo! Inc. Aural skimming and scrolling
KR20080047830A (ko) * 2006-11-27 2008-05-30 삼성전자주식회사 언어추정을 통한 파일 정보 제공방법 및 이를 적용한 파일재생장치
US7937451B2 (en) 2007-01-08 2011-05-03 Mspot, Inc. Method and apparatus for transferring digital content from a computer to a mobile handset
US9317179B2 (en) 2007-01-08 2016-04-19 Samsung Electronics Co., Ltd. Method and apparatus for providing recommendations to a user of a cloud computing service
US8917894B2 (en) 2007-01-22 2014-12-23 Personics Holdings, LLC. Method and device for acute sound detection and reproduction
US20080177623A1 (en) * 2007-01-24 2008-07-24 Juergen Fritsch Monitoring User Interactions With A Document Editing System
US11750965B2 (en) 2007-03-07 2023-09-05 Staton Techiya, Llc Acoustic dampening compensation system
JP2010521709A (ja) * 2007-03-21 2010-06-24 トムトム インターナショナル ベスローテン フエンノートシャップ テキストを音声に変換して配信するための装置及びその方法
US9170120B2 (en) * 2007-03-22 2015-10-27 Panasonic Automotive Systems Company Of America, Division Of Panasonic Corporation Of North America Vehicle navigation playback method
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
US8111839B2 (en) 2007-04-09 2012-02-07 Personics Holdings Inc. Always on headwear recording system
US11317202B2 (en) * 2007-04-13 2022-04-26 Staton Techiya, Llc Method and device for voice operated control
US20080274687A1 (en) 2007-05-02 2008-11-06 Roberts Dale T Dynamic mixed media package
US11856375B2 (en) 2007-05-04 2023-12-26 Staton Techiya Llc Method and device for in-ear echo suppression
US11683643B2 (en) 2007-05-04 2023-06-20 Staton Techiya Llc Method and device for in ear canal echo suppression
US10194032B2 (en) 2007-05-04 2019-01-29 Staton Techiya, Llc Method and apparatus for in-ear canal sound suppression
US8583615B2 (en) * 2007-08-31 2013-11-12 Yahoo! Inc. System and method for generating a playlist from a mood gradient
US8103506B1 (en) * 2007-09-20 2012-01-24 United Services Automobile Association Free text matching system and method
US20090094285A1 (en) * 2007-10-03 2009-04-09 Mackle Edward G Recommendation apparatus
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
JP2009239825A (ja) * 2008-03-28 2009-10-15 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
US8676577B2 (en) * 2008-03-31 2014-03-18 Canyon IP Holdings, LLC Use of metadata to post process speech recognition output
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
WO2010011637A1 (en) * 2008-07-21 2010-01-28 Strands, Inc Ambient collage display of digital media content
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US20100036666A1 (en) * 2008-08-08 2010-02-11 Gm Global Technology Operations, Inc. Method and system for providing meta data for a work
US8600067B2 (en) 2008-09-19 2013-12-03 Personics Holdings Inc. Acoustic sealing analysis system
US9129291B2 (en) 2008-09-22 2015-09-08 Personics Holdings, Llc Personalized sound management and method
US8712776B2 (en) * 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9986279B2 (en) 2008-11-26 2018-05-29 Free Stream Media Corp. Discovery, access control, and communication with networked services
US10334324B2 (en) 2008-11-26 2019-06-25 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US10880340B2 (en) 2008-11-26 2020-12-29 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US9961388B2 (en) 2008-11-26 2018-05-01 David Harrison Exposure of public internet protocol addresses in an advertising exchange server to improve relevancy of advertisements
US10567823B2 (en) 2008-11-26 2020-02-18 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US9154942B2 (en) 2008-11-26 2015-10-06 Free Stream Media Corp. Zero configuration communication between a browser and a networked media device
US10631068B2 (en) 2008-11-26 2020-04-21 Free Stream Media Corp. Content exposure attribution based on renderings of related content across multiple devices
US10977693B2 (en) 2008-11-26 2021-04-13 Free Stream Media Corp. Association of content identifier of audio-visual data with additional data through capture infrastructure
US8180891B1 (en) 2008-11-26 2012-05-15 Free Stream Media Corp. Discovery, access control, and communication with networked services from within a security sandbox
US10419541B2 (en) 2008-11-26 2019-09-17 Free Stream Media Corp. Remotely control devices over a network without authentication or registration
US9519772B2 (en) 2008-11-26 2016-12-13 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8254993B2 (en) * 2009-03-06 2012-08-28 Apple Inc. Remote messaging for mobile communication device and accessory
US8380507B2 (en) * 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US9946583B2 (en) * 2009-03-16 2018-04-17 Apple Inc. Media player framework
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
TW201104465A (en) * 2009-07-17 2011-02-01 Aibelive Co Ltd Voice songs searching method
US20110029928A1 (en) * 2009-07-31 2011-02-03 Apple Inc. System and method for displaying interactive cluster-based media playlists
JP2011043710A (ja) * 2009-08-21 2011-03-03 Sony Corp 音声処理装置、音声処理方法及びプログラム
US20110066438A1 (en) * 2009-09-15 2011-03-17 Apple Inc. Contextual voiceover
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
RU2698767C2 (ru) * 2010-01-19 2019-08-29 Виза Интернэшнл Сервис Ассосиэйшн Обработка аутентификации удаленной переменной
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20110231189A1 (en) * 2010-03-19 2011-09-22 Nuance Communications, Inc. Methods and apparatus for extracting alternate media titles to facilitate speech recognition
US8527268B2 (en) * 2010-06-30 2013-09-03 Rovi Technologies Corporation Method and apparatus for improving speech recognition and identifying video program material or content
US9898499B2 (en) * 2010-08-16 2018-02-20 Iheartmedia Management Services, Inc. Multimedia scheduling for airplay with alternate category support
US8761545B2 (en) 2010-11-19 2014-06-24 Rovi Technologies Corporation Method and apparatus for identifying video program material or content via differential signals
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
EP2659366A1 (en) 2010-12-30 2013-11-06 Ambientz Information processing using a population of data acquisition devices
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9368107B2 (en) * 2011-04-20 2016-06-14 Nuance Communications, Inc. Permitting automated speech command discovery via manual event to command mapping
US10362381B2 (en) 2011-06-01 2019-07-23 Staton Techiya, Llc Methods and devices for radio frequency (RF) mitigation proximate the ear
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8612442B2 (en) 2011-11-16 2013-12-17 Google Inc. Displaying auto-generated facts about a music library
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) * 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
JP2014109889A (ja) * 2012-11-30 2014-06-12 Toshiba Corp コンテンツ検索装置、コンテンツ検索方法及び制御プログラム
US9218805B2 (en) * 2013-01-18 2015-12-22 Ford Global Technologies, Llc Method and apparatus for incoming audio processing
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US10157618B2 (en) 2013-05-02 2018-12-18 Xappmedia, Inc. Device, system, method, and computer-readable medium for providing interactive advertising
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200731A1 (en) 2013-06-13 2014-12-18 Apple Inc. System and method for emergency calls initiated by voice command
US9620148B2 (en) * 2013-07-01 2017-04-11 Toyota Motor Engineering & Manufacturing North America, Inc. Systems, vehicles, and methods for limiting speech-based access to an audio metadata database
US10176179B2 (en) * 2013-07-25 2019-01-08 Google Llc Generating playlists using calendar, location and event data
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US9167082B2 (en) 2013-09-22 2015-10-20 Steven Wayne Goldstein Methods and systems for voice augmented caller ID / ring tone alias
US20150106394A1 (en) * 2013-10-16 2015-04-16 Google Inc. Automatically playing audio announcements in music player
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10043534B2 (en) 2013-12-23 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
KR20160044954A (ko) * 2014-10-16 2016-04-26 삼성전자주식회사 정보 제공 방법 및 이를 구현하는 전자 장치
US10163453B2 (en) 2014-10-24 2018-12-25 Staton Techiya, Llc Robust voice activity detector system for use with an earphone
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10418016B2 (en) 2015-05-29 2019-09-17 Staton Techiya, Llc Methods and devices for attenuating sound in a conduit or chamber
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US9978366B2 (en) 2015-10-09 2018-05-22 Xappmedia, Inc. Event-based speech interactive media player
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10616693B2 (en) 2016-01-22 2020-04-07 Staton Techiya Llc System and method for efficiency among devices
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10097939B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Compensation for speaker nonlinearities
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10318236B1 (en) * 2016-05-05 2019-06-11 Amazon Technologies, Inc. Refining media playback
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US9693164B1 (en) 2016-08-05 2017-06-27 Sonos, Inc. Determining direction of networked microphone device relative to audio playback device
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US9794720B1 (en) 2016-09-22 2017-10-17 Sonos, Inc. Acoustic position measurement
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10979331B2 (en) * 2017-05-16 2021-04-13 Apple Inc. Reducing startup delays for presenting remote media items
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) * 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10869105B2 (en) * 2018-03-06 2020-12-15 Dish Network L.L.C. Voice-driven metadata media content tagging
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10951994B2 (en) 2018-04-04 2021-03-16 Staton Techiya, Llc Method to acquire preferred dynamic range function for speech enhancement
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10803864B2 (en) 2018-05-07 2020-10-13 Spotify Ab Voice recognition system for use with a personal media streaming appliance
US11308947B2 (en) * 2018-05-07 2022-04-19 Spotify Ab Voice recognition system for use with a personal media streaming appliance
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
EP3598295A1 (en) 2018-07-18 2020-01-22 Spotify AB Human-machine interfaces for utterance-based playlist selection
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US20200143805A1 (en) * 2018-11-02 2020-05-07 Spotify Ab Media content steering
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11501764B2 (en) * 2019-05-10 2022-11-15 Spotify Ab Apparatus for media entity pronunciation using deep learning
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
WO2021119246A1 (en) * 2019-12-11 2021-06-17 TinyIvy, Inc. Unambiguous phonics system
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11556596B2 (en) * 2019-12-31 2023-01-17 Spotify Ab Systems and methods for determining descriptors for media content items
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11281710B2 (en) 2020-03-20 2022-03-22 Spotify Ab Systems and methods for selecting images for a media item
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
EP3910495A1 (en) * 2020-05-12 2021-11-17 Apple Inc. Reducing description length based on confidence
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
WO2021231197A1 (en) * 2020-05-12 2021-11-18 Apple Inc. Reducing description length based on confidence
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11663267B2 (en) * 2020-07-28 2023-05-30 Rovi Guides, Inc. Systems and methods for leveraging metadata for cross product playlist addition via voice control
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US20220180870A1 (en) * 2020-12-04 2022-06-09 Samsung Electronics Co., Ltd. Method for controlling external device based on voice and electronic device thereof
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection

Family Cites Families (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3036552C2 (de) * 1980-09-27 1985-04-25 Blaupunkt-Werke Gmbh, 3200 Hildesheim Fernsehempfangsanlage
US5206949A (en) * 1986-09-19 1993-04-27 Nancy P. Cochran Database search and record retrieval system which continuously displays category names during scrolling and selection of individually displayed search terms
JP2849161B2 (ja) * 1989-10-14 1999-01-20 三菱電機株式会社 情報再生装置
JPH0786737B2 (ja) * 1989-12-13 1995-09-20 パイオニア株式会社 車載ナビゲーション装置
US5781889A (en) * 1990-06-15 1998-07-14 Martin; John R. Computer jukebox and jukebox network
DE4021707A1 (de) * 1990-07-07 1992-01-09 Nsm Ag Muenzbetaetigter musikautomat
US5237157A (en) * 1990-09-13 1993-08-17 Intouch Group, Inc. Kiosk apparatus and method for point of preview and for compilation of market data
US5446891A (en) * 1992-02-26 1995-08-29 International Business Machines Corporation System for adjusting hypertext links with weighed user goals and activities
JPH05303874A (ja) * 1992-04-24 1993-11-16 Pioneer Electron Corp 情報再生装置
EP0580361B1 (en) * 1992-07-21 2000-02-02 Pioneer Electronic Corporation Disc player and method of reproducing information of the same
US5691964A (en) * 1992-12-24 1997-11-25 Nsm Aktiengesellschaft Music playing system with decentralized units
US5410543A (en) * 1993-01-04 1995-04-25 Apple Computer, Inc. Method for connecting a mobile computer to a computer network by using an address server
US5464946A (en) * 1993-02-11 1995-11-07 Multimedia Systems Corporation System and apparatus for interactive multimedia entertainment
US5475835A (en) * 1993-03-02 1995-12-12 Research Design & Marketing Inc. Audio-visual inventory and play-back control system
DE69434923T2 (de) * 1993-05-26 2007-12-06 Pioneer Electronic Corp. Aufzeichnungsmedium
US5583560A (en) * 1993-06-22 1996-12-10 Apple Computer, Inc. Method and apparatus for audio-visual interface for the selective display of listing information on a display
US5694162A (en) * 1993-10-15 1997-12-02 Automated Business Companies, Inc. Method for automatically changing broadcast programs based on audience response
US5699329A (en) * 1994-05-25 1997-12-16 Sony Corporation Reproducing apparatus for a recording medium and control apparatus therefor
JP3575063B2 (ja) * 1994-07-04 2004-10-06 ソニー株式会社 再生装置、再生方法
US6560349B1 (en) * 1994-10-21 2003-05-06 Digimarc Corporation Audio monitoring using steganographic information
US5642337A (en) * 1995-03-14 1997-06-24 Sony Corporation Network with optical mass storage devices
WO1996030904A2 (en) * 1995-03-30 1996-10-03 Philips Electronics N.V. System including a presentation apparatus, in which different items are selectable, and a control device for controlling the presentation apparatus, and control device for such a system
US5625608A (en) * 1995-05-22 1997-04-29 Lucent Technologies Inc. Remote control device capable of downloading content information from an audio system
US5615345A (en) * 1995-06-08 1997-03-25 Hewlett-Packard Company System for interfacing an optical disk autochanger to a plurality of disk drives
US5751672A (en) * 1995-07-26 1998-05-12 Sony Corporation Compact disc changer utilizing disc database
US6505160B1 (en) * 1995-07-27 2003-01-07 Digimarc Corporation Connected audio and other media objects
US6829368B2 (en) * 2000-01-26 2004-12-07 Digimarc Corporation Establishing and interacting with on-line media collections using identifiers in media signals
US7562392B1 (en) * 1999-05-19 2009-07-14 Digimarc Corporation Methods of interacting with audio and ambient music
US6408331B1 (en) * 1995-07-27 2002-06-18 Digimarc Corporation Computer linking methods using encoded graphics
JP3471526B2 (ja) * 1995-07-28 2003-12-02 松下電器産業株式会社 情報提供装置
US5822216A (en) * 1995-08-17 1998-10-13 Satchell, Jr.; James A. Vending machine and computer assembly
JP3898242B2 (ja) * 1995-09-14 2007-03-28 富士通株式会社 ネットワーク端末の出力を変更する情報変更システムおよび方法
US6314570B1 (en) * 1996-02-08 2001-11-06 Matsushita Electric Industrial Co., Ltd. Data processing apparatus for facilitating data selection and data processing in at television environment with reusable menu structures
US5761606A (en) * 1996-02-08 1998-06-02 Wolzien; Thomas R. Media online services access via address embedded in video or audio program
US5781909A (en) * 1996-02-13 1998-07-14 Microtouch Systems, Inc. Supervised satellite kiosk management system with combined local and remote data storage
US5751956A (en) * 1996-02-21 1998-05-12 Infoseek Corporation Method and apparatus for redirection of server external hyper-link references
US6189030B1 (en) * 1996-02-21 2001-02-13 Infoseek Corporation Method and apparatus for redirection of server external hyper-link references
US5838910A (en) * 1996-03-14 1998-11-17 Domenikos; Steven D. Systems and methods for executing application programs from a memory device linked to a server at an internet site
US5815471A (en) * 1996-03-19 1998-09-29 Pics Previews Inc. Method and apparatus for previewing audio selections
US5673322A (en) * 1996-03-22 1997-09-30 Bell Communications Research, Inc. System and method for providing protocol translation and filtering to access the world wide web from wireless or low-bandwidth networks
US6025837A (en) * 1996-03-29 2000-02-15 Micrsoft Corporation Electronic program guide with hyperlinks to target resources
US5894554A (en) * 1996-04-23 1999-04-13 Infospinner, Inc. System for managing dynamic web page generation requests by intercepting request at web server and routing to page server thereby releasing web server to process other requests
US5903816A (en) * 1996-07-01 1999-05-11 Thomson Consumer Electronics, Inc. Interactive television system and method for displaying web-like stills with hyperlinks
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US5721827A (en) * 1996-10-02 1998-02-24 James Logan System for electrically distributing personalized information
US5774666A (en) * 1996-10-18 1998-06-30 Silicon Graphics, Inc. System and method for displaying uniform network resource locators embedded in time-based medium
US5796393A (en) * 1996-11-08 1998-08-18 Compuserve Incorporated System for intergrating an on-line service community with a foreign service
US6138162A (en) * 1997-02-11 2000-10-24 Pointcast, Inc. Method and apparatus for configuring a client to redirect requests to a caching proxy server based on a category ID with the request
US5835914A (en) * 1997-02-18 1998-11-10 Wall Data Incorporated Method for preserving and reusing software objects associated with web pages
US5959945A (en) * 1997-04-04 1999-09-28 Advanced Technology Research Sa Cv System for selectively distributing music to a plurality of jukeboxes
US6175857B1 (en) * 1997-04-30 2001-01-16 Sony Corporation Method and apparatus for processing attached e-mail data and storage medium for processing program for attached data
US6226672B1 (en) * 1997-05-02 2001-05-01 Sony Corporation Method and system for allowing users to access and/or share media libraries, including multimedia collections of audio and video information via a wide area network
US6243725B1 (en) * 1997-05-21 2001-06-05 Premier International, Ltd. List building system
US5987454A (en) * 1997-06-09 1999-11-16 Hobbs; Allen Method and apparatus for selectively augmenting retrieved text, numbers, maps, charts, still pictures and/or graphics, moving pictures and/or graphics and audio information from a network resource
US6131129A (en) * 1997-07-30 2000-10-10 Sony Corporation Of Japan Computer system within an AV/C based media changer subunit providing a standarized command set
US6112240A (en) * 1997-09-03 2000-08-29 International Business Machines Corporation Web site client information tracker
US6104334A (en) * 1997-12-31 2000-08-15 Eremote, Inc. Portable internet-enabled controller and information browser for consumer devices
US6243328B1 (en) * 1998-04-03 2001-06-05 Sony Corporation Modular media storage system and integrated player unit and method for accessing additional external information
US6138175A (en) * 1998-05-20 2000-10-24 Oak Technology, Inc. System for dynamically optimizing DVD navigational commands by combining a first and a second navigational commands retrieved from a medium for playback
US6327233B1 (en) * 1998-08-14 2001-12-04 Intel Corporation Method and apparatus for reporting programming selections from compact disk players
US8332478B2 (en) * 1998-10-01 2012-12-11 Digimarc Corporation Context sensitive connected content
JP2000194726A (ja) * 1998-10-19 2000-07-14 Sony Corp 情報処理装置及び方法、情報処理システム並びに提供媒体
US6941325B1 (en) * 1999-02-01 2005-09-06 The Trustees Of Columbia University Multimedia archive description scheme
US6535869B1 (en) * 1999-03-23 2003-03-18 International Business Machines Corporation Increasing efficiency of indexing random-access files composed of fixed-length data blocks by embedding a file index therein
US7302574B2 (en) * 1999-05-19 2007-11-27 Digimarc Corporation Content identifiers triggering corresponding responses through collaborative processing
US6941275B1 (en) * 1999-10-07 2005-09-06 Remi Swierczek Music identification system
US6496802B1 (en) * 2000-01-07 2002-12-17 Mp3.Com, Inc. System and method for providing access to electronic works
JP2003058180A (ja) * 2001-06-08 2003-02-28 Matsushita Electric Ind Co Ltd 合成音販売システムおよび音素の著作権認定システム
US7203692B2 (en) * 2001-07-16 2007-04-10 Sony Corporation Transcoding between content data and description data
US7245632B2 (en) * 2001-08-10 2007-07-17 Sun Microsystems, Inc. External storage for modular computer systems
US6775374B2 (en) * 2001-09-25 2004-08-10 Sanyo Electric Co., Ltd. Network device control system, network interconnection apparatus and network device
US20050154588A1 (en) * 2001-12-12 2005-07-14 Janas John J.Iii Speech recognition and control in a process support system
US7117200B2 (en) * 2002-01-11 2006-10-03 International Business Machines Corporation Synthesizing information-bearing content from multiple channels
US7073193B2 (en) * 2002-04-16 2006-07-04 Microsoft Corporation Media content descriptions
JP3938015B2 (ja) * 2002-11-19 2007-06-27 ヤマハ株式会社 音声再生装置
US20040102973A1 (en) * 2002-11-21 2004-05-27 Lott Christopher B. Process, apparatus, and system for phonetic dictation and instruction
US20060026162A1 (en) * 2004-07-19 2006-02-02 Zoran Corporation Content management system
US7644103B2 (en) * 2005-01-25 2010-01-05 Microsoft Corporation MediaDescription data structures for carrying descriptive content metadata and content acquisition data in multimedia systems

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719028B2 (en) 2009-01-08 2014-05-06 Alpine Electronics, Inc. Information processing apparatus and text-to-speech method

Also Published As

Publication number Publication date
EP1934828A4 (en) 2008-10-08
WO2007022533A2 (en) 2007-02-22
WO2007022533A3 (en) 2007-06-28
EP1934828A2 (en) 2008-06-25
US20090076821A1 (en) 2009-03-19
KR20080043358A (ko) 2008-05-16

Similar Documents

Publication Publication Date Title
JP2009505321A (ja) 再生装置の動作を制御する方法およびシステム
EP1693829B1 (en) Voice-controlled data system
US8712776B2 (en) Systems and methods for selective text to speech synthesis
US8352268B2 (en) Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8355919B2 (en) Systems and methods for text normalization for text to speech synthesis
US8583418B2 (en) Systems and methods of detecting language and natural language strings for text to speech synthesis
US8396714B2 (en) Systems and methods for concatenation of words in text to speech synthesis
US8352272B2 (en) Systems and methods for text to speech synthesis
KR100735820B1 (ko) 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치
US8719028B2 (en) Information processing apparatus and text-to-speech method
US7842873B2 (en) Speech-driven selection of an audio file
US7684991B2 (en) Digital audio file search method and apparatus using text-to-speech processing
US8751238B2 (en) Systems and methods for determining the language to use for speech generated by a text to speech engine
US20100082327A1 (en) Systems and methods for mapping phonemes for text to speech synthesis
US20100082328A1 (en) Systems and methods for speech preprocessing in text to speech synthesis
JP2014219614A (ja) オーディオ装置、ビデオ装置及びコンピュータプログラム
KR20020027382A (ko) 콘텐트 정보의 의미론에 따른 음성 명령
JP5465926B2 (ja) 音声認識辞書作成装置及び音声認識辞書作成方法
JP2007200495A (ja) 音楽再生装置、音楽再生方法及び音楽再生用プログラム
JP5431817B2 (ja) 楽曲データベース更新装置及び楽曲データベース更新方法
KR101576683B1 (ko) 히스토리 저장모듈을 포함하는 오디오 재생장치 및 재생방법
JP7297266B2 (ja) 検索支援サーバ、検索支援方法及びコンピュータプログラム
TW202420143A (zh) 媒體檔案選擇方法及服務系統與電腦程式產品
Jang et al. Research and developments of a multi‐modal MIR engine for commercial applications in East Asia 1
Joseph et al. Rhythmic-Music Recognition App

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090731

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090731

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20091211

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20091211

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100105

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20101224