JP2018506105A - 音声ベースシステムにおけるアプリケーションフォーカス - Google Patents

音声ベースシステムにおけるアプリケーションフォーカス Download PDF

Info

Publication number
JP2018506105A
JP2018506105A JP2017532986A JP2017532986A JP2018506105A JP 2018506105 A JP2018506105 A JP 2018506105A JP 2017532986 A JP2017532986 A JP 2017532986A JP 2017532986 A JP2017532986 A JP 2017532986A JP 2018506105 A JP2018506105 A JP 2018506105A
Authority
JP
Japan
Prior art keywords
application
audio
intent
voice
respond
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017532986A
Other languages
English (en)
Other versions
JP6549715B2 (ja
Inventor
スポルディング ヴァンランド ピーター
スポルディング ヴァンランド ピーター
ウェスレイ ピアソル カート
ウェスレイ ピアソル カート
デイビッド マイアーズ ジェームズ
デイビッド マイアーズ ジェームズ
マイケル シンプソン ジャコブ
マイケル シンプソン ジャコブ
クマル グンデティ ヴィクラム
クマル グンデティ ヴィクラム
ロバート トーマス デイビッド
ロバート トーマス デイビッド
クリストファー マイルス アンドリュー
クリストファー マイルス アンドリュー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Amazon Technologies Inc
Original Assignee
Amazon Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Amazon Technologies Inc filed Critical Amazon Technologies Inc
Publication of JP2018506105A publication Critical patent/JP2018506105A/ja
Application granted granted Critical
Publication of JP6549715B2 publication Critical patent/JP6549715B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

音声ベースシステムはユーザ構内のオーディオデバイス及び複数のアプリケーションによりオーディオデバイスの使用をサポートするネットワークベースサービスを含む。オーディオデバイスは、音楽、オーディオ書籍等のオーディオコンテンツを再生するよう指示され得る。オーディオデバイスはさらに音声を通じてユーザと対話するよう指示され得る。ネットワークベースサービスはオーディオデバイスから受信されるイベントメッセージを監視し、複数のアプリケーションのうちどれが現在音声フォーカスを有するか決定する。ユーザから音声を受信すると、サービスはまず現在1次音声フォーカスを有するアプリケーション(ある場合)に、対応する意図を供給する。現在1次音声フォーカスを有するアプリケーションがない場合、または1次音声フォーカスを有するアプリケーションが意図に応答できない場合、サービスは現在2次音声フォーカスを有するアプリケーションにユーザ意図を供給する。

Description

本出願は、「Application Focus In Speech−Based Systems」と題する、2014年12月19日に出願された米国特許出願第14/578,056号に対する優先権を主張し、参照によりその全体が本明細書に組み込まれる。
家庭、オフィス、自動車及び公共空間は、より有線化され、ノートパソコン、タブレット、エンターテイメントシステム及び携帯通信機器などのコンピューティングデバイスの普及に繋がっている。コンピューティングデバイスが進化するにつれて、ユーザがこれらのデバイスと対話する方法は進化し続ける。例えば、人は、機械デバイス(例えば、キーボード、マウス等)、電気デバイス(例えば、タッチスクリーン、タッチパッド等)、及び光学デバイス(例えば、動作検出器、カメラ等)を通じて、コンピューティングデバイスと対話することができる。コンピューティングデバイスと対話する別の方法は、人の音声を理解して反応するオーディオデバイスを通じて行う方法である。
詳細な説明は、添付図面を参照して説明する。図面において、参照番号の左端の桁(複数可)は、参照番号が最初に現れる図面と一致する。異なる図面における同じ参照番号の使用は、類似または同一のコンポーネントまたは特徴を示す。
ローカルオーディオデバイス及びリモート音声ベースサービスを含む音声対話コンピューティングアーキテクチャのブロック図である。 ローカルオーディオデバイスとリモート音声ベースサービスとの間の情報の流れの一例を例示するブロック図である。 様々なアプリケーションに意図をルーティングすることに関する情報の流れの一例を例示するブロック図である。 1次的にアクティブ及び2次的にアクティブなアプリケーションを選択及び/または提示する方法例を例示するフロー図である。 1次的にアクティブなアプリケーションのためにタイムアウトを実施する方法例を例示するフロー図である。 ユーザにより表現される意図を決定し応答するために、ローカルオーディオデバイスからのオーディオを処理する方法例を例示するフロー図である。 ユーザ発話から生成される意図をルーティングする方法例を例示するフロー図である。 ローカルオーディオデバイスの選択された機能コンポーネントを示すブロック図である。 本明細書に記載の音声ベースサービスを実施するために部分的に使用され得るサーバデバイスのコンポーネントを例示するブロック図である。
本開示はサービスを提供するためにユーザと対話するためのデバイス、システム及び技法を説明する。本明細書に開示されるシステムは、様々なユーザの家庭にあるオーディオデバイスから受信されるオーディオを基に、ユーザ音声を受信し応答するように構成され得る。
システムはネットワークベースのアプリケーションによりアクセスされ、自宅のオーディオデバイスと連動するサービスを提供する音声ベースサービスを備え得る。アプリケーションは音声ベースサービスの一部として実装されるか、またはサードパーティプロバイダにより実装され得る。音声ベースサービスにより、アプリケーションは自宅のオーディオデバイスから情報を受信し自宅のオーディオデバイスを使用して動作を行うことが可能になる。
アプリケーションは、オーディオデバイスがオーディオアクティビティを行うように命令するコマンドをオーディオデバイスに送信し得る。例えば、アプリケーションはオーディオデバイスに音楽を再生するように命令し得る。オーディオアクティビティの別の例として、アプリケーションは音声ベースサービスまたはオーディオデバイスのテキスト読み上げ機能を使用してオーディオデバイスに音声の再生を命令し得る。
アプリケーションはさらに、オーディオデバイスを通じてユーザと音声対話を行い得る。音声対話はユーザの特定のアクションまたは意図に関する一連の音声質問、回答及び/または発言を備える。より具体的には、音声対話はユーザによる発話及び音声ベースサービスにより生成される音声メッセージを含み得る一連の音声表現を備え得る。音声対話は、例えば、最初のユーザ発話時に開始し得る。音声ベースサービスは「何がしたいですか?」などの質問を尋ねることにより応答し得る。ユーザは質問に回答する発言を行うことにより応答し得る。このプロセスは、音声ベースサービスが特定のアクションを行うまたは機能を起動することを決定できるまで繰り返され得る。
アプリケーションはさらに、オーディオデバイス自体により検出及び監視される状態に応じて、オーディオデバイスが可聴通知を発生するように構成され得る。例えば、オーディオデバイスは一日の指定時間または指定期間後にアラームを発生するように構成され得る。別の例として、オーディオデバイスはホームオートメーションまたはホームセキュリティシステムと連動して検出されたイベントに応じて通知を発生するように構成され得る。通知はバックグラウンドに行われ、ユーザの即時の注意または対話を要求しない受動通知であってよい。通知は、代替的にはフォアグラウンドより音が大きいか、またはより繰り返され、ユーザによる即時のアクションまたは認識を求めるアクティブまたはフォアグラウンド通知を備えてよい。
オーディオデバイスのユーザは会話によりアプリケーションに命令を提供し得る。オーディオデバイスはユーザ音声を含む音を取得し、対応するオーディオ信号を音声ベースサービスに提供する。音声ベースサービスはオーディオに対して自動音声認識(ASR)及び自然言語理解(NLU)を行い、ユーザ音声の意図を決定する。意図は、例えば、「音楽を再生する」、「一時停止」、「停止」、「アラームを設定する」、「ボブに電話する」、「天気解説を出す」、「現在のニュースの見出しを出す」、「ピザを注文する」、「電子メールを作成する」、「音量を上げる」、「音量を下げる」、「無音」、「アラームを設定する」、「キャンセル」等を含み得る。
ユーザ音声の意図を決定することに応じて、音声ベースサービスは多数の利用可能またはアクティブなアプリケーションのうちどれが意図に応答するよう選択されるべきかを決定する。個々のアプリケーションはそれらのアプリケーションが処理可能な意図を示すために、音声ベースサービスに登録され得る。複数のアプリケーションが個々の意図を処理するために登録され得る。一例として、いくつかのアプリケーションは、アプリケーションにより行われているアクティビティに対して「停止」アクションを行うことにより、「停止」意図に応答するように登録され得る。「停止」意図から生じるアクションは、結局はその意図を処理または応答するように要求されたアプリケーションに依存することに留意されたい。例えば、あるアプリケーションが音楽の再生を停止し得る一方、別のアプリケーションはアラームを停止またはキャンセルし得る。より一般的には、任意の特定の意図から生じるアクションは、その意図を受信及び応答するアプリケーションに応じて異なり得る。いくつかの場合、アプリケーションは、例えば、ユーザ音声の意図に応答する音声を生成するなど、後続する対話ターンを開始することにより、特定の意図に応答し得る。音声応答は、音声ベースサービスがユーザの意図を完全に決定できる情報を明確にすることを要求し得る。別の場合、アプリケーションは、「アーティストAの音楽を再生する」などの意図により少なくとも部分的に示されるアクションを行うことによって応答し得る。
個々のアプリケーションがオーディオデバイスにアクティビティを開始するように命令すると、アプリケーションはアプリケーションに関連するアプリケーション識別子を提供する。オーディオデバイスがアクティビティを行う際、オーディオデバイスはそのアクティビティに関するイベントメッセージを音声ベースサービスに送信する。例えば、イベントメッセージは、要求された音楽が再生を開始したこと、再生リストの特定のトラックが再生を開始したこと、音声が開始または終了したこと、通知が与えられることなどを示し得る。各イベントメッセージはイベントが関連するアクティビティに応答可能なアプリケーションのアプリケーション識別子を示す。イベントメッセージはアプリケーション識別子に対応するアプリケーションに渡される。
ユーザが話すと、音声ベースシステムはASR及びNLUを行い、ユーザの音声を認識して音声の意図を決定する。しかしながら、音声自体も音声の決定された意図も、複数の利用可能なアプリケーションのうちどれに音声が向けられているかを示さない可能性がある。したがって、音声ベースシステムは、どのアプリケーションがユーザ音声の決定された意図に応答する目的に対して現在アクティブであるとみなされるべきかを追跡するための、オーディオデバイスのアクティビティを監視するルーティングコンポーネントを有する。
ルーティングコンポーネントは、オーディオデバイスから受信されるイベントメッセージを監視することにより動作し、どのアプリケーションが現在アクティブであるとみなすべきかを決定する。より具体的には、ルーティングコンポーネントはどのアプリケーションがオーディオデバイスにより報告される最新のオーディオイベントに応答可能かを追跡する。イベントメッセージが応答可能なアプリケーションを識別することに応じて、ルーティングコンポーネントは応答可能なアプリケーションを1次的にアクティブまたは2次的にアクティブであると指定する。1次的にアクティブなアプリケーションは1次音声フォーカスを有するとみなされる。2次的にアクティブなアプリケーションは2次音声フォーカスを有するとみなされる。認識されたユーザ音声の決定された意図はまず、1次音声フォーカスを現在有するアプリケーションに供給される。1次音声フォーカスを有するアプリケーションがない場合、または1次音声フォーカスを有するアプリケーションが意図を処理できない場合、意図は2次音声フォーカスを有するアプリケーションに供給される。
どのアプリケーションが現在1次及び2次音声フォーカスを有するかを追跡するために、ルーティングコンポーネントはオーディオデバイスにより再生されるオーディオに関するオーディオデバイスからのイベントメッセージを監視する。個々のイベントメッセージはオーディオに応答可能なアプリケーションを識別し、さらにオーディオの分類を示す。一例として、分類はオーディオがユーザ対話の一部かどうかを示し得る。オーディオがユーザ対話の一部であることを分類が示す場合、ルーティングコンポーネントは応答可能なアプリケーションが1次音声フォーカスを有すると指定する。オーディオがユーザ対話の一部でないと分類が示す場合、ルーティングコンポーネントは応答可能なアプリケーションが2次音声フォーカスを有すると指定する。記載の実施形態では、アプリケーションのうち1つのみ(例えば、1次的にアクティブであると最近指定されたアプリケーション)が1次音声フォーカスを有し、アプリケーションのうち1つのみ(例えば、2次的にアクティブであると最近指定されたアプリケーション)が2次音声フォーカスを有する。
より一般的には、1次音声フォーカスは、音声会話及びアクティブユーザ通知などの、双方向のユーザ対話を伴うか双方向のユーザ対話の開始を目的とするアクティビティの発生に基づいて与えられる。2次音声フォーカスは、受動通知及び音楽再生などの、双方向のユーザ対話を伴わないアクティビティの発生に基づいて与えられる。
図1はこれらの技法が実行され得る環境100を例示する。環境100は部屋または他のユーザ構内102を含み得る。ユーザ構内は家庭、オフィス、自動車及び他の空間または領域を含み得る。
ユーザ構内102の内部にはユーザ104及び1つ以上のオーディオデバイス106がある。オーディオデバイス106は、いくつかの実施形態では、1つ以上のマイクロフォン、スピーカ及びネットワークインターフェースもしくは他の通信インターフェースを有するネットワークベースのまたはネットワークアクセス可能なデバイスを備え得る。特定の実施形態では、オーディオデバイス106はさらにユーザ対話用に設計されたボタン、ノブ、ライト、インジケータ及び多様な種類のセンサなどを含む他の要素、入力要素ならびに出力要素を有してよい。
オーディオデバイス106はユーザ104から音声コマンドを受信し、そのコマンドに応じてサービスを提供する。提供されるサービスは、アクションまたはアクティビティの実行、メディアのレンダリング、情報の取得及び/または提供、ローカル状況の監視及びローカル状況に基づく通知の提供、オーディオデバイス106を介して生成または合成された音声による情報の提供、ユーザ104の代わりにインターネットベースサービスを開始することなどを含み得る。
図1に示す実施形態では、オーディオデバイス106はネットワークアクセス可能な音声ベースサービス108と通信する。音声ベースサービス108は、オーディオデバイス106に対してリモートに配置されるネットワークベースまたはクラウドベースのサービスとして実装されてよい。例えば、音声ベースサービス108は、企業組織及び/またはサービスプロバイダにより実装され、様々なユーザ構内102に配置される複数のオーディオデバイス106をサポートしてよく、ユーザ構内102は広範囲にわたる地理的位置に配置され得る。
音声ベースサービス108は、いくつかの例では、インターネットなどのワイドエリアネットワークを介して維持及びアクセス可能である、ネットワークアクセス可能なコンピューティングプラットフォームの一部であってよい。このようなネットワークアクセス可能なコンピューティングプラットフォームは、「オンデマンドコンピューティング」、「サービスとしてのソフトウェア(SaaS)」、「プラットフォームコンピューティング」、「ネットワークアクセス可能なプラットフォーム」、「クラウドサービス」、「データセンタ」などの用語を使用して言及され得る。
オーディオデバイス106と音声ベースサービス108との間の通信は、ローカルエリアネットワーク、ワイドエリアネットワーク及び/または公衆インターネットを含む多様な種類のデータ通信ネットワークを通じて実施されてよい。セルラー及び/または他の無線データ通信技術をさらに使用して音声ベースサービス108と通信してよい。ユーザ構内102は音声ベースサービス108との通信を容易にするためにローカルネットワークをサポートしている設備を含んでよく、例えば、無線アクセスポイント、ネットワークルータ、通信ハブ等などである。
音声ベースサービス108は複数のオーディオデバイス106をサポートする多様なサービス及び/またはアプリケーションと相互作用してよい。一例として、係るサービスは音声処理サービス110を含んでよい。音声処理サービス110は、ユーザ音声を認識し、音声により表現されるユーザの意図を決定し、ユーザの意図を達成するようなアクションを行うか、またはサービスを提供するために、リアルタイムオーディオまたは音声情報をオーディオデバイス106から受信するように構成されてよい。例えば、ユーザは事前に定義されたコマンド(例えば、「アウェイク」、「スリープ」)を話してよい、またはオーディオデバイス106と対話する際によりカジュアルな会話形式(例えば、「私は映画を見に行きたい。ローカルの映画館で上映しているものを教えてください。」)を使用してよい。ユーザコマンドは本質的にはあらゆる種類の動作であってよく、例として、データベース問い合わせ、エンターテイメントの要求及び消費(例えば、ゲーム、音楽の検索及び再生、映画または他のコンテンツ等)、パーソナルマネージメント(例えば、予定の記入、ノートを取る等)、オンラインショッピング、金融取引などであってよい。
音声及び音声関連情報は多数の異なる形態で音声処理サービス110に提供されてよい。いくつかの実装では、音声関連情報はオーディオデバイス106からの連続的なオーディオ信号またはストリームを含んでよい。代替的には、音声関連情報は、ユーザ構内102の内部において検出された音に応じて音声処理サービス110に提供される、オーディオクリップまたはセグメントを含んでよい。いくつかの場合、オーディオデバイス106は音声認識を行い、テキスト形式のユーザ音声を音声ベースサービス108に提供してよい。いくつかの実施態様では、音声ベースサービス108は、その後オーディオデバイス106によりレンダリングされる音声を生成または提示することにより、ユーザ104と対話してよい。音声合成は音声処理サービス110またはオーディオデバイス106により行われてよい。
記載の実施形態では、音声処理サービス110は、音声を認識し、認識された音声の意図を理解し、音声を生成するためのコンポーネントまたは機能を含む。具体的には、音声処理サービス110は自動音声認識(ASR)サービス112、自然言語理解(NLU)サービス114及びテキスト読み上げ(TTS)サービス116を含む。多様な他の種類の音声処理機能がさらに提供されてよい。
ASRサービス112は多様な技法を使用してオーディオ信号で表現される音声単語の完全なトランスクリプトを作成してよい。例えば、ASRサービス112は音響モデル及び言語モデルなどの多様な種類のモデルを参照し、オーディオ信号に表現される音声ワードを認識してよい。多くの場合、このようなモデルは多数の異なる種類の音声の標本抽出及び手動分類などによるトレーニングにより作成される。
音響モデルは音声を経時的なオーディオ波形の特徴に対応する一連のベクトルとして表現してよい。特徴は周波数、ピッチ、振幅及び時間パターンに対応してよい。大規模なトレーニングデータのセットを基に、隠れマルコフモデル(HMM)及び混合ガウスモデルなどの統計モデルを作成してよい。受信した音声のモデルは、その後トレーニングデータのモデルと比較され、一致が見つけられる。
言語モデルは文法ルール、一般的な単語の用法及びパターン、辞書の意味などの事柄を記載し、単語の並び順及び組み合わせの確率を構築する。言語モデルを使用する音声の分析は、現在分析中の音声の任意の部分の前後に来る単語などの文脈に依存し得る。
ASRは認識候補を提供することがあり、これは単語、フレーズ、文または他の音声のセグメントを含み得る。候補は統計的な確率を伴うことがあり、それぞれが対応する候補の精度における「信頼性」を示す。通常、最も高い信頼性スコアを伴う候補が音声認識の出力として選択される。
NLUサービス114はASRサービス112により提供される単語ストリームを分析し、単語ストリームの意図の表現を生成する。例えば、NLUサービス114はパーサ及び文法ルールを使用して文を分析し、コンピュータが容易に処理する方法で概念を伝える、形式的に定義された言語で文の意図の表現を生成し得る。例えば、意図はスロット及びスロット値の階層セットまたはフレームとして意味的に表現されてよく、各スロットは意味的に定義された概念に相当する。したがって、文の意図はスロット及びスロット値のフレームにより意味的に表現され得る。NLUはさらに、トレーニングデータから生成される統計モデル及びパターンを使用し、通常の音声における単語間の統計的な依存度を利用し得る。
音声ベースサービス108は複数のネットワークベースアプリケーション118をサポートするように構成されてよい。アプリケーション118は音声ベースサービス108を通じてオーディオデバイス106と相互作用し、オーディオデバイス106により取得または提供されるユーザ音声に少なくとも部分的に基づき、オーディオデバイス106と連動して機能を提供する。より具体的には、アプリケーション118は音声ベースサービス108のコマンドサービス120を通じて通信するように構成され、コマンドサービス120はオーディオデバイス106からの情報を受信し、命令、情報及びコンテンツをオーディオデバイス106に提供するデバイスプロキシとして機能する。いくつかの場合、コマンドサービス120はデータフォーマット及び/またはプロトコルの第1セットを使用してオーディオデバイス106と通信し、比較的低レベルのまたは詳細なデータの転送を可能にし得る。コマンドサービス120はデータフォーマット及び/またはプロトコルの第2セットを使用してアプリケーション118と通信し、比較的高レベルの抽象概念で情報を転送することを可能にし得るか、様々な種類の通信プロトコルを使用し得る。
アプリケーション118は、いくつかの場合、ウェブベースまたはネットワークベースのアプリケーションまたはサービスとして実装され得る。例えば、特定のアプリケーション118は音声ベースサービス108のプロバイダまたはサードパーティプロバイダによるサーバまたはサービスとして実装されてよく、インターネットなどのネットワークを通じてコマンドサービス120と通信してよい。別の場合、アプリケーション118はユーザ104に関連する物理デバイス、例えば、ユーザ104のコンピュータまたは携帯デバイスなどに常駐するか、組み込まれてよく、インターネットまたは他のワイドエリアネットワークを通じてコマンドサービス120と通信してよい。
音声ベースサービス108及びコマンドサービス120は、ウェブサービスモデルに従ってオーディオデバイス106及び/またはアプリケーション118と相互作用するように構成されてよく、音声ベースサービス108の機能は1つ以上のウェブサービスとして実装されてよい。概して、ウェブサービスは要求インターフェースを介して要求するクライアントに利用可能なあらゆる種類のコンピューティングサービスを備えてよく、要求インターフェースはハイパーテキスト転送プロトコル(HTTP)の1バージョンまたは別の適切なプロトコルなどの1つ以上のインターネットベースのアプリケーション層データ転送プロトコルを含む。
コマンドサービス120は1つ以上のネットワークアクセス可能なAPIまたはアプリケーションインターフェース122をさらしてよい。API122は、例えばhttp://storageservice.domain.com.などのユニフォームリソースロケータ(URL)を有するウェブサービスエンドポイントとして実装されてよい。
アプリケーション118は多様なベンダ及び/またはプロバイダにより設計及び提供され、API122及び関連するサービスを経由して、オーディオデバイス106と連動して動作し及び/またはオーディオデバイス106を使用してサービスを提供してよい。アプリケーション118は電子メールからゲームに及ぶ機能を提供してよい。アプリケーション118はユーザ音声及びユーザ音声から生じる意図に応じてアクションを行う音声有効アプリケーションを備えてよい。したがって、アプリケーション118のサービスは、オーディオデバイス106及び音声処理サービス110により提供される音声及び音声関連情報に部分的に基づいてよく、音声及び音声関連情報は、認識された音声、音声から生成される意図及びユーザ音声から解釈された意図またはコマンドを含む。さらに、アプリケーション118はオーディオデバイス106上の音声としてレンダリングされることになるテキストを提供してよく、コマンドサービス120及びAPI122を介して他の命令及びコマンドをオーディオデバイス106に対しまたはオーディオデバイス106のために提供してよい。
いくつかの実装では、例示のアプリケーション118は、いわゆる「アプレット」などの他のアプリケーションのコンポーネントであり得る。各アプリケーションまたはアプレットはアプリケーション識別子により識別され得る。アプリケーション識別子は音声ベースサービス108により割り当てられ得るか、アプリケーション自体により提供され得る。
一例として、アプリケーションはオーディオデバイス106に伝えられることになる音楽または他のコンテンツをオーディオデバイス106に提供するオーディオアプリケーションを備え得る。
各アプリケーション118はコマンドサービス120と通信し、各アプリケーション118が処理可能な音声意図を提示または登録し得る。2つ以上のアプリケーション118はあらゆる所与の意図を処理または応答することができ得る。代替的には、コマンドサービス120は個々のアプリケーションに問い合わせ、アプリケーションが特定の意図に応答できるか、または応答するかどうかに関する提示をアプリケーションから受信してよい。
コマンドサービス120は認識または識別された音声の意図を適切なアプリケーション118に提供するルーティングコンポーネント124を含む。より詳細には以下に記載する通り、ルーティングコンポーネント124はオーディオデバイス106により現在行われているアクティビティに応じて1次音声フォーカス及び2次音声フォーカスを割り当てる。意図が決定されると、1次フォーカスを有するアプリケーション(ある場合)に意図には応答する第1機会が与えられる。
図2はアプリケーション118とオーディオデバイス106との間に発生し得る通信の一例を例示する。明瞭にするために、通信媒介として機能するコマンドサービス120は図示されない。
アプリケーション118はコマンド202をオーディオデバイス106に送信し得る。コマンド202は図2にAppIDとして参照されるアプリケーション識別子を包含または提示し、AppIDはアプリケーション118に対応しアプリケーション118を識別する。コマンド202はオーディオデバイス106により実施または実行されることになるアクティビティを提示し得る。例えば、コマンドは、オーディオデバイス106により再生されることになる音楽などのオーディオコンテンツを提示し得る。別の例として、コマンド202は、音声に変換されオーディオデバイス106によりオーディオとして再生されることになるテキストを指定し得る。別の例として、コマンド202は、オーディオデバイス106により実施されることになる通知を構成し得る。
いくつかの場合、コマンド202は、命令されたアクティビティまたはアクティビティに応じてオーディオデバイス106により生成されたオーディオが対話型とみなされるべきかどうかを提示し得る。ユーザの会話の一部である音声などのユーザ対話の一部を形成するオーディオは対話型とみなされ得る。音楽などユーザ対話の一部でないオーディオは非対話型とみなされ得る。ユーザ対話の一部でない場合、特定の種類のレンダリングされた音声は非対話型とみなされ得る。例えば、アプリケーションは現在の天気または交通状況を説明する音声を生成する場合があり、これは音声対話の一部ではなく、したがって非対話型となるであろう。
動作中、オーディオデバイス106はイベントメッセージ204を生成し、イベントメッセージ204をコマンドサービス120に送り返す。各イベントメッセージ204はオーディオイベントまたはオーディオデバイス106で発生した他のイベントを記述する。例えば、イベントメッセージ204は特定の種類の音が再生されたこと、テキスト読み上げ再生が開始または終了したこと、非対話型コンテンツが開始または停止したこと、コンテンツもしくはメディアの再生が特定のポイントまで進行したこと、メディアアイテムの再生が終了したこと、後続のメディアアイテムの再生が開始したことなどを提示し得る。イベントメッセージ204はさらに、オーディオデバイスによりオーディオ通知が開始されたことを提示し得る。
各イベントメッセージは記述されたオーディオイベントがその一部であるアクティビティに応答可能なアプリケーションのアプリケーション識別子(AppID)を示す。イベントメッセージ204は、コマンドサービス120により、AppIDで提示された応答可能なアプリケーションに渡され得るため、応答可能なアプリケーションは要求されたアクティビティの進捗を監視することができる。
各イベントメッセージ204はさらに、記述されたオーディオが対話型か非対話型かを提示し得る。対話型オーディオはユーザ対話の一部であるオーディオを備える。非対話型オーディオはユーザ対話の一部でないオーディオを備える。一部のイベントメッセージは対応するイベントが対話型かどうかを明示的に提示し得る。他の場合、イベントの特性は対応するイベントが対話型かどうかを内在的に示し得る。例えば、音楽再生のステータスに関する特定のイベントは、係るイベントに関するイベントメッセージがイベントを対話型または非対話型に明示的に分類できない場合でも、非対話型イベントとみなされ得る。
図3は、決定した意図を適切なアプリケーション118に提供するために、音声ベースサービス108が受信されたユーザ発話を処理する方法を例示する。オーディオデバイス106はオーディオ信号として音声ベースサービス108に送信されるユーザ発話または音声302を取得する。音声処理サービス110はASR及びNLUを使用してオーディオ信号を分析し、ユーザ音声302の意図304を決定する。ルーティングコンポーネント124は意図304の意味的表現を受信する。ルーティングコンポーネント130はさらに、イベントメッセージ204を受信及び監視する。
イベントメッセージ204はオーディオデバイス106により生成されるため、ルーティングコンポーネント130はイベントメッセージ204を監視し、どのアプリケーション118のうちどれが現在アクティブとみなされるべきかを決定する。イベントメッセージ204に応じて、ルーティングコンポーネント124は1次的にアクティブなアプリケーション及び/または2次的にアクティブなアプリケーションを識別し得る。1次的にアクティブなアプリケーションとして識別されたアプリケーションは1次音声フォーカスを有するとみなされる。2次的にアクティブなアプリケーションとして識別されたアプリケーションは2次フォーカスを有するとみなされる。本明細書に記載の実施形態では、単一のアプリケーションのみが常に1次的にアクティブであるとみなされ、単一のアプリケーションのみが任意の常に2次的にアクティブであるとみなされるが、これは特定の他の実施形態に常にあてはまるわけではない。
意図304の意味的表現を受信すると、ルーティングコンポーネント124は、1次的にアクティブ及び2次的にアクティブであるアプリケーションの前回の識別を基に、意図304の表現をアプリケーション118のうちの1つに提供する。概して、1次的にアクティブなアプリケーションが処理可能な場合、意図を処理する第1機会が与えられる。別様には現在1次的にアクティブなアプリケーションがない場合、または現在1次的にアクティブなアプリケーションが意図を処理できない場合、現在2次的にアクティブなアプリケーションに意図を処理する機会が与えられる。
1次的にアクティブまたは2次的にアクティブとしてアプリケーションを指定することは、イベントメッセージ204をオーディオデバイス106から受信することに応じて、バックグラウンド動作として行われる。発話がオーディオデバイス106から受信されると、意図のルーティングは、1次的にアクティブなまたは2次的にアクティブであるとアプリケーションを指定する工程とは独立して非同期的に行われる。
図4は、オーディオデバイス106により受信されるイベントメッセージを基に、1次的にアクティブなアプリケーション及び2次的にアクティブなアプリケーションを選択するために、ルーティングコンポーネント124により行われ得る方法例400を例示する。
アクション402は、アクティビティの一部としてオーディオデバイスにより再生されるオーディオに関するイベントメッセージ204をオーディオデバイスから受信することを備える。イベントメッセージ204は、オーディオイベント及び/または説明されたオーディオイベントがその一部であるアクティビティに応答可能なアプリケーション118に対応するイベント記述404及びアプリケーション識別子406を備え得る。
イベントメッセージ204は、いくつかの場合、さらにオーディオイベントのオーディオが対話型または非対話型とみなされるべきかどうかを示すイベント分類408を含み得る。対話型オーディオは音声対話またはユーザとの対話の一部である音声を含む。音楽または音声対話もしくはユーザとの対話の一部でない音声などの他の種類のオーディオは、バックグラウンドまたは非対話型オーディオとみなされ得る。いくつかの場合、イベント分類408はイベントメッセージ204から省略され、イベントメッセージ204を備えるイベントまたはメタデータの特性は対応するイベントが対話型かどうかを示し得る。
会話音声に加え、オーディオデバイス106により監視される状態に応じてオーディオデバイス106により生成される特定の種類の通知は対話型とみなされるべきであり得る。係る通知は必ずしも音声対話の一部ではないが、通知が即時のユーザ入力を求める点において、通知はユーザ対話の一部とみなされるべきであり得る。例えば、通知は、ユーザが単語「アラームを停止する」を話すことなどにより返答することが要求される可聴アラームを備え得る。
オーディオデバイス106により監視される状態に応じてオーディオデバイス106により生成される他の種類の通知は非対話型とみなされるべきであり得る。例えば、通知は、メッセージまたは電子メールの受信などの重大ではない状態をユーザに警告するためのバックグラウンド音を備えることがあり、これは即時のユーザ入力を要求する目的はない。
概して、分類408またはイベントメッセージに関連する他の情報は、対応するオーディオが、
ユーザ対話の一部である音声、
ユーザ対話の一部でない音声、
ユーザ対話の一部であるオーディオコンテンツ、
ユーザ対話の一部でないオーディオコンテンツ、または
オーディオデバイスによる状態の検出に応じて与えられるオーディオ通知を備えることを示し得る。
オーディオ通知はユーザ対話の一部でないバックグラウンドオーディオ通知またはユーザ対話の一部であるフォアグラウンドオーディオ通知のいずれかを備え得る。
アクション410は、受信されたイベントメッセージが対話型イベントまたは非対話型イベントに対するものであることを示すかどうかを、イベントメッセージ204のイベント分類408または他のデータが決定することを備える。イベントメッセージ204が分類408を明示的に提供する場合、これは分類408を検証することを伴い得る。別様にはアクション410は、イベントの種類または記述に基づき、対応するイベントが対話型かどうかを決定し、特定のイベントまたはイベントの種類は対話型であると定義され、他のイベントまたはイベントの種類は非対話型であると定義される。いくつかの場合、例えば、音楽などのメディアの再生に関するイベントは定義上、非対話型とみなされ得る。
イベントが対話型の場合、アクション412が行われ、応答可能なアプリケーション以外の任意の現在指定されている1次的にアクティブなアプリケーションがもはや1次的にアクティブではないと指定する。さらに、アクション414が行われ、応答可能なアプリケーション(アプリケーション識別子406により示される)が現在1次的にアクティブであり1次フォーカスを有すると指定する。
イベントが非対話型及び/または応答可能なアプリケーションがアクション414により1次的にアクティブであると指定されない場合、アクション416が行われ、応答可能なアプリケーション以外の任意の現在指定されている1次的にアクティブなアプリケーションがもはや2次的にアクティブではないと指定する。さらに、アクション418が行われ、応答可能なアプリケーション(アプリケーション識別子406により示される)が現在2次的にアクティブであり2次フォーカスを有すると指定する。
特定の種類のイベントは対応するアプリケーションに内在的に関連する場合があり、これらの場合、アプリケーション識別子は省略され得る。例えば、オーディオデバイス106のブルートゥース(登録商標)周辺装置から受信されるオーディオの再生に関するメッセージは、アプリケーション118の特定の1つに内在的に関連し得る。
図5は、図4の方法400に従って生じ得るような、ブロック502に示す通りの、1次的にアクティブであると指定された応答可能なアプリケーションに対して行われ得る方法例500を例示する。アクション504は所定期間が経過したか、タイムアウトが終了したかどうかを判定することを備える。期間が経過したか、タイムアウトが終了した場合、アクション506が行われ、応答可能なアプリケーションを1次的にアクティブであると指定することを取り消す。期間が経過したか、タイムアウトが終了しなかった場合、アクション504はループで繰り返される。期間は現在指定されている1次的にアクティブなアプリケーションが新規に1次的にアクティブであると指定される度にリセットされてよく、例えば、図4のアクション416を通じて1次フォーカスの再割り当てをもたらす新規に受信されたイベントメッセージに応じてリセットされてよい。
方法500は、アプリケーションに対する相互型イベントを指定するイベントメッセージが指定期間にわたり受信されない場合、1次的にアクティブなアプリケーションが音声フォーカスを確実に喪失するようにする。アプリケーションのアプリケーション識別子を指定し、相互型イベント分類を指定する新規イベントメッセージが受信される場合、アプリケーションはその後1次フォーカスを再取得し得る。
図6はユーザ音声を処理する方法例600を示す。アクション602はユーザ音声を含むオーディオ信号を受信することを備える。アクション604は、ユーザ音声を認識しユーザ音声のトランスクリプトを生成するために、ASRを使用してオーディオ信号を分析することを備える。アクション606は、ユーザ音声の意図を決定しユーザ音声及びその意図の意味的表現を生成するために、NLUを使用して認識された音声を分析することを備える。アクション608は1つ以上のアプリケーション118の表現をルーティングすることを備える。
図7は音声意図の意味的表現を複数のアプリケーション118のうちの1つにルーティングする方法例700を示す。アクション702は意図の表現を受信することを備える。アクション704は複数のアプリケーション118の中に1次的にアクティブであるとして指定され、したがって1次フォーカスを有するアプリケーションがあるかどうかを判定することを備える。係る1次的にアクティブなアプリケーションがある場合、アクション706が行われ、1次的にアクティブなアプリケーションが意図に応答できるかどうかを判定する。アクション706は、どの意図がどのアプリケーションにより処理できるかを示すアプリケーションの前回の登録を参照することにより、行われ得る。代替的には、1次的にアクティブなアプリケーションが意図に現在応答できるかどうかを判定するために、1次的にアクティブなアプリケーションに問い合わせることができる。1次的にアクティブなアプリケーションが意図に応答できる、または応答する場合、アクション708が行われ、意図の意味的表現をアプリケーションに提供する及び/または1次的にアクティブなアプリケーションに対する意図への応答を要求する。いくつかの場合、アクション706及び708は組み合わされてよく、意図の表現は、アプリケーションに対する意図への応答の要求と共に1次的にアクティブなアプリケーションに渡されてよく、要求を受け入れるか、アプリケーションが意図に応答しないことを示すことのいずれかにより、アプリケーションは応答し得る。
現在1次的にアクティブなアプリケーションがない場合、1次的なアプリケーションが決定された意図に応答しない、もしくは応答できないことを示す場合、または別様には1次的にアクティブなアプリケーションが意図に応答しないと判定される場合、アクション710が行われ、2次的にアクティブとして指定され、したがって2次フォーカスを有するアプリケーションが複数のアプリケーション118の中にあるかどうかを判定する。係る2次的にアクティブなアプリケーションがある場合、アクション712が行われ、2次的にアクティブなアプリケーションが決定された意図に応答できるかどうかを判定する。アクション712はどの意図がどのアプリケーションにより処理できるかを示すアプリケーションの前回の登録を参照することにより、行われ得る。代替的には、決定された意図に現在応答できるかどうかを判定するために、2次的にアクティブなアプリケーションを問い合わせることができる。2次的にアクティブなアプリケーションが意図に応答できる、または応答する場合、アクション714が行われ、意図の意味的表現を2次的にアクティブなアプリケーションに提供する及び/または2次的にアクティブなアプリケーションに意図への応答を要求する。いくつかの場合、アクション710及び712は組み合わされてよく、意図の意味的表現は、2次的にアクティブなアプリケーションに対する意図への応答の要求と共に2次的にアクティブなアプリケーションに渡されてよく、要求を受け入れるか、要求を拒否するかのいずれかにより、アプリケーションは要求に応答し得る。
アクション716はさらに、2次的にアクティブなアプリケーションが意図に応答する場合、または2次的にアクティブなアプリケーションが意図に応答できることを示す場合に行われ得る。アクション716は2次的にアクティブなアプリケーションが現在1次的にアクティブであり、したがって1次音声フォーカスを有すると指定することを備える。アプリケーションが1次的にアクティブであると指定される場合、前回1次的にアクティブであると指定された他のアプリケーションがその後もはや1次的にアクティブでないと指定される。アクション716は特定の実施形態では、特定の種類のアプリケーションまたはイベントのみに行われ得ることに留意されたい。一例として、「音量を上げる」は非常駐コマンドまたはイベントとしてみなされることがあり、対応するアプリケーションに1次フォーカスを与えることにはなり得ない。
現在2次的にアクティブなアプリケーションがない場合、2次的にアクティブなアプリケーションが決定された意図に応答しない、もしくは応答することができないことを示す場合、または別様には2次的にアクティブなアプリケーションが意図に応答しないと判定される場合、アクション718が行われ、決定された意図を処理できる別のアプリケーションが複数のアプリケーションの中にあるかどうかを判定する。アクション718はどの意図がどのアプリケーションにより処理できるかを示すアプリケーションの前回の登録を参照することにより、行われ得る。代替的または追加的に、意図に現在応答できるかどうかを判定するために、他のアプリケーションを問い合わせることができる。別のアプリケーションが意図を処理できる場合、アクション720が行われ、意図の意味的表現を他のアプリケーションに提供する及び/または他のアプリケーションに対する意図への応答を要求する。
アクション722はさらに、他のアプリケーションのうちの1つが意図イベントに応答する場合、または別様には非アクティブなアプリケーションが意図に応答できることを示す場合に行われ得る。アクション722は応答アプリケーションが1次的にアクティブであり、したがって1次音声フォーカスを有すると指定することを備える。アプリケーションが1次的にアクティブであると指定される場合、1次的にアクティブであると前回指定された任意の他のアプリケーションがその後もはや1次的にアクティブでないと指定される。アクション722は特定の実施形態では、非常駐とみなされない特定の種類のアプリケーションまたはイベントのみに行われ得ることに留意されたい。
アクション718は、意図の意味的表現を様々なアプリケーションに供給することを備えることがあり、これは前に登録されたアプリケーションは後に登録されたアプリケーションに対して優先度が与えられる、コマンドサービス120に登録された順序で行われる。代替的には、各アプリケーションは、意図がそのアプリケーションを対象にする確率を示す信頼性レベルを提供するように求められ得る。例えば、音楽再生アプリケーションが現在音楽を再生していない場合、音楽再生アプリケーションが「停止」意図を処理する能力を前回示し得ていたとしても、それ自体が「停止」意図の受信側となる確率は比較的低い。意図はその後、最高の信頼性レベルを提供するアプリケーションに供給され得る。
図8はオーディオデバイス106の構成の一例を示す。図8の例において、オーディオデバイス106は動作論理を有し、動作論理はプロセッサ802及びメモリ804を備える。メモリ804は、プロセッサ802により実行されると、オーディオデバイス106の所望の機能を実施する行為またはアクションを行う命令形式のアプリケーション及びプログラムを含んでよい。メモリ804はコンピュータストレージ媒体の一種であってよく、揮発性及び不揮発性メモリを含んでよい。したがって、メモリ804はRAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術を含んでよいが、これらに限定されない。
図8は、オーディオデバイス106の機能を実施するために、オーディオデバイス106により提供されメモリ804により記憶され得るアプリケーション及び/またはプログラムのいくつかの例を示すが、多数の他のアプリケーション及び機能の種類が多様な実施形態において提供され得る。
オーディオデバイス106はオーディオデバイス106内にありオーディオデバイス106に連結されるハードウェア及びサービスを管理するように構成されるオペレーティングシステム806を有してよい。さらに、オーディオデバイス106は、アクションを行いユーザ音声に応じてサービスを提供するために、ユーザ構内102からオーディオを受信し、受信したオーディオを処理するオーディオ処理モジュール808を含んでよい。いくつかの場合、オーディオ処理モジュール808は受信したオーディオに対して音声認識及び自然言語理解を行ってよい。他の場合では、オーディオ処理モジュールは受信したオーディオを音声ベースサービス108に伝達し、音声ベースサービス108は音声処理サービス110を使用して、音声認識及び自然言語理解などの音声処理を行い得る。オーディオ処理モジュール808は、フィルタリング、圧縮などの多様な種類のオーディオ処理を行ってよく、デジタル信号プロセッサまたは他の信号処理方法を利用してよい。
オーディオ処理モジュール808はさらに、音声を作成または生成することに応答可能であってよい。例えば、オーディオデバイス106は音声ベースサービス108からテキストを受信してよく、そのテキストを音声に変換してよい。代替的には、オーディオデバイス106は、オーディオデバイス106によるレンダリングのために、オーディオ処理モジュール808により処理されるオーディオ信号を受信してよい。
オーディオデバイス106は、音声ベースサービス108との通信チャネルを構築するように構成される通信コンポーネント810を有してよい。多様な種類の通信プロトコルが通信コンポーネント810によりサポートされてよい。いくつかの場合、通信コンポーネント810は、多様な種類のネットワーク通信技術のうちの1つを使用して、API122を通じた音声ベースサービス108とのセキュアな及び/または暗号化された通信チャネルを構築するように構成されてよい。
オーディオデバイス106はさらに、オーディオデバイス106により行われるオーディオアクティビティに応じて、上述のイベントメッセージを提供するように構成されるイベント報告モジュール812を有してよい。いくつかの実装では、オーディオデバイス106は、イベントメッセージを音声ベースサービス108に事前に提供してよい。他の実施態様では、音声ベースサービスはオーディオデバイス106にポーリングまたは問い合わせを行い、イベントメッセージを取得してよい。
上述のソフトウェア機能性に加え、オーディオデバイス106は多様な種類の他のアプリケーション、機能及び/またはサービス814を実装してよい。例えば、他のサービス814は、ユーザ対話に応じて、または音声ベースサービス108もしくはアプリケーション118の命令を受けて、図8において曲または他の種類のオーディオを再生するメディアプレーヤ816として参照されるオーディオ機能またはアプリケーションを含んでよい。メディアプレーヤ816は音声ベースサービス108からのオーディオを、1つ以上のアプリケーション118または音楽サービス、ポッドキャストサービスなどのサードパーティサービスから受信してよい。例えば、音声ベースサービス108及び/またはアプリケーション118のうちの1つは、特定の曲をサードパーティサービスから取得及び再生するようオーディオデバイス106に命令してよい。この命令を受信すると、オーディオデバイス106のメディアプレーヤ816はサードパーティサービスに連絡し、曲のストリーミングまたはダウンロードを開始してよく、その後、オーディオデバイス106に曲を再生するように命令した音声ベースサービス108またはアプリケーション118からの追加の命令または情報なく曲を再生してよい。同様に、オーディオデバイス106のメディアプレーヤ816による再生のために、再生リストをメディアプレーヤ816に提供してよい。
オーディオデバイス106はさらに、デバイスインターフェース818及び通信インターフェース820を含む、多様な種類のハードウェアベースのコンポーネントまたは機能を含んでよい。デバイスインターフェース818は、ブルートゥース(商標)デバイス、リモート表現デバイス、リモートセンサ等などの補助デバイスへの接続を提供してよい。通信インターフェース820は、ネットワークインターフェース及びオーディオデバイス106が音声ベースサービス108に接続し、音声ベースサービス108と通信することを可能にする他の種類のインターフェースを含んでよい。
オーディオデバイス106は、動作情報をユーザ104に通信するために使用されるライトなどの多様な種類のインジケータ822を有してよい。インジケータ822はLED(発光ダイオード)、フラットパネルディスプレイ素子、テキストディスプレイ等を含んでよい。
オーディオデバイス106はさらに、多様な種類の物理コントロール824を有してよく、物理コントロール824はボタン、ノブ、スライダ、タッチセンサ等を含んでよい。物理コントロール824は、オーディオデバイス106の有効化/無効化、オーディオデバイス106のオーディオ出力量の設定などの基本機能に使用してよい。
オーディオデバイス106はユーザ音声入力などのオーディオ入力を受信する1つ以上のマイクロフォンを含むマイクロフォンユニット826を含んでよい。マイクロフォンユニット826は、いくつかの実施態様では、指向性マイクロフォンアレイを備えてよく、これにより様々な方向からの音が選択的に受信及び/または拡張し得る。オーディオデバイス106はさらに、オーディオの出力のためのスピーカ828を含んでよい。
物理コントロール824及びマイクロフォンユニット826に加え、オーディオデバイス106は多様な他の種類のセンサ830を有してよく、センサ830は静止カメラ及びビデオカメラ、デプスセンサ、3D(三次元)カメラ、赤外線センサ、近接センサ、環境音及び環境光のレベルを計測するためのセンサなどを含んでよい。オーディオデバイス106はさらに、センサ839からの情報を利用してユーザ構内102及びユーザ構内102の内部の環境状況を判定する分析能力を有してよい。例えば、オーディオデバイス106は光学情報を分析でき、部屋の内部の人または物体の存在及び/または特定を含む部屋の3D特徴を判定し得る。別の例として、オーディオデバイス106は、オーディオ再生を最適化するために、部屋のオーディオ特徴を検出及び評価できてよい。
オーディオデバイス106はさらに、ユーザ104と対話するための他のユーザインターフェース(UI)要素832を有してよい。他のUI要素は、ディスプレイパネル、プロジェクタ、タッチパネル、キーボード等を含んでよい。
特定の状況では、オーディオデバイス106は、スマートフォン、タブレットコンピュータ、眼鏡、時計等の携帯デバイスを備えてよい。携帯デバイスは、コンパス、加速度計、ジャイロスコープ、全地球測位受信機などのセンサを有してよく、さらにアプリケーション及びネットワークベース情報リソースへのアクセスを基に、多様な環境情報を決定する能力を有してよい。
図9は音声ベースサービス108及び/または本明細書に記載のサービスを提供するために使用され得る他のコンポーネントの機能を実装するために使用され得る、サーバ900の関連コンポーネントを例示する。概して、機能要素は1つ以上のサーバにより実装されてよく、上述の多様な機能は様々なサーバにわたり多様な方法で分散される。サーバは共にまたは個別に配置されてよく、仮想サーバ、サーババンク及び/またはサーバファームとして組織化されてよい。記載した機能は単一のエンティティまたは企業のサーバにより提供されてよく、あるいは複数のエンティティまたは企業のサーバ及び/またはサービスを利用してよい。
非常に基本的な構成では、一例のサーバ900は、1つ以上のプロセッサ及び関連するメモリ904から構成される処理ユニット902を備え得る。サーバ900の構成に応じて、メモリ904はコンピュータストレージ媒体の一種であってよく、揮発性及び不揮発性メモリを含んでよい。したがって、メモリ904はRAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術を含んでよいが、これらに限定されない。
メモリ904は処理ユニット902により実行可能な任意の数の機能コンポーネントを記憶するために使用されてよい。多くの実施形態では、これらの機能コンポーネントは処理ユニット902により実行可能な命令またはプログラムを備え、実行されると、上述のアクションを行うための動作論理を実施する。
メモリ904に記憶される機能コンポーネントは、オペレーティングシステム906及びコンピュータ、メディア消費デバイスなどのリモートデバイスと対話するウェブサービスコンポーネント908を含んでよい。メモリ904はさらに、音声処理サービス110、コマンドサービス120、API122、ルーティングコンポーネント124を実行する命令を有してよい。いくつかの場合、1つ以上のアプリケーション118はメモリ904に記憶される機能コンポーネントとしてさらに実装されてよい。
サーバ900は、当然ながら、図9に示されない多くの他の論理コンポーネント、プログラムコンポーネント及び物理コンポーネントを含んでよい。
オーディオデバイス106は家庭で使用される音声制御または音声ベースのオーディオデバイスとして本明細書に記載されるが、本明細書に記載する技術は、通信デバイス及びコンポーネント、ハンズフリーデバイス、エンターテイメントデバイス、メディア再生デバイス、タブレットコンピュータ、パーソナルコンピュータ、特定用途デバイスなど多様な異なる種類のデバイスと連動して実装されてよい。
上述の実施形態は、コンピュータ、プロセッサ、デジタル信号プロセッサ、アナログプロセッサなどのプログラムで実装されてよい。しかしながら、他の実施形態では、1つ以上のコンポーネント、機能または要素は、アナログ回路及び/またはデジタル論理回路を含む特殊または専用回路を使用して実装されてよい。
さらに、添付の特許請求の範囲で定義される主題は、特定の特徴に固有の文言で記載されたが、必ずしも記載された特定の特徴に限定されるものではないことは理解されるべきである。むしろ、特定の特徴は、特許請求の範囲を実施する例示的な形態として開示されている。
1.複数のアプリケーションと通信し、オーディオデバイスと通信し、前記オーディオデバイスにより再生されることになるオーディオコンテンツを提供するオーディオアプリケーションに対してアクティビティを行うために前記オーディオデバイスにコマンドを送信するように構成されるコマンドサービスであり、前記コマンドは前記オーディオアプリケーションに対応するアプリケーション識別子を提示する、前記コマンドサービスと、
前記オーディオデバイスにより再生される音に関するイベントメッセージを前記オーディオデバイスから受信することであり、前記イベントメッセージは前記オーディオアプリケーションに対応する前記アプリケーション識別子を提示する、前記イベントメッセージを受信することと、
前記オーディオデバイスにより再生される前記音がユーザとの音声対話の一部であることを前記イベントメッセージが示す場合、前記オーディオアプリケーションを1次的にアクティブであると指定することと、
前記オーディオデバイスにより再生される前記音がユーザとの音声対話の一部でないことを前記イベントメッセージが示す場合、前記オーディオアプリケーションを2次的にアクティブであると指定することと、
を備える行為を行うように構成される制御論理と、
前記オーディオデバイスからオーディオ信号を受信し、前記オーディオ信号のユーザ音声を認識するように構成される音声認識サービスと、
前記ユーザ音声の意図を決定するように構成される言語理解サービスと、
を備え、
前記制御論理は、
前記複数のアプリケーションの中に1次的にアクティブなアプリケーションがある場合、前記1次的にアクティブなアプリケーションが(a)前記ユーザ音声の前記意図により少なくとも部分的に示される第1アクションを行うこと、または(b)前記ユーザ音声に応答する第1音声を生成することにより、前記ユーザ音声に応答するように要求することと、
前記複数のアプリケーションの中に1次的にアクティブなアプリケーションがない場合、及び前記複数のアプリケーションの中に2次的にアクティブなアプリケーションがある場合、前記2次的にアクティブなアプリケーションが(a)前記ユーザ音声の前記意図により少なくとも部分的に示される第2アクションを行うこと、または(b)前記ユーザ音声に応答する第2音声を生成することにより、前記ユーザ音声に応答するように要求することと、
を備えるさらなるアクションを行うように構成される、
システム。
2.前記イベントメッセージは前記音が前記ユーザとの音声対話の一部かどうかを示すイベント分類を提示し、前記分類は前記音が
ユーザ対話の一部である音声、
ユーザ対話の一部でない音声、
ユーザ対話の一部であるオーディオコンテンツ、
ユーザ対話の一部でないオーディオコンテンツ、または
前記オーディオデバイスによる状態の検出に応じて与えられるオーディオ通知
のうち少なくとも1つを備える音を示す、条項1に記載のシステム。
3.前記イベントメッセージは、前記オーディオデバイスによる状態の検出に応じて前記第2オーディオに通知が与えられることを示し、前記行為はさらに前記オーディオアプリケーションが1次的にアクティブであると指定することを備える、条項1に記載のシステム。
4.前記アクションは、
所定期間に前記オーディオアプリケーションを識別するイベントメッセージが受信されなかったことを判定することと、
前記オーディオアプリケーションを1次的にアクティブにする前記指定を取り消すことと、
をさらに備える、条項1に記載のシステム。
5.アクティビティを行うためにオーディオデバイスにコマンドを提供することであり、前記コマンドは複数のアプリケーションの中から応答可能なアプリケーションを識別する、前記コマンドを提供することと、
前記オーディオデバイスにより伝えられる音に関するイベントメッセージを前記オーディオデバイスから受信することであり、前記イベントメッセージは前記応答可能なアプリケーションを識別する、前記イベントメッセージを受信することと、
前記音がユーザ対話の一部であることを前記イベントメッセージが示す場合、前記応答可能なアプリケーションを1次的にアクティブであると指定することと、
前記オーディオデバイスにより取得される音声を受信することと、
前記音声の意図を決定することと、
前記複数のアプリケーションの中に前記意図に応答できる1次的にアクティブなアプリケーションがある場合、前記1次的にアクティブなアプリケーションに前記意図に応答するよう要求することと、
を備える方法。
6.前記オーディオがユーザ対話の一部であることを前記イベントメッセージが示さない場合、前記応答可能なアプリケーションを2次的にアクティブであると指定することと、
前記複数のアプリケーションの中に前記意図に応答できる1次的にアクティブなアプリケーションがない場合、前記複数のアプリケーションの中の2次的にアクティブなアプリケーションに前記意図に応答するよう要求することと、
をさらに備える、条項1に記載の方法。
7.前記複数のアプリケーションの中に前記意図に応答できる1次的にアクティブなアプリケーションがない場合、
前記2次的にアクティブなアプリケーションが前記意図に応答できると決定することと、
前記2次的にアクティブなアプリケーションを1次的にアクティブであると指定することと、
をさらに備える、条項2に記載の方法。
8.前記1次的にアクティブなアプリケーションが前記意図に応答しないという表示を前記1次的にアクティブなアプリケーションから受信することと、
前記1次的にアクティブなアプリケーションから前記表示を受信することに応じて、前記2次的にアクティブなアプリケーションに前記意図に応答するように要求することと、
をさらに備える、条項2に記載の方法。
9.前記1次的にアクティブなアプリケーションに前記意図に応答するように要求する前に、前記1次的にアクティブなアプリケーションが前記意図に応答できると決定することをさらに備える、条項1に記載の方法。
10.前記分類は前記オーディオが
ユーザ対話の一部である音声、
ユーザ対話の一部でない音声、
ユーザ対話の一部であるオーディオコンテンツ、
ユーザ対話の一部でないオーディオコンテンツ、または
前記オーディオデバイスによる状態の検出に応じて与えられるオーディオ通知
のうちの少なくとも1つであることを示す、条項1に記載の方法。
11.前記オーディオ通知は、
ユーザ対話の一部でないバックグラウンドオーディオ通知と、
ユーザ対話の一部であるフォアグラウンドオーディオ通知と、
を備える、条項6に記載の方法。
12.前記応答可能なアプリケーションを識別するアプリケーション識別子を前記コマンドが提示することと、
前記応答可能なアプリケーションを識別するために、前記イベントメッセージが前記アプリケーション識別子を提示する、
条項1に記載の方法。
13.所定期間に前記応答可能なアプリケーションを識別するイベントメッセージが受信されなかったことを判定することと、
前記応答可能なアプリケーションを1次的にアクティブとする前記指定を取り消すことと、
をさらに備える、条項1に記載の方法。
14.デバイスにより行われる第1アクションに関する第1イベントメッセージを前記デバイスから受信することであり、前記イベントメッセージは複数のアプリケーションの中から第1応答可能なアプリケーションを識別し、前記複数のアプリケーションのそれぞれはユーザ音声により表現される1つ以上の意図に応答できる、前記受信すること、
前記第1アクションがユーザ対話の一部であると決定することと、
前記第1応答可能なアプリケーションを1次的にアクティブであると指定することと、
第1ユーザ音声の第1意図を識別することと、
前記複数のアプリケーションの中に前記第1意図に応答できる1次的にアクティブなアプリケーションがあることを判定することと、
前記第1意図に応答するために前記1次的にアクティブなアプリケーションを選択することと、
を備える方法。
15.前記デバイスにより行われる第2アクションに関する第2イベントメッセージを前記デバイスから受信することであり、前記第2イベントメッセージは前記複数のアプリケーションの中から第2応答可能なアプリケーションを識別することと、
前記第2アクションがユーザ対話の一部でないと決定することと、
前記第2応答可能なアプリケーションを2次的にアクティブであると指定することと、
第2ユーザ音声の第2意図を決定することと、
前記複数のアプリケーションの中に前記第2意図に応答できる1次的にアクティブなアプリケーションがないことを判定することと、
前記第2意図に応答するために前記2次的にアクティブなアプリケーションを選択することと、
をさらに備える、条項10に記載の方法。
16.第3ユーザ音声の第3意図を決定することと、
前記1次的にアクティブなアプリケーションが前記第3意図に応答しないと決定することと、
前記2次的にアクティブなアプリケーションに前記第3意図に応答するように要求することと、
をさらに備える、条項11に記載の方法。
17.第3ユーザ音声の第3意図を決定することと、
前記1次的にアクティブなアプリケーションが前記第3意図に応答しないという表示を前記1次的にアクティブなアプリケーションから受信することと、
前記2次的にアクティブなアプリケーションに前記第3意図に応答するように要求することと、
をさらに備える、条項11に記載の方法。
18.前記イベントメッセージは前記オーディオの分類を示し、前記分類は前記オーディオが、
ユーザ対話の一部である音声、
ユーザ対話の一部でない音声、
ユーザ対話の一部であるオーディオコンテンツ、
ユーザ対話の一部でないオーディオコンテンツ、または
前記オーディオデバイスによる状態の検出に応じて与えられるオーディオ通知
であることを示す、条項10に記載の方法。
19.前記オーディオ通知は、
ユーザ対話の一部でないバックグラウンドオーディオ通知と、
ユーザ対話の一部であるフォアグラウンドオーディオ通知と、
を備える、条項14に記載の方法。
20.前記第1イベントメッセージは前記第1応答可能なアプリケーションを識別するアプリケーション識別子を提示する、条項10に記載の方法。

Claims (15)

  1. アクティビティを行うためにオーディオデバイスにコマンドを提供することであり、前記コマンドは複数のアプリケーションの中から応答可能なアプリケーションを識別する、前記コマンドを提供することと、
    前記オーディオデバイスにより伝えられる音に関するイベントメッセージを前記オーディオデバイスから受信することであり、前記イベントメッセージは前記応答可能なアプリケーションを識別する、前記イベントメッセージを受信することと、
    前記音がユーザ対話の一部であることを前記イベントメッセージが示す場合、前記応答可能なアプリケーションを1次的にアクティブであると指定することと、
    前記オーディオデバイスにより取得される音声を受信することと、
    前記音声の意図を決定することと、
    前記複数のアプリケーションの中に前記意図に応答できる1次的にアクティブなアクティブアプリケーションがある場合、前記1次的にアクティブなアプリケーションに前記意図に応答するよう要求することと、
    を備える方法。
  2. 前記オーディオがユーザ対話の一部であることを前記イベントメッセージが示さない場合、前記応答可能なアプリケーションを2次的にアクティブであると指定することと、
    前記複数のアプリケーションの中に前記意図に応答できる1次的にアクティブなアプリケーションがない場合、前記複数のアプリケーションの2次的にアクティブなアプリケーションに前記意図に応答するよう要求することと、
    をさらに備える、請求項1に記載の方法。
  3. 前記複数のアプリケーションの中に前記意図に応答できる1次的にアクティブなアプリケーションがない場合、
    前記2次的にアクティブなアプリケーションが前記意図に応答できると決定することと、
    前記2次的にアクティブなアプリケーションを1次的にアクティブであるとして指定することと、
    をさらに備える、請求項2に記載の方法。
  4. 前記1次的にアクティブなアプリケーションが前記意図に応答しない表示を前記1次的にアクティブなアプリケーションから受信することと、
    前記1次的にアクティブなアプリケーションから前記表示を受信することに応じて、前記2次的にアクティブなアプリケーションに前記意図に応答するように要求することと、
    をさらに備える、請求項2に記載の方法。
  5. 前記1次的にアクティブなアプリケーションに前記意図に応答するように要求する前に、前記1次的にアクティブなアプリケーションが前記意図に応答できると決定することをさらに備える、請求項1に記載の方法。
  6. 前記分類は前記オーディオが
    ユーザ対話の一部である音声、
    ユーザ対話の一部でない音声、
    ユーザ対話の一部であるオーディオコンテンツ、
    ユーザ対話の一部でないオーディオコンテンツ、または
    前記オーディオデバイスによる状態の検出に応じて与えられるオーディオ通知
    のうち少なくとも1つを示す、請求項1に記載の方法。
  7. 前記オーディオ通知は、
    ユーザ対話の一部でないバックグラウンドオーディオ通知と、
    ユーザ対話の一部であるフォアグラウンドオーディオ通知と、
    を備える、請求項6に記載の方法。
  8. 前記応答可能なアプリケーションを識別するアプリケーション識別子を前記コマンドが提示し、
    前記応答可能なアプリケーションを識別するために、前記イベントメッセージが前記アプリケーション識別子を提示する、
    請求項1に記載の方法。
  9. 所定期間に前記応答可能なアプリケーションを識別するイベントメッセージが受信されなかったことを判定することと、
    1次的にアクティブである前記応答可能なアプリケーションの前記指定を取り消すことと、
    をさらに備える、請求項1に記載の方法。
  10. デバイスにより行われる第1アクションに関する第1イベントメッセージを前記デバイスから受信することであり、前記第1イベントメッセージは複数のアプリケーションの中から第1応答可能なアプリケーションを識別し、前記複数のアプリケーションのそれぞれはユーザ音声により表現される1つ以上の意図に応答できる、前記受信すること、
    前記第1アクションがユーザ対話の一部であると決定することと、
    前記第1応答可能なアプリケーションを1次的にアクティブであると指定することと、
    第1ユーザ音声の第1意図を識別することと、
    前記複数のアプリケーションの中に前記第1意図に応答できる1次的にアクティブなアプリケーションがあることを判定することと、
    前記第1意図に応答するために前記1次的にアクティブなアプリケーションを選択することと、
    を備える方法。
  11. 前記デバイスにより行われる第2アクションに関する第2イベントメッセージを前記デバイスから受信することであり、前記第2イベントメッセージは前記複数のアプリケーションの中から第2応答可能なアプリケーションを識別することと、
    前記第2アクションがユーザ対話の一部でないと決定することと、
    前記第2応答可能なアプリケーションを2次的にアクティブであるとして指定することと、
    第2ユーザ音声の第2意図を決定することと、
    前記複数のアプリケーションの中に前記第2意図に応答できる1次的にアクティブなアプリケーションがないことを判定することと、
    前記第2意図に応答するよう前記2次的にアクティブなアプリケーションを選択することと、
    をさらに備える、請求項10に記載の方法。
  12. 第3ユーザ音声の第3意図を決定することと、
    前記1次的にアクティブなアプリケーションが前記第3意図に応答しないと決定することと、
    前記2次的にアクティブなアプリケーションに前記第3意図に応答するように要求することと、
    をさらに備える、請求項11に記載の方法。
  13. 第3ユーザ音声の第3意図を決定することと、
    前記1次的にアクティブなアプリケーションが前記第3意図に応答しない表示を前記1次的にアクティブなアプリケーションから受信することと、
    前記2次的にアクティブなアプリケーションに前記第3意図に応答するように要求することと、
    をさらに備える、請求項11に記載の方法。
  14. 前記第1イベントメッセージは前記オーディオの分類を示し、前記分類は前記オーディオが
    ユーザ対話の一部である音声、
    ユーザ対話の一部でない音声、
    ユーザ対話の一部であるオーディオコンテンツ、
    ユーザ対話の一部でないオーディオコンテンツ、または
    前記オーディオデバイスによる状態の検出に応じて与えられるオーディオ通知
    であることを示す、請求項10に記載の方法。
  15. 前記第1イベントメッセージが前記第1応答可能なアプリケーションを識別するアプリケーション識別子を提示する、請求項10に記載の方法。
JP2017532986A 2014-12-19 2015-12-11 音声ベースシステムにおけるアプリケーションフォーカス Active JP6549715B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/578,056 2014-12-19
US14/578,056 US9552816B2 (en) 2014-12-19 2014-12-19 Application focus in speech-based systems
PCT/US2015/065372 WO2016100139A1 (en) 2014-12-19 2015-12-11 Application focus in speech-based systems

Publications (2)

Publication Number Publication Date
JP2018506105A true JP2018506105A (ja) 2018-03-01
JP6549715B2 JP6549715B2 (ja) 2019-07-24

Family

ID=55066847

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017532986A Active JP6549715B2 (ja) 2014-12-19 2015-12-11 音声ベースシステムにおけるアプリケーションフォーカス

Country Status (5)

Country Link
US (1) US9552816B2 (ja)
EP (1) EP3234945B1 (ja)
JP (1) JP6549715B2 (ja)
CN (1) CN107112014B (ja)
WO (1) WO2016100139A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018138987A (ja) * 2016-10-28 2018-09-06 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 情報処理装置および情報処理方法
JP2019212357A (ja) * 2018-05-31 2019-12-12 百度在線網絡技術(北京)有限公司 オーディオ再生方法、装置、機器及び記憶媒体
WO2022139515A1 (ko) * 2020-12-23 2022-06-30 삼성전자 주식회사 음성 기반 콘텐츠 제공 방법 및 그 전자 장치
US11393262B2 (en) 2018-07-20 2022-07-19 Honda Motor Co., Ltd. Vehicle management system, vehicle management program, and vehicle management method

Families Citing this family (223)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9123338B1 (en) * 2012-06-01 2015-09-01 Google Inc. Background audio identification for speech disambiguation
US9734839B1 (en) * 2012-06-20 2017-08-15 Amazon Technologies, Inc. Routing natural language commands to the appropriate applications
US20140074466A1 (en) 2012-09-10 2014-03-13 Google Inc. Answering questions using environmental context
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10157618B2 (en) 2013-05-02 2018-12-18 Xappmedia, Inc. Device, system, method, and computer-readable medium for providing interactive advertising
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9300647B2 (en) 2014-01-15 2016-03-29 Sonos, Inc. Software application and zones
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9535986B2 (en) 2014-06-27 2017-01-03 Sonos, Inc. Application launch
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
CN113140215A (zh) * 2015-01-16 2021-07-20 三星电子株式会社 用于执行话音识别的方法和设备
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10671234B2 (en) * 2015-06-24 2020-06-02 Spotify Ab Method and an electronic device for performing playback of streamed media including related media content
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US9875081B2 (en) 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
US9978366B2 (en) 2015-10-09 2018-05-22 Xappmedia, Inc. Event-based speech interactive media player
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10049666B2 (en) * 2016-01-06 2018-08-14 Google Llc Voice recognition system
US9740751B1 (en) * 2016-02-18 2017-08-22 Google Inc. Application keywords
US10097939B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Compensation for speaker nonlinearities
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10271093B1 (en) 2016-06-27 2019-04-23 Amazon Technologies, Inc. Systems and methods for routing content to an associated output device
WO2018005334A1 (en) * 2016-06-27 2018-01-04 Amazon Technologies, Inc. Systems and methods for routing content to an associated output device
US10931999B1 (en) * 2016-06-27 2021-02-23 Amazon Technologies, Inc. Systems and methods for routing content to an associated output device
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US9693164B1 (en) 2016-08-05 2017-06-27 Sonos, Inc. Determining direction of networked microphone device relative to audio playback device
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US9794720B1 (en) 2016-09-22 2017-10-17 Sonos, Inc. Acoustic position measurement
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
WO2018085760A1 (en) 2016-11-04 2018-05-11 Semantic Machines, Inc. Data collection for a new conversational dialogue system
US10332523B2 (en) 2016-11-18 2019-06-25 Google Llc Virtual assistant identification of nearby computing devices
KR102412202B1 (ko) * 2017-01-03 2022-06-27 삼성전자주식회사 냉장고 및 이의 정보 표시 방법
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
WO2018148441A1 (en) 2017-02-08 2018-08-16 Semantic Machines, Inc. Natural language content generator
US11069340B2 (en) 2017-02-23 2021-07-20 Microsoft Technology Licensing, Llc Flexible and expandable dialogue system
US10762892B2 (en) * 2017-02-23 2020-09-01 Semantic Machines, Inc. Rapid deployment of dialogue system
WO2018156978A1 (en) 2017-02-23 2018-08-30 Semantic Machines, Inc. Expandable dialogue system
US10403276B2 (en) * 2017-03-17 2019-09-03 Microsoft Technology Licensing, Llc Voice enabled features based on proximity
WO2018175344A1 (en) 2017-03-21 2018-09-27 Magic Leap, Inc. Depth sensing techniques for virtual, augmented, and mixed reality systems
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
KR102365688B1 (ko) * 2017-04-06 2022-02-22 삼성전자주식회사 자연어 이해에 기반한 콘텐트 제공 방법 및 이를 수행하는 전자 장치
KR102464120B1 (ko) * 2017-04-30 2022-11-08 삼성전자주식회사 사용자 발화를 처리하는 전자 장치
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
KR101934954B1 (ko) 2017-05-24 2019-01-03 네이버 주식회사 음성요청에 대응하는 정보 전달 향상을 위한 출력
CN107316645B (zh) * 2017-06-01 2021-10-12 北京京东尚科信息技术有限公司 一种语音购物的方法和系统
CN107342083B (zh) * 2017-07-05 2021-07-20 百度在线网络技术(北京)有限公司 用于提供语音服务的方法和装置
KR102445382B1 (ko) * 2017-07-10 2022-09-20 삼성전자주식회사 음성 처리 방법 및 이를 지원하는 시스템
US10503467B2 (en) * 2017-07-13 2019-12-10 International Business Machines Corporation User interface sound emanation activity classification
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10482904B1 (en) 2017-08-15 2019-11-19 Amazon Technologies, Inc. Context driven device arbitration
US11132499B2 (en) 2017-08-28 2021-09-28 Microsoft Technology Licensing, Llc Robust expandable dialogue system
US11004444B2 (en) * 2017-09-08 2021-05-11 Amazon Technologies, Inc. Systems and methods for enhancing user experience by communicating transient errors
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10854191B1 (en) * 2017-09-20 2020-12-01 Amazon Technologies, Inc. Machine learning models for data driven dialog management
US10957313B1 (en) 2017-09-22 2021-03-23 Amazon Technologies, Inc. System command processing
US10600419B1 (en) * 2017-09-22 2020-03-24 Amazon Technologies, Inc. System command processing
US10699706B1 (en) * 2017-09-26 2020-06-30 Amazon Technologies, Inc. Systems and methods for device communications
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10466962B2 (en) * 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10614831B2 (en) * 2017-10-12 2020-04-07 Qualcomm Incorporated Audio activity tracking and summaries
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
JP6947004B2 (ja) 2017-12-20 2021-10-13 トヨタ自動車株式会社 車載音声出力装置、音声出力装置、音声出力方法、及び音声出力プログラム
JP6988438B2 (ja) 2017-12-20 2022-01-05 トヨタ自動車株式会社 車載制御装置、制御装置、制御方法、制御プログラム、及び発話応答方法
JP2019117324A (ja) 2017-12-27 2019-07-18 トヨタ自動車株式会社 音声出力装置、音声出力方法、及び音声出力プログラム
JP6984420B2 (ja) 2018-01-09 2021-12-22 トヨタ自動車株式会社 対話装置
JP7062958B2 (ja) 2018-01-10 2022-05-09 トヨタ自動車株式会社 通信システム、及び通信方法
JP7197272B2 (ja) 2018-01-11 2022-12-27 トヨタ自動車株式会社 音声出力システム、音声出力方法、及びプログラム
JP2019124977A (ja) 2018-01-11 2019-07-25 トヨタ自動車株式会社 車載音声出力装置、音声出力制御方法、及び音声出力制御プログラム
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
EP3596729A1 (en) * 2018-03-07 2020-01-22 Google LLC. Systems and methods for voice-based initiation of custom device actions
US11087752B2 (en) * 2018-03-07 2021-08-10 Google Llc Systems and methods for voice-based initiation of custom device actions
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
CN109189280B (zh) 2018-06-29 2022-04-01 南京铁道职业技术学院 语音屏幕鼠标校核下的图标安全操作方法
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
CN110874201B (zh) * 2018-08-29 2023-06-23 斑马智行网络(香港)有限公司 交互方法、设备、存储介质和操作系统
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US10878812B1 (en) * 2018-09-26 2020-12-29 Amazon Technologies, Inc. Determining devices to respond to user requests
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11398232B1 (en) 2018-12-21 2022-07-26 Cerner Innovation, Inc. Natural language understanding of conversational sources
US11798560B1 (en) 2018-12-21 2023-10-24 Cerner Innovation, Inc. Rapid event and trauma documentation using voice capture
US11875883B1 (en) 2018-12-21 2024-01-16 Cerner Innovation, Inc. De-duplication and contextually-intelligent recommendations based on natural language understanding of conversational sources
US11062704B1 (en) 2018-12-21 2021-07-13 Cerner Innovation, Inc. Processing multi-party conversations
US11410650B1 (en) 2018-12-26 2022-08-09 Cerner Innovation, Inc. Semantically augmented clinical speech processing
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
KR20200099036A (ko) * 2019-02-13 2020-08-21 삼성전자주식회사 음성 인식 기능을 이용한 동작을 수행하는 전자 장치 및 이를 이용한 동작과 관련된 알림을 제공하는 방법
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN110196708B (zh) * 2019-04-25 2023-05-16 深圳市布谷鸟科技有限公司 一种应用于安卓车载多媒体系统的音频管理方法
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN110111776A (zh) * 2019-06-03 2019-08-09 清华大学 基于麦克风信号的语音交互唤醒电子设备、方法和介质
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
CN112201230A (zh) * 2019-07-08 2021-01-08 安徽华米信息科技有限公司 语音响应方法、装置、设备以及存储介质
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11069364B1 (en) * 2019-09-26 2021-07-20 Amazon Technologies, Inc. Device arbitration using acoustic characteristics
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
CN110718223B (zh) * 2019-10-28 2021-02-12 百度在线网络技术(北京)有限公司 用于语音交互控制的方法、装置、设备和介质
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
US11922938B1 (en) * 2021-11-22 2024-03-05 Amazon Technologies, Inc. Access to multiple virtual assistants
US11887602B1 (en) 2021-12-10 2024-01-30 Amazon Technologies, Inc. Audio-based device locationing
CN116027946B (zh) * 2023-03-28 2023-07-18 深圳市人马互动科技有限公司 互动小说中图片信息处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07140998A (ja) * 1992-12-28 1995-06-02 Toshiba Corp 音声認識インターフェース
JP2001056694A (ja) * 1999-08-19 2001-02-27 Denso Corp 対話型ユーザインタフェース装置
JP2004110613A (ja) * 2002-09-20 2004-04-08 Toshiba Corp 制御装置、制御プログラム、対象装置及び制御システム
JP2004234273A (ja) * 2003-01-30 2004-08-19 Hitachi Ltd 対話型端末装置及び対話アプリケーション提供方法
US8595642B1 (en) * 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6937977B2 (en) * 1999-10-05 2005-08-30 Fastmobile, Inc. Method and apparatus for processing an input speech signal during presentation of an output audio signal
US6801604B2 (en) * 2001-06-25 2004-10-05 International Business Machines Corporation Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources
US20100311399A1 (en) * 2005-03-31 2010-12-09 United Video Properties, Inc. Systems and methods for generating audible reminders on mobile user equipment
DK1718110T3 (en) * 2005-04-27 2017-12-04 Oticon As Audio feedback and suppression means
JP4131978B2 (ja) 2006-02-24 2008-08-13 本田技研工業株式会社 音声認識機器制御装置
EP2575128A3 (en) 2011-09-30 2013-08-14 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20140012574A1 (en) * 2012-06-21 2014-01-09 Maluuba Inc. Interactive timeline for presenting and organizing tasks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07140998A (ja) * 1992-12-28 1995-06-02 Toshiba Corp 音声認識インターフェース
JP2001056694A (ja) * 1999-08-19 2001-02-27 Denso Corp 対話型ユーザインタフェース装置
JP2004110613A (ja) * 2002-09-20 2004-04-08 Toshiba Corp 制御装置、制御プログラム、対象装置及び制御システム
JP2004234273A (ja) * 2003-01-30 2004-08-19 Hitachi Ltd 対話型端末装置及び対話アプリケーション提供方法
US8595642B1 (en) * 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018138987A (ja) * 2016-10-28 2018-09-06 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 情報処理装置および情報処理方法
JP7009092B2 (ja) 2016-10-28 2022-01-25 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理装置および情報処理方法
JP2019212357A (ja) * 2018-05-31 2019-12-12 百度在線網絡技術(北京)有限公司 オーディオ再生方法、装置、機器及び記憶媒体
US11393262B2 (en) 2018-07-20 2022-07-19 Honda Motor Co., Ltd. Vehicle management system, vehicle management program, and vehicle management method
WO2022139515A1 (ko) * 2020-12-23 2022-06-30 삼성전자 주식회사 음성 기반 콘텐츠 제공 방법 및 그 전자 장치

Also Published As

Publication number Publication date
EP3234945B1 (en) 2020-04-22
US9552816B2 (en) 2017-01-24
WO2016100139A1 (en) 2016-06-23
US20160180853A1 (en) 2016-06-23
CN107112014B (zh) 2021-01-05
EP3234945A1 (en) 2017-10-25
CN107112014A (zh) 2017-08-29
JP6549715B2 (ja) 2019-07-24

Similar Documents

Publication Publication Date Title
JP6549715B2 (ja) 音声ベースシステムにおけるアプリケーションフォーカス
CN111344780B (zh) 基于上下文的设备仲裁
US11600291B1 (en) Device selection from audio data
US11356730B2 (en) Systems and methods for routing content to an associated output device
US11798547B2 (en) Voice activated device for use with a voice-based digital assistant
US11887590B2 (en) Voice enablement and disablement of speech processing functionality
US11138977B1 (en) Determining device groups
US11949818B1 (en) Selecting user device during communications session
US20220335941A1 (en) Dynamic and/or context-specific hot words to invoke automated assistant
US11810557B2 (en) Dynamic and/or context-specific hot words to invoke automated assistant
CN109643548B (zh) 用于将内容路由到相关联输出设备的系统和方法
US10249296B1 (en) Application discovery and selection in language-based systems
US11687526B1 (en) Identifying user content
US10685664B1 (en) Analyzing noise levels to determine usability of microphones
US10931999B1 (en) Systems and methods for routing content to an associated output device
US12033632B2 (en) Context-based device arbitration

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180612

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180912

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190514

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190627

R150 Certificate of patent or registration of utility model

Ref document number: 6549715

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250