JP6671466B2 - 応答を提供するための装置選択 - Google Patents

応答を提供するための装置選択 Download PDF

Info

Publication number
JP6671466B2
JP6671466B2 JP2018514981A JP2018514981A JP6671466B2 JP 6671466 B2 JP6671466 B2 JP 6671466B2 JP 2018514981 A JP2018514981 A JP 2018514981A JP 2018514981 A JP2018514981 A JP 2018514981A JP 6671466 B2 JP6671466 B2 JP 6671466B2
Authority
JP
Japan
Prior art keywords
audio signal
determining
utterance
user
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018514981A
Other languages
English (en)
Other versions
JP2018537700A (ja
Inventor
デイビッド メイヤーズ ジェームズ
デイビッド メイヤーズ ジェームズ
ディーン アーレン
ディーン アーレン
リウ ユエ
リウ ユエ
マンダル アリンダム
マンダル アリンダム
ミラー ダニエル
ミラー ダニエル
サミル プラヴィンチャンドラ シャー
サミル プラヴィンチャンドラ シャー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Amazon Technologies Inc
Original Assignee
Amazon Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Amazon Technologies Inc filed Critical Amazon Technologies Inc
Publication of JP2018537700A publication Critical patent/JP2018537700A/ja
Application granted granted Critical
Publication of JP6671466B2 publication Critical patent/JP6671466B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L15/222Barge in, i.e. overridable guidance for interrupting prompts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Description

関連出願の相互参照
本出願は、2015年9月21日に出願の米国特許出願第14/860,400号に対する優先権を主張する。この内容全体を本明細書において援用する。
装置及び関連するサポートサービスが利用できる処理パワーが増加し続けるにつれて、新規な方法でユーザと対話することが実用的になってきている。特に、音声によってユーザと対話することが、実用的になりつつある。今や、パーソナルコンピュータ、スマートフォン、タブレット装置、媒体装置、娯楽装置、工業システム、音声ベースの補助手段などを含む多くの装置が、音声コマンドに応答する能力を有している。これらのシステムを拡大するときに直面する課題に対する技術的ソリューションを、本明細書において記載する。
詳細な説明は、添付図面を参照して記述する。図面において、参照番号の左端の数字(複数可)は、参照番号が最初に現れる図面を特定している。異なる図面において同一の参照番号を使用する場合は、類似しているかまたは同一のコンポーネントか特徴であることを示す。
複数の音声インタフェース装置からユーザ発言を受け取る例示音声ベースのシステムを例示するブロック図である。 複数の音声インタフェース装置からの複数のオーディオ信号を処理する例示方法を説明するフローチャートである。 音声インタフェース装置の1つによって実行されて受け取ったオーディオ信号を処理することができる別の例示方法を説明するフローチャートである。 2台の音声装置の間に立って調停する例示方法を説明するフローチャートである。 音声インタフェース装置によって実行されてオーディオ信号及び付随するメタデータを音声サービスに提供することができる例示方法を説明するフローチャートである。 上から下へ順に、図3の方法に従って異なる音声インタフェース装置からオーディオ信号を処理するときに、異なる状況から生じ得る動作の時間系列の例を示す。 上から下へ順に、図3の方法に従って異なる音声インタフェース装置からオーディオ信号を処理するときに、異なる状況から生じ得る動作の時間系列の例を示す。 上から下へ順に、図3の方法に従って異なる音声インタフェース装置からオーディオ信号を処理するときに、異なる状況から生じ得る動作の時間系列の例を示す。 例示音声インタフェース装置の関連するコンポーネントを示すブロック図である。 本明細書において記載されるような音声サービスを実行するために、部分的に用いることができる例示サーバの関連するコンポーネントを示すブロック図である。
音声ベースのシステムは、音声によってユーザと対話してユーザから命令を受け取り、サービスをユーザに提供するように構成することができる。特定の実施形態では、システムは、部屋、住宅または別の環境内で異なる位置に配置される複数の音声インタフェース装置を含むことができる。各音声インタフェース装置は、ユーザ音声を受けるためのマイクロホンを備えており、いくつかの実施形態においては、応答するシステム音声を再生するための、一体化しているか付随するスピーカとともに動作することができる。
各装置の特定の機能及び能力は、ネットワークベースのサービスによって少なくとも部分的には提供することができ、そして、装置はそれに、インターネットを含むデータ通信ネットワークによってアクセスすることができる。特に、ネットワークベースのサービスは音声処理及び対話能力を装置に提供することができ、その中には自動音声認識(ASR)、自然言語理解(NLU)、応答生成及びテキストから音声への変換(TTS)機能を含む。ユーザ音声によって表される意図を判断するとすぐに、ネットワークベースのサービスは、音声インタフェース装置を使用して機能を実行し、及び/またはオーディオを作成する。
特定の実施形態では、音声インタフェース装置は、マイクロホン及びスピーカを含むことができる。他の実施態様においては、音声インタフェース装置はユーザ音声を受けるためのマイクロホンを含むことができ、応答するシステム生成の音声をスピーカ装置によって提供することができる。このようなスピーカ装置は、音声インタフェース装置の管理下に置くことができ、音声インタフェース装置により提供されるオーディオを再生することができる。あるいは、スピーカ装置は、ネットワークベースのサービスから応答する音声オーディオを受けることができる。
複数の音声インタフェース装置が互いに近くに、例えば単一の部屋の中に、または、隣接する部屋にある状況においては、音声インタフェース装置はそれぞれが1つのユーザ発言を受けることがあり得て、各装置が独立してあたかもそれが2つの別々の発言であるかのように、その発言を処理して応答しようと試みることがあり得る。以下の開示は、とりわけ、このような二重の労力及び応答を回避することの技術に、関する。
記載される実施形態において、各音声インタフェース装置は、ユーザがコマンドを話しており、その口頭のコマンドを表すオーディオ信号をネットワークベースの音声サービスに流す、ということを検出する。ネットワークベースの音声サービスは、オーディオ信号を受信し、ASR及びNLUを実行して、コマンドによって表される意図を判断し、応答を音声インタフェース装置の1つに提供する。例えば、応答は、ユーザコマンドに応答する音声インタフェース装置による音として作成されるべき単語を表すデータを、生成すること含むことができる。別の例として、応答は、音声インタフェースが音楽を再生し始めるかまたは別の機能を実行するための指示を、含むことができる。
住居の中の複数の音声インタフェース装置からオーディオ信号を受け取ると、システムはユーザコマンドに応答(例えば、可聴応答を提供するかまたはそうでなければユーザコマンドに応答して動作)するべき装置の1つを選択する。選択は、オーディオ信号と関連するメタデータに基づいて行うことができる。1つの例として、システムは、異なる音声インタフェース装置に対するユーザの近接度を判定して、ユーザに最も近い音声インタフェース装置を選択することを試みることができる。近接度は、時間的及び物理的近接度を含むことができて、メタデータ属性、例えばオーディオ信号振幅、オーディオ信号において検出される音声存在のレベル、ユーザ音声が音声インタフェース装置によって検出された相対時間及び音声インタフェース装置によって作成するかまたは提供することができる他の属性によって示すことができる。例えば、第2の音声インタフェース装置に対する第1の音声インタフェース装置のより高いオーディオ信号振幅は、ユーザが第2の音声インタフェース装置に対するより第1の音声インタフェースに近い、ということを示すことができる。別の例として、最初にユーザ音声を検出するかまたは認識する音声インタフェース装置は、ユーザに最も近い装置であり得る。
近接度は、ネットワークベースの音声サービスによって作成されるASR及びNLU信頼度レベルなどの属性によって示すこともできる。いくつかの場合では、近接度スコアは多数の属性に基づいて作ることができ、そして、異なるオーディオ信号に対応する近接度スコアは、最高メタデータスコアを有するオーディオ信号を選択するために、比較することができる。
いくつかの場合では、複数の音声処理装置のうちいずれが受け取ったユーザ音声に応答することになるかの選択は、コマンドが話される文脈に基づいて行うことができる。例えば、新たに受信したコマンドは、特定の音声インタフェース装置が応答したその前のコマンドと同じ対象に関係し得て、従って、新たに受信コマンドに同じ音声インタフェース装置が応答するように選択することができる。別の例として、直近で作動した音声インタフェース装置がユーザコマンドに応答して動作または音声を提供するように選択することができる。更に別の例として、音声インタフェース装置の1つが適切な応答を音声コマンドに提供する能力を有しており、別の装置はその能力が無い場合、能力を有する装置は、応答を提供するために選択することができる。更に別の例として、音声コマンドは、音声インタフェース装置の1つが現在実行している活動に関係している可能性があり、従って、その音声インタフェース装置は、音声コマンドに従って動作するかまたはそれに応答するように、選択することができる。いくつかの場合では、第1の装置がその前のユーザコマンドに応答して活動を実行しており、その活動を修正する新たなコマンドが第2の装置によって検出される、ということが起こり得る。この場合、ネットワークベースの音声サービスは、新たなコマンドが第1の装置の現在の活動に関すると判定することができ、第1の装置をユーザコマンドに応答するように選択することができる。
いくつかの実施形態において、音声コマンドを表すオーディオ信号は第1の音声インタフェース装置によって出力することができ、第2の音声インタフェース装置は、第2の音声インタフェース装置が現在実行している活動にコマンドが関連し得るとしても、音声コマンドを検出するかまたは送ることに失敗する場合がある。例えば、第2の装置は第1の装置がコマンド「停止」を受信するときに、音楽を再生している場合がある。システムは、第1の装置によって受信されたコマンドが第2の装置によって実行されている活動に関連すると判定することができて、第1の装置にではなく第2の装置に応答を向けることができる。この例では、「停止」コマンドは第2の装置に向けられ、そして、第2の装置は音楽の再生を止めることによってそれに応答する。
図1は、口頭のコマンドに基づいてサービスを提供する例示システム100を示す。システムは、複数の音声インタフェース装置102を有する。音声インタフェース装置102は、本明細書において単に装置102と呼ぶ。説明のため、2つの装置102(a)及び102(b)が示されるが、システム100は2つ以上の装置102を含むことができる。各装置102は、ユーザ音声を捕えるために用いる1つ以上のマイクロホンならびに音声及びコンテンツを再生するために用いる1つ以上のスピーカを有する。いくつかの実施形態では、装置102は、固定位置から操作するように設計されていてもよい。他の実施態様において、装置102は、携帯型でもよい。例えば、装置102は、携帯用装置または他のモバイル機器例えばスマートフォン、タブレット型コンピュータ、メディアプレーヤ、パーソナルコンピュータ、着用可能装置、様々な形のアクセサリなどを含むことができる。
ユーザ104は、装置102によってシステム100と対話しているものとして示される。装置102は互いに十分近くに置くことができ、それによって装置102の両方ともユーザ104の発言を検出することができる。
特定の実施形態では、音声インタフェース装置102とのユーザ対話の主要なモードは、音声によるものであってもよい。例えば、音声インタフェース装置102は、ユーザ104から口頭のコマンドを受信することができ、コマンドに応答してサービスを提供することができる。ユーザ104は定義済みトリガー表現(例えば、「目を覚まして」)を話すことができ、それの後に指示または指令(例えば、「私は、映画を見に行きたいです。地域の映画館で何を上映しているかを私に教えて下さい。」)を続けることができる。提供されるサービスは、動作または活動を実行すること、媒体をレンダリングすること、情報を取得し及び/または提供すること、音声インタフェース装置102を介して生成されたか合成された音声を経て情報を提供すること、ユーザ104に代わってインターネットベースのサービスを開始することなどを含むことができる。
口頭のユーザ要求106に対応する音は、各装置102によって受け取られる。特定の実装において、ユーザ要求106は、ユーザ104によって話される覚醒単語または他のトリガー表現で開始することができ、次のユーザ音声が装置102のうちの1つによって受け取られて、行動されることを意図していることを示すことができる。装置102は、覚醒単語を検出し、次のユーザ音声が装置102に向けられることと解釈することができる。特定の実施形態の覚醒単語は、音声インタフェース装置102によってローカルに検出される予約のキーワードでもよい。キーワードを検出すると即座に、音声インタフェース装置102は、次のユーザ発言を検出してそれに応じるために、遠隔のネットワークベースの音声認識システムにオーディオ信号を提供し始めることができる。
特定の実装において、各装置102は、装置102のマイクロホンによって作成されるオーディオ信号を分析して、通常は定義済みの単語、フレーズまたは他の音であってもよい覚醒単語を検出することができる、表現検出器を備えることができる。このような表現検出器は、例えば、キーワードスポッティング技術を使用して実装することができる。キーワードスポッタは、オーディオ信号を評価して、オーディオの定義済み単語または表現が信号を送る存在を検出する関数コンポーネントまたはアルゴリズムである。音声の単語の写しを作るのではなく、キーワードスポッタは、定義済み単語か表現がオーディオ信号において表されたか否かを示すために、真/偽の出力を生成する。
特定の実施形態では、オーディオ装置102の表現検出器は、オーディオ信号を分析して、覚醒単語がオーディオ信号においてされている可能性を示すスコアを作成するように構成することができる。それから、表現検出器は、スコアを閾値と比較して、覚醒単語が話されたことが宣言されることになるかを判定する。
いくつかの場合では、キーワードスポッタは、簡略ASR(自動音声認識)技術を使用することができる。例えば、表現検出器は隠れマルコフモデル(HMM)認識器を使用することができ、これはオーディオ信号の音響モデリングを実行して、オーディオ信号のHMMモデルを特定のトリガー表現のための訓練によって作製された1つ以上の参照HMMモデルと比較する。HMMモデルは、単語を一連の状態として表す。概して、オーディオ信号の一部が、そのHMMモデルをトリガー表現のHMMモデルと比較することによって分析され、トリガー表現モデルに対するオーディオ信号モデルの類似性を表す特徴スコアを得る。
実際には、HMM認識器は、HMMモデルの異なる特徴に対応する複数の特徴スコアを作成することができる。表現検出器は、HMM認識器によって作成される1つ以上の特徴スコアを受信するサポートベクターマシン(SVM)分類器を使用することができる。SVM分類器は、オーディオ信号がトリガー表現を含む可能性を示す信頼度スコアを作成する。信頼度スコアは信頼度閾値と比較されて、オーディオ信号の圧縮部分がトリガー表現の発言を表すかどうかに関して最終的な決定をする。オーディオ信号がトリガー表現の発言を表すと宣言すると即座に、オーディオ装置102は、次のユーザ発言を検出してそれに応じるために遠隔のネットワークベースの音声認識システムにオーディオ信号を発信し始める。
各装置102は、ユーザ要求106を受信して、対応するオーディオ信号108及び関連メタデータ110を作成する。具体的には、第1の音声インタフェース装置102(a)は対応するオーディオ信号108(a)及び関連メタデータ110(a)を作成し、第2の音声インタフェース装置102(b)は対応するオーディオ信号108(b)及び関連メタデータ110(b)を作成する。各オーディオ信号108(a)及び108(b)は、ユーザ要求106に対応する同じユーザ音声を表す。
メタデータ110は、それぞれの装置102に対するユーザ104の近接度を判定するかまたは推定するために用いることができ、更に一般的には、音声応答か他の動作が装置102のうちいずれを対象としなければならないかについて決定するために用いることができる、各種の情報を含むことができる。この環境での近接度は、物理的近接度及び時間的近接度のいずれかまたは両方ともに対応することができる。例えば、第1のメタデータ110(a)は、ユーザ音声106が第1の音声インタフェース装置102(a)によって受け取られた時間を示す第1のタイムスタンプを含むことができ、第2のメタデータ110(b)は、ユーザ音声106が第2の音声インタフェース装置102(a)によって受け取られた時間を示す第2のタイムスタンプを含むことができる。メタデータ110は、他の情報、例えばオーディオ信号108の信号エネルギー及び/または音声インタフェース装置102によって検出されるオーディオ信号108における音声存在のレベル)を含むことができる。
オーディオ信号108及び関連メタデータ110は、分析及び応答動作のために音声サービス112に提供される。いくつかの場合では、音声サービス112は、多くの異なるユーザの住居または他の建物の装置102をサポートする複数のサーバコンピュータによって行うネットワークアクセス可能サービスでもよい。装置102は、インターネットなどの広域ネットワークの上の音声サービス112によって通信することができる。あるいは、装置102のうち1つ以上は、音声サービス112を含むことができるかまたは提供することができる。
音声サービス112は、音声サービス112そのものによって作成できるメタデータ110及び他のメタデータに基づいて、音声インタフェース装置102のうちいずれがユーザ要求106を受信しそれに応答114を実行しなければならないかについて、判定する。これは、音声インタフェース装置102の特定の1つに話すユーザ104のありそうな意図を反映する方法で行われる。装置102のうちいずれがユーザ要求106に応じることをユーザ104が最も望みそうであるかを判定するための各種の技術を、以下に説明する。
概して、音声サービス112は、複数の装置102から受け取られるオーディオ信号が同じ発言を表すかどうかを最初に判定することから始め、それは装置102がユーザ音声を受信した時間を比較することによって実行することができる。オーディオ信号が同じ発言を表す場合、例えば装置102がユーザ音声を受信した時間が互いに近い時間的近接度にあるケースであると考えられる場合、オーディオ信号によって表されるユーザ要求に応答を提供するために、装置102のうちいずれが用いなければならないかについて決定するために、調停が実行される。
音声サービス112は、それぞれの音声処理パイプラインインスタンス116(a)及び116(b)を使用してオーディオ信号108(a)及び108(b)を処理するように構成される。各パイプラインインスタンス116は、装置102のうちの1つに、そして、パイプラインインスタンスにより提供される信号108に対応する。図の例では、第1の音声処理パイプラインインスタンス116(a)は、第1の装置102(a)に、そして、その対応する第1のオーディオ信号108(a)に対応する。第2の音声処理パイプラインインスタンス116(b)は、第2の装置102(b)に、そして、その対応する第2のオーディオ信号108(b)に対応する。
各音声処理パイプラインインスタンス116は、受信オーディオ信号108を処理するように構成される順序づけられた一連のパイプライン処理コンポーネントを有する。第1の音声処理パイプラインインスタンス116(a)は第1のオーディオ信号108(a)及び対応する第1のメタデータ110(a)を処理し、それは第1の装置102(a)から受信される。第2の音声処理パイプラインインスタンス116(b)は第2のオーディオ信号108(b)及び対応する第2のメタデータ110(b)を受信して処理し、それは第2の装置102(b)から受信される。各パイプラインインスタンス116は、音声サービス112の異なるサーバによって行うことができる。
各音声処理パイプラインインスタンス116の処理コンポーネントは、受信オーディオ信号108を分析して口頭のユーザ要求106の単語を判定するように構成される自動音声認識(ASR)コンポーネント118を含む。処理コンポーネントはまた、パイプラインインスタンスにおいてASRコンポーネント118の後に置かれる自然言語理解(NLU)コンポーネント120を含む。NLUコンポーネント120は、ASRコンポーネント118によって作成されるユーザ要求106の単語を分析して、ユーザ要求106によって表される意図を判定するように構成される。処理コンポーネントはまた、パイプラインインスタンスにおいてNLUコンポーネント120の後に置かれる応答ディスパッチャ122を含む。応答ディスパッチャ122は、NLUコンポーネント120によって判定される意図に基づいてユーザ要求106の意図に対応する音声応答または他の動作を判定して指定し、応答を対応する装置102に提供するかまたは対応する装置102にユーザ要求106に応答して動作を実行するように指示するように、構成される。
各パイプラインインスタンス116は、対応する装置102からオーディオ信号108を受信して、パイプラインインスタンスが後述するように中止されない限り応答114を同じ装置102に提供する。動作において、パイプラインインスタンス116のうちの1つ以外の全ては完了の前に中止され、その結果パイプラインインスタンス116の単一の1つだけがその対応する装置102に応答114を返す。
各パイプラインインスタンス116の処理コンポーネントは、パイプラインインスタンス116においてASRコンポーネント118の前に置かれる第1のソースアービタ124(a)、パイプラインインスタンス116においてASRコンポーネント118の後、そして、NLUコンポーネント120の前に置かれる第2のソースアービタ124(b)及びパイプラインインスタンス116においてNLUコンポーネント120の後、そして、応答ディスパッチャ122の前に置かれる第3のソースアービタ124(c)を含む。より具体的には、第1のソースアービタ124(a)は、ASRの開始前の時間に呼び出されるように、そして、ASRコンポーネントが出力を作成する第1のソースアービタ124(a)の結果として開始されるように、パイプラインインスタンス116に置かれる。第2のソースアービタ124(b)は、それがASRの完了の後に続き、かつNLUの開始の前の時間に呼び出されるように、パイプラインインスタンス116に置かれる。従って、第2のソースアービタ124(b)は出力を作成するASRコンポーネント118に基づいて開始され、そして、NLUコンポーネント120は出力を作成する第2のソースアービタ124(b)に基づいて開始される。第3のソースアービタ124(c)は、それがNLUの完了の後に続き、かつ応答ディスパッチャ122の呼出しの前の時間に呼び出されるように、パイプラインインスタンス116に置かれる。従って、第3のソースアービタ124(c)は出力を作成するNLUコンポーネント120に基づいて開始され、そして、応答ディスパッチャ122は出力を作成する第3のソースアービタ124(c)に基づいて開始される。
各ソースアービタ124は、1つ以上の基準が満たされるかを判定するように構成され、そこにおいて基準は、パイプラインインスタンス116に対応する装置102が、応答をユーザ要求106に提供するために用いる装置でなければならないかまたはその装置になるか、に関するものであり、そのことを示す。基準は、対応する装置102から受信されるメタデータ110に、少なくとも部分的に基づくことができる。3つのアービタが本明細書においていくつかの実施形態に関連して示されて、論じられているにもかかわらず、他の実施形態は、1つまたは2つ以上のアービタ及び/または、ソースアービタ124(a)、124(b)及び/または124(c)に関連して述べられる機能性のサブセットに類似して機能するかそのサブセットを提供する、他の装置を含むことができる。
1つの例として、第1のメタデータ110(a)は、ユーザ要求106が第1の装置102(a)によって受け取られた時間に対応する第1のタイムスタンプを含むことができ、そして、第2のメタデータ110(b)は、ユーザ要求106が第2の装置102(b)によって受け取られた時間に対応する第2のタイムスタンプを含むことができる。第1のパイプラインインスタンス116(a)の各アービタ124は、(a)第1のタイムスタンプと第2のタイムスタンプの差が閾値より小さく、ユーザ要求106を表す音が各装置102(a)及び102(b)のそれぞれでほぼ同時に受け取られたことを示すと判定すること、及び(b)第1のタイムスタンプが第2のタイムスタンプより大きく、第1の装置102(a)が第2の装置102(b)より後でユーザ発言を受信したかまたは検出したことを示すと判定することに応答して、パイプラインインスタンス116(a)を中止するように構成することができる。これらの例において、タイムスタンプは、前に置いている覚醒単語がそれぞれの装置102によって検出された時間に対応してもよいことに留意されたい。
別の例として、メタデータ110は、1つ以上の信号属性を含むことができる。例えば、信号属性は、オーディオ信号の振幅、オーディオ信号の信号対雑音比、オーディオ信号において検出される音声存在のレベル、覚醒単語がオーディオ信号において検出された信頼度レベル、装置102からのユーザ104の物理的距離、などを示すことができる。第1のパイプラインインスタンス116(a)の各アービタ124は、第1のオーディオ信号108(a)に関する属性を第2のオーディオ信号108(b)の対応する属性と比較して、比較失敗の結果として第1のパイプラインインスタンス116(a)を中止するように、構成することができる。例えば、第1のパイプラインインスタンス116(a)は、第1のオーディオ信号108(a)が第2のオーディオ信号108(b)のそれより低い振幅を有する場合、中止することができる。同様に、第1のパイプラインインスタンス116(a)は、第1のオーディオ信号が第2のオーディオ信号108(b)のものより低い信号対雑音比、音声存在、覚醒単語検出信頼度レベルまたはユーザ距離を有する場合、中止することができる。
具体例として、第1及び第2のオーディオ装置がそれぞれ第1及び第2のオーディオ信号を出力する場合、第1及び第2のオーディオ装置のうちいずれがユーザ発言に応じることになるかを判定することは、
第1のオーディオ信号及び第2のオーディオ信号のうちいずれがより高い強度か振幅を有するかを判定すること、
第1の装置及び第2の装置のうちいずれがより高いレベルの音声存在を検出するか、もしくは、第1のオーディオ信号及び第2のオーディオ信号のうちいずれがより高いレベルの音声存在を表すかを判定すること、
第1のオーディオ信号及び第2のオーディオ信号のうちいずれがより高い信号対雑音比測定値を有するかを判定すること、
第1の装置及び第2の装置のうちいずれがより高いレベルの信頼度を有するトリガー表現を検出するかを判定すること、
第1の装置及び第2の装置のうちいずれがトリガー表現を最初に検出するかを判定すること、
第1の装置及び第2の装置のうちいずれが特定の能力を有するかを判定すること、
第1のオーディオ信号及び第2のオーディオ信号のいずれの中で単語がより高いレベルの信頼度によって認識されるかを判定すること、
第1のオーディオ信号及び第2のオーディオ信号のいずれの中で単語によって表される意図がより高いレベルの信頼度によって判定されるかを判定すること、
第1の装置及び第2の装置のうちいずれがユーザに物理的により近いかを判定すること、
第1の装置及び第2の装置のうちいずれが発言への応答を最初に受信するかを判定すること、または
第1及び第2の装置のうちいずれが発言を最初に受信するかを判定すること
のうち1つ以上を含むことができる。
更に一般的に言えば、各ソースアービタ124は、パイプラインインスタンス116と関連する装置102は応答が提供されなければならないものでないと判定すると即座に、そのパイプラインインスタンス116を中止することができる。処理パイプラインインスタンスの動作が中止されると、中止されたパイプラインインスタンスは応答114を対応する装置102に提供しない。中止されたパイプラインインスタンスはメッセージを装置102に提供して、装置102が応答をユーザ要求に提供するために用いられなくなることを示すことができる。それに応えて、装置は、オーディオ信号108を音声サービス112に提供するのを止めることができる。一例として、メッセージまたは他の指示は、装置がリスニングモードに入らせるか結果としてそうなる命令を備えるデータを含むことができる。リスニングモードは、装置が音声サービス112にオーディオ信号108を送っておらず、装置がその環境をモニタして覚醒単語の更なる発言を検出するモードである。いくつかの場合では、エラー応答を、中止されたパイプラインインスタンスに対応する装置102に返すことができる。いくつかの場合では、装置は、トーンを再生するか、LED照明を引き起こすか、または、装置がユーザ要求に応じる予定でないことを示すいくつかの他の措置をとるように、指示することができる。
音声サービス112は、多くの異なるユーザの住居の音声インタフェース装置102をサポートすることができる。この記述においては、ユーザ104が、互いに関係しており、本明細書において記載されている方法で集合的に扱われるべき一群の装置102を示す構成情報を提供したと仮定する。例えば、ユーザ104は、ユーザの装置102のそれぞれまたは一般に配置されている一組のこのような装置を、単一ユーザまたは家庭のアカウントと関係しているとして登録することができる。より具体的には、ユーザは、音声サービス112を提供し、多くの異なる音声インタフェース装置の動作をサポートするネットワークベースのサービス提供者でのアカウントを維持することができる。アカウントは、家庭の異なるメンバーに対応して複数のユーザプロファイルのための情報を格納するように構成することができる。各ユーザプロファイルは、特定のユーザの特性及び嗜好を示すことができる。ユーザまたは家庭は、多くの異なるタイプの装置をアカウントと関係しているとして登録することができる。アカウントは、支払情報、購入情報、会費、連絡先情報などを格納するように構成することができる。アカウントは、家庭(例えばそれらの位置、それらの関連するプロフィールなど)内で音声インタフェース装置について情報を格納するように構成することもできる。
本明細書において記載されている動作は、このような方法で互いに関連付けられた一群の装置102に関して実行される。更にまた、本明細書における記述は2つの装置102の文脈で与えられるが、いかなる数の2つ以上の装置102も用いることができて、同様に扱うことができる。
音声サービス112は、「クラウド」サービスと呼ばれることのあるような、インターネットを介して維持されて、アクセス可能な、1つ以上のネットワークアクセス可能なコンピューティングプラットフォームの一部でもよい。概して、音声インタフェース装置102と音声サービス112の間の通信は様々な形のデータ通信ネットワークの組合せによって行うことができ、その中にはローカルエリアネットワーク、広域ネットワーク及び/または公共インターネットを含み、そして、それはWi−Fiネットワーク、ブルートゥースネットワーク及びセルラ通信ネットワークを含む様々な形の無線ネットワークを含むことができる。
図2は、複数の音声インタフェース装置102が同じユーザ発言を処理して、それに応答することを試みることができる環境において、発言、例えばユーザ要求106に応答を提供する、例示方法200を示す。図2の動作は、図1に図示される音声サービス112などの、装置102に対するサポートを提供する1つ以上のサーバ及び/またはネットワークサービスの1つ以上の音声処理パイプラインインスタンス116によって、集合的に行うことができる。
動作202は、第1の装置102(a)によって作成される第1のオーディオ信号108(a)を受信することを含み、そこにおいて、第1のオーディオ信号108(a)は第1のユーザ発言を表す。動作202は、第1のオーディオ信号108(a)と関連する第1のメタデータ110(a)を受信することも含む。図1の文脈において、第1のオーディオ信号108(a)及び第1のメタデータ110(a)は、第1の処理パイプラインインスタンス116(a)によって受信することができる。メタデータ110は上記の通りに各種の属性を含むことができ、それは、対応するオーディオ信号に、オーディオ信号を提供する装置に、及び/またはユーザ104に関係し得る。
動作204は第2の装置102(b)によって作成される第2のオーディオ信号108(b)を受信することを含み、そこにおいて、第2のオーディオ信号108(b)は第2のユーザ発言を表す。動作204は、第2のオーディオ信号108(b)と関連する第2のメタデータ110(b)を受信することも含む。図1の文脈において、第2のオーディオ信号108(b)及び第2のメタデータ110(b)は、第2の処理パイプラインインスタンス116(b)によって受信することができる。第1の処理パイプラインインスタンス116(a)及び第2の処理パイプラインインスタンス116(b)は、音声サービス112の異なるサーバによって行うことができる。すなわち、各装置102は、音声サービス112の異なるサーバと通信し、それらからサポートを受けることができる。
特定の実施形態では、第1のメタデータ110(a)は、ユーザ発言が受け取られた第1の時間またはユーザ発言の前の覚醒単語が受け取られた第1の時間を示す、第1のタイムスタンプを含むことができる。同様に、メタデータ110(b)は、ユーザ発言が受け取られた第2の時間またはユーザ発言の前の覚醒単語が受け取られた第2の時間を示す、第2のタイムスタンプを含むことができる。
動作206は、第1及び第2のオーディオ信号108(a)及び108(b)が受け取られた第1及び第2の装置102(a)及び102(b)が、同じユーザか家庭のアカウントと関係しているかについて判定することを含む。そうでない場合には、動作208が実行され、オーディオ信号108(a)及び108(b)の両方ともを処理してそれに応答し、そこにおいて、各装置102(a)及び102(b)はそのそれぞれ受け取ったユーザ発言に応答して音声応答または他の動作を提供するために用いる。
第1及び第2の装置102(a)及び102(b)が同じユーザまたは家庭のアカウントと関係している場合、動作210が実行される。装置102(a)及び102(b)のいずれかまたは両方ともに対応する処理パイプラインインスタンスの中で複数回実行することができる動作210は、第1及び第2のオーディオ信号が同じユーザ発言を表すかについて判定することを含む。いくつかの実施形態では、これは、第1及び第2のオーディオ信号と関連する第1及び第2のタイムスタンプをそれぞれ比較することによって判定することができる。より具体的には、第1及び第2のタイムスタンプの差は、算出することができて、閾値と比較することができる。差が閾値より小さい場合、第1及び第2のオーディオ信号は同じ発言を表すと宣言される。差が閾値を越える場合、第1及び第2のオーディオ信号は異なる発言を表すと宣言される。
動作210は、第1及び第2のオーディオ信号108(a)及び108(b)が同じ発言を表すかどうかを判定するために、他の基準を使用することもできる。例えば、オーディオ信号は、それらが互いに類似しているかどうかを判定するために、互いに比較することができる。具体的には、動作210は、第1及び第2のオーディオ信号108(a)と108(b)の間の相互相関を算出することを含むことができる。信号間の強い相関がある場合、特に相互相関が予め定められた閾値を超える場合、信号は同じ発言を表すと宣言される。別の例として、第1及び第2のオーディオ信号108(a)及び108(b)に関するASR結果は、比較して、オーディオ信号が単語の一致するシーケンスを表すかどうかを判定することができる。2つのオーディオ信号のためのASR結果が同一であるか類似している場合、2つのオーディオ信号は同じ発言を表すために考慮することができる。更に別の例として、第1及び第2のオーディオ信号108(a)及び108(b)に関するNLU結果は、互いに比較することができる。NLU結果が、第1及び第2のオーディオ信号108(a)及び108(b)に対応する音声が共通の意図を表すことを示す場合、2つのオーディオ信号は同じ発言を表すと見なすことができる。
動作210は、記載されている基準の1つ以上を使用することができる。例えば、オーディオ信号は、同じユーザ発言を表すと宣言されるためには基準の2つ以上を満たすことが必要とされてもよい。更にまた、予め定められた量より多く変化する関連するタイムスタンプを有する信号は、信号のいかなる類似点にも、信号に関するASR結果にも、または信号に関するNLU結果にも関係なく、2つの異なるユーザ発言を表すと見なすことができる。
動作210が、第1及び第2のオーディオ信号108(a)及び108(b)が同じユーザ発言を表さないと判定する場合、動作208が実行されてオーディオ信号の両方ともを処理してそれに応答し、そこにおいて、各装置102(a)及び102(b)はそのそれぞれ受け取ったユーザ発言に応答して音声応答または他の動作を提供するために用いる。
第1及び第2のオーディオ信号108(a)及び108(b)が同じユーザ発言を表すと動作210が判定する場合、動作212が実行されて、対応する装置102(a)と102(b)の間を調停して、装置のうちいずれが装置102(a)及び102(b)の両方ともによって検出されて提供された単一ユーザ発言に応答を提供することになるかについて判定する。動作212は、各オーディオ信号108のためのメタデータ110によって示される比較属性を含むことができる。オーディオ信号108が属性の最も強いセットを有する装置は、調停の勝者として選ばれる。
第1の装置102(a)が調停に勝つ場合、動作214の処理が実行されて、第1のオーディオ信号108(a)に応答し、それは第1のオーディオ信号108(a)によって表されるユーザコマンドに第1の装置102(a)によって適切な応答を作成することを含む。動作216は、第2のオーディオ信号108(b)の処理をキャンセルすること、及びそうしなければ第2のオーディオ信号108(b)に基づいて提供された可能性のあるいかなる応答もキャンセルすることを含み、その中には、そうしなければ装置102(b)によってなされた可能性のあるいかなる応答も含む。いくつかの実装において、装置102(b)にメッセージが送信されて、装置102(b)が音声サービス112からの更なる応答を期待しないように知らせる。動作214及び216が並列に、または例示したものとは異なる順序で実行できることに留意されたい。例えば、動作216は、動作214の前に実行することができる。
第2の装置102(b)が調停に勝つ場合、動作218の処理が実行されて、第2のオーディオ信号108(b)に応答し、それは第2のオーディオ信号108(b)によって表されるユーザコマンドに第2の装置102(b)によって適切な応答を作成することを含む。動作220は第1のオーディオ信号108(a)の処理をキャンセルすること、及びそうしなければ第1のオーディオ信号108(a)に基づいて提供された可能性のあるいかなる応答もキャンセルすることを含み、その中には、そうしなければ第1の装置102(a)によってなされた可能性のあるいかなる応答も含む。いくつかの実装において、装置102(a)にメッセージが送信されて、装置102(a)が音声サービス112からの更なる応答を期待しないように知らせることができる。動作218及び220が並列に、または例示したものとは異なる順序で実行できることに留意されたい。例えば、動作220は、動作218の前に実行することができる。
調停動作212は1つには少なくとも第1及び第2のメタデータ110(a)及び110(b)に基づいて実行することができ、それはそれぞれ第1及び第2のオーディオ信号108(a)及び108(b)に関する1つ以上の属性を含むことができる。メタデータ110は、前述のタイムスタンプに加えて、対応する装置102に対するユーザ104の近接度を示すことができる。例えば、装置102は、マイクロホンアレイの空間的に分離されたマイクロホン素子によって作成されるマイクロホン信号に基づいて音源定位(SSL)を実行する能力を有することができる。SSLは、ユーザ104の音声に対応する受け取った音に基づいてユーザ104の距離を判定するように行うことができる。調停動作212は、装置102(a)及び102(b)のうちいずれがユーザ104に物理的に、または、音響的に最も近いかについて判定すること、及びユーザ要求106に応答を提供するために最も近い装置を選択することを含むことができる。
あるいは、各装置102は、装置に対するユーザの実際の距離測定のためのプロキシとして使うことができる他のメタデータを提供することができる。例えば、オーディオ信号108と関連するメタデータ110はオーディオ信号108の振幅を含むことができ、そして、動作212は最高の振幅を有するオーディオ信号108を出している装置102を選択することを含むことができる。メタデータ110はオーディオ信号108において検出される人間の音声存在のレベルを含むことができるかまたは示すことができ、そして、動作212は検出される音声存在の最高のレベルを有するオーディオ信号108を出している装置102を選択することを含むことができる。同様に、メタデータはオーディオ信号108の信号対雑音比を含むことができるかまたは示すことができ、そして、動作212は最高の信号対雑音比を有するオーディオ信号108を出力している装置102を選択することを含むことができる。別の例として、メタデータ110は覚醒単語または他のトリガー表現が装置102によって検出された信頼度のレベルを含むことができるかまたは示すことができ、そして、動作212は最高レベルの信頼度を有するトリガー表現を検出した装置102を選択することを含むことができる。更に別の例として、メタデータ110はオーディオ信号を提供する装置102によってトリガー表現が検出された時間を示すタイムスタンプを含むことができ、そして、動作212は最も初期のタイムスタンプと関連するオーディオ信号を出している装置102を選択することを含むことができる。
特定の実施形態では、メタデータはオーディオ信号を提供した装置の特別な能力、例えば全ての装置が有するというわけではない専門能力を示すことができ、そして、動作212はユーザ要求106に応じることができる装置102ののうちの1つを選択することを含むことができる。例えば、第1の装置102(a)はビデオを再生することができる一方で第2の装置102(b)は再生できなくてもよい。ビデオを再生するというユーザ要求に応答して、動作212は、第2の装置102(b)が要求された動作または活動をサポートしていないという理由で、第1の装置102(a)を選択することができる。
メタデータ110はいくつかの場合では、ユーザ要求106に応じなければならない装置102のうちの1つの特定のユーザ指定を示すことができる。例えば、ユーザ要求そのものは装置102のうちの1つを言葉で識別することができ、または、ユーザは前もって装置を相対的な優先権を有するように構成することができ、その結果、装置102のうちの1つがユーザ要求に応じるために用いられる。動作212は、この場合、ユーザ要求106に応じるようにユーザが指定している装置を選択することを含むことができる。
動作212は、別の実施例として、装置102のうちいずれが最初にユーザ要求106への応答114を受信するかに部分的に基づくことができ、それによって、応答114を最初に受信する装置102が選択されて応答114を示すかまたは実行し、一方で他の装置はそれが受信する応答を無視するかまたはキャンセルする。
メタデータ110は、対応する装置102が最後に作動中だった時間を示すことができる。装置102は、それが音声応答を提供して、音楽を再生して、通知を提供して、動作を実行するなどの場合に、作動中であると見なすことができる。動作212はこの場合、直近に作動中だった装置を選択することを含むことができる。
いくつかの場合では、動作212は、新規なユーザ発言が装置102のうちの1つが応答したその前のユーザ発言に関する要求であると判定すること及び、同じ装置102を新規なユーザ発言に応じるように選択することを含むことができる。例えば、その前のユーザ発言は、第1の装置102(a)が応答した気象レポートに対する要求であった場合がある。新規なユーザ発言は、天気に関するより具体的な要求、例えば5日間の予報に対する要求であり得る。その前の関連する要求が第1の装置102(a)によって応答されたので、動作208は第1の装置102(a)を関連する新規な要求に応答するように選択することもできる。
いくつかの場合では、動作208は、ユーザ要求106が装置102のうちの1つによって現在実行されている活動に関すると判定することと、同じ装置102を要求106に応じるように選択することを含むことができる。例えば、第1の装置102(a)は音楽を再生している可能性があり、そして、ユーザ要求は「停止」コマンドを含み得る。ユーザ要求は第1の装置102(a)の現在の活動に関係すると解釈することができ、従って、第1の装置102(a)が「停止」要求に応じなければならない装置として選択される。
いくつかの実装において、動作212は、他のメタデータ、例えば各処理パイプラインインスタンス116の中で作成されるメタデータに基づいてもよい。例えば、パイプラインインスタンス116のASRコンポーネント118は、ASRの結果に関してASR信頼度スコアまたはレベルを作成することができる。動作212は、最高のASR信頼度レベルが作成された装置102を選択することを含むことができる。同様に、NLUコンポーネント120は、NLU結果に関してNLU信頼度スコアまたはレベルを作成することができる。動作212は、最高のNLU信頼度レベルが作成された装置102を選択することを含むことができる。
更に一般的にいえば、動作212は、複数のタイプのメタデータ及び他の情報を含む複数の基準に基づいてもよい。例えば、各基準はメタデータの特定の項目に関することができ、その基準は装置102ごとにコンポジットメタデータスコアを作成するために重み付けすることができ、そして、最高のメタデータスコアを有する装置102はユーザ要求106に応答する装置として選択することができる。
図1に示される実装に関して、各パイプラインインスタンス116はアービタ124のいくつかのインスタンスを実施し、そこにおいて、各アービタインスタンス124は動作210及び212に類似するか同一の動作を実施する。しかしながら、各パイプラインインスタンス116が単一の対応する装置102と関係しているので、個々のパイプラインインスタンス116の中のアービタ124は、処理がそのパイプラインインスタンスの中で、そして、対応する装置102に関して継続しなければならないかどうかを判定するだけであり、他のパイプラインインスタンス116または他の装置102のいずれに関してもいかなる直接動作も行わない。別の形で述べるなら、各アービタ124は、それが含まれるパイプラインインスタンスの処理を中止するかまたはキャンセルするために動作することができるのであり、異なる装置102と関係している可能性のある他のいかなるパイプラインインスタンス116の処理も中止するかまたはキャンセルすることはない。
ユーザ要求106を処理する異なるパイプラインインスタンスは、通常は互いに同期しない。従って、パイプラインインスタンス116のうちの1つはパイプラインインスタンスのもう一方が開始される前に、そのコンポーネントまたは動作のうち1つ以上を進行してしまっていることがあり得る。同様に、単一のユーザ要求106を処理している2つのパイプラインインスタンス116は、音声サービスによるオーディオ信号108の異なる到着時間のため、異なる時間に開始してしまっていることがあり得る。いかなる特定の時間にも、各パイプラインインスタンスは、その動作の異なる1つに進行してしまっていることがあり得る。
単一の音声インタフェース装置102と関係している個々のパイプラインインスタンス116の中で、アービタ124は、現在利用可能である情報に基づいて続行/中止の決定を行う。いくつかの場合では、関連する装置102によって供給されるメタデータだけしか現在利用可能でない場合がある。他の場合では、他のパイプラインインスタンス116と関連する他の装置102と関連するメタデータが比較のために使用可能でもよい。ASR及びNLUに関する信頼度スコアなどのメタデータは、各パイプラインインスタンスの中の進展次第で、所定時間に利用可能であることも利用可能でないこともある。
図3は例示方法300を示し、それぞれ対応する音声インタフェース装置102により提供される複数の受信オーディオ信号108のそれぞれに関して実行することができる一連の動作を説明する。方法300は、図1の各音声処理パイプラインインスタンス116によって実行される。方法300は、対応する音声インタフェース装置102からオーディオ信号108を受信することに応答して、開始される。説明のため、方法300によって分析されているオーディオ信号は、「対象」オーディオ信号302と呼ぶこととする。方法300の他のインスタンスによって並行して分析される、他の装置102により提供されるオーディオ信号は、「他の」オーディオ信号と呼ぶこととする。同様に、対象オーディオ信号302と関連するメタデータは、対象装置メタデータ304と呼ぶこととする。オーディオ対象オーディオ信号302を出力している音声インタフェース装置102は、対象装置と呼ぶこととする。
動作306は、口頭のユーザ要求106などのユーザ発言を表す対象オーディオ信号302を受信することを含む。動作306はまた、対象装置メタデータ304を受信することを含む。対象装置メタデータ304は、図2の動作210及び212に関して上記で説明したように、対象オーディオ信号302の属性、例えば信号強度、検出音声レベル、信号対雑音比などを含むことができる。対象装置メタデータ304は、装置102からのユーザ104の物理的距離、ユーザ発言が受け取られたか覚醒単語が検出された時間に対応するタイムスタンプ、構成情報、接続性情報などの情報を含むことができる。
対象オーディオ信号302及び対象装置メタデータ304を受信することに応答して実行される動作308は、対象装置メタデータ304を方法300の複数のインスタンスにアクセス可能な、例えば音声サービス112の複数サーバ及び多重処理パイプラインインスタンス116にアクセス可能である記憶場所に、キャッシュとして格納することを含む。方法300の全てのインスタンスは、各インスタンスが他のインスタンスによってキャッシュに登録されるメタデータにアクセスすることが可能であるように、共通の記憶場所にデータをキャッシュとして格納する。
オーディオ信号302及び装置メタデータ304を受信することに応答してまた実行される動作310(a)は、二重の調停を実行することを含む。概して、方法300の異なる位置で実行される類似または同一の動作310(a)、310(b)及び310(c)は、以前に方法300の他のインスタンスによってキャッシュに登録された他のオーディオ信号のメタデータと比較して対象オーディオ信号302に関する対象装置メタデータ304及び他のメタデータを評価することを含む。評価は、対象装置及び他の装置のそれぞれの間において、対象装置が対象オーディオ信号302によって表される発言に応じなければならないかどうかを判定するために、実行される。そうでない場合には、動作312が実行されて対象装置に対応するパイプラインインスタンスを中止し、もうそれ以上、方法300の動作が対象オーディオ信号302に関して実行されないことを意味する。動作312はまた、パイプラインインスタンスが終了されてしまったこと、及び対象装置が対象オーディオ信号302への応答を期待してはならないことを対象装置に通知することを含むことができる。いくつかの場合では、動作312はまた、音声サービスに対象オーディオ信号302を送信するのを止めるように対象装置に指示することを含むことができる。
図4は、動作310(a)、310(b)及び310(c)を実施するために用いることができる例示方法400を説明する。方法400の動作402は、対象オーディオ信号302の対象装置メタデータ304を取得することを含む。それから、一組の動作404は、方法300のインスタンスが開始された他のオーディオ信号のそれぞれのために、または、それに関して、実行される。
動作404は、1つ以上の複数の他のオーディオ信号のそれぞれのために、または、それに関して実行されるプログラムループを含み、ここで、用語「他のオーディオ信号」は、対象オーディオ信号以外の各複数のオーディオ信号について参照するために用いる。それぞれの他のオーディオ信号は、他のオーディオ信号を生成したそれ自身のメタデータ及び対応する装置102に関連している。方法300のインスタンスは、各他のオーディオ信号に対して開始されたかまたは開始される。プログラムループ404は他のオーディオ信号の単一の1つに関して実行されると言えるが、但し、述べられるように、中止決定がなされない限り、それは各他のオーディオ信号に対して繰り返される。
動作406は、他のオーディオ信号、例えば以前に他のオーディオ信号と関連する方法300のインスタンスによって取り入れられたメタデータと関連するメタデータを取得することを含む。他のオーディオ信号のメタデータは、装置メタデータ110及び他のオーディオ信号と関連するパイプラインインスタンス116の中で作成される他のあらゆるメタデータなどの、本明細書において記載されているメタデータまたは情報のいずれかを、含むことができる。
動作408は、対象オーディオ信号302及び他のオーディオ信号が同じユーザ発言を表すかどうかを判定することを含む。動作408は、図2の動作210を参照して上述したのと同じ技術を使用して実行することができる。2つのオーディオ信号が同じユーザ発言を表さない場合、もうそれ以上、措置は他のオーディオ信号に関してとられず、そして、一組の動作404が他のオーディオ信号の異なる1つに対してブロック410によって示されるように続けられる。
2つのオーディオ信号が同じユーザ発言を表す場合、動作412が実行される。動作412は、方法300の別のインスタンスがその関連する装置102にユーザ発言に応じることをすでにコミットしたかどうかを判定することを含む。そうである場合は、動作414が実行されて、対象オーディオ信号と関連する方法300のインスタンスを中止する。方法300を中止することは、対象オーディオ信号302に関してもうそれ以上は措置がとられず、そして、応答が対象装置によって提供されない、ということを意味する。加えて、ループ404が終了する。
別の装置がユーザ発言に応じることをまだコミットされていない場合、動作416が実行されて、1つ以上の中止基準が現在対象オーディオ信号及び他のオーディオ信号が利用できるメタデータによって満たされるかどうかを判定する。中止基準は、図2の動作210を参照して上記で説明したように、対象オーディオ信号及び他のオーディオ信号のメタデータの間の関係を含むことができる。1つ以上の基準が満たされる場合、動作414が実行されて、対象オーディオ信号302と関連する方法のインスタンスを中止する。中止基準が満たされない場合、一組の動作404が、ブロック418によって示されるように、他のオーディオ信号の異なる1つのために繰り返される。
図3に戻り、動作310(a)は結果として、中止するかまたは続行するという決定に至る。決定が中止することである場合、対象オーディオ信号の処理は終了され、そして、対象装置は応答をユーザ問い合わせに提供しない。対象装置に、対象オーディオ信号302を送信するのを止めるように指示することができる。
動作310(a)の決定が続行することである場合、対象オーディオ信号302に自動音声認識(ASR)を実行することを含んで、動作314が実行される。ASR314は、対象オーディオ信号302によって表されるいかなるユーザ音声の単語のテキスト表現も作成する。ASRは、ユーザ音声の単語が判定された信頼度のレベルを示しているASR信頼度レベルを作成することもできる。動作316は、オーディオ信号302と関連付けられるASRメタデータとしてASR信頼度レベルをキャッシュに登録することを含む。
ASR314の後、付加的な二重の調停動作310(b)が実行され、それは動作310(a)と類似しているか同一であってもよい。
動作310(b)の決定が中止することである場合、対象オーディオ信号の処理は終了され、対象装置は応答をユーザ問い合わせに提供しない。動作310(b)の決定が続行することである場合、ASR314によって作成される単語のテキスト表現の自然言語理解(NLU)を実行することを含んで、動作318が実行される。動作318は、ユーザ音声によって表されるありそうな意図を判定し、意図が判定された信頼度のレベルを示しているNLU信頼度レベルを作成することもできる。動作320は、オーディオ信号302と関連付けられるNLUメタデータとしてNLU信頼度レベルをキャッシュに登録することを含む。
NLU318の後、更にもう1つの二重の調停動作310(c)が実行され、それは動作310(a)及び310(b)と類似しているか同一であってもよい。動作310(c)の決定が中止することである場合、対象オーディオ信号の処理は終了され、対象装置は応答をユーザ問い合わせに提供しない。
動作310(c)の決定が続行することである場合、動作322が実行されて、対象装置にユーザ問い合わせに応じることをコミットする。このコミットメントは、コミットメントフラグをキャッシュに登録する動作324を実行することによって知らせられ、対象オーディオ信号の処理は、対象オーディオ信号によって表される意図に応答して動作が対象装置にディスパッチされようとしているポイントまで進行したこと、及び、他のオーディオ信号の処理が中止されなければならないことを示す。方法300の他のインスタンスは、それらが二重調停310を実行するにつれてこのフラグを読むことができて、このフラグの存在に基づいてそれ自身を中止することができる。例えば、図4の動作412は、このフラグを検討することによって実行することができる。
動作326は動作をディスパッチすることを含み、それは対象装置への応答を生成して提供することを含むことができる。動作326は、判定されたユーザ要求に応答して他の動作を実行することを含むこともでき、その中には、命令を対象装置102に提供して音声を作り出すことの他に、または、それに加えて、音楽を再生する、音楽再生を停止する、タイマーを開始する、などの動作を実行することを含む。
図5は、検出されたユーザ音声502に応答してオーディオ信号108及び関連メタデータ110を音声サービス112に提供するために、各装置102によって実施することができる例示方法500を説明し、それはユーザ要求106に対応することができる。
動作504は複数の指向性オーディオ信号を作成するためにオーディオビーム形成を実行することを含み、ここで、各指向性オーディオ信号は装置102に対して異なる方向から到来する音を強調する。動作504は、到達時間差(TDOA)技術を使用して実行することができ、例えば、マイクロホンの複数のペアを使用して、音がマイクロホンの間の距離を進む時間に等しい量だけマイクロホンの1つからの信号を遅延させて、それによって、2つのマイクロホンに合わせられる音源を強調する。マイクロホンの異なるペアをこのように用いて、それぞれが異なる方向に対応する複数のオーディオ信号を取得することができる。
動作506は、指向性オーディオ信号の音声の存在を検出する音声活動検出(VAD)を実行することを含む。指向性オーディオ信号の1つの音声存在を検出すると即座に、次の動作がその指向性オーディオ信号に関して実行される。いくつかの実施形態では、図5の次の動作は、最高の音声存在を有する指向性オーディオ信号に関して実行される。
VADは、オーディオ信号の一部を分析してオーディオ信号の信号エネルギー及び周波数分配などの特徴を評価することによって、オーディオ信号の音声存在のレベルを測定する。特徴は、定量化されて、人間の音声を含むことが分かっている基準信号に対応する基準特徴と比較される。比較によって、オーディオ信号の特徴と基準特徴の間の類似度に対応するスコアを作成する。スコアが、オーディオ信号の音声存在の検出あるいはありそうなレベルの表示として使われる。
動作508は、音声活動が検出された指向性オーディオ信号上の、または、最高レベルの音声活動が検出された指向性オーディオ信号上の、覚醒単語検出を実行すること含む。上述のように、定義済み単語、表現または他の音を、次の音声が装置102によって受け取られて処理されることをユーザが意図している信号として使うことができる。
説明する実施形態では、覚醒単語検出は、例えば、キーワードスポッティング技術を使用して行うことができる。キーワードスポッタは、オーディオ信号を評価して、オーディオの定義済み単語または表現が信号を送る存在を検出する関数コンポーネントまたはアルゴリズムである。音声の単語の写しを作るのではなく、キーワードスポッタは、定義済み単語か表現がオーディオ信号において表されたか否かを示すために、真/偽の出力を生成する。
いくつかの場合では、キーワードスポッタは、簡略ASR(自動音声認識)技術を使用することができる。例えば、覚醒単語検出は、隠れマルコフモデル(HMM)認識器を使用することができ、これはオーディオの音響モデリングを実行して、HMMモデルを特定のトリガー表現のための訓練によって作製された1つ以上の参照HMMモデルと比較する。HMMモデルは、単語を一連の状態として表す。概して、オーディオ信号の一部が、そのHMMモデルをトリガー表現のHMMモデルと比較することによって分析され、トリガー表現モデルに対するオーディオ信号モデルの類似性を表す特徴スコアを得る。実際には、HMM認識器は、HMMモデルの異なる特徴に対応する複数の特徴スコアを作成することができる。
覚醒単語検出は、HMM認識器によって作成される1つ以上の特徴スコアを受信するサポートベクターマシン(SVM)分類器を使用することもできる。SVM分類器は、オーディオ信号がトリガー表現を含む可能性を示す信頼度スコアを作成する。
動作510は、近接度検出を実行して装置102からのユーザの距離を判定することを含む。近接度検出は、例えば、二次元のマイクロホンアレイと連動して音源定位(SSL)技術を使用して行うことができる。このようなSSL技術はマイクロホンアレイのそれぞれのマイクロホンで受け取った音の到着時間の差を分析して、受け取った音が生じた位置を判定する。あるいは、装置102は、装置102に対するユーザの位置を判定するためのカメラまたは専用センサを有することができる。
方法500の動作のいずれも、メタデータ110の項目を作成することができる。例えば、VAD506は、人が装置102の近くで話しているという可能性を示す音声存在レベルを作成することができる。VAD506は、信号対雑音比測定値を作成することもできる。覚醒単語は、ユーザ104が覚醒単語を口にしたという可能性に対応する覚醒単語信頼度レベルを作成することができる。覚醒単語検出508は、覚醒単語が検出された時間を示すタイムスタンプを作成することもできる。近接度検出512は、装置102からのユーザ104の距離を示す距離パラメータを作成することができる。
動作512は、オーディオ信号108及びメタデータ110を音声サービス112に送信することを含む。オーディオ信号108は、音声が検出されて覚醒単語が検出された指向性オーディオ信号などの、指向性オーディオ信号の1つを含むことができる。
図6〜8は、記載されている方法が、どのように装置102(a)及び102(b)のいずれか一方がユーザ要求106に応答する結果となり得るかという例を図示する。これらのそれぞれの図において、第1の装置及び関連する第1のパイプラインインスタンスによって実行される動作、ならびに、第2の装置及び関連する第2のパイプラインインスタンスによって実行される動作を示し、動作は上から下に順に示される。集中化したキャッシュとの対話も図示する。各例では、第1及び第2の装置により提供されるオーディオ信号が共通のユーザ発言を表すと仮定する。すなわち、動作408は、記載されている技術を用いて2つのオーディオ信号がおそらく同じユーザ発言を表すと判定する。いくつかの実施形態では、これは、オーディオ信号と関連するタイムスタンプの差が定義済み閾値より小さいことを意味することができる。図6〜8に示されるイベントは、概して図3に示される動作に対応する。
図6は、オーディオ信号が第1及び第2のパイプラインインスタンスによってほとんど同時に受信される状況を表す。この例では、第1の装置により提供されるオーディオ信号は第2の装置により提供されるオーディオ信号より高いメタデータスコアを有すると仮定する。例えば、第1のオーディオ信号の信号対雑音比または信号振幅は、第2のオーディオ信号のそれより高いものであり得る。オーディオ信号及び付随するメタデータがほとんど同時に受け取られるので、第2のパイプラインインスタンスによって実行される第1の調停は第1のオーディオ信号と関連するキャッシュに登録されたメタデータにアクセスすることが可能で、第1のオーディオ信号が第2のオーディオ信号より高いメタデータスコアを有すると判定することが可能である。この判定に基づいて、第2のパイプラインインスタンスはそれ自体を、ASRを開始する前に中止し、取り消し線テキストに示される動作は実行されない。むしろ、第1のパイプラインインスタンスは、完了の動作を行い、応答を第1の装置に提供する。
図7は、第1のパイプラインインスタンスがそのオーディオ信号を受信するより著しく後で、第2のパイプラインインスタンスがそのオーディオ信号を受信する状況を表す。より具体的には、第2のパイプラインインスタンスは、そのオーディオ信号を分析する第1のパイプラインインスタンスのASRコンポーネントの後に、そのオーディオ信号を受信する。図7はまた、第2の装置により提供されるオーディオ信号は第1のオーディオ装置により提供されるオーディオ信号より高いメタデータスコアを有する仮定する。この場合、第1のパイプラインインスタンスによって実行される第1の調停は第2のオーディオ信号に関していかなるキャッシュに登録されたメタデータにもアクセスすることが可能ではなく、その理由は、第2のオーディオ信号はまだ到着していないからである。むしろ、第1のパイプラインインスタンスの第2の調停は、第2のオーディオ信号と関連するキャッシュに登録されたメタデータにアクセスすることが可能で、そのポイントで第1のパイプラインインスタンスを中止する。この例での第2のパイプラインインスタンスは、完了へと続き、応答を第2の装置に提供する。
図8は、第1のパイプラインインスタンスがそのオーディオ信号を受信するより著しく後で、第2のパイプラインインスタンスがそのオーディオ信号を受信する状況を表す。この場合、第2のパイプラインインスタンスは、第1のパイプラインインスタンスがユーザ発言に応じることをすでにコミットした後に、第2のオーディオ信号を受信する。この場合、第2のパイプラインインスタンスによって実行される第1の調停は、第2のオーディオ信号が第1のオーディオ信号より高いメタデータスコアと関連していた可能性がある場合であっても、第1のパイプラインインスタンスがユーザ発言に応じることをすでにコミットしており、ASRを実行する前にそれ自体を中止する、と判定する。
図9は、例示音声インタフェース装置102の関連するコンポーネントを示す。音声インタフェース装置102は、ユーザ104とのオーディオ対話を容易にするマイクロホンアレイ902及び1つ以上のオーディオスピーカ904を有する。マイクロホンアレイ902は、音声インタフェース装置102(例えばユーザ104によって口にされる音)の環境からのオーディオを表すマイクロホンオーディオ信号を作成する。マイクロホンアレイ902によって作成されるマイクロホンオーディオ信号は、指向性オーディオ信号を含むことができるかまたは指向性オーディオ信号を作成するために用いることができ、ここで、各指向性オーディオ信号はマイクロホンアレイ902に対する異なる半径方向からのオーディオを強調する。
音声インタフェース装置102が1つ以上の統合されたスピーカ904を有するとして説明しているが、他の実施形態で、音声インタフェース装置102はスピーカを含まなくてもよい。例えば、音声インタフェース装置102は、ユーザがコマンドを出すために話すマイクロホン装置を含むことができるか、またはテレビジョンなどの別の電気機器への接続のための装置を含むことができる。一体化したスピーカの代わりに、このような実施形態は、スピーカ及び異なるタイプの専用のスピーカコンポーネントを備えている他の音声インタフェース装置を含む、他の装置のスピーカ能力を使用することができる。1つの例として、音声インタフェース装置102は、外部スピーカを駆動するオーディオ出力信号を作成することができる。別の例として、音声インタフェース装置102は、ブルートゥース接続などの無線データ接続によって外部スピーカを操作するかまたは制御することができる。他の状況では、音声インタフェース装置102からよりはむしろ音声サービス102からオーディオ信号及び他の指示を受け取るスピーカ装置と連動して、音声インタフェース装置102を用いることができる。この場合、図1の応答114は、音声インタフェース装置102に対してではなく、例えばスピーカ装置に対して提供することができる。
音声インタフェース装置102は、処理ユニット906及び関連するメモリ908を含むことができる。処理ユニット906は1つ以上のプロセッサを含むことができ、それは汎用プロセッサ、専門プロセッサ、処理コア、デジタル信号プロセッサなどを含むことができる。音声インタフェース装置102の構成に応じて、メモリ908は、一種の非一時的コンピュータ記憶媒体でもよく、揮発性及び不揮発性のメモリを含むことができる。メモリ908は、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術を含むことができるが、これに限定されるものではない。メモリ908は、取り外し可能であるか着脱可能なメモリを含むことができ、ネットワークアクセス可能メモリを含むこともできる。メモリ908は、フラッシュメモリドライブなどの携帯用記憶媒体を含むことができる。
メモリ908は、処理ユニット906によって実行可能であるいかなる数のソフトウェアコンポーネントも格納するために用いることができる。メモリ908に格納されるソフトウェアコンポーネントは、音声インタフェース装置102内にある、そしてそれに連結したハードウェア及びサービスを管理するように構成される、オペレーティングシステム910を含むことができる。加えて、メモリ908によって格納される実行可能コンポーネントは、マイクロホンアレイ902を使用してオーディオ信号を作成するように構成されるオーディオ処理コンポーネント912を含むことができる。オーディオ処理コンポーネント912は、マイクロホンアレイ902によって生成されるマイクロホンオーディオ信号及び/またはスピーカ904に提供される出力オーディオ信号を処理するための機能を含むことができる。一例として、オーディオ処理コンポーネント912は、マイクロホンアレイ902とスピーカ904の間の音響結合によって発生する音響エコーを低減するための音響エコーキャンセルまたは抑止コンポーネント914を含むことができる。オーディオ処理コンポーネント912は、ユーザ音声以外のマイクロホンオーディオ信号の要素などの受信オーディオ信号の雑音を低減するための、雑音低減コンポーネント916を含むこともできる。
オーディオ処理コンポーネント912は、異なる方向へ焦束される指向性オーディオ信号を生成するように構成される1つ以上の音声ビームフォーマまたはビーム形成コンポーネント916を含むことができる。より具体的には、ビーム形成コンポーネント916はマイクロホンアレイ902の空間的に分離されたマイクロホン素子からオーディオ信号に応答して、音声インタフェース装置102の環境の異なる領域から、または、音声インタフェース装置102と関連する異なる方向から生じている音を強調する指向性オーディオ信号を作成してもよい。ビーム形成コンポーネント916は、いくつかの場合では調停において用いることができるメタデータを作成することができる。例えば、ビーム形成コンポーネント916は、各指向性オーディオ信号に対応する音声活動レベルの信号強度を示すことができる。
メモリ908に格納されて、プロセッサ906によって実行される実行可能コンポーネントは、指向性オーディオ信号のうち1つ以上をモニタしてトリガー表現のシステムのユーザ発言を検出する覚醒単語検出コンポーネント920を含むことができる。上述の通り、覚醒単語検出は、例えば、キーワードスポッティング技術を使用して行うことができる。覚醒単語検出コンポーネント920は、覚醒単語が検出された信頼度に対応する、信頼度スコアまたはレベルなどのメタデータを作成することができる。
ソフトウェアコンポーネントは、ビーム形成コンポーネント918によって作成される指向性オーディオ信号の音声存在のレベルをモニタするように構成される音声活動検出器922を含むこともできる。音声存在のレベルは、上記で説明したように調停を目的としたメタデータとして用いることができる。
装置102のソフトウェアコンポーネントは、装置102からのユーザ104の距離を判定するために用いることができる音源定位(SSL)コンポーネント924を含むこともできる。SSLコンポーネント924は、マイクロホンアレイ902のそれぞれのマイクロホンで受け取った音の到着時間の差を分析して、受け取った音が生じた位置を判定するように構成される。例えば、SSLコンポーネント924は到達時間差(TDOA)技術を使用して、音源の位置または方向を判定することができる。判定された位置は、上記で説明したように調停を実行する目的のためのメタデータとして用いることができる。
装置102は、近接度検出コンポーネントまたはシステム926、例えばカメラ、測距装置または装置102に対するユーザ104の位置を判定するために用いる他のセンサを有することができる。ここでも、このようにして作成される位置情報は、調停を目的としたメタデータとして用いることができる。
音声インタフェース装置102はまた、図示しない各種のハードウェアコンポーネント、例えば通信コンポーネント、電力コンポーネント、I/Oコンポーネント、信号処理コンポーネントインジケータ、コントロールボタン、増幅器などを有する。
音声インタフェース装置102は、広域ネットワーク、ローカルエリアネットワーク、構内ネットワーク、公衆ネットワークなどを含む様々なタイプのネットワーク上の音声サービス112との通信のための通信インタフェース928、例えば無線またはWi−Fiネットワーク通信インタフェース、イーサネット通信インタフェース、携帯電話ネットワーク通信インタフェース、ブルートゥース通信インタフェースなどを備えることができる。無線通信インタフェースの場合には、このようなインタフェースは無線トランシーバ及び、適切な通信プロトコルを実装するための付随する制御回路と論理を含むことができる。
図10は、音声サービス112を実施するために用いることができるサーバ1000の関連する論理または関数コンポーネントの例を説明する。概して、音声サービス112は、1つ以上のサーバ1000によって行うことができ、各種の機能は異なるサーバ全体にわたって様々な方法で複製されるかまたは分散される。サーバは、一緒に、または、別々に配置することができ、仮想サーバ、サーババンク及び/またはサーバファームとして構成することができる。本明細書において記載されている機能は、単一の実体または企業のサーバによって提供することができ、あるいは複数の実体または企業のサーバ及び/またはサービスを利用することができる。更にまた、記載されている音声サービスは様々なタイプの機能及びサービスを複数ユーザに提供するより大きな基盤の一部でもよく、本明細書において記載される機能及びサービスには限られていない。
非常に基本的な構成において、例示サーバ1000は、処理ユニット1002及び関連するメモリ1004を含むことができる。処理ユニット1002は1つ以上のプロセッサを含むことができ、それは汎用プロセッサ、専用プロセッサ、処理コア、デジタル信号プロセッサなどを含むことができる。サーバ1000の構成に応じて、メモリ1004は、一種の非一時的コンピュータ記憶媒体でもよく、揮発性及び不揮発性のメモリを含むことができる。メモリ1004は、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術を含むが、これに限定されるものではない。メモリ1004は、取り外し可能であるか着脱可能なメモリを含むことができ、ネットワークアクセス可能メモリを含むこともできる。メモリ1004は、フラッシュメモリドライブなどの携帯用記憶媒体を含むことができる。
メモリ1004は、処理ユニット1002によって実行可能であるいかなる数のソフトウェアコンポーネントも格納するために用いることができる。メモリ1004に格納されるソフトウェアコンポーネントは、サーバ1000内にある、そしてそれに連結したハードウェア及びサービスを管理するように構成される、オペレーティングシステム1006を含むことができる。加えて、メモリ1004によって格納される実行可能ソフトウェアコンポーネントは、音声インタフェース装置102の音声ベースの動作をサポートするサービスコンポーネント1008を含むことができる。サーバ1000は、他のサーバ1000、他のネットワーク化されたコンポーネントと、そして、多くの異なるユーザの住居または他の建物に置くことができる複数の音声インタフェース装置102と通信するための、通信インタフェース1010、例えばイーサネット通信アダプタを備えることもできる。
サービスコンポーネント1008のコンポーネントは、オーディオ処理コンポーネント912によって処理された1つ以上のオーディオ信号を受信して、ユーザ音声によって表される意図または意味を理解するために様々なタイプの処理を実行する。概して、音声コンポーネント1008は、(a)ユーザ音声を表す信号を受信して、(b)信号を分析してユーザ音声を認識して、(c)ユーザ音声を分析してユーザ音声の意味を判定して、(d)ユーザ音声の意味に応答する出力音声を生成するように、構成される。
サービスコンポーネント1008は、受信したオーディオ信号の人間の音声を認識する自動音声認識(ASR)コンポーネント1012を含むことができる。ASRコンポーネント1012は、指向性オーディオ信号において表される単語の写しを作成する。サービスコンポーネント1008は、ユーザ104の認識された音声に基づいてユーザ意図を判定するように構成される自然言語理解(NLU)コンポーネント1014を含むこともできる。NLUコンポーネント1014は、ASRコンポーネント1012により提供される単語ストリームを分析して、単語ストリームの意味の表現を作成する。例えば、NLUコンポーネント1014は、パーサ及び関連する文法規則を使用して、文を分析し、コンピュータによって容易に処理される方法の概念を伝える形式的に定義された原語で、文の意味の表現を作成することができる。意味は、スロット及びスロット値の階層的なセットまたはフレームとして、意味論的に表すことができ、ここで各スロットは意味論的に定義済みの概念に対応する。NLUは、トレーニングデータから生成されて典型的音声の単語の間の統計依存度に影響を及ぼす統計モデル及びパターンを使用することもできる。
サービスコンポーネント1008は、部分的には、スピーカ904でテキストをオーディオに変換して生成するためのテキスト音声変換または音声生成コンポーネント1016によって行うことができる。
サービスコンポーネント1008は、NLUコンポーネント1014で判定されるユーザ音声の意味に応答してユーザ104と音声対話を行う役割を果たす対話管理コンポーネント1018を含むこともできる。対話管理コンポーネント1018は、ユーザ音声の意味を分析して、ユーザ音声に応じる方法を決定するために用いる領域論理を含むことができる。対話管理コンポーネント1018は、異なる情報または話題領域、例えばニュース、交通、天気、やることリスト、買い物リスト、音楽、ホームオートメーション、小売サービスなどに関する規則及び行動を定めることができる。領域論理は、口頭のユーザ文をそれぞれの領域にマップして、対話応答及び/または動作を判定してユーザ発言に応答して実行する役割を果たす。
サービスコンポーネント1008は、応答がユーザ音声を表す受信オーディオ信号に提供されなければならないかどうかについて、上述のように他のオーディオ信号に関してキャッシュに登録されたメタデータに少なくとも部分的に基づいて判定する、アービタコンポーネント1020を含むことができる。
サービスコンポーネント1008は、音声処理パイプラインインスタンス116を形成して、図3の方法300を実行するために用いられる。
メモリ1004は、異なる処理パイプラインインスタンスをインプリメントする複数サーバ1000によってメタデータをキャッシュに登録することができる、メタデータキャッシュ1024を含むことができる。実際には、メタデータキャッシュは、サーバ1000によって行う複数サーバ1000及び複数の音声処理パイプラインインスタンスに、アクセス可能である記憶装置サーバによって、行うことができる。
また上述の事項は、以下の条項を考慮して理解することができる。
1. 第1の音声インタフェース装置から第1のオーディオ信号を受信する第1の音声処理パイプラインインスタンスであって、前記第1のオーディオ信号は音声発言を表し、前記第1の音声処理パイプラインインスタンスはまた覚醒単語が前記第1の音声インタフェース装置によって検出された第1の時間を示す第1のタイムスタンプを受信する、前記第1の音声処理パイプラインインスタンスと、
第2の音声インタフェース装置から第2のオーディオ信号を受信する第2の音声処理パイプラインインスタンスであって、前記第2のオーディオ信号は前記音声発言を表し、前記第2の音声処理パイプラインはまた前記覚醒単語が前記第2の音声インタフェース装置によって検出された第2の時間を示す第2のタイムスタンプを受信する、前記第2の音声処理パイプラインインスタンスと
を含み、
前記第1の音声処理パイプラインインスタンスは、
前記第1のオーディオ信号を分析して前記音声発言の単語を判定するように構成される自動音声認識(ASR)コンポーネントと、
前記第1の音声処理パイプラインインスタンスにおいて前記ASRコンポーネントの後に置かれる自然言語理解(NLU)コンポーネントであって、前記音声発言の前記単語を分析して前記音声発言によって表現される意図を判定するように構成される、前記NLUコンポーネントと、
前記第1の音声処理パイプラインインスタンスにおいて前記NLUコンポーネントの後に置かれる応答ディスパッチャであって、前記音声発言への音声応答を指定するように構成される、前記応答ディスパッチャと、
前記第1の音声処理パイプラインインスタンスにおいて前記ASRコンポーネントの前に置かれる第1のソースアービタであって、(a)前記第1のタイムスタンプと前記第2のタイムスタンプの差によって表される時間の量が閾値より小さいと判定し、(b)前記第1のタイムスタンプが前記第2のタイムスタンプより大きいと判定し、(c)前記第1の音声処理パイプラインインスタンスを中止するように構成される、前記第1のソースアービタと
を含む一連の処理コンポーネントを有する、
システム。
2. 前記第1の音声処理パイプラインインスタンスは、前記第1のオーディオ信号を分析する前記ASRコンポーネントの後に前記第1のオーディオ信号を受信し、
前記一連の処理コンポーネントは、前記第1の音声処理パイプラインインスタンスにおいて前記ASRコンポーネントの後に第2のソースアービタを含み、前記第2のソースアービタは、(a)前記第1のタイムスタンプと前記第2のタイムスタンプの前記差によって表される前記時間の量が前記閾値より小さいと判定し、(b)前記第1のタイムスタンプが前記第2のタイムスタンプより大きいと判定し、(c)前記第1の音声処理パイプラインインスタンスを中止するように構成される、
条項1に記載のシステム。
3. 前記第1の音声インタフェース装置に、前記第1の音声インタフェース装置が前記発言に応答しないことになるという指示を送信するように構成される、条項1に記載のシステム。
4. 前記表示は前記第1の音声インタフェース装置に、前記第1のオーディオ信号を前記第1の音声処理パイプラインインスタンスに提供するのを止めさせ、前記第1の音声インタフェース装置が前記覚醒単語の更なる発言を検出するリスニングモードに入らせるデータを含む、条項3に記載のシステム。
5. 前記第1の音声処理パイプラインインスタンスはまた、前記第1のオーディオ信号の第1の信号属性を受信し、そこにおいて前記第1の信号属性が、
前記第1のオーディオ信号において検出される音声存在のレベル、
覚醒単語が前記第1の音声インタフェース装置によって検出された信頼度、
前記第1のオーディオ信号の振幅、
前記第1のオーディオ信号の信号対雑音比測定値、または、
前記第1の音声インタフェース装置からのユーザの距離
のうち1つ以上を示し、
前記第2の音声処理パイプラインインスタンスはまた、前記第2のオーディオ信号の第2の信号属性を受信し、そこにおいて前記第2の信号属性が、
前記第2のオーディオ信号において検出される音声存在のレベル、
前記覚醒単語が前記第2の音声インタフェース装置によって検出された信頼度、
前記第2のオーディオ信号の振幅、
前記第2のオーディオ信号の第2の信号対雑音比測定値、または、
前記第2の音声インタフェース装置からの前記ユーザの距離
のうち1つ以上を示し、
前記第1のソースアービタは、前記第1の信号属性を前記第2信号属性と比較して、(a)前記ユーザが前記第1のユーザインタフェース装置より前記第2のユーザインタフェース装置により近接していると判定し、及び(b)前記第1の音声処理パイプラインインスタンスを中止するように、更に構成される、
条項1に記載のシステム。
6. 第1の装置によって作成される第1のオーディオ信号を受信することと、
第2の装置によって作成される第2のオーディオ信号を受信することと、
前記第1のオーディオ信号が発言を表すと判定することと、
前記第2のオーディオ信号が前記発言を表すと判定することと、
前記第1のオーディオ信号と関連する1つ以上の第1の属性を受信することと、
前記第2のオーディオ信号と関連する1つ以上の第2の属性を受信することと、
前記1つ以上の第1の属性及び前記1つ以上の第2の属性に少なくとも部分的に基づいて、前記第1の装置が前記発言に応答することになると判定することと
を含む方法。
7. 前記第1の装置によって作成される音声を指定するデータを前記第1の装置に送信することを更に含む、条項6に記載の方法。
8. 前記第1の装置が結果としてリスニングモードに入ることになる命令を含むデータを前記第2の装置に送信することを更に含む、条項7に記載の方法。
9. 前記第1の装置と前記第2の装置の間の関連を示す構成情報を受信すること更に含む、条項6に記載の方法。
10. 前記第1の装置及び前記第2の装置がユーザアカウントと関連していると判定することを更に含む、条項6に記載の方法。
11. 前記1つ以上の第1の属性を受信することは、前記第1の装置によって前記発言と関連付けられる第1の時間を受信することを含み、
前記1つ以上の第2の属性を受信することは、前記第2の装置によって前記発言と関連付けられる第2の時間を受信することを含み、
前記第2のオーディオ信号が前記発言を表すと判定することは、前記第1の時間と前記第2の時間の間の差によって表される時間が閾値より小さいと判定することを含む、
条項6に記載の方法。
12. 前記第1のオーディオ信号上で自動音声認識(ASR)を実行して前記発言の1つ以上の単語を判定することと、
前記発言の前記1つ以上の単語上で自然言語理解(NLU)を実行して前記発言によって表される意図を判定することと
を更に含む、条項6に記載の方法。
13. 前記1つ以上の第1の属性を受信することは、前記第1の装置に対するユーザの近接度を受信することを含む、条項6に記載の方法。
14. 前記第1の装置が前記発言に応答することになると判定することは、
前記第1のオーディオ信号及び前記第2のオーディオ信号のうちいずれがより高い振幅を有するかを判定すること、
前記第1の装置及び前記第2の装置のうちいずれがより高いレベルの音声存在を検出するかを判定すること、
前記第1のオーディオ信号及び前記第2のオーディオ信号のうちいずれがより高い信号対雑音比測定値を有するかを判定すること、
前記第1の装置及び前記第2の装置のうちいずれがより高いレベルの信頼度を有するトリガー表現を検出するかを判定すること、
前記第1の装置及び前記第2の装置のうちいずれが前記トリガー表現を最初に検出するかを判定すること、
前記第1の装置及び前記第2のうちいずれが能力を有するかを判定すること、
前記第1のオーディオ信号及び前記第2のオーディオ信号のいずれの中で単語がより高いレベルの信頼度によって認識されるかを判定すること、または、
前記第1のオーディオ信号及び前記第2のオーディオ信号のいずれの中で単語によって表される意図がより高いレベルの信頼度によって判定されるかを判定すること
のうち1つ以上を含む、条項6に記載の方法。
15. 前記第1の装置が前記発言に応答することになると判定することは、前記第1の装置によって前記発言と関連付けられる第1の時間が、前記第2の装置によって前記発言と関連付けられる第2の時間の前にあると判定することを含む、条項6に記載の方法。
16. 1つ以上のプロセッサと、
前記1つ以上のプロセッサ上で実行されるときに、前記1つ以上のプロセッサに、
第1の装置によって作成される第1のオーディオ信号を受信することと、
第2の装置によって作成される第2のオーディオ信号を受信することと、
前記第1のオーディオ信号が発言を表すと判定することと、
前記第2のオーディオ信号が前記発言を表すと判定することと、
前記第1のオーディオ信号と関連する第1の属性を受信することと、
前記第2のオーディオ信号と関連する第2の属性を受信することと、
前記第1の属性及び前記第2の属性に少なくとも部分的に基づいて、前記第1の装置が前記発言に応答することになると判定することと
を含む動作を行わせるコンピュータ実行可能命令を格納する、1つ以上の非一時的コンピュータ可読媒体と
を含む、システム。
17. 前記第2のオーディオ信号が前記発言を表すと判定することは、前記第1の装置が前記発言を受信する前記第2の装置の定義済み時間の範囲内で前記発言を受信したと判定することを含む、条項16に記載のシステム。
18. 前記第2のオーディオ信号が前記発言を表すと判定することは、前記第1のオーディオ信号と前記第2のオーディオ信号の間の相互相関を算出することを含む、条項16に記載のシステム。
19. 前記第2のオーディオ信号が前記発言を表すと判定することは、前記第1のオーディオ信号及び前記第2のオーディオ信号が単語の一致するシーケンスを表すと判定することを含む、条項16に記載のシステム。
20. 前記第2のオーディオ信号が前記発言を表すと判定することは、
前記第1のオーディオ信号が第1のユーザ音声を表すと判定することと、
前記第2のオーディオ信号が第2のユーザ音声を表すと判定することと、
前記第1のユーザ音声及び前記第2のユーザ音声が共通の意図に対応すると判定することと
を含む、条項16に記載のシステム。
21. 前記第1の装置が前記発言に応答することになると判定することは、
前記第1の装置及び前記第2の装置のうちいずれがユーザに物理的により近いかを判定することと、
前記第1のオーディオ信号及び前記第2のオーディオ信号のうちいずれがより高い信号振幅を有するかを判定することと、
前記第1のオーディオ信号及び前記第2のオーディオ信号のうちいずれがより高い信号振幅を有するかを判定することと、
前記第1のオーディオ信号及び前記第2のオーディオ信号のうちいずれがより高いレベルの音声存在を表すかを判定することと、
前記第1の装置及び前記第2の装置のうちいずれが前記発言への応答を最初に受信するかを判定することと、
前記第1及び第2の装置のうちいずれが前記発言を最初に受信するかを判定することと
のうち1つ以上を含む、条項16に記載のシステム。
本主題は、構造的特徴に特有の言語で説明されているが、添付の特許請求の範囲で定義される本主題が必ずしも上述の特定の特徴に限定されないことを理解されたい。むしろ、特定の特徴は、請求項を実施する例示的な形態として開示される。

Claims (14)

  1. 第1の装置によって作成される第1のオーディオ信号を受信することと、
    第2の装置によって作成される第2のオーディオ信号を受信することと、
    前記第1のオーディオ信号が発言を表すと判定することと、
    前記第2のオーディオ信号が前記発言を表すと判定することと、
    前記第1のオーディオ信号と関連する1つ以上の第1の属性を受信することと、
    前記第2のオーディオ信号と関連する1つ以上の第2の属性を受信することと、
    前記第1の装置と前記第2の装置の間の関連を示す構成情報を受信することと、
    前記構成情報に基づいて、ユーザアカウントとの前記第1の装置及び前記第2の装置の関連を判定することと、
    前記1つ以上の第1の属性前記1つ以上の第2の属性、及び前記ユーザアカウントとの前記関連に少なくとも部分的に基づいて、前記第1のオーディオ信号及び前記第2のオーディオ信号が同一の発言を表すかどうかを判定することと、
    前記第1のオーディオ信号及び前記第2のオーディオ信号が前記同一の発言を表す場合、前記第1の装置が前記発言に応答することになると判定することと
    を含む方法。
  2. 前記第1の装置によって作成される音声を指定するデータを前記第1の装置に送信することを更に含む、請求項1に記載の方法。
  3. 前記第1の装置が結果としてリスニングモードに入ることになる命令を含むデータを前記第2の装置に送信することを更に含む、請求項2に記載の方法。
  4. 前記1つ以上の第1の属性を受信することは、前記第1の装置によって前記発言と関連付けられる第1の時間を受信することを含み、
    前記1つ以上の第2の属性を受信することは、前記第2の装置によって前記発言と関連付けられる第2の時間を受信することを含み、
    前記第2のオーディオ信号が前記発言を表すと判定することは、前記第1の時間と前記第2の時間の間の差によって表される時間が閾値より小さいと判定することを含む、
    請求項1乃至3のいずれかに記載の方法。
  5. 前記第1のオーディオ信号上で自動音声認識(ASR)を実行して前記発言の1つ以上の単語を判定することと、
    前記発言の前記1つ以上の単語上で自然言語理解(NLU)を実行して前記発言によって表される意図を判定することと
    を更に含む、請求項1乃至4のいずれかに記載の方法。
  6. 前記1つ以上の第1の属性を受信することは、前記第1の装置に対するユーザの近接度を受信することを含む、請求項1乃至5のいずれかに記載の方法。
  7. 前記第1の装置が前記発言に応答することになると判定することは、
    前記第1のオーディオ信号及び前記第2のオーディオ信号のうちいずれがより高い振幅を有するかを判定すること、
    前記第1の装置及び前記第2の装置のうちいずれがより高いレベルの音声存在を検出するかを判定すること、
    前記第1のオーディオ信号及び前記第2のオーディオ信号のうちいずれがより高い信号対雑音比測定値を有するかを判定すること、
    第1の装置及び第2の装置のうちいずれがより高いレベルの信頼度を有するトリガー表現を検出するかを判定すること、
    第1の装置及び第2の装置のうちいずれがトリガー表現を最初に検出するかを判定すること、
    前記第1の装置及び前記第2の装置のうちいずれが能力を有するかを判定すること、
    前記第1のオーディオ信号及び前記第2のオーディオ信号のいずれの中で単語がより高いレベルの信頼度によって認識されるかを判定すること、または、
    前記第1のオーディオ信号及び前記第2のオーディオ信号のいずれの中で単語によって表される意図がより高いレベルの信頼度によって判定されるかを判定すること
    のうち1つ以上を含む、請求項1乃至6のいずれかに記載の方法。
  8. 前記第1の装置が前記発言に応答することになると判定することは、前記第1の装置によって前記発言と関連付けられる第1の時間が、前記第2の装置によって前記発言と関連付けられる第2の時間の前にあると判定することを含む、請求項1乃至7のいずれかに記載の方法。
  9. 1つ以上のプロセッサと、
    1つ以上の非一時的コンピュータ可読媒体であって、前記1つ以上のプロセッサ上で実行されるときに、前記1つ以上のプロセッサに、
    第1の装置によって作成される第1のオーディオ信号を受信することと、
    第2の装置によって作成される第2のオーディオ信号を受信することと、
    前記第1のオーディオ信号が発言を表すと判定することと、
    前記第2のオーディオ信号が前記発言を表すと判定することと、
    前記第1のオーディオ信号と関連する第1の属性を受信することと、
    前記第2のオーディオ信号と関連する第2の属性を受信することと、
    前記第1の装置と前記第2の装置の間の関連を示す構成情報を受信することと、
    前記構成情報に基づいて、ユーザアカウントとの前記第1の装置及び前記第2の装置の関連を判定することと、
    前記第1の属性前記第2の属性、及び前記ユーザアカウントとの前記関連に少なくとも部分的に基づいて、前記第1のオーディオ信号及び前記第2のオーディオ信号が同一の発言を表すかどうかを判定することと、
    前記第1のオーディオ信号及び前記第2のオーディオ信号が前記同一の発言を表す場合、前記第1の装置が前記発言に応答することになると判定することと
    を含む動作を行わせるコンピュータ実行可能命令を格納する、前記1つ以上の非一時的コンピュータ可読媒体と
    を含む、システム。
  10. 前記第2のオーディオ信号が前記発言を表すと判定することは、前記第1の装置が前記発言を受信する前記第2の装置の定義済み時間の範囲内で前記発言を受信したと判定することを含む、請求項に記載のシステム。
  11. 前記第2のオーディオ信号が前記発言を表すと判定することは、前記第1のオーディオ信号と前記第2のオーディオ信号の間の相互相関を算出することを含む、請求項に記載のシステム。
  12. 前記第2のオーディオ信号が前記発言を表すと判定することは、前記第1のオーディオ信号及び前記第2のオーディオ信号が単語の一致するシーケンスを表すと判定することを含む、請求項に記載のシステム。
  13. 前記第2のオーディオ信号が前記発言を表すと判定することは、
    前記第1のオーディオ信号が第1のユーザ音声を表すと判定することと、
    前記第2のオーディオ信号が第2のユーザ音声を表すと判定することと、
    前記第1のユーザ音声及び前記第2のユーザ音声が共通の意図に対応すると判定することと
    を含む、請求項に記載のシステム。
  14. 前記第1の装置が前記発言に応答することになると判定することは、
    前記第1の装置及び前記第2の装置のうちいずれがユーザに物理的により近いかを判定することと、
    前記第1のオーディオ信号及び前記第2のオーディオ信号のうちいずれがより高い信号振幅を有するかを判定することと、
    前記第1のオーディオ信号及び前記第2のオーディオ信号のうちいずれがより高い信号対雑音比測定値を有するかを判定することと、
    前記第1のオーディオ信号及び前記第2のオーディオ信号のうちいずれがより高いレベルの音声存在を表すかを判定することと、
    前記第1の装置及び前記第2の装置のうちいずれが前記発言への応答を最初に受信するかを判定することと、
    前記第1及び第2の装置のうちいずれが前記発言を最初に受信するかを判定することと
    のうち1つ以上を含む、請求項に記載のシステム。
JP2018514981A 2015-09-21 2016-09-20 応答を提供するための装置選択 Active JP6671466B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/860,400 2015-09-21
US14/860,400 US9875081B2 (en) 2015-09-21 2015-09-21 Device selection for providing a response
PCT/US2016/052688 WO2017053311A1 (en) 2015-09-21 2016-09-20 Device selection for providing a response

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019158835A Division JP2020016890A (ja) 2015-09-21 2019-08-30 応答を提供するための装置選択

Publications (2)

Publication Number Publication Date
JP2018537700A JP2018537700A (ja) 2018-12-20
JP6671466B2 true JP6671466B2 (ja) 2020-03-25

Family

ID=58282770

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018514981A Active JP6671466B2 (ja) 2015-09-21 2016-09-20 応答を提供するための装置選択
JP2019158835A Pending JP2020016890A (ja) 2015-09-21 2019-08-30 応答を提供するための装置選択

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2019158835A Pending JP2020016890A (ja) 2015-09-21 2019-08-30 応答を提供するための装置選択

Country Status (6)

Country Link
US (2) US9875081B2 (ja)
EP (1) EP3353677B1 (ja)
JP (2) JP6671466B2 (ja)
KR (1) KR102098136B1 (ja)
CN (1) CN108351872B (ja)
WO (1) WO2017053311A1 (ja)

Families Citing this family (367)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8572513B2 (en) 2009-03-16 2013-10-29 Apple Inc. Device, method, and graphical user interface for moving a current position in content at a variable scrubbing rate
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10706096B2 (en) 2011-08-18 2020-07-07 Apple Inc. Management of local and remote media items
US9002322B2 (en) 2011-09-29 2015-04-07 Apple Inc. Authentication with secondary approver
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9922646B1 (en) 2012-09-21 2018-03-20 Amazon Technologies, Inc. Identifying a location of a voice-input device
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278592B2 (en) 2013-06-09 2017-09-07 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
KR102060661B1 (ko) * 2013-07-19 2020-02-11 삼성전자주식회사 통신 방법 및 이를 위한 디바이스
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9721570B1 (en) * 2013-12-17 2017-08-01 Amazon Technologies, Inc. Outcome-oriented dialogs on a speech recognition platform
US11043287B2 (en) * 2014-02-19 2021-06-22 Teijin Limited Information processing apparatus and information processing method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
EP3108342B1 (en) 2014-05-30 2019-10-23 Apple Inc. Transition from use of one device to another
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN110072131A (zh) 2014-09-02 2019-07-30 苹果公司 音乐用户界面
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9812128B2 (en) 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
US9318107B1 (en) 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
WO2016114428A1 (ko) * 2015-01-16 2016-07-21 삼성전자 주식회사 문법 모델을 이용하여 음성인식을 수행하는 방법 및 디바이스
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US9875081B2 (en) 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
CN106572418A (zh) * 2015-10-09 2017-04-19 芋头科技(杭州)有限公司 一种语音助手的扩展设备及其工作方法
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
JP2017117371A (ja) * 2015-12-25 2017-06-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御方法、制御装置およびプログラム
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10509626B2 (en) * 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US10109294B1 (en) * 2016-03-25 2018-10-23 Amazon Technologies, Inc. Adaptive echo cancellation
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670622A1 (en) 2016-06-12 2018-02-12 Apple Inc User interfaces for transactions
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10026403B2 (en) 2016-08-12 2018-07-17 Paypal, Inc. Location based voice association system
US9972320B2 (en) * 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
WO2018066942A1 (en) * 2016-10-03 2018-04-12 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same
US10217453B2 (en) * 2016-10-14 2019-02-26 Soundhound, Inc. Virtual assistant configured by selection of wake-up phrase
US10181323B2 (en) * 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
WO2018084576A1 (en) * 2016-11-03 2018-05-11 Samsung Electronics Co., Ltd. Electronic device and controlling method thereof
US10127908B1 (en) * 2016-11-11 2018-11-13 Amazon Technologies, Inc. Connected accessory for a voice-controlled device
US10332523B2 (en) * 2016-11-18 2019-06-25 Google Llc Virtual assistant identification of nearby computing devices
US20180144740A1 (en) * 2016-11-22 2018-05-24 Knowles Electronics, Llc Methods and systems for locating the end of the keyword in voice sensing
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10565989B1 (en) * 2016-12-16 2020-02-18 Amazon Technogies Inc. Ingesting device specific content
US10032451B1 (en) * 2016-12-20 2018-07-24 Amazon Technologies, Inc. User recognition for speech processing systems
KR102643501B1 (ko) * 2016-12-26 2024-03-06 현대자동차주식회사 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10971157B2 (en) * 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
WO2018147687A1 (en) 2017-02-10 2018-08-16 Samsung Electronics Co., Ltd. Method and apparatus for managing voice-based interaction in internet of things network system
US10467509B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
US9990926B1 (en) * 2017-03-13 2018-06-05 Intel Corporation Passive enrollment method for speaker identification systems
US10403276B2 (en) * 2017-03-17 2019-09-03 Microsoft Technology Licensing, Llc Voice enabled features based on proximity
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
KR101925034B1 (ko) * 2017-03-28 2018-12-04 엘지전자 주식회사 스마트 컨트롤링 디바이스 및 그 제어 방법
CN107122179A (zh) * 2017-03-31 2017-09-01 阿里巴巴集团控股有限公司 语音的功能控制方法和装置
US10373630B2 (en) * 2017-03-31 2019-08-06 Intel Corporation Systems and methods for energy efficient and low power distributed automatic speech recognition on wearable devices
US10748531B2 (en) * 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
US10176807B2 (en) 2017-04-17 2019-01-08 Essential Products, Inc. Voice setup instructions
US10353480B2 (en) 2017-04-17 2019-07-16 Essential Products, Inc. Connecting assistant device to devices
US10355931B2 (en) * 2017-04-17 2019-07-16 Essential Products, Inc. Troubleshooting voice-enabled home setup
KR102392297B1 (ko) * 2017-04-24 2022-05-02 엘지전자 주식회사 전자기기
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770432A1 (en) * 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
CN111343060B (zh) 2017-05-16 2022-02-11 苹果公司 用于家庭媒体控制的方法和界面
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20220279063A1 (en) 2017-05-16 2022-09-01 Apple Inc. Methods and interfaces for home media control
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) * 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10665232B2 (en) * 2017-05-24 2020-05-26 Harman International Industries, Inc. Coordination among multiple voice recognition devices
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10564928B2 (en) 2017-06-02 2020-02-18 Rovi Guides, Inc. Systems and methods for generating a volume- based response for multiple voice-operated user devices
US10395650B2 (en) * 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression
US10334360B2 (en) * 2017-06-12 2019-06-25 Revolabs, Inc Method for accurately calculating the direction of arrival of sound at a microphone array
US10847163B2 (en) * 2017-06-20 2020-11-24 Lenovo (Singapore) Pte. Ltd. Provide output reponsive to proximate user input
US10599377B2 (en) 2017-07-11 2020-03-24 Roku, Inc. Controlling visual indicators in an audio responsive electronic device, and capturing and providing audio using an API, by native and non-native computing devices and services
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
JP6513749B2 (ja) * 2017-08-09 2019-05-15 レノボ・シンガポール・プライベート・リミテッド 音声アシストシステム、サーバ装置、その音声アシスト方法、及びコンピュータが実行するためのプログラム
US10482904B1 (en) 2017-08-15 2019-11-19 Amazon Technologies, Inc. Context driven device arbitration
US10984788B2 (en) * 2017-08-18 2021-04-20 Blackberry Limited User-guided arbitration of speech processing results
US10964318B2 (en) 2017-08-18 2021-03-30 Blackberry Limited Dialogue management
US10497370B2 (en) 2017-08-18 2019-12-03 2236008 Ontario Inc. Recognition module affinity
US11062702B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Media system with multiple digital assistants
US11062710B2 (en) * 2017-08-28 2021-07-13 Roku, Inc. Local and cloud speech recognition
US10777197B2 (en) 2017-08-28 2020-09-15 Roku, Inc. Audio responsive device with play/stop and tell me something buttons
US10546583B2 (en) 2017-08-30 2020-01-28 Amazon Technologies, Inc. Context-based device arbitration
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10957313B1 (en) * 2017-09-22 2021-03-23 Amazon Technologies, Inc. System command processing
US10699706B1 (en) * 2017-09-26 2020-06-30 Amazon Technologies, Inc. Systems and methods for device communications
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
EP3688751B1 (en) * 2017-09-28 2022-12-28 Harman International Industries, Incorporated Method and device for voice recognition
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
KR102417524B1 (ko) * 2017-10-13 2022-07-07 현대자동차주식회사 음성 인식 기반의 자동차 제어 방법
KR102471493B1 (ko) * 2017-10-17 2022-11-29 삼성전자주식회사 전자 장치 및 음성 인식 방법
KR102455199B1 (ko) * 2017-10-27 2022-10-18 엘지전자 주식회사 인공지능 디바이스
US10152966B1 (en) 2017-10-31 2018-12-11 Comcast Cable Communications, Llc Preventing unwanted activation of a hands free device
KR102552486B1 (ko) * 2017-11-02 2023-07-06 현대자동차주식회사 차량의 음성인식 장치 및 방법
US11360736B1 (en) * 2017-11-03 2022-06-14 Amazon Technologies, Inc. System command processing
JP7057647B2 (ja) * 2017-11-17 2022-04-20 キヤノン株式会社 音声制御システム、制御方法及びプログラム
US10482878B2 (en) * 2017-11-29 2019-11-19 Nuance Communications, Inc. System and method for speech enhancement in multisource environments
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10510340B1 (en) * 2017-12-05 2019-12-17 Amazon Technologies, Inc. Dynamic wakeword detection
US10958467B2 (en) 2017-12-06 2021-03-23 Google Llc Ducking and erasing audio from nearby devices
WO2019112625A1 (en) 2017-12-08 2019-06-13 Google Llc Signal processing coordination among digital voice assistant computing devices
CN109903758B (zh) 2017-12-08 2023-06-23 阿里巴巴集团控股有限公司 音频处理方法、装置及终端设备
US10971173B2 (en) * 2017-12-08 2021-04-06 Google Llc Signal processing coordination among digital voice assistant computing devices
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US10536288B1 (en) 2017-12-13 2020-01-14 Amazon Technologies, Inc. Network conference management and arbitration via voice-capturing devices
US10536286B1 (en) * 2017-12-13 2020-01-14 Amazon Technologies, Inc. Network conference management and arbitration via voice-capturing devices
US10536287B1 (en) * 2017-12-13 2020-01-14 Amazon Technologies, Inc. Network conference management and arbitration via voice-capturing devices
US10374816B1 (en) * 2017-12-13 2019-08-06 Amazon Technologies, Inc. Network conference management and arbitration via voice-capturing devices
JP6947004B2 (ja) 2017-12-20 2021-10-13 トヨタ自動車株式会社 車載音声出力装置、音声出力装置、音声出力方法、及び音声出力プログラム
JP6988438B2 (ja) 2017-12-20 2022-01-05 トヨタ自動車株式会社 車載制御装置、制御装置、制御方法、制御プログラム、及び発話応答方法
JP2019117324A (ja) 2017-12-27 2019-07-18 トヨタ自動車株式会社 音声出力装置、音声出力方法、及び音声出力プログラム
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
JP6984420B2 (ja) 2018-01-09 2021-12-22 トヨタ自動車株式会社 対話装置
JP7062958B2 (ja) * 2018-01-10 2022-05-09 トヨタ自動車株式会社 通信システム、及び通信方法
JP2019124977A (ja) 2018-01-11 2019-07-25 トヨタ自動車株式会社 車載音声出力装置、音声出力制御方法、及び音声出力制御プログラム
JP7197272B2 (ja) 2018-01-11 2022-12-27 トヨタ自動車株式会社 音声出力システム、音声出力方法、及びプログラム
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11145298B2 (en) * 2018-02-13 2021-10-12 Roku, Inc. Trigger word detection with multiple digital assistants
US10878824B2 (en) * 2018-02-21 2020-12-29 Valyant Al, Inc. Speech-to-text generation using video-speech matching from a primary speaker
US10425781B1 (en) * 2018-02-22 2019-09-24 Amazon Technologies, Inc. Outputting notifications using device groups
US10425780B1 (en) * 2018-02-22 2019-09-24 Amazon Technologies, Inc. Outputting notifications using device groups
US10616726B1 (en) 2018-02-22 2020-04-07 Amazon Technologies, Inc. Outputing notifications using device groups
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10762900B2 (en) * 2018-03-07 2020-09-01 Microsoft Technology Licensing, Llc Identification and processing of commands by digital assistants in group device environments
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10679629B2 (en) * 2018-04-09 2020-06-09 Amazon Technologies, Inc. Device arbitration by multiple speech processing systems
EP3557439A1 (en) 2018-04-16 2019-10-23 Tata Consultancy Services Limited Deep learning techniques based multi-purpose conversational agents for processing natural language queries
US10896672B2 (en) * 2018-04-16 2021-01-19 Google Llc Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
CN110390931B (zh) * 2018-04-19 2024-03-08 博西华电器(江苏)有限公司 语音控制方法、服务器及语音交互系统
US11145299B2 (en) 2018-04-19 2021-10-12 X Development Llc Managing voice interface devices
US10803864B2 (en) * 2018-05-07 2020-10-13 Spotify Ab Voice recognition system for use with a personal media streaming appliance
US11308947B2 (en) 2018-05-07 2022-04-19 Spotify Ab Voice recognition system for use with a personal media streaming appliance
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US11487501B2 (en) * 2018-05-16 2022-11-01 Snap Inc. Device control using audio data
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
JP2019204025A (ja) * 2018-05-24 2019-11-28 レノボ・シンガポール・プライベート・リミテッド 電子機器、制御方法、及びプログラム
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US10762896B1 (en) 2018-06-25 2020-09-01 Amazon Technologies, Inc. Wakeword detection
CN112640475B (zh) * 2018-06-28 2023-10-13 搜诺思公司 用于将回放设备与语音助理服务相关联的系统和方法
CN110364166B (zh) * 2018-06-28 2022-10-28 腾讯科技(深圳)有限公司 实现语音信号识别的电子设备
US10698582B2 (en) * 2018-06-28 2020-06-30 International Business Machines Corporation Controlling voice input based on proximity of persons
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
KR102025566B1 (ko) * 2018-07-27 2019-09-26 엘지전자 주식회사 인공지능을 이용한 홈어플라이언스 및 음성 인식 서버 시스템과, 이의 제어 방법
JP7159355B2 (ja) 2018-08-23 2022-10-24 グーグル エルエルシー マルチアシスタント環境の特性によるアシスタント応答性の規制
US11514917B2 (en) 2018-08-27 2022-11-29 Samsung Electronics Co., Ltd. Method, device, and system of selectively using multiple voice data receiving devices for intelligent service
KR20200024068A (ko) * 2018-08-27 2020-03-06 삼성전자주식회사 인텔리전트 서비스를 위해, 복수의 음성 데이터 수신 장치들을 선택적으로 이용하는 방법, 장치, 및 시스템
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
NO20181210A1 (en) * 2018-08-31 2020-03-02 Elliptic Laboratories As Voice assistant
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US10878812B1 (en) * 2018-09-26 2020-12-29 Amazon Technologies, Inc. Determining devices to respond to user requests
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10978062B1 (en) * 2018-09-27 2021-04-13 Amazon Technologies, Inc. Voice-controlled device switching between modes based on speech input
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
KR20200052804A (ko) 2018-10-23 2020-05-15 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
KR20200045851A (ko) * 2018-10-23 2020-05-06 삼성전자주식회사 음성 인식 서비스를 제공하는 전자 장치 및 시스템
WO2020085794A1 (en) 2018-10-23 2020-04-30 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11183176B2 (en) * 2018-10-31 2021-11-23 Walmart Apollo, Llc Systems and methods for server-less voice applications
US11145306B1 (en) * 2018-10-31 2021-10-12 Ossum Technology Inc. Interactive media system using audio inputs
US11238850B2 (en) 2018-10-31 2022-02-01 Walmart Apollo, Llc Systems and methods for e-commerce API orchestration using natural language interfaces
US11404058B2 (en) 2018-10-31 2022-08-02 Walmart Apollo, Llc System and method for handling multi-turn conversations and context management for voice enabled ecommerce transactions
US11195524B2 (en) 2018-10-31 2021-12-07 Walmart Apollo, Llc System and method for contextual search query revision
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) * 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11830485B2 (en) * 2018-12-11 2023-11-28 Amazon Technologies, Inc. Multiple speech processing system with synthesized speech styles
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
DE102018221751A1 (de) * 2018-12-14 2020-06-18 BSH Hausgeräte GmbH System und Verfahren zum Betrieb einer Mehrzahl von elektrischen Geräten
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
CN111354336B (zh) * 2018-12-20 2023-12-19 美的集团股份有限公司 分布式语音交互方法、装置、系统及家电设备
US20220130378A1 (en) * 2018-12-27 2022-04-28 Telepathy Labs, Inc. System and method for communicating with a user with speech processing
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN111415657A (zh) * 2019-01-07 2020-07-14 成都启英泰伦科技有限公司 一种去中心化设备、多设备系统及其语音控制方法
US10963385B2 (en) * 2019-01-18 2021-03-30 Silicon Motion Technology (Hong Kong) Limited Method and apparatus for performing pipeline-based accessing management in a storage server with aid of caching metadata with cache module which is hardware pipeline module during processing object write command
KR102584588B1 (ko) 2019-01-21 2023-10-05 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
KR102393876B1 (ko) * 2019-02-06 2022-05-02 구글 엘엘씨 클라이언트-컴퓨팅된 콘텐츠 메타데이터에 기반한 음성 질의 QoS
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
CN111667843B (zh) * 2019-03-05 2021-12-31 北京京东尚科信息技术有限公司 终端设备的语音唤醒方法、系统、电子设备、存储介质
KR20200109140A (ko) * 2019-03-12 2020-09-22 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11482215B2 (en) 2019-03-27 2022-10-25 Samsung Electronics Co., Ltd. Multi-modal interaction with intelligent assistants in voice command devices
CN110136722A (zh) * 2019-04-09 2019-08-16 北京小鸟听听科技有限公司 语音信号处理方法、装置、设备及系统
US11538482B2 (en) * 2019-04-25 2022-12-27 Lg Electronics Inc. Intelligent voice enable device searching method and apparatus thereof
US11657800B2 (en) 2019-04-26 2023-05-23 Lg Electronics Inc. Electronic device with wakeup word determined multi-mode operation
US11120794B2 (en) * 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
EP3888084A4 (en) * 2019-05-16 2022-01-05 Samsung Electronics Co., Ltd. METHOD AND DEVICE FOR PROVIDING A VOICE RECOGNITION SERVICE
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US10904029B2 (en) 2019-05-31 2021-01-26 Apple Inc. User interfaces for managing controllable external devices
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US20200380389A1 (en) * 2019-05-31 2020-12-03 Apple Inc. Sentiment and intent analysis for customizing suggestions using user-specific information
CN113748408A (zh) 2019-05-31 2021-12-03 苹果公司 用于音频媒体控件的用户界面
DK201970533A1 (en) 2019-05-31 2021-02-15 Apple Inc Methods and user interfaces for sharing audio
US10996917B2 (en) 2019-05-31 2021-05-04 Apple Inc. User interfaces for audio media control
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11545148B2 (en) * 2019-06-18 2023-01-03 Roku, Inc. Do not disturb functionality for voice responsive devices
CN110349578A (zh) * 2019-06-21 2019-10-18 北京小米移动软件有限公司 设备唤醒处理方法及装置
CN110347248B (zh) * 2019-06-24 2023-01-24 歌尔科技有限公司 交互处理方法、装置、设备及音频设备
US10841756B1 (en) * 2019-06-27 2020-11-17 Amazon Technologies, Inc. Managing communications sessions based on restrictions and permissions
CN110415694A (zh) * 2019-07-15 2019-11-05 深圳市易汇软件有限公司 一种多台智能音箱协同工作的方法
WO2021021960A1 (en) * 2019-07-30 2021-02-04 Dolby Laboratories Licensing Corporation Multi-device wakeword detection
US20220270601A1 (en) * 2019-07-30 2022-08-25 Dolby Laboratories Licensing Corporation Multi-modal smart audio device system attentiveness expression
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
EP4004909B1 (en) * 2019-07-31 2024-03-06 Sonos Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
CN110517676A (zh) * 2019-08-21 2019-11-29 Oppo广东移动通信有限公司 一种语音唤醒方法及终端、服务器、存储介质
CN110364161A (zh) 2019-08-22 2019-10-22 北京小米智能科技有限公司 响应语音信号的方法、电子设备、介质及系统
US20220343909A1 (en) * 2019-09-06 2022-10-27 Lg Electronics Inc. Display apparatus
CN110660389A (zh) * 2019-09-11 2020-01-07 北京小米移动软件有限公司 语音响应方法、装置、系统及设备
US11176940B1 (en) * 2019-09-17 2021-11-16 Amazon Technologies, Inc. Relaying availability using a virtual assistant
WO2021060570A1 (ko) * 2019-09-23 2021-04-01 엘지전자 주식회사 가전 기기 및 서버
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
KR102629796B1 (ko) * 2019-10-15 2024-01-26 삼성전자 주식회사 음성 인식의 향상을 지원하는 전자 장치
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
WO2021081744A1 (zh) * 2019-10-29 2021-05-06 深圳市欢太科技有限公司 语音信息处理方法、装置、设备及存储介质
CN112908318A (zh) * 2019-11-18 2021-06-04 百度在线网络技术(北京)有限公司 智能音箱的唤醒方法、装置、智能音箱及存储介质
KR20210069977A (ko) * 2019-12-04 2021-06-14 엘지전자 주식회사 기기 제어 방법 및 이를 이용한 제어 가능한 장치
US11295741B2 (en) 2019-12-05 2022-04-05 Soundhound, Inc. Dynamic wakewords for speech-enabled devices
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
CN111091828B (zh) * 2019-12-31 2023-02-14 华为技术有限公司 语音唤醒方法、设备及系统
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
CN111276139B (zh) * 2020-01-07 2023-09-19 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11790902B2 (en) * 2020-02-04 2023-10-17 Amazon Technologies, Inc. Speech-processing system
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
CN111312240A (zh) * 2020-02-10 2020-06-19 北京达佳互联信息技术有限公司 数据控制方法、装置、电子设备及存储介质
US11626106B1 (en) * 2020-02-25 2023-04-11 Amazon Technologies, Inc. Error attribution in natural language processing systems
US11355112B1 (en) * 2020-03-03 2022-06-07 Amazon Technologies, Inc. Speech-processing system
KR20210130024A (ko) * 2020-04-21 2021-10-29 현대자동차주식회사 대화 시스템 및 그 제어 방법
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
KR20210147678A (ko) * 2020-05-29 2021-12-07 엘지전자 주식회사 인공 지능 장치
US11893984B1 (en) * 2020-06-22 2024-02-06 Amazon Technologies, Inc. Speech processing system
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11670322B2 (en) * 2020-07-29 2023-06-06 Distributed Creation Inc. Method and system for learning and using latent-space representations of audio signals for audio content-based retrieval
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11670293B2 (en) * 2020-09-02 2023-06-06 Google Llc Arbitrating between multiple potentially-responsive electronic devices
US11392291B2 (en) 2020-09-25 2022-07-19 Apple Inc. Methods and interfaces for media control with dynamic feedback
CN112201239B (zh) * 2020-09-25 2024-05-24 海尔优家智能科技(北京)有限公司 目标设备的确定方法及装置、存储介质、电子装置
US11798530B2 (en) * 2020-10-30 2023-10-24 Google Llc Simultaneous acoustic event detection across multiple assistant devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
KR20220099831A (ko) * 2021-01-07 2022-07-14 삼성전자주식회사 전자 장치 및 전자 장치에서 사용자 발화 처리 방법
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
US11915708B2 (en) * 2021-03-18 2024-02-27 Samsung Electronics Co., Ltd. Methods and systems for invoking a user-intended internet of things (IoT) device from a plurality of IoT devices
US11882415B1 (en) * 2021-05-20 2024-01-23 Amazon Technologies, Inc. System to select audio from multiple connected devices
US11847378B2 (en) 2021-06-06 2023-12-19 Apple Inc. User interfaces for audio routing
US12046234B1 (en) * 2021-06-28 2024-07-23 Amazon Technologies, Inc. Predicting on-device command execution
CN115602150A (zh) * 2021-07-07 2023-01-13 艾锐势企业有限责任公司(Us) 能够进行语音控制的电子设备、方法、系统、介质及程序
US12014727B2 (en) 2021-07-14 2024-06-18 Google Llc Hotwording by degree
US12021806B1 (en) 2021-09-21 2024-06-25 Apple Inc. Intelligent message delivery
CN113921016A (zh) * 2021-10-15 2022-01-11 阿波罗智联(北京)科技有限公司 语音处理方法、装置、电子设备以及存储介质
US20230419099A1 (en) * 2022-06-28 2023-12-28 International Business Machines Corporation Dynamic resource allocation method for sensor-based neural networks using shared confidence intervals
NO20221245A1 (en) 2022-11-18 2024-05-20 Elliptic Laboratories Asa Communication method and system for electronic devices
US11838582B1 (en) * 2022-12-12 2023-12-05 Google Llc Media arbitration

Family Cites Families (111)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3770892A (en) * 1972-05-26 1973-11-06 Ibm Connected word recognition system
JPS57124626A (en) * 1981-01-23 1982-08-03 Toshiba Corp Cooker
US4531228A (en) * 1981-10-20 1985-07-23 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
US4718092A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition activation and deactivation method
GB9223066D0 (en) * 1992-11-04 1992-12-16 Secr Defence Children's speech training aid
JP3363283B2 (ja) * 1995-03-23 2003-01-08 株式会社日立製作所 入力装置、入力方法、情報処理システムおよび入力情報の管理方法
JP3522954B2 (ja) * 1996-03-15 2004-04-26 株式会社東芝 マイクロホンアレイ入力型音声認識装置及び方法
CA2216224A1 (en) * 1997-09-19 1999-03-19 Peter R. Stubley Block algorithm for pattern recognition
US6314393B1 (en) * 1999-03-16 2001-11-06 Hughes Electronics Corporation Parallel/pipeline VLSI architecture for a low-delay CELP coder/decoder
US20020193989A1 (en) * 1999-05-21 2002-12-19 Michael Geilhufe Method and apparatus for identifying voice controlled devices
JP2001013994A (ja) 1999-06-30 2001-01-19 Toshiba Corp 複数搭乗者機器用音声制御装置、複数搭乗者機器用音声制御方法及び車両
JP2001075594A (ja) * 1999-08-31 2001-03-23 Pioneer Electronic Corp 音声認識システム
US6453290B1 (en) * 1999-10-04 2002-09-17 Globalenglish Corporation Method and system for network-based speech recognition
US6594630B1 (en) * 1999-11-19 2003-07-15 Voice Signal Technologies, Inc. Voice-activated control for electrical device
US6219645B1 (en) * 1999-12-02 2001-04-17 Lucent Technologies, Inc. Enhanced automatic speech recognition using multiple directional microphones
US6591239B1 (en) * 1999-12-09 2003-07-08 Steris Inc. Voice controlled surgical suite
US6895380B2 (en) * 2000-03-02 2005-05-17 Electro Standards Laboratories Voice actuation with contextual learning for intelligent machine control
US6757362B1 (en) * 2000-03-06 2004-06-29 Avaya Technology Corp. Personal virtual assistant
AU2001261344A1 (en) * 2000-05-10 2001-11-20 The Board Of Trustees Of The University Of Illinois Interference suppression techniques
US6725193B1 (en) * 2000-09-13 2004-04-20 Telefonaktiebolaget Lm Ericsson Cancellation of loudspeaker words in speech recognition
JP3838029B2 (ja) 2000-12-18 2006-10-25 セイコーエプソン株式会社 音声認識を用いた機器制御方法および音声認識を用いた機器制御システム
US6662137B2 (en) * 2000-12-19 2003-12-09 Hewlett-Packard Development Company, L.P. Device location discovery by sound
US7996232B2 (en) * 2001-12-03 2011-08-09 Rodriguez Arturo A Recognition of voice-activated commands
KR100438838B1 (ko) * 2002-01-29 2004-07-05 삼성전자주식회사 대화 포커스 추적 기능을 가진 음성명령 해석장치 및 방법
JP4086280B2 (ja) * 2002-01-29 2008-05-14 株式会社東芝 音声入力システム、音声入力方法及び音声入力プログラム
WO2003083828A1 (en) * 2002-03-27 2003-10-09 Aliphcom Nicrophone and voice activity detection (vad) configurations for use with communication systems
JP3715584B2 (ja) 2002-03-28 2005-11-09 富士通株式会社 機器制御装置および機器制御方法
US7319959B1 (en) * 2002-05-14 2008-01-15 Audience, Inc. Multi-source phoneme classification for noise-robust automatic speech recognition
US8244536B2 (en) * 2003-08-27 2012-08-14 General Motors Llc Algorithm for intelligent speech recognition
KR100576736B1 (ko) * 2004-08-21 2006-05-03 학교법인 포항공과대학교 시스톨릭 배열 구조를 가지는 미지 신호 분리 장치
JP4847022B2 (ja) * 2005-01-28 2011-12-28 京セラ株式会社 発声内容認識装置
US7697827B2 (en) * 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US9489431B2 (en) * 2005-10-26 2016-11-08 Cortica, Ltd. System and method for distributed search-by-content
JP4821489B2 (ja) * 2006-08-04 2011-11-24 トヨタ自動車株式会社 ロボット装置及びロボット装置の制御方法
US8977255B2 (en) * 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8625819B2 (en) * 2007-04-13 2014-01-07 Personics Holdings, Inc Method and device for voice operated control
JP5134876B2 (ja) * 2007-07-11 2013-01-30 株式会社日立製作所 音声通信装置及び音声通信方法並びにプログラム
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
US8099289B2 (en) * 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
US8407049B2 (en) * 2008-04-23 2013-03-26 Cogi, Inc. Systems and methods for conversation enhancement
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8983640B2 (en) * 2009-06-26 2015-03-17 Intel Corporation Controlling audio players using environmental audio analysis
US8510103B2 (en) 2009-10-15 2013-08-13 Paul Angott System and method for voice recognition
US9197736B2 (en) * 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
DE102009051508B4 (de) * 2009-10-30 2020-12-03 Continental Automotive Gmbh Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung
US8265341B2 (en) * 2010-01-25 2012-09-11 Microsoft Corporation Voice-body identity correlation
US20110184740A1 (en) * 2010-01-26 2011-07-28 Google Inc. Integration of Embedded and Network Speech Recognizers
JP5411807B2 (ja) * 2010-05-25 2014-02-12 日本電信電話株式会社 チャネル統合方法、チャネル統合装置、プログラム
US10726861B2 (en) * 2010-11-15 2020-07-28 Microsoft Technology Licensing, Llc Semi-private communication in open environments
US9953653B2 (en) * 2011-01-07 2018-04-24 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
US9183843B2 (en) * 2011-01-07 2015-11-10 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
US20130024196A1 (en) * 2011-07-21 2013-01-24 Nuance Communications, Inc. Systems and methods for using a mobile device to deliver speech with speaker identification
JP5289517B2 (ja) * 2011-07-28 2013-09-11 株式会社半導体理工学研究センター センサネットワークシステムとその通信方法
US9148742B1 (en) * 2011-07-29 2015-09-29 Google Inc. Proximity detection via audio
US8660847B2 (en) * 2011-09-02 2014-02-25 Microsoft Corporation Integrated local and cloud based speech recognition
US20130073293A1 (en) * 2011-09-20 2013-03-21 Lg Electronics Inc. Electronic device and method for controlling the same
JP5772448B2 (ja) * 2011-09-27 2015-09-02 富士ゼロックス株式会社 音声解析システムおよび音声解析装置
US8340975B1 (en) 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
JP5866728B2 (ja) * 2011-10-14 2016-02-17 サイバーアイ・エンタテインメント株式会社 画像認識システムを備えた知識情報処理サーバシステム
US20180032997A1 (en) * 2012-10-09 2018-02-01 George A. Gordon System, method, and computer program product for determining whether to prompt an action by a platform in connection with a mobile device
US20130238326A1 (en) * 2012-03-08 2013-09-12 Lg Electronics Inc. Apparatus and method for multiple device voice control
JP2015513704A (ja) * 2012-03-16 2015-05-14 ニュアンス コミュニケーションズ, インコーポレイテッド ユーザ専用自動発話認識
US9117449B2 (en) 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
US9093076B2 (en) * 2012-04-30 2015-07-28 2236008 Ontario Inc. Multipass ASR controlling multiple applications
US20130304476A1 (en) * 2012-05-11 2013-11-14 Qualcomm Incorporated Audio User Interaction Recognition and Context Refinement
KR20130140423A (ko) * 2012-06-14 2013-12-24 삼성전자주식회사 디스플레이 장치, 대화형 서버 및 응답 정보 제공 방법
US9053708B2 (en) * 2012-07-18 2015-06-09 International Business Machines Corporation System, method and program product for providing automatic speech recognition (ASR) in a shared resource environment
US9384736B2 (en) * 2012-08-21 2016-07-05 Nuance Communications, Inc. Method to provide incremental UI response based on multiple asynchronous evidence about user input
US9576574B2 (en) * 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US8600746B1 (en) * 2012-09-10 2013-12-03 Google Inc. Speech recognition parameter adjustment
US9092415B2 (en) * 2012-09-25 2015-07-28 Rovi Guides, Inc. Systems and methods for automatic program recommendations based on user interactions
US20140095172A1 (en) * 2012-10-01 2014-04-03 Nuance Communications, Inc. Systems and methods for providing a voice agent user interface
US20150228274A1 (en) * 2012-10-26 2015-08-13 Nokia Technologies Oy Multi-Device Speech Recognition
US20140278389A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Adjusting Trigger Parameters for Voice Recognition Processing Based on Noise Characteristics
US9477925B2 (en) * 2012-11-20 2016-10-25 Microsoft Technology Licensing, Llc Deep neural networks training for speech and pattern recognition
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
US9185199B2 (en) * 2013-03-12 2015-11-10 Google Technology Holdings LLC Method and apparatus for acoustically characterizing an environment in which an electronic device resides
US9196262B2 (en) * 2013-03-14 2015-11-24 Qualcomm Incorporated User sensing system and method for low power voice command activation in wireless communication systems
IL226056A (en) * 2013-04-28 2017-06-29 Verint Systems Ltd Keyword Finding Systems and Methods by Adaptive Management of Multiple Template Matching Algorithms
US9747899B2 (en) 2013-06-27 2017-08-29 Amazon Technologies, Inc. Detecting self-generated wake expressions
JP2015011170A (ja) * 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置
US9431014B2 (en) 2013-07-25 2016-08-30 Haier Us Appliance Solutions, Inc. Intelligent placement of appliance response to voice command
US9286897B2 (en) 2013-09-27 2016-03-15 Amazon Technologies, Inc. Speech recognizer with multi-directional decoding
US9245527B2 (en) * 2013-10-11 2016-01-26 Apple Inc. Speech recognition wake-up of a handheld portable electronic device
US9600474B2 (en) * 2013-11-08 2017-03-21 Google Inc. User interface for realtime language translation
US9698999B2 (en) 2013-12-02 2017-07-04 Amazon Technologies, Inc. Natural language control of secondary device
US8719032B1 (en) * 2013-12-11 2014-05-06 Jefferson Audio Video Systems, Inc. Methods for presenting speech blocks from a plurality of audio input data streams to a user in an interface
US9311932B2 (en) * 2014-01-23 2016-04-12 International Business Machines Corporation Adaptive pause detection in speech recognition
US9336767B1 (en) * 2014-03-28 2016-05-10 Amazon Technologies, Inc. Detecting device proximities
KR102146462B1 (ko) 2014-03-31 2020-08-20 삼성전자주식회사 음성 인식 시스템 및 방법
US20150364143A1 (en) * 2014-06-12 2015-12-17 Samsung Electronics Co., Ltd. Method and apparatus for transmitting audio data
US9691385B2 (en) * 2014-06-19 2017-06-27 Nuance Communications, Inc. Methods and apparatus for associating dictation with an electronic record
US9338493B2 (en) * 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US20160044394A1 (en) * 2014-08-07 2016-02-11 Nxp B.V. Low-power environment monitoring and activation triggering for mobile devices through ultrasound echo analysis
DE112015003945T5 (de) * 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
US9354687B2 (en) * 2014-09-11 2016-05-31 Nuance Communications, Inc. Methods and apparatus for unsupervised wakeup with time-correlated acoustic events
US9293134B1 (en) * 2014-09-30 2016-03-22 Amazon Technologies, Inc. Source-specific speech interactions
US9693375B2 (en) * 2014-11-24 2017-06-27 Apple Inc. Point-to-point ad hoc voice communication
US9552816B2 (en) * 2014-12-19 2017-01-24 Amazon Technologies, Inc. Application focus in speech-based systems
US10567477B2 (en) * 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
JP6739907B2 (ja) 2015-06-18 2020-08-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器特定方法、機器特定装置及びプログラム
US9811376B2 (en) * 2015-06-29 2017-11-07 Amazon Technologies, Inc. Virtual machine instance migration using a triangle approach
US9787819B2 (en) * 2015-09-18 2017-10-10 Microsoft Technology Licensing, Llc Transcription of spoken communications
US9706300B2 (en) * 2015-09-18 2017-07-11 Qualcomm Incorporated Collaborative audio processing
US9875081B2 (en) 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
KR20170086814A (ko) 2016-01-19 2017-07-27 삼성전자주식회사 음성 인식 기능을 제공하는 전자 장치 및 그 동작 방법
US20180122372A1 (en) 2016-10-31 2018-05-03 Soundhound, Inc. Distinguishable open sounds
US10621980B2 (en) 2017-03-21 2020-04-14 Harman International Industries, Inc. Execution of voice commands in a multi-device system
US10902855B2 (en) 2017-05-08 2021-01-26 Motorola Mobility Llc Methods and devices for negotiating performance of control operations with acoustic signals
US10573171B2 (en) 2017-05-23 2020-02-25 Lenovo (Singapore) Pte. Ltd. Method of associating user input with a device

Also Published As

Publication number Publication date
US20170083285A1 (en) 2017-03-23
JP2020016890A (ja) 2020-01-30
US11922095B2 (en) 2024-03-05
US20180210703A1 (en) 2018-07-26
KR20180042376A (ko) 2018-04-25
EP3353677A1 (en) 2018-08-01
WO2017053311A1 (en) 2017-03-30
CN108351872A (zh) 2018-07-31
KR102098136B1 (ko) 2020-04-08
EP3353677A4 (en) 2019-10-23
JP2018537700A (ja) 2018-12-20
CN108351872B (zh) 2021-09-28
US9875081B2 (en) 2018-01-23
EP3353677B1 (en) 2020-11-04

Similar Documents

Publication Publication Date Title
JP6671466B2 (ja) 応答を提供するための装置選択
US11138977B1 (en) Determining device groups
US12033632B2 (en) Context-based device arbitration
US11875820B1 (en) Context driven device arbitration
US11710478B2 (en) Pre-wakeword speech processing
US11756563B1 (en) Multi-path calculations for device energy levels
US11600291B1 (en) Device selection from audio data
US11949818B1 (en) Selecting user device during communications session
JP6314219B2 (ja) 自己生成ウェイク表現の検出
JP6549715B2 (ja) 音声ベースシステムにおけるアプリケーションフォーカス
US10878812B1 (en) Determining devices to respond to user requests
US11862153B1 (en) System for recognizing and responding to environmental noises
US12002444B1 (en) Coordinated multi-device noise cancellation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190611

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200303

R150 Certificate of patent or registration of utility model

Ref document number: 6671466

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250