JP2019535035A - 音声インターフェイスデバイスにおけるマルチユーザパーソナライゼーション - Google Patents

音声インターフェイスデバイスにおけるマルチユーザパーソナライゼーション Download PDF

Info

Publication number
JP2019535035A
JP2019535035A JP2019517878A JP2019517878A JP2019535035A JP 2019535035 A JP2019535035 A JP 2019535035A JP 2019517878 A JP2019517878 A JP 2019517878A JP 2019517878 A JP2019517878 A JP 2019517878A JP 2019535035 A JP2019535035 A JP 2019535035A
Authority
JP
Japan
Prior art keywords
electronic device
user
voice
implementations
devices
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019517878A
Other languages
English (en)
Other versions
JP6906048B2 (ja
Inventor
ミクスター,ケネス
メレンド・カサド,ディエゴ
シュ,ビボ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2019535035A publication Critical patent/JP2019535035A/ja
Priority to JP2021074212A priority Critical patent/JP7225301B2/ja
Application granted granted Critical
Publication of JP6906048B2 publication Critical patent/JP6906048B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

1つ以上のマイクとスピーカとを備える電子デバイスにおける方法は、自由形式の第1の音声入力を受信するステップと、第1の音声入力を、電子デバイスに対応付けられた複数のユーザに対応付けられた音声モデルのセットと比較するステップとを含み、音声モデルは電子デバイスに合わせて訓練され、さらに、上記比較に基づいて、第1の音声入力が複数のユーザのうちの第1のユーザに対応すると判断するステップと、この判断に従ってレスポンスを与えるステップとを含む。

Description

開示する実装例は、概して音声インターフェイスおよび関連するデバイスに関し、音声インターフェイスデバイスにおいて複数のユーザを扱うための方法およびシステムを含むが、これらに限定される訳ではない。
背景
マイクが組み込まれた電子デバイスは、ユーザからの音声入力を収集しこの音声入力に従って音声起動機能を実現するために、広範囲にわたって使用されてきた。たとえば、多くの最新モバイルデバイスは音声アシスタント機能(たとえばSiri(登録商標)、Googleアシスタント(登録商標))を含む。音声アシスタント機能は、音声入力を用いて、通話を開始する、レストラン検索を実行する、地図上でルーティングを開始する、カレンダーイベントを作成する、ソーシャルネットワークにポストを追加する、歌を認識する、およびその他多くのタスクを完了するように、構成されている。
ある場所(たとえば部屋または家屋内の空間)が、音声アシスタントシステムを含む複数のデバイスと、そのようなデバイスの1人以上のユーザとを含む場合がある。これらのデバイスは、今まで以上にユーザ固有の情報にアクセスしこの情報を提示する能力を備えるように構成されているので、音声アシスタントデバイスが複数のユーザを優雅に扱えることおよびユーザ固有の情報を適切なユーザに提供できることが望ましい。そのような場所では、ユーザの混乱を少なくするために、ユーザの音声入力に対して応答する責任を負うリーダーが音声アシスタントデバイスの中に存在することも望ましい。さらに、音声アシスタントデバイスは、騒々しい場所に置かれた場合に備えて、雑音緩和手段を含むことが望ましい。
概要
このように、複数のユーザを扱うため、複数のデバイスを調整してリーダーを決定するため、および雑音緩和のための方法およびシステムを取り入れた音声アシスタントシステムおよび/または音声アシスタントサーバシステムを備える電子デバイスに対する需要がある。上記デバイスおよび/またはサーバシステムは、音声モデルとの比較に基づいて音声入力の話し手を識別し、識別した話し手に合わせてレスポンスをパーソナライズするように構成することができる。また、このデバイスおよび/またはサーバシステムは、話し手に対して返答するためのリーダーシップを複数のデバイスの中で協議により決定するように構成することができる。さらに、このデバイスおよび/またはサーバシステムは、デバイスの周囲の環境の雑音が十分に大きいことを検出しホットワード音声入力に代わるデバイスの起動方法を推奨するように構成することができる。
いくつかの実装例に従うと、方法は、1つ以上のマイクと、スピーカと、1つ以上のプロセッサと、当該1つ以上のプロセッサが実行する1つ以上のプログラムを格納するメモリとを備える電子デバイスにおいて、自由形式の第1の音声入力を受信するステップと、第1の音声入力を、電子デバイスに対応付けられた複数のユーザに対応付けられた音声モデルのセットと比較するステップとを含み、音声モデルは電子デバイスに合わせて訓練され、上記比較に基づいて、第1の音声入力は複数のユーザのうちの第1のユーザに対応すると判断するステップと、この判断に従ってレスポンスを与えるステップとを含む。
いくつかの実装例において、電子デバイスは、1つ以上のマイクと、スピーカと、1つ以上のプロセッサと、当該1つ以上のプロセッサが実行する1つ以上のプログラムを格納するメモリとを備える。1つ以上のプログラムは命令を含み、これらの命令は、自由形式の第1の音声入力を受信し、第1の音声入力を、電子デバイスに対応付けられた複数のユーザに対応付けられた音声モデルのセットと比較し、音声モデルは電子デバイスに合わせて訓練され、上記比較に基づいて、第1の音声入力は複数のユーザのうちの第1のユーザに対応すると判断し、この判断に従ってレスポンスを与えるための、命令である。
いくつかの実装例において、非一時的なコンピュータ読取可能記憶媒体は、1つ以上のプログラムを格納する。この1つ以上のプログラムは、1つ以上のマイクとスピーカと1つ以上のプロセッサとを備える電子デバイスによって実行されると、この電子デバイスに動作を実行させる。これらの動作は、自由形式の第1の音声入力を受信することと、第1の音声入力を、電子デバイスに対応付けられた複数のユーザに対応付けられた音声モデルのセットと比較することとを含み、音声モデルは電子デバイスに合わせて訓練され、上記比較に基づいて、第1の音声入力は複数のユーザのうちの第1のユーザに対応すると判断することと、この判断に従ってレスポンスを与えることとを含む。
いくつかの実装例に従うと、方法は、各々が1つ以上のマイクと、スピーカと、1つ以上のプロセッサと、当該1つ以上のプロセッサが実行する1つ以上のプログラムを格納するメモリとを備える、複数の電子デバイスのうちの第1の電子デバイスにおいて、音声入力を検出するステップと、検出した音声入力の品質スコアを求めるステップと、品質スコアを複数の電子デバイスのうちの他のデバイスに伝えるステップと、複数の電子デバイスのうちの他のデバイスによる音声入力の検出に関する、これらの他のデバイスが生成した品質スコアを受信するステップと、第1の電子デバイスが生成した品質スコアは、上記音声入力に関して生成した品質スコアおよび受信した品質スコアのうちで最高であるという判断に従って、検出した音声入力に対する可聴および/または視覚レスポンスを出力するステップとを含み、上記複数の電子デバイスのうちの他のデバイスは、検出した音声入力に対する可聴レスポンスの出力を差し控え、第1の電子デバイスが生成した品質スコアは複数の電子デバイスが生成した音声入力に関する品質スコアのうちで最高ではないという判断に従って、検出した音声入力に対するレスポンスの出力を差し控えるステップを含む。
いくつかの実装例に従うと、複数の電子デバイスのうちの第1の電子デバイス、および、複数の電子デバイス各々は、1つ以上のマイクと、スピーカと、1つ以上のプロセッサと、当該1つ以上のプロセッサが実行する1つ以上のプログラムを格納するメモリとを備える。1つ以上のプログラムは命令を含み、これらの命令は、音声入力を検出し、検出した音声入力の品質スコアを求め、品質スコアを複数の電子デバイスのうちの他のデバイスに伝え、複数の電子デバイスのうちの他のデバイスによる音声入力の検出に関する、これらの他のデバイスが生成した品質スコアを受信し、第1の電子デバイスが生成した品質スコアは、上記音声入力に関して生成した品質スコアおよび受信した品質スコアのうちで最高であるという判断に従って、検出した音声入力に対する可聴および/または視覚レスポンスを出力し、複数の電子デバイスのうちの他のデバイスは、検出した音声入力に対する可聴レスポンスの出力を差し控え、第1の電子デバイスが生成した品質スコアは複数の電子デバイスが生成した音声入力に関する品質スコアのうちで最高ではないという判断に従って、検出した音声入力に対するレスポンスの出力を差し控えるための、命令である。
いくつかの実装例に従うと、非一時的なコンピュータ読取可能記憶媒体は1つ以上のプログラムを格納する。1つ以上のプログラムは命令を含み、この命令は、各々が1つ以上のマイクとスピーカと1つ以上のプロセッサとを備える複数の電子デバイスのうちの第1の電子デバイスによって実行されると、第1の電子デバイスに、音声入力を検出することと、検出した音声入力の品質スコアを求めることと、品質スコアを複数の電子デバイスのうちの他のデバイスに伝えることと、複数の電子デバイスのうちの他のデバイスによる音声入力の検出に関する、これらの他のデバイスが生成した品質スコアを受信することと、第1の電子デバイスが生成した品質スコアは、上記音声入力に関して生成した品質スコアおよび受信した品質スコアのうちで最高であるという判断に従って、検出した音声入力に対する可聴および/または視覚レスポンスを出力することとを含み、複数の電子デバイスのうちの他のデバイスは、検出した音声入力に対する可聴レスポンスの出力を差し控え、第1の電子デバイスが生成した品質スコアは複数の電子デバイスが生成した音声入力に関する品質スコアのうちで最高ではないという判断に従って、検出した音声入力に対するレスポンスの出力を差し控えることを含む、動作を、実行させる。
いくつかの実装例に従うと、方法は、1つ以上のマイクとスピーカと1つ以上のプロセッサと当該1つ以上のプロセッサが実行する1つ以上のプログラムを格納するメモリとを備える電子デバイスであって、音声ベースのアフォーダンスを含む複数のアフォーダンスのうちのいずれかによって起動されるように構成された電子デバイスにおいて、電子デバイスの周囲の環境の雑音プロファイルを求めるステップと、雑音プロファイルが音声ベースのアフォーダンスを妨害するか否かを判断するステップと、雑音プロファイルが音声ベースのアフォーダンスを妨害するという判断に従って、電子デバイスを起動するために音声ベースのアフォーダンス以外の複数のアフォーダンスのうちのアフォーダンスを使用するようユーザに示唆するステップとを含む。
いくつかの実装例に従うと、電子デバイスは、1つ以上のマイクと、スピーカと、1つ以上のプロセッサと、当該1つ以上のプロセッサが実行する1つ以上のプログラムを格納するメモリとを備える。電子デバイスは、音声ベースのアフォーダンスを含む複数のアフォーダンスのうちのいずれかによって起動されるように構成される。1つ以上のプログラムは命令を含み、これらの命令は、電子デバイスの周囲の環境の雑音プロファイルを求め、雑音プロファイルが音声ベースのアフォーダンスを妨害するか否かを判断し、雑音プロファイルが音声ベースのアフォーダンスを妨害するという判断に従って、電子デバイスを起動するために音声ベースのアフォーダンス以外の複数のアフォーダンスのうちのアフォーダンスを使用するようユーザに示唆するための、命令である。
非一時的なコンピュータ読取可能記憶媒体は1つ以上のプログラムを格納する。1つ以上のプログラムは命令を含み、この命令は、1つ以上のマイクとスピーカと1つ以上のプロセッサとを備える電子デバイスであって音声ベースのアフォーダンスを含む複数のアフォーダンスのうちのいずれかによって起動されるように構成された電子デバイスによって実行されると、この電子デバイスに、電子デバイスの周囲の環境の雑音プロファイルを求めることと、雑音プロファイルが音声ベースのアフォーダンスを妨害するか否かを判断することと、雑音プロファイルが音声ベースのアフォーダンスを妨害するという判断に従って、電子デバイスを起動するために音声ベースのアフォーダンス以外の複数のアフォーダンスのうちのアフォーダンスを使用するようユーザに示唆することとを含む、動作を実行させる。
記載される各種実装例のより良い理解のためには以下の図面とともに以下の実装例の説明を参照しなければならない。これらの図面を通して同様の参照番号は対応する部分を指している。
いくつかの実装例に従う動作環境の一例を示す図である。 いくつかの実装例に従う動作環境においてユーザの音声コマンドを収集するための音声インターフェイスとして適用される電子デバイスの一例を示すブロック図である。 いくつかの実装例に従う動作環境においてユーザの音声コマンドを収集するための音声インターフェイスとして適用される電子デバイスの一例を示すブロック図である。 いくつかの実装例に従う動作環境のサーバシステムにおけるサーバの一例を示すブロック図である。サーバの一例は音声アシスタントサーバのうちの1つである。 いくつかの実装例に従うデバイスリーダーシップの協議の一例を示す図である。 いくつかの実装例に従うデバイスリーダーシップの協議の一例を示す図である。 いくつかの実装例に従うユーザの音声入力に対して応答する方法を示すフロー図である。 いくつかの実装例に従う複数の音声インターフェイスデバイスの中でリーダーシップを協議により決定する方法を示すフロー図である。 いくつかの実装例に従う音声インターフェイスデバイスの周囲の雑音を緩和する方法を示すフロー図である。 いくつかの実装例に従う音声起動電子デバイスの正面図である。 いくつかの実装例に従う音声起動電子デバイスの背面図である。 いくつかの実装例に従う音声起動電子デバイスの平面図である。 いくつかの実装例に従う音声処理状態を示すためのフルカラーLEDのアレイによって表示される6つの視覚パターンを示す図である。
図面のうちのいくつかの図面において同様の参照番号は対応する部分を指す。
実装例の説明
デジタル革命は、情報の公開共有から、地球規模の共同体という感覚まで、数多くの利益を提供してきたが、出現した新たな技術はしばしば、消費者の間に混乱、懐疑、および不安を生じさせ、そのために、消費者がこの技術の利益を享受するのが妨げられることがある。電子デバイスは、ユーザからの音声入力を受信し音声起動機能を開始することにより、既存の技術および出現した技術双方にアプローチするための、アイズフリー・ハンズフリーソリューションを提供する、音声インターフェイスとして、便利に使用される。具体的には、電子デバイスで受信する音声入力は、たとえユーザの視線が不明瞭でありかつ手が塞がっていても、命令および情報を伝えることができる。ハンズフリー・アイズフリー体験を可能にするために、音声起動電子デバイスは、常に周囲の音を聴いている(すなわち、常に周囲から収集したオーディオ信号を処理している)、または、トリガされたときにのみ周囲の音を聴く。一方、ユーザのアイデンティティは、ユーザの声とユーザが使用する言語とに関連付けられる。ユーザのアイデンティティを守るために、これらの音声起動電子デバイスは通常、保護され管理された親密な空間(たとえば自宅および自動車)である非公共的な場所で使用される。
いくつかの実装例に従い、音声起動電子デバイスは、音声入力の話し手を、対応付けられたまたは登録された1人以上のユーザのうちの1人として識別する。話し手の出力に対する電子デバイスのレスポンスは、識別した話し手に合わせてパーソナライズされる。話し手は、話し手の音声入力を、訓練された音声モデルまたは音声フィンガープリントのセットと比較することによって識別される。いくつかの実装例において、音声モデルを訓練するために話し手が使用する単語およびフレーズは、必ずしも予め定められたものでなくてよく、電子デバイスによる話し手の識別のために話し手が後で話す単語と一致している必要はない。
さらに、いくつかの実装例に従い、複数の音声起動電子デバイスが、ユーザからの音声入力に対して応答するために、これらのデバイスの中でリーダーを協議により決定する。この協議は、どのデバイスが音声入力を最も上手く検出したか、または、どのデバイスがユーザに最も近いかに基づいていてもよい。加えて、音声入力がデバイスのうちの1つに特に関連がある場合は、そのデバイスを、たとえそれ以外の状況では応答用に選択されない場合であっても、選択して応答すればよい。音声入力に含まれるコマンドの、特定のデバイスに対する関連性(たとえば、「音楽停止」は音楽を再生するデバイスに対するものであるはず)、および、音声入力を受信するデバイスの状態(たとえば、「画面オン」対「画面オフ」)は、どのデバイスをリーダーにするかを判断する際に考慮される。
さらに、いくつかの実装例に従うと、音声起動デバイスは、周囲の雑音が、デバイスを起動するために発話されたホットワード(いくつかの実装例において、「ホットワード」は、音声起動デバイスを「起動(wake-up)」またはトリガし、ホットワードに続いて与えられる発話されたコマンドを聴くおよび/またはそれに応答するようにさせるために使用される、ユーザが定めたまたは予め定められた単語またはフレーズ)、または、発話されたその他の音声入力の検出を妨げるほどの雑音であるか否かを判断する。雑音がそれを妨げるほどの雑音である場合、デバイスはそのことを表示し、デバイスを起動する代替方法、またはその他の音声緩和手段を使用するようユーザに示唆する。
音声アシスタント動作環境
図1は、いくつかの実装例に従う動作環境の一例である。動作環境100は、1つ以上の音声起動電子デバイス190(たとえば電子デバイス190−1〜190−N)を含む。この1つ以上の音声起動電子デバイス190は、1つ以上の場所に置かれていてもよい(たとえば、すべてが1つの部屋の中もしくは構造物(structure)の空間の中にあってもよく、1つの構造物の中の複数の空間に分散していてもよく、または、複数の構造物に分散していてもよい(たとえば1つは家屋内、1つはユーザの車の中))。任意に、環境100は、音声起動電子デバイス190が通信できるようにするために用いられる1つ以上のデバイス(たとえばメディアデバイス、スマートホームデバイス)(図示せず)を含む。
電子デバイス190は、通信ネットワーク110を介して音声アシスタントサービスの音声アシスタントサーバ112に通信可能に結合される。電子デバイス190のうちの1つ以上(たとえば電子デバイス190−1および190−2)はローカルネットワーク104に通信可能に結合され、ローカルネットワーク104は通信ネットワーク110に通信可能に結合される。いくつかの実装例において、ローカルネットワーク104はネットワークインターフェイス(たとえばルータ)において実現されるローカルエリアネットワークである。ローカルネットワーク104に通信可能に結合された電子デバイス190は、ローカルネットワーク104を通して互いに通信することもできる。
任意に、電子デバイス190のうちの1つ以上(たとえば電子デバイス190−N)は、通信ネットワーク110に通信可能に結合されるが、ローカルネットワーク104上にはない。たとえば、これらの電子デバイス190は、ローカルネットワーク104に対応するWi−Fi(登録商標)ネットワーク上にはないが、セルラー接続を通して通信ネットワーク110に接続される。いくつかの実装例において、ローカルネットワーク104上にある電子デバイス190とローカルネットワーク104上にない電子デバイス190との間の通信は、音声アシスタントサーバ112を介して行われる。電子デバイス190は、音声アシスタントサービスのデバイスレジストリ118に登録されるので、音声アシスタントサーバ112に知られている。
この環境100はまた、1つ以上のコンテンツホスト114を含む。コンテンツホスト114は遠隔コンテンツソースであってもよく、この遠隔コンテンツソースからのコンテンツは、ストリーミングされるか、そうでなければユーザ音声要求に従って取得される。コンテンツホスト114は情報源であってもよく、音声アシスタントサーバ112は、ユーザ音声要求に従って情報をこの情報源から取り出す。
いくつかの実装例において、電子デバイス190は、ユーザドメイン内にそれぞれのアカウントを有する複数のユーザに対応付けられていてもよい。これらユーザのうちのいずれのユーザも、当該デバイスに対応付けられていないユーザも、電子デバイス190に対して音声入力を行うことができる。電子デバイス190がこれらのユーザ102−1〜102−M(対応付けられたユーザおよび対応付けられていないユーザを含む)からの音声入力を受けると、電子デバイス190および/または音声アシスタントサーバ112は、音声入力について、この音声入力を行ったユーザを特定する。ユーザが特定されると、この音声入力に対するレスポンスを、特定したユーザに合わせてパーソナライズすることができる。
いくつかの実装例において、環境100は複数の電子デバイス190(たとえば電子デバイス190−1〜190−N)を含む。デバイス190は、環境100の至るところに存在する(たとえばすべてが1つの部屋の中もしくは1つの構造物の内部空間の中、構造物全体に分散、一部は構造物の内部で一部はその外部)。ユーザ102が音声入力を行うと、デバイス190は各々、この音声を受信する、または受信しない(たとえば、デバイスがユーザから離れすぎている場合)。この入力を受けるデバイスは、受ける入力の品質の程度が異なっており、あるデバイスにおける音声入力のサンプルの品質は複数の要素に基づく。これらの複数の要素は、限定されないが、デバイスからユーザまでの距離およびデバイス周囲の雑音を含む。複数のデバイス190は、音声入力のサンプルの品質に基づいて、ユーザに対して応答しユーザ102からさらに音声入力を受けるリーダーを協議によって決定する。
いくつかの実装例において、電子デバイス190は、このデバイスの周囲の雑音のレベルを判定し、判定した雑音レベルが、音声入力に含まれるホットワードの認識を妨害しひいては音声によるこのデバイスの起動または音声要求の認識を妨害するほど大きいか否かを判断する。雑音レベルがこれを妨害するほど大きいと判断すると、電子デバイス190は、ユーザに対し、雑音レベルが妨害レベルであることを表示するとともに、電子デバイス190の起動方法として別の方法(たとえばボタンを起動)を使用すべきであることを示唆する。妨害雑音レベルの表示および別のデバイス起動方法の使用の示唆は、同じ表現(たとえば起動ボタンを点灯)によって行われてもよい。
いくつかの実装例において、1つ以上のメディアデバイスが、動作環境100の中に配置されて、その1人以上の占有者(occupant)に、メディアコンテンツ、ニュースおよび/またはその他の情報を提供する。いくつかの実装例において、メディアデバイスが提供するコンテンツは、ローカルコンテンツソースに格納されている、遠隔コンテンツソース(たとえばコンテンツホスト114)からストリーミングされる、または、ローカルで生成される(たとえば、ローカルテキストから音声プロセッサに対して生成され、音声プロセッサは、カスタマイズされたニュース解説、電子メール、テキスト、局地天気予報等を、動作環境100の1人以上の占有者に対して読み上げる)。いくつかの実装例において、メディアデバイスは、メディアコンテンツを受け手(たとえば1人以上のユーザ)に対して直接出力するメディア出力デバイスと、メディア出力デバイスに対してメディアコンテンツをストリーミングするようにネットワーク接続されたキャストデバイスとを含む。メディア出力デバイスの例は、テレビ(TV)表示装置および音楽再生機を含むが、これらに限定されない。キャストデバイスの例は、セットトップボックス(STB)、DVD再生機、TVボックス、および、Google社のChromecast(登録商標)メディアストリーミングデバイス等のメディアストリーミングデバイスを含むが、これらに限定されない。
いくつかの実装例において、メディアデバイスは、占有者の音声コマンドを受信し、処理し、それに対して応答する1つ以上の音声起動電子デバイスを含む。いくつかの実装例において、音声起動電子デバイス190は、音声コマンドに対する応答として、音声コマンドに対する発話レスポンスを生成し提供する(たとえば「何時ですか」という質問に対して現在時刻を発話する)、ユーザが要求したメディアコンテンツをストリーミングする(たとえば「ビーチボーイズの歌を再生」)、ユーザのために準備されたニュース記事またはデイリーニュース解説を読み上げる、個人情報端末もしくはローカルネットワーク上に格納されたメディアアイテムを再生する、状態を変更するもしくは動作環境100内の接続された他の1つ以上のデバイスを動作させる(たとえばライト、機器またはメディアデバイスをオン/オフする、ロックを作動/解除する、窓を開ける等)、または、ネットワーク110を介して対応する要求をサーバに対して行う。
いくつかの実装例において、1つ以上の電子デバイス190は、動作環境100に配置され、メディアデバイスのメディア再生機能を含む各種機能を開始するためのオーディオ入力を収集する。いくつかの実装例において、これらの音声起動電子デバイス190(たとえばデバイス190−1〜190−N)は、メディアデバイスの近傍に、たとえばキャストデバイスおよびメディア出力デバイスと同一の部屋に、配置される。これに代えて、いくつかの実装例において、音声起動電子デバイス190は、1つ以上のスマートホームデバイスを有するがメディアデバイスを有しない部屋に配置される。これに代えて、いくつかの実装例では、音声起動電子デバイス190は、ネットワーク接続された電子デバイスがない場所に配置される。さらに、いくつかの実装例において、部屋または構造物の中の空間が複数の電子デバイス190を備えていてもよい。
いくつかの実装例において、電子デバイス190は、1つ以上のマイクと、スピーカと、プロセッサと、プロセッサが実行する少なくとも1つのプログラムを格納するメモリとを、少なくとも含む。スピーカは、動作環境100の中で電子デバイス190が位置する場所に、電子デバイス190が音声メッセージおよびその他の音声(たとえば可聴音)を配信することにより、電子デバイス190のユーザに対して音楽をブロードキャストする、オーディオ入力処理の状態を報告する、このユーザと対話する、またはこのユーザに命令を与えることができるように、構成される。音声メッセージに代わるものとして、視覚信号を用いてオーディオ入力処理の状態に関するフィードバックを電子デバイス190のユーザに与えることもできる。電子デバイス190がモバイルデバイス(たとえば携帯電話またはタブレットコンピュータ)である場合、その表示画面は、オーディオ入力処理の状態に関する通知を表示するように構成される。
いくつかの実装例において、電子デバイス190は音声インターフェイスデバイスである。この音声インターフェイスデバイスは、ネットワーク接続されて音声アシスタントサーバ112および/または任意にクラウドキャストサービスサーバ(図示せず)の助けを借りて音声認識機能を提供する。たとえば、電子デバイス190は、音楽をユーザに提供するとともに音声アシスタントサービス(たとえばGoogleアシスタント)へのアイズフリー・ハンズフリーアクセスを可能にするスマートスピーカを含む。任意に、電子デバイス190は、デスクトップまたはラップトップコンピュータ、タブレット、マイクを含む携帯電話、マイクおよび任意にスピーカを含むキャストデバイス、マイクおよびスピーカを含むオーディオシステム(たとえばステレオシステム、スピーカシステム、ポータブルスピーカ)、マイクおよびスピーカを含むテレビ、ならびに、マイクとスピーカと任意にディスプレイとを含む自動車内のユーザインターフェイスシステムのうちの、1つである。任意に、電子デバイス190は、簡素で低コストの音声インターフェイスデバイスである。一般的に、電子デバイス190は、ネットワーク接続でき、かつ、マイクとスピーカとプログラムとモジュールと音声アシスタントサービスとやり取りするためのデータとを含む何らかのデバイスであればよい。電子デバイス190が簡素で低コストであることを考慮すると、電子デバイス190は、全表示画面ではなく発光ダイオード(LED)のアレイを含み、LED上に視覚パターンを表示してオーディオ入力処理の状態を示す。いくつかの実装例において、LEDはフルカラーLEDであり、LEDの色はLEDに表示される視覚パターンの一部として用いることができる。情報またはデバイスの状態を伝えるためにLEDを用いて視覚パターンを表示する複数の例が、2016年5月13日に出願され「LED Design Language for Visual Affordance of Voice User Interfaces」と題されその内容全体を本明細書に引用により援用する米国仮特許出願第62/336,566号に記載されている。いくつかの実装例において、音声処理動作の状態を示す視覚パターンは、音声処理動作を実行している電子デバイスに対応付けられた従来の表示装置上に示される特徴的な画像を用いて表示される。
いくつかの実装例では、LEDまたはその他の視覚表示装置を用いて、関係している複数の電子デバイスの全体的な音声処理状態を伝える。たとえば、複数の音声処理または音声インターフェイスデバイス(たとえば下記の図8Aに複製された第62/336,566号出願の図4Aに示されるような複数の電子デバイス400、複数の電子デバイス190)が存在する動作環境において、それぞれの電子デバイスに対応付けられたカラーLED(たとえば第62/336,566号出願の図4Aに示されるLED404)のグループを用いて、これらの電子デバイスのうちのどれがユーザの話を聴いているか、および、聴いているデバイスのうちのどれがリーダーであるか(一般的に「リーダー」デバイスがユーザによる発話要求に対する応答において主導する)を、伝えることができる。
より一般的には、第62/336,566号出願は、「ホットワード検出状態およびリスニング状態」、「シンキングモードまたはワーキングモード」、および「応答モードまたは発話モード」等の電子デバイスの各種音声処理状態をLEDの集合体を用いて視覚的に示すための「LED設計言語」について説明している(たとえば段落[0087]〜[0100]参照)。いくつかの実装例において、本明細書に記載の音声処理動作の固有の状態は、第62/336,566号出願の「LED設計言語」の1つ以上の態様に従い、LEDのグループを用いて表される。これらの視覚インジケータを、音声処理動作を実行している電子デバイスが生成する1つ以上の可聴インジケータと組み合わせることもできる。得られた音声および/または視覚インジケータにより、音声対話環境にいるユーザは、この環境内の各種音声処理電子デバイスの状態を理解することができ、かつ、これらのデバイスと、自然で直感的なやり方で効果的に対話することができる。
電子デバイス190からの音声入力を用いキャストデバイスを介してメディア出力デバイスを制御する場合、電子デバイス190は効果的に、キャスト対応メディアデバイスの新たなレベルの制御を可能にする。ある具体例において、電子デバイス190は、遠距離音声アクセスの日常娯楽用スピーカを含み、音声アシスタントサービス用の音声インターフェイスデバイスとして機能する。電子デバイス190は動作環境100内の任意の場所に配置することができる。複数の電子デバイス190が複数の部屋に分散している場合、これらのデバイスは、同期されてこれらすべての部屋から音声入力を提供するキャストオーディオ受信機となる。
具体的には、いくつかの実装例において、電子デバイス190は、音声起動音声アシスタントサービス(たとえばGoogleアシスタント)に接続されるマイクを有するWi−Fiスピーカを含む。ユーザは、電子デバイス190のマイクを介してメディア再生要求を出し、電子デバイス190自体で、または、接続された別のメディア出力デバイスで、メディアコンテンツを再生するよう音声アシスタントサービスに依頼することができる。たとえば、ユーザは、Wi−Fiスピーカに対し「OKグーグル、リビングのTVで猫のビデオを再生して」と言うことにより、メディア再生要求を出すことができる。そうすると、音声アシスタントサービスは、デフォルトまたは指定のメディアアプリケーションを用いて、要求されたメディアコンテンツを要求されたデバイスで再生することにより、メディア再生要求に応える。
いくつかの実装例において、ユーザは、表示装置で既に再生されたまたは再生中のメディアコンテンツに関し、電子デバイス190のマイクを介して音声要求を出すことができる(たとえばユーザは、メディアコンテンツに関する情報を要求する、オンライストアを通してメディアコンテンツを購入する、または、メディアコンテンツに関するソーシャルポストを作成して発行することができる)。
いくつかの実装例において、ユーザは、家の中で移動しながら現在のメディアセッションを持ち運びたいと思う場合があり、このようなサービスを、電子デバイス190のうちの1つ以上に要求することができる。そのためには、音声アシスタントサービスが、現在のメディアセッションを、第1のキャストデバイスから、第1のキャストデバイスに直接接続されていないまたは第1のキャストデバイスの存在を知らない第2のキャストデバイスに転送する必要がある。メディアコンテンツの転送後、第2のキャストデバイスに結合された第2の出力デバイスが、第1のキャストデバイスに結合された第1の出力デバイスが前に再生していた楽曲またはビデオクリップ内の、第1の出力デバイスが再生を止めたポイントから、メディアコンテンツの再生を継続する。いくつかの実装例において、メディアセッションの転送要求を受けた電子デバイス190は、この要求に応えることができる。いくつかの実装例において、メディアセッションの転送要求を受けた電子デバイス190は、この要求を、処理のために別のデバイスまたはシステム(たとえばハブデバイス、音声アシスタントサーバ112)に中継する。
さらに、いくつかの実装例において、ユーザは、電子デバイス190のマイクを介して、情報、またはあるアクションもしくは動作の実行を求める要求を出すことができる。要求される情報は、個人情報(たとえばユーザの電子メール、ユーザのカレンダーイベント、ユーザのフライト情報等)、非個人情報(たとえば、スポーツのスコア、ニュース記事等)、またはその中間(たとえばユーザが好きなチームまたはスポーツのスコア、ユーザが好きなソースからのニュース記事等)であってもよい。要求される情報またはアクション/動作は、個人情報へのアクセスを要する場合がある(たとえば、ユーザが提供する支払情報でデジタルメディアアイテムを購入、物理的商品を購入)。電子デバイス190は、この要求に対して、ユーザに対する音声メッセージレスポンスで応答し、このレスポンスは、たとえば、この要求を満たすための追加情報を求める要求、要求は満たされたという確認、要求を満たすことができないという通知等を含み得る。
いくつかの実装例において、音声起動電子デバイス190およびメディアデバイス(たとえば出力デバイスおよびキャストデバイス)に加えて、動作環境100は、1つ以上のスマートホームデバイス(図示せず)も含み得る。一体化されたスマートホームデバイスは、スマートホームネットワーク内で互いに、および/または中央サーバもしくはクラウドコンピューティングシステムとシームレスに統合されることにより、各種有用なスマートホーム機能を提供する、インテリジェントなマルチセンシングのネットワーク接続型デバイスを含む。いくつかの実装例において、スマートホームデバイスは、キャストデバイスおよび/または出力デバイスと同一場所に配置されるので、キャストデバイスおよび出力デバイスの近傍にある、または、キャストデバイスおよび出力デバイスからわかっている距離を隔てたところにある。
動作環境100の中のスマートホームデバイスは、1つ以上のインテリジェントなマルチセンシングのネットワーク接続型サーモスタット、1つ以上のインテリジェントなネットワーク接続型マルチセンシングハザード検出器、1つ以上のインテリジェントなマルチセンシングのネットワーク接続型進入経路インターフェイスデバイス(以下「スマートドアベル」および「スマートドアロック」と呼ぶ)、1つ以上のインテリジェントなマルチセンシングのネットワーク接続型アラームシステム、1つ以上のインテリジェントなマルチセンシングのネットワーク接続型カメラシステム、1つ以上のインテリジェントなマルチセンシングのネットワーク接続型壁スイッチ、および、1つ以上のインテリジェントなマルチセンシングのネットワーク接続型電源ソケットを含み得るが、これらに限定されない。いくつかの実装例において、図1の動作環境100におけるスマートホームデバイスは、複数のインテリジェントなマルチセンシングのネットワーク接続型機器(以下「スマート機器」と呼ぶ)を含み、これは、たとえば、冷蔵庫、ストーブ、オーブン、テレビ、洗濯機、乾燥機、照明器具、ステレオ、インターコムシステム、ガレージドアオープナー、床ファン、天井ファン、壁用空気調和機、プール加熱器、灌水システム、セキュリティシステム、空間加熱器、窓用ACユニット、電動ダクトベント等である。いくつかの実装例において、これらのスマートホームデバイスタイプのうちのいずれかに、マイクおよび本明細書に記載の1つ以上の音声処理機能を与えることにより、占有者またはユーザからの音声要求に対し、全面的にまたは部分的に応えることができる。
いくつかの実装例において、キャストデバイスおよび音声起動電子デバイス190の各々は、他のキャストデバイス、音声起動電子デバイス190、スマートホームデバイス、中央サーバもしくはクラウドコンピューティングシステム、および/またはネットワーク接続される他のデバイス(たとえばクライアントデバイス)とのデータ通信および情報共有が可能である。データ通信は、さまざまなカスタムもしくは標準ワイヤレスプロトコル(たとえば、IEEE 802.15.4、Wi-Fi、ZigBee、6LoWPAN、Thread、Z-Wave、Bluetooth(登録商標) Smart、ISA100.11a、WirelessHART、MiWi等)のうちのいずれか、および/またはさまざまなカスタムもしくは標準有線プロトコル(たとえば、Ethernet(登録商標)、HomePlug等)のうちのいずれか、または、本願の出願日の時点でまだ開発されていない通信プロトコルを含む任意の他の好適な通信プロトコルを用いて行うことができる。
通信ネットワーク(たとえばインターネット)110を通して、キャストデバイス、電子デバイス190、およびスマートホームデバイスは、サーバシステム(本明細書では中央サーバシステムおよび/またはクラウドコンピューティングシステムとも呼ばれる)と通信することができる。任意に、サーバシステムを、キャストデバイスとユーザに表示されるメディアコンテンツとに対応付けられる、製造者、サポートエンティティ、またはサービスプロバイダに対応付けてもよい。したがって、サーバシステムは、音声起動電子デバイス190によって収集されたオーディオ入力を処理する音声アシスタントサーバ112と、表示されるメディアコンテンツを提供する1つ以上のコンテンツホスト114と、分散したデバイス端末に基づいて仮想ユーザドメインを生成するクラウドキャストサービスサーバと、仮想ユーザ環境における分散したデバイス端子の記録を保持するデバイスレジストリ118とを含む。分散したデバイス端末の例は、キャストデバイス、メディア出力デバイス、電子デバイス190、およびスマートホームデバイスを含むが、これらに限定されない。いくつかの実装例において、これらの分散したデバイス端末は、仮想ユーザドメイン内のユーザアカウント(たとえばGoogleユーザアカウント)にリンクされる。電子デバイス190が収集したオーディオ入力の処理は、電子デバイス190、音声アシスタントサーバ112、別のスマートホームデバイス(たとえばハブデバイス)、または上記デバイスのうちのすべてまたは下位セットの何らかの組み合わせにおいて、ローカルに実行できることが、理解されるはずである。
いくつかの実装例において、電子デバイス190は、スマートホームデバイスがない環境でも機能する。たとえば、電子デバイス190は、スマートホームデバイスがない場合であっても、情報またはあるアクションの実行を求めるユーザ要求に応答する、および/または各種メディア再生機能を開始もしくは制御することができる。また、電子デバイス190は、車両、船舶、ビジネスまたは製造環境を含むがこれらに限定されない広範囲にわたる環境において、機能することができる。
いくつかの実装例において、電子デバイス190は、ホットワード(「ウェイクワード(wake word)」とも呼ばれる)を含む音声入力によって「起こされる」(たとえば、電子デバイス190上の音声アシスタントサービスのためのインターフェイスを起動する、電子デバイス190を、音声アシスタントサービスに対する音声要求を受ける準備ができた状態にする)。いくつかの実装例において、電子デバイス190は、少なくとも所定期間(たとえば5分間)音声入力の受信に関してアイドル状態であった場合は、起動しなければならない。上記所定期間は、音声インターフェイスセッションまたは会話のタイムアウト前に与えられるアイドル時間に相当する。ホットワードは、ある単語またはフレーズであればよく、予め定められたデフォルトであってもよく、および/またはユーザによってカスタマイズされてもよい(たとえば、ユーザは、特定の電子デバイス190に対し、このデバイスのホットワードとしてニックネームを設定してもよい)。いくつかの実装例において、電子デバイス190を起動できるホットワードは複数あってもよい。ユーザは、ホットワードを発話し、電子デバイス190からの確認レスポンスを待ち(たとえば電子デバイス190は挨拶を出力)、それから第1の音声要求を行う。代わりに、ユーザは、ホットワードと第1の音声要求とを組み合わせて1つの音声入力にしてもよい(たとえば音声入力は、ホットワードとそれに続く音声要求とを含む)。
いくつかの実装例において、電子デバイス190に対してユーザが発話する音声入力は、一般的に、自由形式または自然言語の発話である。すなわち、音声入力は、おそらくは特定の例外(たとえばユーザはデバイスを起動するために最初にホットワードを発話しなければならない)を除いて、予め定められたシンタックス内の予め定められた一組の単語およびフレーズに厳密に限定される必要はない。
いくつかの実装例において、電子デバイス190は、電子デバイス190に対してホットワードを発話すること以外にも、このデバイスを起動するための1つ以上のその他のやり方またはアフォーダンスを含む。上記その他のやり方またはアフォーダンスは、たとえば、電子デバイス190上の所定のボタンまたはタッチセンサ(たとえばタッチセンスアレイ)を起動することを含み得る。
いくつかの実装例において、音声起動電子デバイス190は、いくつかの実装例に従い、動作環境100のキャストデバイス、クライアントデバイス、またはサーバシステムとやり取りする。音声起動電子デバイス190は、音声起動電子デバイス190の近傍の環境からオーディオ入力を受けるように構成される。任意に、電子デバイス190は、オーディオ入力を記憶し、このオーディオ入力の少なくとも一部をローカルで処理する。任意に、電子デバイス190は、受けたオーディオ入力または一部を処理したオーディオ入力を、さらに処理するために通信ネットワーク110を介して音声アシスタントサーバ112に送信する。キャストデバイスは、キャストデバイスに結合された出力デバイスで表示するために、1つ以上のコンテンツホスト114からメディアコンテンツまたはインターネットコンテンツを取得するように構成される。いくつかの実装例において、キャストデバイスおよび音声起動電子デバイス190は、ユーザドメイン内で互いにリンクされ、より具体的には、ユーザドメイン内でユーザアカウントを介して相互に対応付けられる。キャストデバイスの情報および電子デバイス190の情報は、ユーザアカウントと対応付けてデバイスレジストリ118に格納される。いくつかの実装例において、キャストデバイス用のデバイスレジストリと、音声起動電子デバイス190用のレジストリとが存在する。いくつかの実装例において、クラウドキャストサービスサーバはキャストデバイスレジストリを管理し、音声アシスタントサーバ112は音声起動電子デバイスレジストリを管理する。キャストデバイスレジストリは、ユーザドメインにおいて対応付けられた音声起動電子デバイスのレジストリ内のデバイスを参照することができ、またその逆も可能である。
いくつかの実装例において、電子デバイス190(および1つ以上のキャストデバイス)のうちの1つ以上は、クライアントデバイス(図示せず)を介して音声アシスタントサービスに委託される(commissioning)。いくつかの実装例において、音声起動電子デバイス190は、表示画面を含まないので、委託プロセス中はユーザインターフェイスの提供をクライアントデバイスに頼る。これはキャストデバイスについても同様である。具体的には、クライアントデバイスの近傍に配置された新たな音声起動電子デバイス190の委託をユーザインターフェイスが容易にすることを可能にするアプリケーションが、クライアントデバイスにインストールされる。ユーザは、このクライアントデバイスのユーザインターフェイスに要求を送信することにより、委託が必要な新たな電子デバイス190のための委託プロセスを開始することができる。クライアントデバイスは、この委託要求を受けた後に、委託が必要な新たな電子デバイス190に対する短距離通信リンクを構築する。任意に、短距離通信リンクは、近距離無線通信(NFC)、Bluetooth、Bluetoothローエナジー(BLE)等に基づいて構築される。次に、クライアントデバイスは、ワイヤレスローカルエリアネットワーク(WLAN)(たとえばローカルネットワーク104)に対応付けられたワイヤレスコンフィギュレーションデータを、新たなまたは電子デバイス190に伝える。ワイヤレスコンフィギュレーションデータは、少なくとも、WLANセキュリティコード(すなわちサービスセット識別子(SSID)パスワード)を含み、任意にSSID、インターネットプロトコル(IP)アドレス、プロキシコンフィギュレーション、およびゲートウェイコンフィギュレーションを含む。短距離通信リンクを介してワイヤレスコンフィギュレーションデータを受信した後、新たな電子デバイス190は、ワイヤレスコンフィギュレーションデータを復号して回復し、ワイヤレスコンフィギュレーションデータに基づいてWLANに参加する。
いくつかの実装例において、その他のユーザドメイン情報が、クライアントデバイスに表示されたユーザインターフェイスに入力され、新たな電子デバイス190をユーザドメイン内のアカウントにリンクするのに用いられる。任意に、このその他のユーザドメイン情報は、短距離通信リンクを介して、ワイヤレス通信データとともに、新たな電子デバイス190に伝えられる。任意に、このその他のユーザドメイン情報は、新たな電子デバイス190がWLANに参加した後に、WLANを介して新たな電子デバイス190に伝えられる。
電子デバイス190がユーザドメインに委託されると、その他のデバイスおよびこれらのデバイスに対応付けられたアクティビティは、複数の制御経路を介して制御することができる。1つの制御経路に従い、クライアントデバイスにインストールされたアプリケーションを用いて、他のデバイスおよびこのデバイスに対応付けられたアクティビティ(たとえばメディア再生アクティビティ)を制御する。これに代わるものとしては、別の制御経路に従い、電子デバイス190を用いて、他のデバイスおよびこのデバイスに対応付けられたアクティビティのアイズフリー・ハンズフリー制御を可能にする。
メディア出力デバイスにおける音声起動メディアの再生
いくつかの実装例において、キャストデバイスおよび音声起動電子デバイス190双方が、共通のユーザドメインに委託されリンクされた後に、音声起動電子デバイス190を音声ユーザインターフェイスとして用いて、キャストデバイスにストリーミングされるメディアコンテンツのアイズフリー・ハンズフリー制御を、遠隔制御、クライアントデバイスまたは他の第2の画面デバイスを伴わずに、行うことができる。たとえば、ユーザは、「リビングルームのスピーカでレディー・ガガを再生」といった音声コマンドを与えることができる。レディー・ガガの楽曲またはビデオクリップが、「リビングルームのスピーカ」に対応付けられたキャストデバイスにストリーミングされる。クライアントデバイスも、クライアントデバイスにロードされたいずれのキャストデバイスアプリケーションまたはメディア再生アプリケーションも、関与していない。
いくつかの実装例において、プロキシサービス(たとえば音声アシスタントサービス、クラウドキャストサービス)が、音声起動電子デバイス190を、キャストデバイスに通信可能にリンクし、クライアントデバイス上のどのアプリケーションも関与させることなく、キャストデバイスへのキャストを可能にする。具体的には、音声メッセージが電子デバイス190によって捕捉されて記録される。この音声メッセージは、メディア出力デバイスにおけるメディアの再生を要求するように構成されている。任意に、電子デバイス190は音声メッセージの一部をローカルで処理する。任意に、電子デバイス190は、音声メッセージまたは一部が処理された音声メッセージを、さらに処理するために通信ネットワーク110を介して音声アシスタントサーバ112に送信する。音声アシスタントサーバ112またはクラウドキャストサービスサーバは、音声メッセージが第1のメディア再生要求を含むと判断するとともに、第1のメディア再生要求は、メディア出力デバイスでメディアコンテンツを再生することを求めるユーザ音声コマンドと、メディア出力デバイスのユーザ音声指定とを含むと判断する。ユーザ音声コマンドはさらに、第1のメディア再生アプリケーション(たとえばYouTube(登録商標)およびNetflix(登録商標))および再生が必要なメディアコンテンツ(たとえばレディー・ガガの音楽)の情報を、少なくとも含む。
メディア出力デバイスの音声指定に従い、音声アシスタントサーバ112またはクラウドキャストサービスサーバは、デバイスレジストリ118内の、ユーザドメインにおいて電子デバイス190に対応付けられメディア出力デバイスに結合されたキャストデバイスを特定する。このキャストデバイスは、1つ以上のメディアコンテンツホスト114から受信したメディアコンテンツを再生するためにメディア出力デバイスを制御するための1つ以上のメディア再生アプリケーションを実行するように構成される。次に、クラウドキャストサービスサーバは、キャストデバイスに、第2のメディア再生要求を送信する。第2のメディア再生要求は、第1のメディア再生アプリケーションおよび再生が必要なメディアコンテンツの情報を含む。キャストデバイスは、クラウドキャストサービスサーバから送信されたこの情報を受信すると、第1のメディア再生アプリケーションを実行し、要求されたメディアコンテンツを再生するためにメディア出力デバイスを制御する。
いくつかの実装例において、メディア出力デバイスのユーザ音声指定は、宛先メディア出力デバイスの記述を含む。音声アシスタントサーバ112またはクラウドキャストサービスサーバは、宛先メディア出力デバイスの記述に従い、デバイスレジストリ118内の、複数のメディア出力デバイスのうちの宛先メディア出力デバイスを特定する。いくつかの実装例において、宛先メディア出力デバイスの記述は、ブランド(「Samsung TV」)またはメディア出力デバイス(「私のリビングルームTV」)の場所を少なくとも含む。
メディア出力デバイス間における音声起動メディアの転送
いくつかの実装例において、動作環境100は、第1のキャストデバイス(図示せず)と、第1のキャストデバイスに結合された第1の出力デバイス(図示せず)とを含む。また、動作環境100は、第2のキャストデバイス(図示せず)と、第2のキャストデバイスに結合された第2の出力デバイス(図示せず)とを含む。これらのキャストデバイスは、任意に、同一の場所(たとえばリビングルーム)にあってもよく、動作環境100の中の異なる2つの場所(たとえば2つの部屋)にあってもよい。キャストデバイスは各々、それぞれのキャストデバイスに結合された出力デバイスで表示するためのメディアコンテンツまたはインターネットコンテンツをコンテンツホスト114から取得するように構成される。第1および第2のキャストデバイスはどちらも、音声アシスタントサーバ112に通信可能に結合され、任意にクラウドキャストサービスサーバに通信可能に結合され、コンテンツホスト114に通信可能に結合される。
動作環境100はさらに、音声アシスタントサーバ112に通信可能に結合され任意にクラウドキャストサービスサーバに通信可能に結合された、1つ以上の音声起動電子デバイス190を含む。いくつかの実装例において、音声起動電子デバイス190は、キャストデバイスおよび出力デバイスとは別に配置される。たとえば、電子デバイス190は、キャストデバイスも出力デバイスもない部屋に配置される。いくつかの実装例において、第1の電子デバイス190は、第1のキャストデバイスおよび第1の出力デバイスの近傍に配置され、たとえば、第1の電子デバイス190、第1のキャストデバイス、および第1の出力デバイスは、同一の部屋にある。任意に、第2の電子デバイス190が、第2のキャストデバイスおよび第2の出力デバイスとは別に、またはこれらの近傍に配置される。
第1の出力デバイスにおいてメディアコンテンツが再生されているときに、ユーザは、このメディアコンテンツの再生を第2の出力デバイスに転送することを求める音声コマンドを、電子デバイス190のうちのいずれかに送信することができる。この音声コマンドはメディア再生転送要求を含む。ある状況において、ユーザは、目的の場所に移動する前に、第1のキャストデバイスの近くに配置された電子デバイス190にこの音声コマンドを発してもよい。これに代えて、別の状況において、ユーザは、目的の場所に着いた後で、第2のデバイスの近くに配置された電子デバイス190にこの音声コマンドを発してもよい。
上記音声コマンドは音声アシスタントサーバ112に送信される。音声アシスタントサーバ112は、メディア表示情報要求を第1のキャストデバイスに送信し、第1のキャストデバイスに結合された第1の出力デバイスで現在再生されているメディアコンテンツの即時メディア再生情報を要求する。そうすると、第1のキャストデバイスは、第1のメディア再生アプリケーション(たとえばYouTube)、現在再生中のメディアコンテンツ(たとえば「レディー・ガガ−国歌−スーパーボウル2016」)、およびこのメディアコンテンツの再生に関する時間的位置の情報を少なくとも含む、要求された即時再生情報を、音声アシスタントサーバ112に返す。次に、第2のキャストデバイスが、音声アシスタントサーバ112から、即時再生情報を含むメディア表示要求を受け、即時再生情報に従って、メディアコンテンツを上記時間的位置から再生するよう第2の出力デバイスを制御する第1のメディア再生アプリケーションを実行する。
たとえば、ある音楽再生リストが第1の出力デバイスで再生されているときに、ユーザが「私のリビングルームのスピーカで再生」と言ったとする。第1の出力デバイスは、現在再生中の歌の再生を停止し、停止された音楽はリビングルームのスピーカで再び再生される。この歌が終わると、リビングルームのスピーカは引き続き、第1の出力デバイスで再生されていた音楽再生リストの次の歌を再生する。このように、ユーザが動作環境100の中で移動しているとき、メディアコンテンツの再生は途切れることなくユーザを追いかけ、このときのユーザの介入はごく限られたものでよい(すなわち音声コマンドを与えること)。
動作環境に関与する個々のデバイス
図2A〜図2Bは、いくつかの実装例に従う、動作環境(たとえば動作環境100)においてユーザ音声コマンドを収集するための音声インターフェイスとして適用される一例としての電子デバイス190を示すブロック図である。電子デバイス190は、典型的に、1つ以上の処理ユニット(CPU)502と、1つ以上のネットワークインターフェイス504と、メモリ506と、これらのコンポーネント(チップセットと呼ばれることもある)を相互に接続するための1つ以上の通信バス508とを含む。電子デバイス190は、ボタン512、タッチセンスアレイ514、および1つ以上のマイク516等の、ユーザ入力を容易にする1つ以上の入力デバイス510を含む。電子デバイス190はまた、1つ以上のスピーカ520と、任意にLEDアレイ522と、任意にディスプレイ524とを含む、1つ以上の出力デバイス518を含む。いくつかの実装例において、LEDアレイ522はフルカラーLEDのアレイである。いくつかの実装例において、電子デバイス190は、デバイスの種類に応じて、LEDアレイ522およびディスプレイ524のうちのいずれか、または双方を有する。いくつかの実装例において、電子デバイス190はまた、位置検出装置526(たとえばGPSモジュール)と、1つ以上のセンサ528(たとえば加速度計、ジャイロスコープ、光センサ等)とを含む。
メモリ506は、DRAM、SRAM、DDR RAM等の高速ランダムアクセスメモリまたはその他のランダムアクセス固体メモリデバイスを含み、任意に、1つ以上の磁気ディスク記憶デバイス、1つ以上の光ディスク記憶デバイス、1つ以上のフラッシュメモリデバイス、または1つ以上のその他の不揮発性固体記憶デバイス等の不揮発性メモリを含む。メモリ506は、任意に、1つ以上の処理ユニット502から遠く離れた場所にある1つ以上の記憶デバイスを含む。メモリ506または代替的にメモリ506内の不揮発性メモリは、非一時的なコンピュータ読取可能記憶媒体を含む。いくつかの実装例において、メモリ506またはメモリ506の非一時的なコンピュータ読取可能記憶媒体は、以下のプログラム、モジュール、およびデータ構造、またはその下位セットもしくは上位セットを格納する。
・各種基本システムサービスを扱いハードウェア依存タスクを実行するためのプロシージャを含むオペレーティングシステム532
・1つ以上のネットワークインターフェイス504(有線または無線)と、インターネット、他のワイドエリアネットワーク、ローカルエリアネットワーク(たとえばローカルネットワーク104)、メトロポリタンエリアネットワーク等の1つ以上のネットワーク110とを介して、電子デバイス190を他のデバイス(たとえば、サーバシステム140、1つ以上のキャストデバイス、1つ以上のクライアントデバイス、1つ以上のスマートホームデバイス、および他の電子デバイス190)に接続するためのネットワーク通信モジュール534
・1つ以上の入力デバイスを介して入力を受信し、1つ以上の出力デバイス518を介して電子デバイス190で情報を提示することを可能にするための入出力制御モジュール536であって、
−電子デバイス190の周囲の環境で収集されたオーディオ入力もしくは音声メッセージを処理するため、または、音声アシスタントサーバ112での処理のために収集されたオーディオ入力もしくは音声メッセージを準備するための音声処理モジュール538、
−電子デバイス190のデバイス状態に従ってLED522上に視覚的パターンを生成するためのLED制御モジュール540、および
−電子デバイス190の上面上(たとえばタッチセンサアレイ514上)のタッチイベントを検知するためのタッチセンスモジュール542
を含む。
・電子デバイス190に対応付けられたデータを少なくとも記憶するための音声起動デバイスデータ544であって、
−電子デバイス190自体に対応付けられた情報を記憶するための音声デバイス設定546であり、これは、共通デバイス設定(たとえば、サービス層(service tier)、デバイスモデル、記憶容量、処理能力、通信能力等)、ユーザドメイン内の1つ以上のユーザアカウントの情報、登録されていないユーザを扱うときの制限に関する設定、および、LED522によって表示される1つ以上の視覚的パターンに対応付けられた表示仕様を含み、
−オーディオ信号、音声メッセージ、レスポンスメッセージ、および、電子デバイス190の音声インターフェイス機能に関するその他のデータを記憶するための音声制御データ548、および
−電子デバイス190に対応付けられた、ユーザドメイン内のユーザに対応する音声モデルまたは音声フィンガープリントを記憶するための音声モデルデータ550、
を含む。
・ユーザ音声入力に応答して複数の電子デバイス190の中からリーダーを決定するためのデバイスリーダーシップモジュール552
・電子デバイス190に対応付けられた、ユーザドメイン内のユーザを識別し明らかにするために使用できる音声モデルまたは音声フィンガープリント550を訓練し生成するための音声モデル訓練モジュール554
・音声アシスタントサーバ112が生成した音声要求レスポンスに含まれる命令を実行するための、また、いくつかの実装例では、特定の音声入力に対するレスポンスを生成するための、レスポンスモジュール556
・電子デバイス190の周囲の雑音レベルを求め、妨害雑音レベルを表示し電子デバイスを起動する代替方法を使用するよう示唆するための雑音モジュール558。
いくつかの実装例において、音声処理モジュール538は以下のモジュール、すなわち、
・電子デバイス190に音声入力を与えたユーザを識別し明確にするためのユーザ識別モジュール560、
・電子デバイス190を起動するためのホットワードを音声入力が含むか否かを判断し、音声入力中のそのホットワードを認識するためのホットワード認識モジュール562、
・音声入力に含まれるユーザ要求を判断するための要求認識モジュール564、
・音声入力中のホットワードおよび/または要求の認識の品質の程度(たとえばスコア)を求めるための認識品質モジュール566、
を含む。
いくつかの実装例において、雑音モジュール558は以下のモジュール、すなわち、
・特定の電子デバイス190に関して、音声処理モジュール538(たとえば、特にホットワード認識モジュール562および/または要求認識モジュール564)の動作に対して異なるレベルの雑音がどのように影響するかを解析するための認識解析モジュール568、
・電子デバイス190から所定の距離について、電子デバイス190に対してユーザが発する音声入力の最大快適音量レベルを求めるためのユーザ音量しきい値モジュール568、
・電子デバイス190の周囲の雑音レベルおよび雑音プロファイルを求めるための雑音判定モジュール572、
・音声入力内のホットワードおよび/または要求の認識を妨害する雑音の雑音プロファイルを訓練し生成するための雑音プロファイルモジュール574、および、
・妨害すると判断された雑音プロファイルを保存するための雑音プロファイルストア576、
を含む。
上記要素は各々、先に述べたメモリデバイスのうち1つ以上に格納されてもよく、上述の機能を行うための命令のセットに対応する。上記モジュールまたはプログラム(すなわち命令のセット)は、別個のソフトウェアプログラム、プロシージャ、モジュール、またはデータ構造として実現される必要はなく、そのため、これらのモジュールのさまざまな下位セットをさまざまな実装例で組み合わせたりそうでなければ再配置してもよい。いくつかの実装例において、メモリ506は、任意に、上記モジュールおよびデータ構造の下位セットを格納する。さらに、メモリ506は、任意に、上で記載していないその他のモジュールおよびデータ構造を格納する。いくつかの実装例において、メモリ506に格納されたプログラム、モジュール、および/またはデータの下位セットは、サーバシステム140/音声アシスタントサーバ112に格納する、および/またはサーバシステム140/音声アシスタントサーバ112によって実行されることができる。
いくつかの実装例において、上記メモリ506内のモジュールのうちの1つ以上は、モジュールの音声処理ライブラリの一部である。音声処理ライブラリは、多種多様なデバイスにおいて実現または埋込むことができる。音声処理ライブラリの一例が、その全体を本明細書に引用により援用する、2016年5月10日に出願された「Implementations for Voice Assistant on Devices」と題される米国仮特許出願第62/334,434号に記載されている。
図3は、いくつかの実装例に従う、動作環境(たとえば動作環境100)のサーバシステム140内のサーバの一例を示すブロック図である。サーバの一例は音声アシスタントサーバ112の1つである。サーバ140は、典型的に、1つ以上の処理ユニット(CPU)702と、1つ以上のネットワークインターフェイス704と、メモリ706と、これらのコンポーネント(チップセットと呼ばれることもある)を相互に接続するための1つ以上の通信バス708とを含む。サーバ140は、ユーザ入力を容易にする1つ以上の入力デバイス710を含み得る。入力デバイスは、キーボード、マウス、音声コマンド入力ユニットもしくはマイク、タッチスクリーンディスプレイ、タッチ感知入力パッド、ジェスチャー撮影カメラ、またはその他の入力ボタンもしくは制御装置等の入力デバイスである。さらに、サーバ140は、マイクと音声認識、またはカメラとジェスチャー認識を用いて、キーボードを補足する、またはキーボードに置き換えることができる。いくつかの実装例において、サーバ140は、たとえば電子デバイス上に印刷された一連のグラフィックコードの画像を撮影するための、1つ以上のカメラ、スキャナ、または、フォトセンサユニットを含む。また、サーバ140は、ユーザインターフェイスおよび表示コンテンツの提示を可能にする、1つ以上のスピーカおよび/または1つ以上の視覚的ディスプレイを含む1つ以上の出力デバイス712を含む。
メモリ706は、DRAM、SRAM、DDR RAM等の高速ランダムアクセスメモリまたはその他のランダムアクセス固体メモリデバイスを含み、任意に、1つ以上の磁気ディスク記憶デバイス、1つ以上の光ディスク記憶デバイス、1つ以上のフラッシュメモリデバイス、または1つ以上のその他の不揮発性固体記憶デバイス等の不揮発性メモリを含む。メモリ706は、任意に、1つ以上の処理ユニット702から遠く離れた場所にある1つ以上の記憶デバイスを含む。メモリ706または代替的にメモリ706内の不揮発性メモリは、非一時的なコンピュータ読取可能記憶媒体を含む。いくつかの実装例において、メモリ706またはメモリ706の非一時的なコンピュータ読取可能記憶媒体は、以下のプログラム、モジュール、およびデータ構造、またはその下位セットもしくは上位セットを格納する。
・各種基本的なシステムサービスを扱いハードウェア依存タスクを実行するためのプロシージャを含むオペレーティングシステム716
・1つ以上のネットワークインターフェイス704(有線または無線)と、インターネット、他のワイドエリアネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワーク等の1つ以上のネットワーク110とを介して、サーバシステム140を他のデバイス(たとえば、サーバシステム140内の各種サーバ、クライアントデバイス、キャストデバイス、電子デバイス190、およびスマートホームデバイス)に接続するためのネットワーク通信モジュール718
・クライアントデバイスで情報(たとえば、アプリケーション826〜830、ウィジェット、ウェブサイト、およびそのウェブページ、および/またはゲーム、オーディオおよび/またはビデオコンテンツ、テキスト等)を提示することを可能にするためのユーザインターフェイスモジュール720
・サーバ側で実行されるコマンド実行モジュール721(たとえば、ゲーム、ソーシャルネットワークアプリケーション、スマートホームアプリケーション、および/またはクライアントデバイス、キャストデバイス、電子デバイス190、およびスマートホームデバイスを制御しこれらのデバイスが捕捉したデータをレビューするための、その他のウェブもしくは非ウェブベースのアプリケーション)であって、
−キャストデバイスに対応付けられた、デバイスプロビジョニング、デバイス制御、およびユーザアカウント管理のためのサーバ側機能を提供するために実行されるキャストデバイスアプリケーション722、
−対応するメディアソースに対応付けられた、メディア表示およびユーザアカウント管理のためのサーバ側機能を提供するために実行される1つ以上のメディアプレーヤアプリケーション724、
−対応するスマートホームデバイスの、デバイスプロビジョニング、デバイス制御、データ処理およびデータレビューのためのサーバ側機能を提供するために実行される1つ以上のスマートホームデバイスアプリケーション、および、
−電子デバイス190から受信した音声メッセージの音声処理を手配するため、または、音声メッセージを直接処理することによってユーザ音声コマンドおよびユーザ音声コマンドのための1つ以上のパラメータを抽出するために実行される音声アシスタントアプリケーション、
のうちの1つ以上を含む。
・メディア表示の自動制御(たとえば自動メディア出力モードおよびフォローアップモード)に対応付けられたデータを少なくとも格納するサーバシステムデータ730であって、
−共通デバイス設定(たとえば、サービス層、デバイスモデル、記憶容量、処理能力、通信能力等)、および自動メディア表示制御のための情報を含む、1つ以上のクライアントデバイスに対応付けられた情報を格納するためのクライアントデバイス設定732、
−アカウントアクセス情報、デバイス設定用の情報(たとえば、サービス層、デバイスモデル、記憶容量、処理能力、通信能力等)、および自動メディア表示制御用の情報のうちの1つ以上を含む、キャストデバイスアプリケーション722のユーザアカウントに対応付けられた情報を格納するためのキャストデバイス設定734、
−アカウントアクセス情報、メディアコンテンツタイプのユーザ嗜好、レビュー履歴データ、および自動メディア表示制御用の情報を含む、1つ以上のメディアプレーヤアプリケーション724のユーザアカウントに対応付けられた情報を格納するためのメディアプレーヤアプリケーション設定736、
−アカウントアクセス情報、1つ以上のスマートホームデバイスの情報(たとえばサービス層、デバイスモデル、記憶容量、処理能力、通信能力等)のうちの1つ以上を含む、スマートホームアプリケーション726のユーザアカウントに対応付けられた情報を格納するためのスマードホームデバイス設定738、
−アカウントアクセス情報、1つ以上の電子デバイス190のための情報(たとえば、サーバ層、デバイスモデル、記憶容量、処理能力、通信能力等)のうちの1つ以上を含む、音声アシスタントアプリケーション728のユーザアカウントに対応付けられた情報を格納する音声アシスタントデータ740、
−ユーザのサブスクリプション(たとえば音楽ストリーミングサービス加入、ビデオストリーミングサービス加入、ニューズレター購読)、ユーザデバイス(たとえばそれぞれのユーザに対応付けられたデバイスレジストリ118に登録されたデバイス)、ユーザアカウント(たとえば、ユーザの電子メールアカウント、カレンダーアカウント、財務アカウント)、およびその他のユーザデータを含む、ユーザドメイン内のユーザに対応付けられた情報を格納するためのユーザデータ742、および
−たとえばユーザの音声モデルまたは音声フィンガープリントおよびユーザの快適音量レベルしきい値を含む、ユーザドメイン内のユーザの音声プロファイルを格納するためのユーザ音声プロファイル744、
のうちの1つ以上を含む。
・音声アシスタントサーバ112に結合されたデバイスレジストリ118を管理するためのデバイス登録モジュール750
・動作環境内の電子デバイス190間におけるデバイスリーダーシップの決定を仲裁するためのデバイスリーダーシップモデレータ780
・電子デバイス190の周囲の雑音レベルを求めるための雑音モジュール790
・電子デバイス190の周囲の環境で収集されたオーディオ入力または音声メッセージを処理するための音声処理モジュール7100。
いくつかの実装例において、音声アシスタントサーバ112は、主として音声入力の処理および雑音緩和の役割を担っており、したがって、図2A〜図2Bを参照しながら先に説明したメモリ506内のプログラム、モジュール、およびデータ構造のうちの1つ以上が、メモリ706内のそれぞれのモジュールに含まれている(たとえば、音声処理モジュール538とともに含まれるプログラム、モジュール、およびデータ構造は、音声処理モジュール7100に含まれ、雑音モジュール558とともに含まれるプログラム、モジュール、およびデータ構造は、雑音モジュール790に含まれる)。電子デバイス190は、捕捉された音声入力を処理のために音声アシスタントサーバ112に送信するか、または、音声入力を先ず前処理し、前処理した音声入力を処理のために音声アシスタントサーバ112に送信する。いくつかの実装例において、音声アシスタントサーバ112および電子デバイス190は、音声入力の処理および雑音緩和について、一部の責任は共有し、一部の責任は分担し、図2A〜図2Bに示されるプログラム、モジュール、およびデータ構造は、音声アシスタントサーバ112および電子デバイス190のうちいずれにも含まれていても、分割して含まれていてもよい。図2A〜図2Bに示されるその他のプログラム、モジュール、およびデータ構造(たとえば音声モデルデータ550、音声モデル訓練モジュール554)、またはそれに類似するものも、音声アシスタントサーバ112に含まれていてもよい。
上記要素は各々、上述のメモリデバイスのうちの1つ以上に格納することができ、上記機能を実行するための命令セットに対応する。上記モジュールまたはプログラム(すなわち命令のセット)は、別々のソフトウェアプログラム、プロシージャ、モジュールまたはデータ構造として実現する必要はなく、したがって、これらのモジュールの各種下位セットを、各種実装例において組み合わせるかそうでなければ再構成することができる。いくつかの実装例において、メモリ706は、任意に、先に述べてモジュールおよびデータ構造の下位セットを格納する。さらに、メモリ706は、任意に、先に述べていないその他のモジュールおよびデータ構造を格納する。
デバイスリーダーシップの協議の例
図4A〜図4Bは、いくつかの実装例に従う、複数の電子デバイス(たとえば電子デバイス190)間におけるデバイスリーダーシップの協議の一例を示す。複数の電子デバイス190を有する動作環境(たとえば動作環境100)において、この環境内のユーザが音声入力を行うと、複数の電子デバイス190のうちの1つ以上が、この音声入力を検出し受信する。電子デバイス190は、このユーザの音声入力に応答しこのユーザからのさらに他の音声入力を検出するためのリーダーを、これらの電子デバイスの中から決定する。
図4Aは、ある動作環境(たとえば動作環境100)における3つの音声起動電子デバイス1002−1〜1002−3(たとえば電子デバイス190)を示す。これらはすべてユーザ(図示せず)と同じ空間、たとえば同じ部屋の中にあってもよい。ユーザは音声入力を行い(たとえば発話する)(図示せず)、3つの電子デバイス1002−1〜1002−3は、この音声のサンプルを、異なる品質の程度またはレベルで検出し捕捉する。ある電子デバイスで捕捉された音声入力のサンプルの品質は、1つ以上の要素の影響を受ける可能性があり、この要素は、周囲の雑音、デバイスの能力、ユーザからのデバイスの距離および位置、空間内におけるデバイスの位置などを含むが、これらに限定されない。
いくつかの実装例において、電子デバイスは各々、自身が捕捉した音声入力のサンプルの品質のレベルを求める。品質レベルは、スコアまたはその他何らかの値で表すことができる。たとえば、図4Aにおいて、電子デバイス1002は各々、ユーザの音声入力のサンプルを捕捉し、そのサンプルのスコアを次のように求めている。電子デバイス1002−1におけるサンプルのスコアは0.98(スケールは0〜1、1は最高品質に相当する)、電子デバイス1002−2におけるサンプルのスコアは0.37,電子デバイス1002−3におけるサンプルのスコアは0.61である。いくつかの実装例において、電子デバイス1002における認識品質モジュール566(図2B)は、捕捉されたサンプルの品質レベルを求める。いくつかの実装例において、音声サンプルの品質評価の基準は、たとえば、サンプルの音の大きさまたは振幅、雑音(たとえばクロストーク、シュー音(hissing))が存在するか否かおよび対応するレベル、ひずみ(たとえばエコー)が存在するか否かおよび対応するレベル、サンプルの周波数プロファイル等を含む。
電子デバイス1002はそれぞれの品質スコアを互いに伝える。したがって、たとえば、電子デバイス1002−1は、電子デバイス1002−2および1002−3から品質スコアを受信する。電子デバイス1002−2は、電子デバイス1002−1および1002−3から品質スコアを受信する。電子デバイス1002−3は電子デバイス1002−1および1002−2から品質スコアを受信する。電子デバイス1002すべてが同一のローカルネットワーク(たとえばローカルネットワーク104、図1)上にある場合、電子デバイス1002は、このローカルネットワークを介してスコアをやり取りする。たとえば、電子デバイス1002は、その品質スコアを、ローカルネットワーク内でマルチキャストメッセージを送信することによってその他の電子デバイス1002に送信する。電子デバイス1002のうちの少なくとも1つがこのローカルネットワーク上にない場合、スコアはサーバシステム140に送信され、音声アシスタントサーバ112のデバイスリーダーシップモデレータモジュール780がこのスコアを電子デバイス1002に配信する。これに代わるものとしては、デバイスリーダーシップモデレータモジュール780が、受信したスコアに基づいてデバイスのうちどのデバイスをリーダーにするかを判断し、その判断結果をデバイスに送信する。いくつかの実装例において、電子デバイス1002は、音声アシスタントサーバ112およびレジストリ118を通してお互いを発見しその位置を発見する(たとえばデバイス1002は、音声アシスタントサーバ112に定期的に連絡し、デバイスレジストリ118内の情報に基づいて同一のユーザアカウントに対応付けられたその他のデバイスについて知らされる)。
いくつかの実装例において、複数の電子デバイス1002のうちの1つの電子デバイスのみが音声入力のサンプルを捕捉した場合(たとえばその他の電子デバイス1002はユーザから遠すぎて音声入力を検出できなかった場合)、音声入力サンプルを捕捉したデバイスがリーダーであると判断される。いくつかの実装例において、ある電子デバイス1002が音声入力のサンプルを捕捉しなかった場合(たとえば、このデバイスはユーザから遠すぎて音声入力を検出できなかった場合)、このデバイスの、音声入力の品質スコアは、0.00またはゼロスコアであり、「0.00」またはゼロスコアのデバイスは、リーダーの競合から除外される。
電子デバイス1002は、その他の電子デバイス1002からスコアを受信すると、自身の品質スコアを、その他の電子デバイスのスコアと比較する。電子デバイスは、自身のスコアが電子デバイスのスコアのうちで最も良い(たとえば最高)ではない場合、音声入力に対するレスポンス(たとえばサーバシステム140が生成したレスポンス)の出力を、(たとえばスピーカ520の電源を落とすまたは「オフにする」ことによって)差し控える。電子デバイスは、自身のスコアが電子デバイスのスコアのうちで最も良い場合、「リーダー」であると判断される。いくつかの実装例において、リーダーはまた、ユーザからのその後の音声入力を引き続き検出して処理するかまたは前処理し(音声入力を処理しレスポンスを生成するのがリーダーであろうとなかろうと、リーダーは、音声入力を、レスポンスを生成する音声アシスタントサーバ112に送信するために前処理する、または、リーダーは単純に音声入力を音声アシスタントサーバ112に送信し音声アシスタントサーバ112がレスポンスを生成する)、リーダーでない電子デバイスは、ユーザからのその後の音声入力の受信、検出、および処理を差し控える。
いくつかの実装例において、リーダーの決定は、デバイスを起動するためのユーザの音声入力(たとえばホットワードを含む音声入力)に応答して行われる。いくつかの実装例において、リーダーの決定は、ユーザからの各音声入力に応答して行われてもよく、または、ユーザからの予め定められた数の音声入力ごとに(たとえばユーザからの5つの音声入力ごとに)行われてもよい。このようにして、リーダーシップの決定を更新することにより、変化する状況(たとえばユーザが動き回っている、デバイスの周囲の雑音レベルが変動する等)に対応することができる。
いくつかの実装例において、品質スコアに基づくリーダーの決定は、追加の基準に基づいて無効にされてもよい。すなわち、あるデバイスは、品質スコアのみに基づいて、そうでなければリーダーと判断されないであろう場合であっても、リーダーであると判断されることがある。追加の基準は、たとえば、音声入力における要求またはコマンドのタイプ、および、デバイスの状態を含み得る。たとえば、音声入力が、ビデオの再生または再生の停止を求める要求を含む場合、この要求は、ビデオを再生できる電子デバイス1002(たとえば、スマートTV、キャストデバイス)に特別な関連があり、オーディオ専用のデバイス1002(たとえばサウンドシステム、ポータブルスピーカ)には特に関連はない。要求が、ある電子デバイス1002に特別な関連がある場合、この電子デバイス1002は、このデバイスの品質スコアが最高でなくても、リーダーであると判断することができる。いくつかの実装例において、要求が、空間内の複数の電子デバイスに特別な関連がある場合、この要求が特別な関連がある複数のデバイスのうちで品質スコアが最も良いものがリーダーであると判断される。別の例として、音声入力におけるコマンドが、デバイス状態変更のコマンドである場合(たとえば「画面オフ」)、このコマンドを適用できる状態のデバイス(たとえば、現在画面がオンであるスマートTV)を、品質スコアが低くてもリーダーであると判断することができ、コマンドが適用できない状態のデバイス(たとえば画面が既にオフにされているスマートTV)は、リーダーシップに関して除外される。さらに、要求/コマンドが、デバイス1002のうちのいずれにも特別な関連がない場合(たとえば、デバイス1002がオーディオ専用の音声インターフェイスデバイスであって音声インターフェイスサーバ112を介して非音声インターフェイスキャストデバイスと通信でき、コマンドがキャストデバイスを介してビデオを再生することを求める要求である場合)、リーダーシップは、先に述べたように品質スコアに基づいて判断される。いくつかの実装例において、マルチステップリーダーシップ判定として複数のリーダーシップ判定基準(たとえば上記品質スコア、コマンドの関連性、およびデバイスの状態)を実現してもよく(たとえば、コマンドの関連性およびデバイス状態を判断することによってリーダーシップ候補を絞ってから、品質スコアに基づいてリーダーを決定し、最高スコアのデバイスを決定してから、コマンドの関連性またはデバイス状態の基準がその他のデバイスに適用できるか否かを確認する)、または重み付け判定として複数のリーダーシップ判定基準を実現してもよい(たとえば各基準は重み付けされたスコアで説明され重み付けされる)。
図4Bは、図4Aにおける電子デバイス1002間のデバイスリーダーシップ協議の結果を示す。電子デバイス1002−1は、その品質スコアが3つの電子デバイス1002のうちで最も良いと判断し、ユーザに対するレスポンスの出力においてリーダーシップを取る。電子デバイス1002−2および1002−3は、それぞれの品質スコアが3つの電子デバイス1002のうちで最も良いスコアではないと判断し、それぞれのスピーカ520の電源を落とし、ユーザに対するレスポンスの出力を差し控える。
いくつかの実装例において、リーダーではない電子デバイス1002はまた、それぞれのマイク516の電源を落とし、したがって、ユーザからのさらに他の音声入力を検出しない。リーダーデバイスは、ユーザからのさらに他の音声入力の検出および処理においてもリーダーである。いくつかの実装例において、リーダーではない電子デバイス1002は、それぞれのマイク516の電源を維持し、ユーザからのさらに他の音声入力の再検出を支援する。たとえば、リーダーデバイスおよびリーダーでないデバイスはそれぞれ、音声入力のサンプルを受信して記録し、音声アシスタントサーバ112に送信する。音声アシスタントサーバ112は、これら複数のサンプルを一緒に使用することによって音声入力をより上手く処理することができる(たとえば、これらのサンプルを集約する、処理のために最良のサンプルを選択する、各々の最も良い部分を得るためにサンプル同士を比較する)。
いくつかの実装例において、電子デバイス1002は、ユーザからの各音声入力後に、上記リーダーシップ決定プロセスを繰り返す。いくつかの実装例において、電子デバイス1002は、上記リーダーシップ決定プロセスを、予め定められた数の音声入力ごとに繰り返す(たとえば、5もしくは10の音声入力ごとに、何度もリーダーを決定する)。
いくつかの実装例において、電子デバイス1002のうちの1つ以上は、リーダーの決定後に視覚レスポンスを出力する(たとえば音声入力に対するオーディオレスポンスとともに出力し、決定したリーダーは、自身がリーダーであることを示す通知または予め定められたLED光パターンを表示する)。
いくつかの実装例において、電子デバイス1002は各々、ユーザの声を聴いているとき(たとえばユーザの音声入力を受信し検出しているとき)は常に、聴いていることを示す視覚表示(たとえば予め定められたLED光パターン)を出力し、その後、リーダーデバイスのみが、リーダーシップ決定ごとに、音声入力に対するレスポンスを出力する。たとえば、ユーザが音声入力を発話しているとき、電子デバイス1002−1〜1002−3は、この音声入力を聴きつつ、聴いていることを示す視覚表示を示し、その後は、リーダーデバイス1002−1のみが、リーダーシップ決定ごとにレスポンスを出力する。
いくつかの実装例において、電子デバイス1002は、第62/336,566号出願の図4G(下記図8Dとして複製)に示されるパターンのうちの1つのような特徴的な視覚パターンを、LEDのグループを用いて表示することにより、聴いていることを示す。視覚パターンは静的(変化しない)でもよく、または動的(個々のLEDの色、輝度、デューティサイクルなどの変化によって動いている印象を与える)であってもよい。いくつかの実装例において、電子デバイス1002は、そのLEDを用いて別の特徴的な視覚パターンを表示することにより、聴いている複数のデバイスのうちで自身がリーダーであることを示す。同様に、どのデバイスがリーダーであるべきかの判断のための協議に関わる、聴いている複数のデバイスは、それぞれのLEDを用いて別の特徴的な視覚パターンを表示することにより、協議が進行中であることを示すことができる。
マルチユーザパーソナライゼーションのためのプロセスの例
図5は、いくつかの実装例に従う、ユーザの音声入力に応答する方法1100を示すフロー図である。方法1100は、1つ以上のマイクと、スピーカと、1つ以上のプロセッサと、1つ以上のプロセッサが実行する1つ以上のプログラムを格納するメモリとを備える電子デバイス190において実現される。
電子デバイス190は、1つ以上のマイク516を介してユーザからの第1の音声入力を受信する(1102)。電子デバイス190は、マイク516を介した第1の音声入力のサンプルを捕捉し記録する。いくつかの実装例において、第1の音声入力は、この音声入力が、予め定められたシンタックス内の予め定められた一組の単語およびフレーズに厳密に限定される必要がないという意味において、自由形式の音声入力であり、この音声入力はたとえば自然言語の音声入力であってもよい。
電子デバイス190は、第1の音声入力を、電子デバイス190に対応付けられた複数のユーザに対応付けられた音声モデルのセットと比較し、これらの音声モデルは、電子デバイスに合わせて訓練されたものである(1104)。ユーザ識別モジュール560は、記録された第1の音声入力のサンプルを、音声モデルデータ550内の音声モデルと比較する。音声モデルデータ550は、電子デバイス190に対応付けられたユーザドメイン内の1人以上のユーザ(たとえば電子デバイス190に対して登録されたユーザ)の音声モデルまたは音声フィンガープリントを含む。いくつかの実装例において、音声モデルは、音声モデル訓練モジュール554によって、電子デバイス190に合わせて訓練される。
上記比較に基づいて、電子デバイス190は、第1の音声入力が、複数のユーザのうちの第1のユーザに対応すると判断する(1106)。たとえば、ユーザ識別モジュール560は、第1の音声入力に最も一致する、音声モデルデータ550内の音声モデルを識別し、この一致度の識別に従って、第1の音声入力を発話しているユーザが、一致する音声モデルに対応するユーザであると判断する。いくつかの実装例において、ユーザ識別モジュール560はまた、音声モデルと音声入力との一致の品質または近さの信頼レベルまたはその他同様の何らかの基準を判断し、一致が最良であり信頼レベルが予め定められたしきい値を超える場合にのみ、一致を識別する。
電子デバイス190は、上記判断に従ってレスポンスを与える(1108)。いくつかの実装例において、電子デバイス190は、このレスポンスを、上記判断と第1の音声入力とに従って生成する。このレスポンスは、識別された第1のユーザのアイデンティティの表示を、第1のユーザが識別されたことを第1のユーザに知らせるために、含む。このレスポンスはまた、第1の音声入力における何らかの音声要求に対するレスポンスを含む。たとえば、電子デバイス190を起動するためのホットワード音声入力に応答して、電子デバイス190は、第1のユーザの名前を含む音声挨拶(たとえば、「デイビッドこんにちは」、「メアリーおはよう」)を生成して与える(たとえば出力する)。レスポンスは、音声出力および/またはある動作の実行を求める、別のデバイスに対する命令を含んでいてもよい。動作実行命令の場合は、識別されたユーザに関してその動作が実行されるよう、識別されたユーザのアイデンティティの表示が含まれる。たとえば動作が、会員制音楽配信サービスからの音楽の再生である場合、デバイスは、識別されたユーザが会員である音楽配信サービスからの音楽を再生する。
いくつかの実装例において、レスポンスは可聴音声出力であり、レスポンスを与えることは、可聴音声出力を出力することを含む。電子デバイス190は、可聴音声出力をスピーカ520を通して出力する。
いくつかの実装例において、電子デバイスは、第1の音声入力に基づいてユーザ要求を判断し、判断したユーザ要求に従ってレスポンスを生成する。いくつかの実装例において、上記判断および第1の音声入力に従ってレスポンスを生成することは、これらの判断する動作および生成する動作を含む。音声入力の話し手を識別することに加えて、電子デバイス190は、音声入力内のユーザ要求(たとえばメディア再生要求、ニュースの見出しを求める要求、電子メール読み上げ要求等)を判断し、この要求に応じたレスポンスを生成する(たとえば要求の可聴確認、要求に応えるのに必要なより多くの情報を求める、ユーザに対する可聴問い合わせ)。
いくつかの実装例において、判断されたユーザ要求は、電子デバイスの起動を求める要求を含み、レスポンスは、可聴挨拶を含む。この挨拶は、判断された第1のユーザのアイデンティティの表示を含む。音声入力がホットワードを含む場合(すなわち、音声入力が電子デバイス190の起動を求める要求である場合)、生成されたレスポンスは、第1のユーザのアイデンティティを含む可聴挨拶(たとえば「おはよう、デイブ」)を含む。この挨拶は、電子デバイス190が起動されたことを示すとともに、電子デバイス190が識別したユーザのアイデンティティを示す。
いくつかの実装例において、判断されたユーザ要求は情報を求める要求を含み、判断した要求に従ってレスポンスを生成することは第1のユーザに関連する要求された情報を取得することを含む。要求が情報を求める要求である場合(たとえばユーザの電子メールを読み上げることを求める要求、ユーザの近づいているカレンダーイベントを大きな声で話すことを求める要求)、電子デバイス190は、識別されたユーザの情報(たとえばユーザの電子メール、ユーザのカレンダー)にアクセスしてレスポンスを生成する。いくつかの実装例において、判断された第1のユーザに関する要求された情報を取得することは、第1のユーザに対応付けられたアカウントにアクセスすることを含み、レスポンスについて識別されたユーザの情報を取得するために、電子デバイス190は、ユーザのアカウント(たとえばユーザの電子メールアカウント、ユーザのカレンダーアカウント)にアクセスする。電子デバイス190において、ユーザアカウント情報は、音声デバイス設定546に格納することができる。
いくつかの実装例において、電子デバイス190は、第2の音声入力を受信し、第2の音声入力を音声モデルのセットと比較し、この比較に基づいて、第2の音声入力は複数のユーザのうちの第2のユーザに対応すると判断し、第2の音声入力が第2のユーザに対応するという判断に従ってレスポンスを与える。いくつかの実装例において、電子デバイスは、上記判断と第2の音声入力とに従ってレスポンスを生成する。電子デバイス190に対応付けられた、異なるユーザが、電子デバイス190に対して音声入力を発話した場合、電子デバイス190は、第1のユーザの識別と同様のやり方でこの異なるユーザを識別する、すなわち、この異なるユーザの音声入力を音声モデルと比較し、最も一致するものを発見する。異なるユーザを識別したので、電子デバイス190は、この新たな識別に基づいてレスポンスを生成することができる。このように、電子デバイス190は、音声入力を音声モデルと比較しこの比較に基づいて話し手であるユーザを識別することにより、対応付けられたユーザ間で切り替えることができ、そのため、ユーザは、電子デバイス190に対し、対象をあるユーザから別のユーザに切り替えることを求めるコマンドを明確に発話する必要はない。
いくつかの実装例において、電子デバイス190は、第3の音声入力を受信し、第3の音声入力を音声モデルのセットと比較し、この比較に基づいて、第3の音声入力は複数のユーザのうちのどのユーザにも対応しないと判断し、第3の音声入力は複数のユーザのうちのどのユーザにも対応しないという判断に従い、電子デバイスの機能を制限する。電子デバイス190に対応付けられていないユーザが電子デバイス190に対する音声入力を発話した場合、電子デバイス190はこの音声入力を受信しユーザを識別しようと試みる。このユーザは電子デバイス190に対応付けられておらずしたがって音声モデルデータ550内に対応付けられた音声モデルはないので、電子デバイス190は、このユーザな未確認ユーザであると判断する。この未確認ユーザについて、電子デバイス190は、個人または機密情報がアクセスされるのを防止するために、その機能を制限する。たとえば、電子デバイス190は、未確認ユーザからの、非機密または非個人情報を含む要求(たとえば、スポーツのスコア、ニュース、株、天気)のみに対して作用することができる。いくつかの実装例において、電子デバイス190は、電子デバイス190および音声アシスタントサービスの機能への、未確認ユーザのアクセスを(たとえば未確認ユーザの音声入力を無視する、または、このユーザは認証されないことを示すレスポンスで応答することによって)拒否することができる。いくつかの実装例において、未確認ユーザに対する機能制限は、デバイスの設定(たとえば音声デバイス設定546)に基づく。デバイスの所有者は、たとえば、未確認ユーザについて、機能の全体を制限するのかまたは個人もしくは機密情報を含まない機能のみにするかを、設定することができる。
いくつかの実装例において、電子デバイスはディスプレイを含み、判断した第1のユーザのアイデンティティの表示をディスプレイ上に示す。電子デバイス190がディスプレイ524を含む場合、電子デバイス190は、ディスプレイ524上に、識別されたユーザのアイデンティティを示す(たとえば識別されたユーザの名前を示す、識別されたユーザの名前とともに挨拶を示す、識別されたユーザの写真、アバター、または識別されたユーザに対応付けられたその他の画像を示す)ことにより、電子デバイス190が音声入力の話し手を識別したことを示すとともに、ユーザに対してこの識別を検証する機会を与えることができる。
いくつかの実装例において、電子デバイスはディスプレイを含み、判断した第1のユーザに対応付けられた視覚ユーザインターフェイスをディスプレイ上に表示する。電子デバイス190がディスプレイ524を含む場合、電子デバイス190は、識別されたユーザによって特定される視覚ユーザインターフェイス(たとえば、識別されたユーザに対応するテーマを有するユーザインターフェイス)を表示することができる。いくつかの実装例において、電子デバイス190は、LED522上に、識別されたユーザに対応付けられたパターンを表示する。
いくつかの実装例において、電子デバイス190は、ステップ1102と同様に、音声入力を受信し(たとえば音声入力のサンプルを捕捉)、この音声入力を音声アシスタントサーバ112に送信する。音声アシスタントサーバ112は、ステップ1104および1106と同様に、音声入力を、電子デバイス190に対応付けられた複数のユーザに対応付けられた音声モデル(たとえばユーザ音声プロファイル744における音声モデル)のセットと比較し、この比較に基づいて、音声入力を発話したユーザのアイデンティティを判断する。音声アシスタントサーバ112は、音声入力に対するレスポンスを生成し、生成したレスポンスを電子デバイス190に送信し、電子デバイス190はこのレスポンスを出力する。いくつかの実装例において、音声アシスタントサーバ112は、ユーザを識別し、ユーザ識別結果を電子デバイス190に送信し、電子デバイス190は音声アシスタントサーバ112から受信した識別結果に従ってレスポンスを生成し出力する。
いくつかの実装例において、電子デバイス190は、ステップ1102と同様に、音声入力を受信し(たとえば音声入力のサンプルを捕捉)、音声入力に対する前処理を実行し、前処理された音声入力を音声アシスタントサーバ112に送信する。前処理は、ステップ1104および1106と同様に、発話したユーザの識別を含み、識別結果は、音声アシスタントサーバ112に対する音声入力に添付される。これに代わるものとして、ユーザの識別は音声アシスタントサーバ112によって実行される。音声アシスタントサーバ112は、前処理された音声入力を受信し、発話したユーザの識別を(ステップ1104および1106と同様に)電子デバイス190が既に行っていなければ、実施し、音声入力に対するレスポンスを生成し、生成したレスポンスを電子デバイス190に送信し、電子デバイス190はこのレスポンスを出力する。
いくつかの実装例において、電子デバイス190は、音声入力を受信し(たとえば音声入力のサンプルを捕捉)、この音声入力を音声アシスタントサーバ112に送信するか、または前処理を実行して前処理された音声入力を音声アシスタントサーバ112に送信する。ステップ1104および1105と同様に、音声アシスタントサーバ112は、この音声入力を、電子デバイス190に対応付けられた複数のユーザに対応付けられた音声モデル(たとえばユーザ音声プロファイル744における音声モデル)のセットと比較し、この比較に基づいて、音声入力を発話したユーザのアイデンティティを判断する。音声アシスタントサーバ112は、音声入力に対するレスポンスを生成し、生成したレスポンスを電子デバイス190に送信し、電子デバイス190はこのレスポンスを出力する。いくつかの実装例において、音声アシスタントサーバ112は、ユーザを識別し、ユーザの識別結果を電子デバイス190に送信し、電子デバイス190は、音声アシスタントサーバ112から受信した識別結果に従ってレスポンスを生成し出力する。
上述のように、話し手であるユーザを、音声モデルまたは音声フィンガープリントを音声入力と突き合わせることによって識別する。いくつかの実装例において、電子デバイス190は、音声モデルまたは音声フィンガープリントを捕捉し訓練するためのプロセスを実行するように構成される。たとえば、ユーザを電子デバイス190に対応付ける(たとえばこのデバイスに登録する)ときに、電子デバイス190(たとえば音声モデル訓練モジュール554)は、段階的なプロセスを通してユーザを電子デバイス190に対応付けられるように導き、このユーザの音声モデルを捕捉し訓練することができる。このプロセスの間、電子デバイス190は、音声モデルを生成し訓練するために、1つ以上の単語またはフレーズ(たとえばホットワード、複数の異なる音素を含むフレーズまたはセンテンス)を話すようユーザを促してもよい。音声モデル訓練モジュール554は、音声モデル捕捉・訓練プロセスの状態をユーザに対して示すために、各種視覚パターンをLED上に点灯させるよう、LED制御モジュール540に指示することができる。いくつかの実装例において、電子デバイス190は、訓練された音声モデルを音声モデルデータ550に格納し、任意に、訓練された音声モデルを、(たとえばユーザ音声プロファイル744に)保存するために音声アシスタントサーバ112に送信する。
いくつかの実装例において、所定のユーザは、このユーザが対応付けられている電子デバイス190ごとに音声モデルを有する。それぞれのデバイス190における音声モデルは、対応するデバイスに合わせて訓練されるので、対応するデバイスおよびそれぞれのデバイスの周囲の環境を考慮する。
いくつかの実装例において、音声モデル訓練プロセスは、電子デバイス190とともに音声アシスタントサーバ112によって実行される。たとえば、あるユーザをある電子デバイス190に対応付けるとき、音声アシスタントサーバ112における音声モデル訓練モジュール(図示せず)が、電子デバイス190に対して命令およびオーディオ出力を送信する。電子デバイス190は、この命令を実行しオーディオ出力を出力することにより、上記音声モデル訓練モジュール554が実行する訓練プロセスと同様の訓練プロセスを通してユーザを導く。電子デバイス190は、ユーザが訓練プロセスに対して発話した音声入力を捕捉し、捕捉した音声入力を音声アシスタントサーバ112に送信し、音声アシスタントサーバ112は、音声モデルを生成しユーザ音声プロファイル744に格納する。いくつかの実装例において、音声アシスタントサーバ112は、(たとえば音声モデルデータ550に)格納するためおよびローカルで使用するために、電子デバイス190に対応付けられたユーザの音声モデルを電子デバイス190に送信する。
いくつかの実装例において、あるユーザのための音声モデルが生成され訓練されると、このユーザのための認証トークンも生成される。認証トークンは、音声アシスタントサーバ112に対してユーザを認証する。話し手の音声入力を、さまざまなユーザに対応付けられた音声モデルと突き合わせる。この話し手の音声入力について一致する音声モデルが発見されると、一致する音声モデルに対応付けられたユーザアカウントのための認証トークンが使用される。いくつかの実装例において、認証トークンは前もって生成されるが、最初はどの音声モデルにも対応付けられていない。訓練プロセスは、訓練プロセスの結果として訓練された音声モデルを、予め生成された認証トークンに対応付ける。いくつかの実装例において、電子デバイス190が音声入力の話し手を識別した後に、音声入力(またはユーザの要求と、音声入力から求めた関連するパラメータとを含むデータ)を、話し手に対応付けられた認証トークンとともに、音声アシスタントサーバ112に送信し、認証トークンは、音声アシスタントサーバ112に対して話し手を認証する。いくつかの実装例において、話し手は、いずれかの話し手に対して許可を与えたユーザの認証トークンに対応付けられてもよい。たとえば、電子デバイス190に対応付けられたユーザは、このユーザのアカウントを、自身の音楽サービスログインクレデンシャルを誰でも使用できるように構成することにより、その他のユーザが、ユーザのデバイス190の近くにある接続されたどの出力デバイス(たとえばスピーカ)にもアクセスできるようにしてもよい。
いくつかの実装例において、電子デバイス190は、話しているユーザを、この話しているユーザに対応付けられた近傍のキーデバイスを検出することによって識別する(たとえばBluetoothローエナジーまたは超音波RFを用いて)。
いくつかの実装例において、コンテンツホスト114は、音声入力に対する可聴レスポンスを生成する。たとえば、音声入力は、ユーザに対応付けられた銀行口座の残高を求める要求を含むことがある(たとえば「私のChase銀行の口座の残高は?」)。このような音声入力に対し、電子デバイス190または音声アシスタントサーバ112は、上述のように話しているユーザを識別する。ユーザを識別し銀行口座情報を(たとえばユーザデータ742から)取得した後に、電子デバイス190または音声アシスタントサーバ112は、口座残高についてのクエリを(たとえばアプリケーションプログラミングインターフェイス(API)を通して)、この銀行口座がある場所である(たとえば銀行のデータベースシステム)、銀行に対応付けられたコンテンツホスト114に送信する。銀行コンテンツホストは、そのデータベースから残高を取得し、要求に応じて可聴レスポンスを生成する。銀行コンテンツホストは、可聴レスポンスを電子デバイス190または音声アシスタントサーバ112(これは可聴レスポンスを電子デバイス190に送信する)に送信し、電子デバイス190は可聴レスポンスを出力する。このようにして、数値形式の口座データのネットワーク上における送信およびデバイスへの格納が減じられ、それによってユーザデータのセキュリティと機密性が促進される。
デバイスリーダーシップ協議のプロセスの例
図6は、いくつかの実装例に従う、複数の音声インターフェイスデバイスの中からデバイスリーダーシップを協議により決定する方法1200を示すフロー図である。この方法1200は、2つ以上の電子デバイス190(電子デバイス1002)のうちのある電子デバイス(たとえばデバイス1002−1、1002−2、または1002−3)において実現され、2つ以上の電子デバイスは各々、1つ以上のマイクと、スピーカと、1つ以上のプロセッサと、1つ以上のプロセッサが実行する1つ以上のプログラムを格納するメモリとを含む。
電子デバイス190が音声入力を検出する(1202)。電子デバイス190は、マイク516を介したユーザからの音声入力のサンプルを捕捉し記録する。
電子デバイス190は、検出した音声入力の品質スコアを求める(1204)。電子デバイス190は、捕捉した音声入力サンプルの、スコア、格付け、または品質のその他何らかの基準を求める。サンプルの品質は、デバイスからユーザまでの距離、ユーザが音声入力を発話する音量、周囲の環境および雑音、デバイスの能力などを含む、複数の要素の影響を受ける可能性がある。いくつかの実装例において、音声サンプルの品質の評価基準は、たとえば、サンプルの音の大きさまたは振幅、雑音(たとえばクロストーク、シュー音)があるか否か、および対応するレベル、対応するひずみ(たとえばエコー)があるか否か、および対応するレベル、サンプルの周波数プロファイル等を含む。
電子デバイス190は、複数の電子デバイスのうちの他のデバイスに、品質スコアを伝え(1206)、複数の電子デバイスのうちの他のデバイスによる音声入力の検出について他のデバイスが生成した品質スコアを受信する(1208)。電子デバイス190は、その音声入力サンプルのスコアを、複数の電子デバイスのうちの他のデバイスに送信し、他のデバイスそれぞれの音声入力のサンプルのスコアを、他のデバイスから受信する。
第1の電子デバイスが生成した品質スコアが、音声入力について生成した品質スコアおよび受信した品質スコアのうちで最も高いという判断に従い、電子デバイスは、検出された音声入力に対する可聴レスポンスおよび/または視覚レスポンス(たとえば通知またはLEDの光パターン)を出力し、複数のデバイスのうちの他のデバイスは、検出した音声入力に対する可聴レスポンスの出力を差し控える(1210)。いくつかの実装例において、複数のデバイスのうちで音声入力のスコアが最も高い(またはより一般的には最も良いスコア)のデバイスは、任意にその音声入力サンプルを前処理し、音声入力サンプルまたは前処理した音声入力サンプルを、音声アシスタントサーバ112に送信し、音声アシスタントサーバ112は、音声入力に対する可聴出力(たとえばユーザ要求の音声確認、ユーザが要求した情報の読み上げ)を含むレスポンスを生成し、デバイスに送信する。これに代わるものとしては、最高スコアを有するデバイスが、音声入力に対するレスポンスを生成する。いずれの状況においても、最高スコアを有するデバイス(たとえばデバイス1002−1)がレスポンスを出力し、スコアがそれよりも低いその他のデバイス(たとえばデバイス1002−2、1002−3)は、レスポンスを生成しない。いくつかの実装例において、リーダーである電子デバイス(たとえばこの例では最高スコアを有するデバイス)はまた、ユーザからのその後の音声入力の処理または前処理についてもリーダーである。
第1の電子デバイスが生成した品質スコアは、複数の電子デバイスが生成した音声入力の品質スコアのうちで最高ではないという判断に従い、電子デバイス190は、検出した音声入力に対するレスポンスの出力を差し控える。あるデバイスが、このデバイスの音声入力のスコアがデバイス(たとえばデバイス1002−2、1002−3)のうちで最高ではないと判断した場合、このデバイスは、音声入力に対するレスポンスを出力しない。たとえば、スコアがより低いデバイスはそのスピーカ520の電源を落とす。いくつかの実装例において、スコアがより低いデバイスは、それぞれのマイク516の電源も落として、最高スコアのデバイスのみがその他の音声入力を検出するようにする。いくつかの実装例において、第1の電子デバイスが生成した音声入力の品質スコアは、複数の電子デバイスが生成した音声入力の品質スコアのうちで最高ではないという判断に従い、電子デバイス190は、検出した音声入力に対する可聴レスポンスの出力を差し控え、視覚レスポンス(たとえばこのデバイスはリーダーと判断されなかったことを視覚的に示すもの)を出力してもよい。
いくつかの実装例において、複数の電子デバイスはローカルネットワークを介して通信可能に結合され、通信および受信はこのローカルネットワークを介して行われる。電子デバイス190は、ローカルネットワーク(たとえばローカルネットワーク104)を介して通信可能に結合され、このローカルネットワークを介してそれぞれのスコアを互いに送信することができる。たとえば、あるデバイスはローカルネットワークを介してそのスコアをマルチキャストまたはブロードキャストしてもよい。
デバイスのうちの少なくとも1つがローカルネットワーク上にない場合、これらのデバイスは、それぞれのスコアを音声アシスタントサーバ112に送信すればよい。いくつかの実装例において、デバイスリーダーシップモデレータモジュール780は、受信したスコアをデバイスに送信し、デバイスは、それぞれのスコアが最高であるか否かを判断する。いくつかの実装例において、デバイスリーダーシップモデレータモジュールは、どのスコアが最も高いかを判断し、この判断結果をデバイスに送信する。いくつかの実装例において、ハブデバイスが、デバイスリーダーシップモデレータモジュール780と同様のモジュールを含み同様の役割を果たしてもよい。
いくつかの実装例において、品質スコアは、音声入力の検出の信頼レベルを含み、品質スコアは、音声入力サンプルの信頼レベルの値である。いくつかの実装例において、品質スコアは、音声入力の検出の信号対雑音の格付けを含み、品質スコアは、音声入力サンプルの信号対雑音の格付けまたはその値(たとえば信号対雑音比)である。
いくつかの実装例において、電子デバイス190は、音声入力におけるコマンドを認識し、このコマンドのタイプが第1の電子デバイスに関連するという判断に従って、検出した音声入力に対する可聴および/または視覚レスポンスを出力する。音声入力におけるコマンドまたは要求が、音声入力を検出した複数のデバイスのうちのあるデバイスに特別の関連があると認識された場合、このデバイスが、コマンドが特別に関連するこのデバイスの音声入力のスコアが複数のデバイスのうちで最高でなくても、音声入力に対するレスポンスを出力し、その他のデバイスはレスポンスの出力を差し控える。特別な関連があるコマンドまたは要求の例は、(たとえばキャストまたはTVデバイスに対する)ビデオ再生要求および(たとえばオーディオシステムまたはスピーカシステムに対する)音楽再生要求を含む。加えて、コマンドまたは要求は、ユーザが要求を叶えたい特定のデバイスを識別する場合に、この特定のデバイスに対して特別な関連を有し得る(たとえば「私の寝室のTVでビデオを再生」というコマンドは、寝室のTVデバイスを明確に特定しているので、このTVデバイスに特別な関連がある)、または、コマンド/要求が、デバイスの現在の状態に適用可能なデバイス状態パラメータを含む場合に、このデバイスに対して特別な関連を有し得る(たとえば「画面オフ」コマンドは、その画面がオンであるデバイスに関連があり、画面がないデバイスまたは画面オフのデバイスには関連がない)。
このようにして、複数のデバイスはそれぞれ音声入力のサンプルを捕捉し、どのサンプルが最良であるかが判断される。この判断に基づいて、複数のデバイスのうちの1つがこの音声入力およびユーザからのさらに他の音声入力に対して応答する。いくつかの実装例において、複数のデバイスは、各音声入力ごとに、または予め定められた数の音声入力ごとに、上記プロセスを繰り返す(たとえば5個の音声入力ごとに、もしくは10個の音声入力ごとに、リーダーを再び決定する)。
いくつかの実装例において、複数のデバイスは、音声入力を検出し、それぞれ捕捉した音声入力のサンプルを、音声アシスタントサーバ112に送信する。音声アシスタントサーバ112は、処理の対象として、これらのサンプルを集めるかまたは最良品質のサンプルを選択する、またはこれらのサンプルを比較することにより、各々の最良の部分を得る。いくつかの実装例において、複数のデバイスが音声入力を受信し検出している場合、これらのデバイスは各々、ユーザの声を聴いていることを示す視覚表示(たとえば予め定められたLEDパターン)を示す。
雑音緩和のためのプロセスの例
図7は、いくつかの実装例に従う音声インターフェイスデバイスの周囲の雑音を緩和する方法1300を示すフロー図である。この方法1300は、1つ以上のマイクと、スピーカと、1つ以上のプロセッサと、1つ以上のプロセッサが実行する1つ以上のプログラムを格納するメモリとを備える電子デバイス190において実現される。電子デバイス190は、音声ベースのアフォーダンス(たとえばホットワードを含む音声入力)を含む複数のアフォーダンスのうちのいずれかによって起動されるように構成される。
電子デバイスは、この電子デバイスの周囲の環境の現在の雑音プロファイルを求める(1302)。電子デバイス190は、アイドル中に、雑音モジュール558(たとえば雑音判定モジュール572)を実行することにより、その周囲の雑音プロファイルを求めることができる。いくつかの実装例において、現在の雑音プロファイルを求めることは、雑音の雑音レベル(たとえば音量)を求め、周囲雑音を捕捉し処理することを含む。この処理は、たとえば、周囲雑音の周波数およびその他のパラメータを求めることを含み得る。
電子デバイスは、雑音プロファイルが音声ベースのアフォーダンスを妨害するか否かを判断する(1304)。電子デバイス190は、求めた雑音プロファイルを、雑音プロファイルストア576内の雑音プロファイルと比較し、雑音プロファイルのパラメータを評価することにより、この雑音プロファイル(すなわち電子デバイス190の周囲の現在の雑音)が音声ベースのアフォーダンスを妨害するか否かを判断する。
雑音プロファイルが音声ベースのアフォーダンスを妨害するという判断に従い、電子デバイス190は、電子デバイスを起動するために音声ベースのアフォーダンス以外の複数のアフォーダンスのうちのアフォーダンスを使用するようユーザに対して示唆する(1306)。この示唆は、ユーザを、電子デバイス190を起動するために音声ベースのアフォーダンス以外の別のアフォーダンスを使用するように導く。いくつかの実装例において、この示唆は、さらに、またはそうでなければ、周囲の雑音がホットワード認識を妨害するという表示を含む。たとえば、電子デバイス190はLED522上に予め定められたパターンを表示してもよい。このパターンは、周囲の雑音が音声ベースのアフォーダンスを妨害することを示すとともに、ユーザはデバイスの起動のために別のアフォーダンス(たとえばボタン512を押す、タッチセンサアレイ514にタッチする、電子デバイス190に通信可能に結合されたスマートフォン等の別のデバイスを使用する)を使用すべきであるという示唆を示す。この表示/示唆は、ディスプレイ524に表示されてもよく、または、スピーカ520を通して音声または音として出力されてもよい。
いくつかの実装例において、音声ベースのアフォーダンスは、発話されたホットワードを含む。音声ベースのアフォーダンスは、先に述べたようにユーザがホットワードを発話することによって電子デバイス190を起動することを含む。
いくつかの実装例において、雑音プロファイルが音声ベースのアフォーダンスを妨害するか否かを判断することは、雑音プロファイルが、電子デバイスによって検出された音声入力におけるホットワードの認識に悪影響を及ぼすか否かを判断することを含む。電子デバイス190は、周囲の雑音(雑音プロファイルによって表される)が、電子デバイス190によるホットワードの検出/認識に悪影響を与えるか否か(たとえば、雑音は、ユーザのホットワードを含む音声入力をかき消すほど大きいか、雑音は、ホットワードを含むユーザの音声入力を妨害する周波数プロファイルを有するか、雑音はホットワードを含むユーザの音声入力を歪ませるか)を判断する。
いくつかの実装例において、雑音プロファイルが音声入力におけるホットワードの認識に悪影響を及ぼすか否かを判断することは、雑音プロファイルを、電子デバイスに対応付けられたホットワード認識プロセスの雑音レベルしきい値と比較することを含む。電子デバイス190(または音声アシスタントサーバ112)の認識解析モジュール568は、(たとえば電子デバイス190がアイドル状態のときに)電子デバイス190のホットワード認識モジュール562を解析することにより、モジュールが使用するアルゴリズムまたはプロセスに対して雑音が問題を生じさせるであろう雑音しきい値を求める。これらのしきい値を保存しておいて、現在の雑音プロファイルと比較することにより、現在の雑音プロファイルがホットワード認識モジュール562に対して問題を引き起こすか否かを判断する。ホットワード認識モジュールの解析は、電子デバイス190に関するものであり、したがって、しきい値はデバイス間で異なり得る。
いくつかの実装例において、雑音プロファイルが音声入力におけるホットワードの認識に悪影響を及ぼすか否かを判断することは、雑音プロファイルを音量レベルしきい値と比較することを含み、この音量レベルしきい値は、電子デバイスからの予め定められた距離に基づいて定められる。電子デバイス190(または音声アシスタントサーバ112)のユーザ音量しきい値モジュール570は、ユーザの音声入力の解析を実行することにより、予め定められた距離(たとえば、「典型的なユーザ距離」に基づく予め定められた距離であって、この距離を超えると音声入力は減衰する)に基づく判断に従い、ユーザが音声入力を発話するときの最大快適音量レベルを求める。
いくつかの実装例において、雑音プロファイルが音声入力におけるホットワードの認識に悪影響を及ぼすか否かを判断することは、音声プロファイルを、電子デバイスに対応付けられた雑音プロファイルの予め定められたセットと比較することを含み、この雑音プロファイルの予め定められたセットにおける雑音プロファイルは、音声入力におけるホットワードの電子デバイスによる認識に悪影響を及ぼすことがわかっている。電子デバイス190は、雑音プロファイルを、ホットワードの検出を妨害した(たとえば雑音プロファイルストア576における)以前の雑音プロファイルと比較する。
いくつかの実装例において、電子デバイスはボタンを含み、複数のアフォーダンスのうちの、音声ベースのアフォーダンス以外のアフォーダンスは、このボタンを起動することを含む。電子デバイス190は、物理押しボタン512を含み、ユーザは、ホットワードを含む音声入力を発話する代わりにボタン512を起動することによってデバイスを起動することができる。
いくつかの実装例において、電子デバイスを起動するために複数のアフォーダンスのうちの音声ベースのアフォーダンス以外のアフォーダンスを使用するようユーザに示唆することは、複数のアフォーダンスのうちのボタンベースのアフォーダンスに対応する電子デバイス上のボタンを点灯することを含む。ボタン512は照明を含んでいてもよく(たとえば埋込みLEDライト)、電子デバイス190は、ボタン512を点灯することにより、ホットワードを発話する代わりにボタン512を使用するようユーザに示唆してもよい。
いくつかの実装例において、電子デバイスを起動するために複数のアフォーダンスのうちの音声ベースのアフォーダンス以外のアフォーダンスを使用するようユーザに対して示唆することは、予め定められた可聴音を出力することを含む。電子デバイス190は、スピーカ520を通して予め定められた音声または音(または一組の音声または音)を出力することにより、代わりのアフォーダンスを使用するようユーザに示唆してもよい。
いくつかの実装例において、電子デバイスはディスプレイを含み、電子デバイスを起動するために複数のアフォーダンスのうちの音声ベースのアフォーダンス以外のアフォーダンスを使用するようユーザに対して示唆することは、上記示唆をディスプレイに表示することを含む。電子デバイス190は、ディスプレイ524に示唆メッセージを表示することにより、代わりのアフォーダンスを使用するようユーザに示唆してもよい。
いくつかの実装例において、電子デバイスは1つ以上のLEDライトを含み、電子デバイスを起動するために複数のアフォーダンスのうちの音声ベースのアフォーダンスと異なるアフォーダンスを使用するようユーザに対して示唆することは、上記1つ以上のLEDを用いてこの示唆を表示することを含む。電子デバイス190は、LED522に予め定められた光のパターンを表示することにより、代わりのアフォーダンスを使用するようユーザに示唆してもよい。
図8Aおよび図8Bはそれぞれ、いくつかの実装例に従う音声起動電子デバイス190の正面図400および背面図420である。電子デバイス190は、親密で魅力的なものとして設計され、住居の多くの場所に自然に馴染む。電子デバイス190は、1つ以上のマイク402と、フルカラーLEDのアレイ404とを含む。フルカラーLED404は、電子デバイス190の上面の下に隠しておいて、点灯されていないときはユーザから見えないようにすることができる。いくつかの実装例において、フルカラーLEDのアレイ404は、物理的にリング状に配置される。さらに、電子デバイス190の背面側は、任意に、電源に接続されるように構成された電源コネクタ408を含む。
いくつかの実装例において、電子デバイス190は、目に見えるボタンがないすっきりした外観を有し、電子デバイス190とのやり取りは、音声およびタッチジェスチャーに基づく。これに代わるものとして、いくつかの実装例では、電子デバイス190は、限られた数の物理ボタン(たとえばその背面側のボタン406)を含み、電子デバイス190とのやり取りはさらに、音声およびタッチジェスチャーに加えてこのボタンを押すことに基づく。
いくつかの実装例において、電子デバイス190が簡素で低コストであることを考慮し、電子デバイス190は、全表示画面ではなくフルカラー発光ダイオード(LED)のアレイを含む。LED設計言語を採用することにより、フルカラーLEDアレイの照明を構成し、電子デバイス190の異なる音声処理状態を示す各種視覚パターンを可能にする。このLED設計言語は、色、パターン、および、フルカラーLEDの固定セットに適用される特定の動きの文法で構成される。この言語の要素を組み合わせることにより、電子デバイス190の使用中の特定のデバイス状態を視覚的に表示する。いくつかの実装例において、フルカラーLEDの照明は、その他重要な状態のうち、受動聴き取り状態と能動聴き取り状態とを明確に視覚的に表すことを意図している。フルカラーLEDを配置することは、電子デバイス190の物理的制約に従っており、フルカラーLEDのアレイは、特定の技術(たとえばGoogleアシスタント)に基づく第三者相手先商標製品製造会社(OEM)が製造するスピーカにおいて使用することができる。
フルカラーLEDのアレイを、特定技術に基づく第三者OEMが製造するスピーカにおいて使用する場合、フルカラーLEDおよびLED設計言語は、OEMスピーカの対応する物理ユーザインターフェイスに適合するように構成される。この状況において、OEMスピーカのデバイス状態を同じ状態のままにしておく一方で、デバイス状態を表す特定の視覚パターンを変化させることができる(たとえば、フルカラーLEDの色は異なっているが同様のアニメーション効果が出るように表示される)。
音声起動電子デバイス190において、受動聴き取りは、電子デバイス190が、周囲環境から収集したオーディオ入力を処理するものの、このオーディオ入力を格納しないかまたはいずれかの遠隔サーバに送信しないときに、生じる。これに対し、能動聴き取りは、電子デバイス190が、周囲環境から収集した音声入力を格納し、および/またはこの音声入力を遠隔サーバと共有するときに、生じる。本願のいくつかの実装例において、電子デバイス190は、その周囲の環境におけるオーディオ入力を受動的に聴き取るだけであって、電子デバイス190のユーザのプライバシーを侵害しない。
図8Cは、いくつかの実装例に従う音声起動電子デバイス190の平面図であり、図8Dは、いくつかの実装例に従う音声処理状態を示すためにフルカラーLEDのアレイが示す6つの視覚パターンを示す。いくつかの実装例において、電子デバイス190は表示画面を含んでおらず、フルカラーLEDは、全表示画面と比較すると簡素で低コストの視覚ユーザインターフェイスを提供する。フルカラーLEDは、電子デバイスの上面の下に隠しておいて、点灯されていないときはユーザから見えないようにすることができる。図8Cおよび図8Dを参照して、いくつかの実装例において、フルカラーLEDのアレイは物理的にリング状に配置される。
その例が添付の図面に示される実装例を詳細に参照してきた。上記詳細な説明においては、記載されている各種実装例が十分に理解されるよう、数多くの具体的な詳細事項について説明している。しかしながら、記載されている各種実装例を、これらの具体的な詳細事項がなくても実施し得ることは、当業者には明らかであろう。その他の例において、周知の方法、プロシージャ、コンポーネント、回路、およびネットワークは、実装例の態様を不必要に曖昧にするのを避けるために、詳細には説明していない。
また、本明細書において場合によっては第1、第2等の用語を各種要素の説明のために使用しているが、これらの要素はこれらの用語によって限定されてはならないことが理解されるであろう。これらの用語は、ある要素を別の要素と区別するためだけに使用される。たとえば、記載されている各種実装例の範囲から外れることなく、第1のデバイスを第2のデバイスと呼ぶこともでき、同様に、第2のデバイスを第1のデバイスと呼ぶこともできる。第1のデバイスも第2のデバイスも、デバイスの種類ではあるが、これらのデバイスは同一のデバイスではない。
本明細書に記載のさまざまな実装例の説明で用いる術語は、特定の実装例のみを説明するためのものであり、限定を意図するものではない。記載されるさまざまな実装例の説明および以下の請求項で用いられる「a」、「an」、および「the」という単数形は、文脈が明確にそうでないと示していなければ、複数形も含むことが意図される。本明細書で用いる「および/または」という用語は、列挙される関連の項目のうち1つ以上のありとあらゆる可能な組み合わせを参照しかつこれを包含することも理解される。「含む」、「含んでいる」、「備える」、および/または「備えている」という用語は、この明細書で用いる場合、述べる特徴、整数、ステップ、動作、要素、および/または構成要素の存在を特定するが、1つ以上の他の特徴、整数、ステップ、動作、要素、構成要素、および/またはその群の存在または追加を排除するわけではないことがさらに理解される。
本明細書中で用いる「ならば」という用語は、任意に、文脈に依存して、「したとき」または「すると」または「判定することに応答して」または「検出することに応答して」または「という判定に従って」を意味すると解釈される。同様に、「判定されれば」または「[述べた条件またはイベントが]検出されれば」という句は、任意に、文脈に依存して、「判定すると」または「判定に応答して」または「[述べた条件またはイベントを]検出すると」または「[述べた条件またはイベントを]検出するのに応答して」または「[述べた条件またはイベントが]検出されるという判定に従って」を意味すると解釈される。
上記システムが、ユーザに関する情報を収集するという状況において、個人情報(たとえばユーザの嗜好またはスマートデバイスの用途に関する情報)を収集し得るプログラムまたは特徴にオプトイン/からオプトアウトする機会をユーザに与えてもよい。加えて、いくつかの実装例において、特定のデータを、格納または使用する前に1つ以上のやり方で匿名化して、個人を特定できる情報を削除してもよい。たとえば、ユーザのアイデンティティを匿名化することで、個人を特定可能な情報を判定できないまたはユーザに対応付けられないようにし、ユーザの嗜好またはユーザのやり取りを、特定のユーザに対応付けるのではなく、一般化(たとえば、ユーザの人口統計に基づいて一般化)してもよい。
さまざまな図面のうちのいくつかは特定の順序で複数の論理的段階を示すが、順序に依存しない段階を再度順序付けてもよく、他の段階を組み合わせたり切離したりしてもよい。何らかの再順序付けまたは他のグループ分けに具体的に言及がされるが、他のものが当業者には自明であり、そのため、本明細書中に提示される順序付けおよびグループ分けは代替策の網羅的な列挙ではない。さらに、ハードウェア、ファームウェア、ソフトウェア、またはその任意の組み合わせで段階を実現可能であることを認識すべきである。
具体的な実装例を参照して、説明の目的のための以上の説明を記載した。しかしながら、例示的な上記の議論は、網羅的であることまたは開示される正確な形態に請求項の範囲を限定することを意図しない。上記教示に鑑みて多数の修正例および変更例が可能である。実装例は、請求項の基礎をなす原則およびそれらの実践的な適用例を最良に説明し、それにより、当業者が、企図される特定の用途に適するようなさまざまな修正例とともに実装例を最良に用いることができるようにするために選択された。

Claims (12)

  1. 1つ以上のマイクと、スピーカと、1つ以上のプロセッサと、前記1つ以上のプロセッサが実行する1つ以上のプログラムを格納するメモリとを備える電子デバイスにおいて、
    自由形式の第1の音声入力を受信するステップと、
    前記第1の音声入力を、前記電子デバイスに対応付けられた複数のユーザに対応付けられた音声モデルのセットと比較するステップとを含み、前記音声モデルは前記電子デバイスに合わせて訓練され、
    前記比較に基づいて、前記第1の音声入力は前記複数のユーザのうちの第1のユーザに対応すると判断するステップと、
    前記判断に従ってレスポンスを与えるステップとを含む、方法。
  2. 前記レスポンスは可聴音声出力であり、前記レスポンスを与えるステップは、前記可聴音声出力を出力するステップを含む、請求項1に記載の方法。
  3. 前記第1の音声入力に基づいてユーザ要求を判断するステップと、
    前記判断したユーザ要求に従って前記レスポンスを生成するステップとをさらに含む、請求項1または2に記載の方法。
  4. 前記判断したユーザ要求は、前記電子デバイスを起動することを求める要求を含み、
    前記レスポンスは可聴挨拶を含み、前記挨拶は、前記判断における前記第1のユーザのアイデンティティの表示を含む、請求項3に記載の方法。
  5. 前記判断したユーザ要求は、情報を求める要求を含み、
    前記判断した要求に従って前記レスポンスを生成するステップは、前記第1のユーザについて要求された前記情報を取得するステップを含む、請求項3に記載の方法。
  6. 前記判断における前記第1のユーザについて要求された前記情報を取得するステップは、前記第1のユーザに対応付けられたアカウントにアクセスするステップを含む、請求項5に記載の方法。
  7. 第2の音声入力を受信するステップと、
    前記第2の音声入力を前記音声モデルのセットと比較するステップと、
    前記比較に基づいて、前記第2の音声入力は前記複数のユーザのうちの第2のユーザに対応すると判断するステップと、
    前記第2の音声入力は前記第2のユーザに対応するという判断に従ってレスポンスを与えるステップとをさらに含む、請求項1〜6のいずれか1項に記載の方法。
  8. 第3の音声入力を受信するステップと、
    前記第3の音声入力を前記音声モデルのセットと比較するステップと、
    前記比較に基づいて、前記第3の音声入力は前記複数のユーザのうちのいずれのユーザにも対応しないと判断するステップと、
    前記第3の音声入力は前記複数のユーザのうちのいずれのユーザにも対応しないという判断に従い、前記電子デバイスの機能を制限するステップとさらに含む、請求項1〜7のいずれか1項に記載の方法。
  9. 前記電子デバイスはディスプレイを含み、
    前記方法は、前記判断における前記第1のユーザのアイデンティティの表示を前記ディスプレイに示すステップをさらに含む、請求項1〜8のいずれか1項に記載の方法。
  10. 前記電子デバイスはディスプレイを含み、
    前記方法は、前記判断における前記第1のユーザに対応付けられた視覚ユーザインターフェイスを前記ディスプレイに示すステップをさらに含む、請求項1〜9のいずれか1項に記載の方法。
  11. 1つ以上のマイクと、
    スピーカと、
    1つ以上のプロセッサと、
    請求項1〜10に記載の方法のうちのいずれかを実施するために前記1つ以上のプロセッサが実行する1つ以上のプログラムを格納するメモリとを備える、電子デバイス。
  12. 1つ以上のプログラムを格納する非一時的なコンピュータ読取可能記憶媒体であって、前記1つ以上のプログラムは、1つ以上のマイクとスピーカと1つ以上のプロセッサとを備える電子デバイスによって実行されると前記電子デバイスに請求項1〜10に記載の方法のうちのいずれかを実行させる命令を含む、非一時的なコンピュータ読取可能記憶媒体。
JP2019517878A 2016-10-03 2017-10-03 音声インターフェイスデバイスにおけるマルチユーザパーソナライゼーション Active JP6906048B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021074212A JP7225301B2 (ja) 2016-10-03 2021-04-26 音声インターフェイスデバイスにおけるマルチユーザパーソナライゼーション

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/284,476 2016-10-03
US15/284,476 US10304463B2 (en) 2016-10-03 2016-10-03 Multi-user personalization at a voice interface device
PCT/US2017/054890 WO2018067531A1 (en) 2016-10-03 2017-10-03 Multi-user personalization at a voice interface device

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021074212A Division JP7225301B2 (ja) 2016-10-03 2021-04-26 音声インターフェイスデバイスにおけるマルチユーザパーソナライゼーション

Publications (2)

Publication Number Publication Date
JP2019535035A true JP2019535035A (ja) 2019-12-05
JP6906048B2 JP6906048B2 (ja) 2021-07-21

Family

ID=60159288

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019517878A Active JP6906048B2 (ja) 2016-10-03 2017-10-03 音声インターフェイスデバイスにおけるマルチユーザパーソナライゼーション
JP2021074212A Active JP7225301B2 (ja) 2016-10-03 2021-04-26 音声インターフェイスデバイスにおけるマルチユーザパーソナライゼーション

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2021074212A Active JP7225301B2 (ja) 2016-10-03 2021-04-26 音声インターフェイスデバイスにおけるマルチユーザパーソナライゼーション

Country Status (8)

Country Link
US (4) US10304463B2 (ja)
EP (1) EP3519935A1 (ja)
JP (2) JP6906048B2 (ja)
KR (3) KR102458751B1 (ja)
CN (3) CN210325195U (ja)
DE (1) DE202017105819U1 (ja)
GB (1) GB2556656B (ja)
WO (1) WO2018067531A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019193069A (ja) * 2018-04-24 2019-10-31 キヤノン株式会社 通信装置、その制御方法、およびそのプログラム
JP2021119403A (ja) * 2016-10-03 2021-08-12 グーグル エルエルシーGoogle LLC 音声インターフェイスデバイスにおけるマルチユーザパーソナライゼーション
JP7349533B2 (ja) 2018-03-20 2023-09-22 シャープ株式会社 情報処理システム、及び情報処理方法

Families Citing this family (135)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
EP3264266B1 (en) * 2015-05-20 2020-08-05 Huawei Technologies Co. Ltd. Method for positioning sounding location, and terminal device
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10679608B2 (en) 2016-12-30 2020-06-09 Google Llc Conversation-aware proactive notifications for a voice interface device
US10147415B2 (en) * 2017-02-02 2018-12-04 Microsoft Technology Licensing, Llc Artificially generated speech for a communication session
US10708265B2 (en) * 2017-03-13 2020-07-07 Amazon Technologies, Inc. Batch registration and configuration of devices
US10258295B2 (en) 2017-05-09 2019-04-16 LifePod Solutions, Inc. Voice controlled assistance for monitoring adverse events of a user and/or coordinating emergency actions such as caregiver communication
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10565191B2 (en) * 2017-06-05 2020-02-18 International Business Machines Corporation Cognitive program suite for a cognitive device and a mobile device
US10449440B2 (en) * 2017-06-30 2019-10-22 Electronic Arts Inc. Interactive voice-controlled companion application for a video game
US10846387B2 (en) * 2017-07-12 2020-11-24 At&T Intellectual Property I, L.P. Managing access based on activities of entities
US20190019505A1 (en) * 2017-07-12 2019-01-17 Lenovo (Singapore) Pte. Ltd. Sustaining conversational session
US11145203B2 (en) * 2017-09-12 2021-10-12 Google Llc Systems and methods of hands-free assistant-requested communication
JP7121330B2 (ja) 2017-09-26 2022-08-18 カシオ計算機株式会社 電子機器、音響機器、電子機器の制御方法及び制御プログラム
US10504513B1 (en) * 2017-09-26 2019-12-10 Amazon Technologies, Inc. Natural language understanding with affiliated devices
US11509726B2 (en) * 2017-10-20 2022-11-22 Apple Inc. Encapsulating and synchronizing state interactions between devices
US10567515B1 (en) * 2017-10-26 2020-02-18 Amazon Technologies, Inc. Speech processing performed with respect to first and second user profiles in a dialog session
US10749855B2 (en) 2017-10-30 2020-08-18 Vmware, Inc. Securely managing digital assistants that access third-party applications
US10805301B2 (en) * 2017-10-30 2020-10-13 Vmware, Inc. Securely managing digital assistants that access third-party applications
KR102527278B1 (ko) * 2017-12-04 2023-04-28 삼성전자주식회사 전자 장치, 그 제어 방법 및 컴퓨터 판독가능 기록 매체
KR102428782B1 (ko) * 2017-12-29 2022-08-03 엘지전자 주식회사 세탁기 및 세탁기의 동작방법
US10241588B1 (en) 2018-01-31 2019-03-26 Piccolo Labs Inc. System for localizing devices in a room
US10296102B1 (en) 2018-01-31 2019-05-21 Piccolo Labs Inc. Gesture and motion recognition using skeleton tracking
US10885910B1 (en) 2018-03-14 2021-01-05 Amazon Technologies, Inc. Voice-forward graphical user interface mode management
US11127405B1 (en) * 2018-03-14 2021-09-21 Amazon Technologies, Inc. Selective requests for authentication for voice-based launching of applications
US10877637B1 (en) 2018-03-14 2020-12-29 Amazon Technologies, Inc. Voice-based device operation mode management
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11017768B2 (en) * 2018-04-26 2021-05-25 Pepsico, Inc. Systems and methods for dispensing consumable products with voice interface
US11094316B2 (en) * 2018-05-04 2021-08-17 Qualcomm Incorporated Audio analytics for natural language processing
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10713343B2 (en) * 2018-05-10 2020-07-14 Lenovo (Singapore) Pte. Ltd. Methods, devices and systems for authenticated access to electronic device in a closed configuration
KR20190130376A (ko) * 2018-05-14 2019-11-22 삼성전자주식회사 사용자 발화를 처리하는 시스템 및 그 시스템의 제어 방법
KR20190133100A (ko) 2018-05-22 2019-12-02 삼성전자주식회사 어플리케이션을 이용하여 음성 입력에 대한 응답을 출력하는 전자 장치 및 그 동작 방법
TWI727326B (zh) * 2018-05-28 2021-05-11 仁寶電腦工業股份有限公司 語音助理系統的啟動方法及電子裝置
CN108766420B (zh) * 2018-05-31 2021-04-02 中国联合网络通信集团有限公司 语音交互设备唤醒词生成方法及装置
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) * 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11170085B2 (en) 2018-06-03 2021-11-09 Apple Inc. Implementation of biometric authentication
US10847153B2 (en) 2018-06-06 2020-11-24 Amazon Technologies, Inc. Temporary account association with voice-enabled devices
CN112513845A (zh) * 2018-06-06 2021-03-16 亚马逊技术股份有限公司 与语音使能设备的暂时账户关联
CN109005383A (zh) * 2018-07-06 2018-12-14 杭州涂鸦信息技术有限公司 一种随处播放iot监控视频流的方法
JP7078478B2 (ja) * 2018-07-10 2022-05-31 株式会社バンダイナムコエンターテインメント 連動設定方法、連動用サーバ、ゲームサーバ、マネージメントサーバ及びゲームシステム
KR102592769B1 (ko) * 2018-07-20 2023-10-24 삼성전자주식회사 전자 장치 및 그의 동작 방법
US10623696B1 (en) 2018-08-06 2020-04-14 Paula Muller Communication system for use with protected persons
CN109377987B (zh) 2018-08-31 2020-07-28 百度在线网络技术(北京)有限公司 智能语音设备间的交互方法、装置、设备及存储介质
CN109391528A (zh) * 2018-08-31 2019-02-26 百度在线网络技术(北京)有限公司 语音智能设备的唤醒方法、装置、设备及存储介质
CN110956961A (zh) * 2018-09-27 2020-04-03 中强光电股份有限公司 智能语音系统及利用智能语音系统控制投影机的方法
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11508378B2 (en) 2018-10-23 2022-11-22 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same
KR20200052804A (ko) * 2018-10-23 2020-05-15 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
US10944588B2 (en) 2018-11-29 2021-03-09 International Business Machines Corporation Resolving conflicting commands received by an electronic device
CN111902865A (zh) 2018-12-03 2020-11-06 谷歌有限责任公司 文本无关的说话者识别
KR20200074690A (ko) * 2018-12-17 2020-06-25 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11256794B2 (en) * 2019-02-03 2022-02-22 Fmr Llc Systems and methods for securely authenticating a caller over a voice channel
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US10943598B2 (en) * 2019-03-18 2021-03-09 Rovi Guides, Inc. Method and apparatus for determining periods of excessive noise for receiving smart speaker voice commands
JP7259446B2 (ja) * 2019-03-20 2023-04-18 沖電気工業株式会社 音声処理装置、エージェントシステム、プログラム、および、音声処理方法
JP7278830B2 (ja) * 2019-03-27 2023-05-22 本田技研工業株式会社 端末装置、端末装置の制御方法、およびプログラム
US11328717B2 (en) * 2019-04-18 2022-05-10 Lg Electronics Inc. Electronic device, operating method thereof, system having plural artificial intelligence devices
CN110109645A (zh) * 2019-04-30 2019-08-09 百度在线网络技术(北京)有限公司 一种交互式音乐试听方法、装置和终端
US11973894B2 (en) 2019-04-30 2024-04-30 Apple Inc. Utilizing context information with an electronic device
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
CN111754997B (zh) * 2019-05-09 2023-08-04 北京汇钧科技有限公司 控制装置及其操作方法,和语音交互装置及其操作方法
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11580973B2 (en) * 2019-05-31 2023-02-14 Apple Inc. Multi-user devices in a connected home environment
KR102436985B1 (ko) 2019-05-31 2022-08-29 애플 인크. 오디오 미디어 제어를 위한 사용자 인터페이스
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US10867608B1 (en) 2019-05-31 2020-12-15 Apple Inc. Multi-user configuration
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11516221B2 (en) * 2019-05-31 2022-11-29 Apple Inc. Multi-user devices in a connected home environment
US11010121B2 (en) 2019-05-31 2021-05-18 Apple Inc. User interfaces for audio media control
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110600041B (zh) * 2019-07-29 2022-04-29 华为技术有限公司 一种声纹识别的方法及设备
KR102280690B1 (ko) * 2019-08-15 2021-07-22 엘지전자 주식회사 지능적 음성 출력 방법, 음성 출력 장치 및 지능형 컴퓨팅 디바이스
CN114303132B (zh) * 2019-08-22 2024-03-01 三星电子株式会社 在虚拟个人助手中使用唤醒词进行上下文关联和个性化的方法和系统
US10839060B1 (en) * 2019-08-27 2020-11-17 Capital One Services, Llc Techniques for multi-voice speech recognition commands
KR20190109341A (ko) * 2019-09-06 2019-09-25 엘지전자 주식회사 노이즈 관리가 가능한 전자기기 및 이의 제어 방법
US11676589B2 (en) * 2019-09-17 2023-06-13 Global Strategies International LLC Systems and methods for voice search and response retrieval
US11399028B1 (en) * 2019-09-20 2022-07-26 Amazon Technologies, Inc. Merging accounts associated with computing devices
US11615801B1 (en) * 2019-09-20 2023-03-28 Apple Inc. System and method of enhancing intelligibility of audio playback
US11528274B1 (en) 2019-09-20 2022-12-13 Amazon Technologies, Inc. Accountless device control
US11086743B2 (en) * 2019-10-21 2021-08-10 International Business Machines Corporation Context based IoT device management
WO2021086127A1 (en) * 2019-11-01 2021-05-06 Samsung Electronics Co., Ltd. Hub device, multi-device system including the hub device and plurality of devices, and operating method of the hub device and multi-device system
CN111028835B (zh) * 2019-11-18 2022-08-09 北京小米移动软件有限公司 资源置换方法、装置、系统、计算机可读存储介质
CN110992940B (zh) 2019-11-25 2021-06-15 百度在线网络技术(北京)有限公司 语音交互的方法、装置、设备和计算机可读存储介质
CN210725185U (zh) * 2019-12-31 2020-06-09 苏州清听声学科技有限公司 一种基于定向音频的柜台对讲系统
CN113115251B (zh) * 2020-01-09 2023-10-31 博泰车联网科技(上海)股份有限公司 用于信息处理的方法、设备和计算机存储介质
CN113470634B (zh) * 2020-04-28 2024-05-17 海信集团有限公司 语音交互设备的控制方法、服务器及语音交互设备
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
KR20220013837A (ko) * 2020-07-27 2022-02-04 엘지전자 주식회사 전자 기기의 관리 방법 및 장치
KR20220055789A (ko) * 2020-10-27 2022-05-04 삼성전자주식회사 사용자 모델을 관리하는 전자 장치 및 이의 동작 방법
US11929079B2 (en) 2020-10-27 2024-03-12 Samsung Electronics Co., Ltd Electronic device for managing user model and operating method thereof
WO2022182744A1 (en) * 2021-02-23 2022-09-01 Dathomir Laboratories Llc Digital assistant interactions in copresence sessions
US11960615B2 (en) 2021-06-06 2024-04-16 Apple Inc. Methods and user interfaces for voice-based user profile management
CN113436614B (zh) * 2021-07-02 2024-02-13 中国科学技术大学 语音识别方法、装置、设备、系统及存储介质
US11410655B1 (en) 2021-07-26 2022-08-09 LifePod Solutions, Inc. Systems and methods for managing voice environments and voice routines
US11404062B1 (en) 2021-07-26 2022-08-02 LifePod Solutions, Inc. Systems and methods for managing voice environments and voice routines
WO2024068032A1 (en) * 2022-09-29 2024-04-04 Verisure Sàrl Security installations and methods

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005534065A (ja) * 2002-07-25 2005-11-10 ソニー インターナショナル (ヨーロッパ) ゲゼルシャフト ミット ベシュレンクテル ハフツング マンマシンインタフェースユニットの動作及び/又は制御方法
US20070156684A1 (en) * 2003-09-11 2007-07-05 Capital One Financial Corporation System and Method for Detecting Unauthorized Access Using a Voice Signature
US20150172463A1 (en) * 2013-12-16 2015-06-18 Nuance Communications, Inc. Systems and methods for providing a virtual assistant
US20160035349A1 (en) * 2014-07-29 2016-02-04 Samsung Electronics Co., Ltd. Electronic apparatus and method of speech recognition thereof
JP2016090655A (ja) * 2014-10-30 2016-05-23 シャープ株式会社 音声認識ロボットシステム、音声認識ロボット、音声認識ロボットの制御装置、音声認識ロボットを制御するための通信端末、およびプログラム

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6073101A (en) * 1996-02-02 2000-06-06 International Business Machines Corporation Text independent speaker recognition for transparent command ambiguity resolution and continuous access control
WO2000058947A1 (en) * 1999-03-31 2000-10-05 Veritel Corporation User authentication for consumer electronics
EP1164576B1 (en) * 2000-06-15 2006-02-22 Swisscom Fixnet AG Speaker authentication method and system from speech models
US8812319B2 (en) * 2001-01-31 2014-08-19 Ibiometrics, Inc. Dynamic pass phrase security system (DPSS)
KR100418113B1 (ko) * 2001-09-07 2004-02-11 주식회사 엠보이스텔레소프트 음성인식을 이용한 별정통신 시스템 및 그를 이용한별정통신 서비스 제공방법
KR20030033890A (ko) * 2001-10-25 2003-05-01 (주)인터루션 사용자의 음성정보 분석을 통한 사이버 비서 시스템 및 그방법
US6882971B2 (en) * 2002-07-18 2005-04-19 General Instrument Corporation Method and apparatus for improving listener differentiation of talkers during a conference call
JP4333455B2 (ja) 2004-04-09 2009-09-16 ソニー株式会社 コンテンツ再生装置,プログラム及びコンテンツ再生制御方法
US7912206B2 (en) * 2004-07-30 2011-03-22 Miller John S Technique for providing a personalized electronic messaging service through an information assistance provider
US7484102B2 (en) * 2004-09-07 2009-01-27 Microsoft Corporation Securing audio-based access to application data
WO2007008248A2 (en) * 2005-07-11 2007-01-18 Voicedemand, Inc. Voice control of a media player
KR20050080172A (ko) 2005-07-21 2005-08-11 (주)예스테크놀로지 생체 인증 시 음성인식 활용 방안
JP2009146263A (ja) * 2007-12-17 2009-07-02 Panasonic Corp 本人認証システム
JP2009237774A (ja) 2008-03-26 2009-10-15 Advanced Media Inc 認証サーバ、サービス提供サーバ、認証方法、通信端末、およびログイン方法
DE102008024527A1 (de) 2008-05-25 2009-11-26 Lenze Automation Gmbh Verfahren und Vorrichtung zur Überwachung eines Drehwinkelaufnehmers
EP2313870B1 (en) * 2008-06-30 2013-12-04 Telecom Italia S.p.A. Method and system for communicating access authorization requests based on user personal identification as well as method and system for determining access authorizations
KR101198862B1 (ko) * 2009-11-17 2012-11-06 에스케이플래닛 주식회사 음성인식을 이용한 사용자 인터페이스 제공단말기 및 방법
US20120136658A1 (en) * 2010-11-30 2012-05-31 Cox Communications, Inc. Systems and methods for customizing broadband content based upon passive presence detection of users
US9444816B2 (en) * 2011-03-30 2016-09-13 Qualcomm Incorporated Continuous voice authentication for a mobile device
US20130011051A1 (en) * 2011-07-07 2013-01-10 Lockheed Martin Corporation Coded aperture imaging
US9511150B2 (en) * 2011-07-19 2016-12-06 CellMosaic, Inc. Crosslinking reagents, macromolecules, therapeutic bioconjugates, and synthetic methods thereof
US20130110511A1 (en) * 2011-10-31 2013-05-02 Telcordia Technologies, Inc. System, Method and Program for Customized Voice Communication
US8811638B2 (en) * 2011-12-01 2014-08-19 Elwha Llc Audible assistance
US9251792B2 (en) * 2012-06-15 2016-02-02 Sri International Multi-sample conversational voice verification
US20140094987A1 (en) * 2012-09-28 2014-04-03 Intel Corporation Tiered level of access to a set of vehicles
US20140164476A1 (en) * 2012-12-06 2014-06-12 At&T Intellectual Property I, Lp Apparatus and method for providing a virtual assistant
US9524071B2 (en) * 2013-02-05 2016-12-20 Microsoft Technology Licensing, Llc Threshold view
BR112015018905B1 (pt) * 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US9117451B2 (en) 2013-02-20 2015-08-25 Google Inc. Methods and systems for sharing of adapted voice profiles
US9460715B2 (en) 2013-03-04 2016-10-04 Amazon Technologies, Inc. Identification using audio signatures and additional characteristics
US9922642B2 (en) * 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US9081944B2 (en) * 2013-06-21 2015-07-14 General Motors Llc Access control for personalized user information maintained by a telematics unit
GB2515527B (en) * 2013-06-26 2016-08-31 Cirrus Logic Int Semiconductor Ltd Speech Recognition
US20150056951A1 (en) * 2013-08-21 2015-02-26 GM Global Technology Operations LLC Vehicle telematics unit and method of operating the same
US9343068B2 (en) * 2013-09-16 2016-05-17 Qualcomm Incorporated Method and apparatus for controlling access to applications having different security levels
US20150255068A1 (en) * 2014-03-10 2015-09-10 Microsoft Corporation Speaker recognition including proactive voice model retrieval and sharing features
EP3158427B1 (en) * 2014-06-19 2022-12-28 Robert Bosch GmbH System and method for speech-enabled personalized operation of devices and services in multiple operating environments
US9740841B2 (en) * 2014-09-08 2017-08-22 Tessera Advanced Technologies, Inc. Using biometric user-specific attributes
JP6544693B2 (ja) 2014-12-25 2019-07-17 エイディシーテクノロジー株式会社 ロボット
CN107920784B (zh) * 2015-08-28 2021-02-26 金泰克斯公司 车辆安全性附件和身份认证方法
US10304463B2 (en) * 2016-10-03 2019-05-28 Google Llc Multi-user personalization at a voice interface device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005534065A (ja) * 2002-07-25 2005-11-10 ソニー インターナショナル (ヨーロッパ) ゲゼルシャフト ミット ベシュレンクテル ハフツング マンマシンインタフェースユニットの動作及び/又は制御方法
US20070156684A1 (en) * 2003-09-11 2007-07-05 Capital One Financial Corporation System and Method for Detecting Unauthorized Access Using a Voice Signature
US20150172463A1 (en) * 2013-12-16 2015-06-18 Nuance Communications, Inc. Systems and methods for providing a virtual assistant
US20160035349A1 (en) * 2014-07-29 2016-02-04 Samsung Electronics Co., Ltd. Electronic apparatus and method of speech recognition thereof
JP2016090655A (ja) * 2014-10-30 2016-05-23 シャープ株式会社 音声認識ロボットシステム、音声認識ロボット、音声認識ロボットの制御装置、音声認識ロボットを制御するための通信端末、およびプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021119403A (ja) * 2016-10-03 2021-08-12 グーグル エルエルシーGoogle LLC 音声インターフェイスデバイスにおけるマルチユーザパーソナライゼーション
US11527249B2 (en) 2016-10-03 2022-12-13 Google Llc Multi-user personalization at a voice interface device
JP7225301B2 (ja) 2016-10-03 2023-02-20 グーグル エルエルシー 音声インターフェイスデバイスにおけるマルチユーザパーソナライゼーション
JP7349533B2 (ja) 2018-03-20 2023-09-22 シャープ株式会社 情報処理システム、及び情報処理方法
JP2019193069A (ja) * 2018-04-24 2019-10-31 キヤノン株式会社 通信装置、その制御方法、およびそのプログラム

Also Published As

Publication number Publication date
GB2556656A (en) 2018-06-06
US20210012779A1 (en) 2021-01-14
GB201714819D0 (en) 2017-11-01
US10748543B2 (en) 2020-08-18
JP7225301B2 (ja) 2023-02-20
CN210325195U (zh) 2020-04-14
KR20220158769A (ko) 2022-12-01
KR20190064613A (ko) 2019-06-10
EP3519935A1 (en) 2019-08-07
KR20210122920A (ko) 2021-10-12
US10304463B2 (en) 2019-05-28
GB2556656B (en) 2020-09-30
WO2018067531A1 (en) 2018-04-12
KR102311684B1 (ko) 2021-10-08
US20230045838A1 (en) 2023-02-16
US11527249B2 (en) 2022-12-13
CN107910007B (zh) 2024-04-26
JP6906048B2 (ja) 2021-07-21
DE202017105819U1 (de) 2018-01-17
CN107910007A (zh) 2018-04-13
JP2021119403A (ja) 2021-08-12
KR102458751B1 (ko) 2022-10-24
US20190221215A1 (en) 2019-07-18
CN208444593U (zh) 2019-01-29
US20180096690A1 (en) 2018-04-05

Similar Documents

Publication Publication Date Title
JP7225301B2 (ja) 音声インターフェイスデバイスにおけるマルチユーザパーソナライゼーション
US11024311B2 (en) Device leadership negotiation among voice interface devices
US11869527B2 (en) Noise mitigation for a voice interface device
WO2018067528A1 (en) Device leadership negotiation among voice interface devices

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190627

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200818

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210426

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210426

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20210510

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20210518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210601

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210628

R150 Certificate of patent or registration of utility model

Ref document number: 6906048

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150