JP7152196B2 - 音声エージェントの進行 - Google Patents

音声エージェントの進行 Download PDF

Info

Publication number
JP7152196B2
JP7152196B2 JP2018111596A JP2018111596A JP7152196B2 JP 7152196 B2 JP7152196 B2 JP 7152196B2 JP 2018111596 A JP2018111596 A JP 2018111596A JP 2018111596 A JP2018111596 A JP 2018111596A JP 7152196 B2 JP7152196 B2 JP 7152196B2
Authority
JP
Japan
Prior art keywords
voice
agent
voice agent
signal strength
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018111596A
Other languages
English (en)
Other versions
JP2019003190A (ja
Inventor
ガンサー クレイグ
Original Assignee
ハーマン インターナショナル インダストリーズ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ハーマン インターナショナル インダストリーズ インコーポレイテッド filed Critical ハーマン インターナショナル インダストリーズ インコーポレイテッド
Publication of JP2019003190A publication Critical patent/JP2019003190A/ja
Application granted granted Critical
Publication of JP7152196B2 publication Critical patent/JP7152196B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/523Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing with call distribution or queueing
    • H04M3/5237Interconnection arrangements between ACD systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5183Call or contact centers with computer-telephony arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5183Call or contact centers with computer-telephony arrangements
    • H04M3/5191Call or contact centers with computer-telephony arrangements interacting with the Internet
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5166Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing in combination with interactive voice response systems or voice portals, e.g. as front-ends

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Marketing (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本開示は、ネットワーク化された、音声制御式デバイスのおける音声データの扱いの制御に関する。
音声制御式デバイスは、センサデータに応じて、及び/または、検出された条件に対するプログラムされた応答に応じて、様々な機能を実施し得る。たとえば、音声制御式デバイスは、音声の質問に答え、接続されたデバイスを制御し、カレンダ、ノート、通信などを管理し、及び/または、ユーザからの音声入力に別様に応答することで、1人または複数のユーザを補助するために、パーソナルアシスタントとしての役割を果たし、1人または複数のユーザに関するデータを貯蔵する場合がある。
いくつかの実施例では、音声制御式デバイスは、ユーザの家、職場、または他の環境に置かれる。音声制御式デバイスの作動レンジ(たとえば、音声データが、音声制御式デバイスによって検出され得るエリア)は、その音声制御式デバイスのための、組み込まれているか、別様に関連付けられたマイクの特徴に基づく場合がある。音声制御式デバイスは、デバイスの有効レンジをさらに低減する、部屋を分ける壁などの障害物を考慮する場合に特に、家、建物、または他の環境の全体をカバーするのに十分に大であるレンジを有していない場合がある。
音声制御式デバイスのレンジを効果的に拡大させるために、複数のデバイスが、ターゲットとなる環境内に配置され得る。たとえば、部屋がある家または他の建物内で、音声制御式デバイスは、音声入力が環境を通して検出されることを可能にするために、各部屋内に置かれ、及び/または、環境の周りに配置され得る。そのような実施例では、各音声制御式デバイスは、音声エージェントネットワークの個別の音声エージェントとしての役割を果たす場合がある。音声エージェントネットワーク内の各音声エージェントは、少なくとも1つの他の音声エージェント、及び/または、関連するネットワークデバイスに直接(たとえば、仲介デバイス無しで)接続される場合があり、それにより、音声エージェントネットワークの各音声エージェントが、直接的または間接的に(たとえば、1つまたは複数の他の音声エージェント及び/またはネットワークデバイスを介して)、音声エージェントネットワークの他の音声エージェントの各々に接続されるようになっている。
上述のように、音声エージェントネットワークの各音声エージェントは、(たとえば、その音声エージェントのマイクによって)音声データが検出され得る、関連するレンジを有し得る。選択された音声エージェントに関する音声エージェントのゾーンは、このため、選択された音声エージェントのレンジによって規定され、及び/または境界が定められる場合がある。所与の環境をシームレスにカバーするために、音声エージェントネットワークに関する音声エージェントのゾーンは、少なくとも部分的にオーバーラップする場合がある。音声エージェントネットワークが配置されている環境を通してユーザが移動すると、ユーザは、異なる音声エージェントのゾーンを通る場合がある。したがって、ユーザが、音声入力(たとえば、音声による質問、音声コマンドなど)を提供しながら、第1の音声エージェントの第1のゾーンから第2の音声エージェントの第2のゾーンに移行する場合、音声入力は、第1の音声エージェントによって部分的に検出され、また、第2の音声エージェントによって部分的に検出される場合がある。通常の音声エージェントが個別に作動することから、2つ以上の音声エージェントによって検出される音声入力の分析に困難性が生じる場合がある。本開示は、ユーザが音声エージェントのゾーン間で移動する際の損失を避けるために、音声データの進行と、音声エージェント間での音声データの扱いとを制御するためのシステム及び方法を提供する。
実施形態は、複数の音声エージェントを含む音声エージェントネットワークにおける音声入力の検出の制御のために開示される。例示的音声エージェントは、オーディオセンサと、通信インターフェースと、プロセッサと、プロセッサによって実行可能な指示を貯蔵するメモリデバイスであって、オーディオセンサを介して、音声入力に対応する第1のオーディオデータを検出すること、ならびに、音声エージェントネットワークの少なくとも1つの他の音声エージェントが、音声入力に対応する第2の音声データを検出していることを判定することに応じて、第1の音声データが検出される信号強度を判定すること、信号強度を、少なくとも1つの他の音声エージェントから受信された第2の音声データの報告された信号強度と比較すること、及び、第1の音声データの信号強度を、少なくとも1つの他の音声エージェントから受信された第2の音声データの報告された信号強度と比較することに基づき、第1の音声データと検出された音声データとの信号強度の、1つまたは複数の通知を、選択的に送信すること、を行うように、実行可能な指示を貯蔵するメモリデバイスと、を含んでいる。
音声エージェントネットワークにおける音声入力の検出のための例示的制御方法は、第1の音声エージェントにおいて、第1の信号強度における音声入力に対応する第1の音声データを検出することと、第1の信号強度が、音声エージェントネットワーク内の他の音声エージェントの各々から報告された、受信した信号強度より高いことの判定に応じて、第1の音声エージェントをマスター音声エージェントとしてアサインすることと、第1の音声エージェントから、第1の音声データと、第1の音声エージェントがマスター音声エージェントとしてアサインされている間に第1の音声データが検出される、継続的にアップデートされる信号強度の報告とを含むストリームを送信することと、ネットワーク内の第2の音声エージェントが、第1の音声エージェントから現在報告されている信号強度よりも高い信号強度において、音声入力に対応する第2の音声データを検出することの通知を受信するのに応じて、第2の音声エージェントをマスター音声エージェントとしてアサインし、第1の音声エージェントにおけるストリームの送信を停止することとを含んでいる。
音声入力の検出を制御するための例示的音声エージェントネットワークは、複数の音声エージェントと、複数の音声エージェント、及び、質問応答サーバに通信するように結合されたネットワークデバイスと、第1の複数の音声エージェントの第1の音声エージェントであって、第1の音声エージェントのプロセッサにより、第1の信号強度での音声入力に対応する第1の音声データを検出することと、第1の信号強度が、音声エージェントネットワーク内の他の音声エージェントの各々から報告された、受信した信号強度より高いことの判定に応じて、マスター音声エージェントとしてのアサインを受信することと、第1の音声データと、第1の音声エージェントがマスター音声エージェントとしてアサインされている間に第1の音声データが検出される、継続的にアップデートされる信号強度の報告とを含むストリームを送信することと、複数の音声エージェントの第2の音声エージェントが、第1の音声エージェントから現在報告されている信号強度よりも高い信号強度における音声入力に対応する第2の音声データを検出することの通知を受信するのに応じて、第2の音声エージェントをマスター音声エージェントとしてアサインし、第1の音声エージェントにおけるストリームの送信を停止することと、をするように実行可能である指示を貯蔵するメモリデバイスを含む、第1の音声エージェントとを含んでいる。
例えば、本願は以下の項目を提供する。
(項目1)
音声エージェントであって、
オーディオセンサと、
通信インターフェースと、
プロセッサと、
上記プロセッサによって実行可能な指示を貯蔵するメモリデバイスであって、
上記オーディオセンサを介して、音声入力に対応する第1のオーディオデータを検出すること、ならびに、
音声エージェントネットワークの少なくとも1つの他の音声エージェントが、上記音声入力に対応する第2の音声データを検出していることを判定することに応じて、
上記第1の音声データが検出される信号強度を判定すること、
上記信号強度を、上記少なくとも1つの他の音声エージェントから受信された上記第2の音声データの報告された信号強度と比較すること、及び、
上記第1の音声データの上記信号強度を、上記少なくとも1つの他の音声エージェントから受信された上記第2の音声データの上記報告された信号強度と比較することに基づき、上記第1の音声データと上記検出された音声データとの上記信号強度の、1つまたは複数の通知を、選択的に送信すること、を行うように、実行可能な指示を貯蔵する上記メモリデバイスと、を備えた、上記音声エージェント。
(項目2)
上記指示が、少なくとも1つの他の音声エージェントが、別の音声エージェントからの上記音声入力と関連づけられた第1の声紋を受信することにより、上記音声入力に対応する音声データを検出していることを判定するように、さらに実行可能であり、上記音声データの第2の声紋を判定し、上記第2の声紋を上記第1の声紋と比較して、上記第2の声紋が上記第1の声紋にマッチすることを判定する、上記項目に記載の音声エージェント。
(項目3)
上記指示が、上記音声データが検出される現在の信号強度よりも高い、上記少なくとも1つの他の音声エージェントの選択された音声エージェントからの第3の音声データの、報告された信号強度を受信するのに応じて、上記検出された音声データの送信を停止するように、さらに実行可能である、上記項目のいずれか一項に記載の音声エージェント。
(項目4)
上記指示が、上記音声入力の終了の通知を検出することと、上記音声入力の上記終了の上記通知の検出に応じて、少なくとも上記音声エージェントネットワークのネットワークデバイスに、上記音声入力の上記終了を示すメッセージを選択的に送信すること、をさらに実行可能である、上記項目のいずれか一項に記載の音声エージェント。
(項目5)
上記メッセージを選択的に送信することが、上記音声入力の上記終了の上記通知を検出した際に、上記音声エージェントが検出された音声データを送信している場合、上記メッセージを送信することと、上記音声入力の上記終了の上記通知を検出した際に、上記音声エージェントが検出された音声データを送信していない場合、上記メッセージを送信しないことと、を含んでいる、上記項目のいずれか一項に記載の音声エージェント。
(項目6)
出力デバイスをさらに備え、上記指示が、上記音声入力の上記終了の上記通知を検出した際に、上記音声エージェントが検出された音声データを送信しているかに基づき、上記出力デバイスを介して、上記音声入力に対する応答を、選択的に受信及び出力するようにさらに実行可能である、上記項目のいずれか一項に記載の音声エージェント。
(項目7)
上記指示が、上記音声入力に対応する上記音声データの検出を開始することと、上記音声エージェントネットワークの他の音声エージェントの各々に対し、予め規定された起動ワードの検出に応じて上記音声データが検出される信号強度を報告することと、をするようにさらに実行可能である、上記項目のいずれか一項に記載の音声エージェント。
(項目8)
上記指示が、上記音声エージェントネットワークに結合した上記音声エージェントに応じて、アナウンスメッセージを送信するようにさらに実行可能である、上記項目のいずれか一項に記載の音声エージェント。
(項目9)
上記信号強度の通知と、上記検出された音声データとの1つまたは複数を選択的に送信することが、マスター音声エージェントとしてアサインされるのに応じて、少なくとも上記音声エージェントネットワークのネットワークデバイスに、上記検出された音声データ、及び、上記信号強度の上記通知を送信することと、上記信号強度が、上記少なくとも1つの他の音声エージェントの上記報告された信号強度より高いことと、上記音声エージェントが現在、上記マスター音声エージェントとしてアサインされていないこととの判定に応じて、少なくとも上記音声エージェントネットワークのネットワークデバイスに、上記信号強度の上記通知のみを送信することと、を含んでいる、上記項目のいずれか一項に記載の音声エージェント。
(項目10)
複数の音声エージェントを含む音声エージェントネットワークにおける音声入力の検出の制御方法であって、
上記複数の音声エージェントの第1の音声エージェントにおいて、第1の信号強度における音声入力に対応する第1の音声データを検出することと、
上記第1の信号強度が、上記音声エージェントネットワーク内の他の音声エージェントの各々から報告された、受信した信号強度より高いことの判定に応じて、上記第1の音声エージェントをマスター音声エージェントとしてアサインすることと、
上記第1の音声エージェントから、上記第1の音声データと、上記第1の音声エージェントが上記マスター音声エージェントとしてアサインされている間に上記第1の音声データが検出される、継続的にアップデートされる信号強度の報告とを含むストリームを送信することと、
上記複数の音声エージェントの第2の音声エージェントが、上記第1の音声エージェントから現在報告されている信号強度よりも高い信号強度において、上記音声入力に対応する第2の音声データを検出することの通知を受信するのに応じて、上記第2の音声エージェントを上記マスター音声エージェントとしてアサインし、上記第1の音声エージェントにおける上記ストリームの上記送信を停止することと、を含む、上記制御方法。
(項目11)
上記第1の音声エージェントから、上記音声入力を識別する声紋を送信することをさらに含む、上記項目に記載の方法。
(項目12)
上記現在の信号強度が、上記第2の音声エージェントから受信した、最後に報告された信号強度より高いことの判定にのみ応じて、上記第2の音声エージェントが上記マスター音声エージェントとしてアサインされている間に、上記第1の音声エージェントから、上記音声入力に対応する検出された音声データの上記現在の信号強度の報告を送信することをさらに含む、上記項目のいずれか一項に記載の方法。
(項目13)
上記第1の音声エージェントが上記マスター音声エージェントとしてアサインされている間に、上記音声入力の終了の通知を検出することと、上記音声入力の上記終了の上記通知の検出に応じて、上記音声入力の上記終了を示すメッセージを遠位のデバイスに送信することと、をさらに含む、上記項目のいずれか一項に記載の方法。
(項目14)
上記音声入力が音声による質問を含み、上記遠位のデバイスが質問応答サーバを含み、上記方法がさらに、上記第1の音声エージェントにおいて、上記音声による質問に対する応答を受信することと、上記第1の音声エージェントの出力デバイスを介して、上記音声による質問に対する上記応答を出力することと、をさらに含む、上記項目のいずれか一項に記載の方法。
(項目15)
音声エージェントネットワークであって、
複数の音声エージェントと、
上記複数の音声エージェント、及び、質問応答サーバに通信するように結合されたネットワークデバイスと、
上記第1の上記複数の音声エージェントの第1の音声エージェントであって、上記第1の音声エージェントのプロセッサにより、
第1の信号強度及び第1の信号の品質で、音声による質問に対応する第1の音声データを検出することと、
上記第1の信号強度と上記第1の信号の品質との一方または両方が、上記音声エージェントネットワーク内の他の音声エージェントの各々から報告された、受信した信号強度と信号の品質とのそれぞれより高いことの判定に応じて、マスター音声エージェントとしてのアサインを受信することと、
上記第1の音声データと、上記第1の音声エージェントが上記マスター音声エージェントとしてアサインされている間に上記第1の音声データが検出される、継続的にアップデートされる信号強度、及び/または、継続的にアップデートされる信号の品質の報告とを含むストリームを送信することと、
上記複数の音声エージェントの第2の音声エージェントが、上記第1の音声エージェントから現在報告されている信号強度と信号の品質とのそれぞれよりも高い第2の信号強度と第2の信号の品質との一方または両方において、上記音声による質問に対応する第2の音声データを検出することの通知を受信するのに応じて、上記第2の音声エージェントを上記マスター音声エージェントとしてアサインし、上記第1の音声エージェントにおける上記ストリームの上記送信を停止することと、
をするように実行可能である指示を貯蔵するメモリデバイスを含む、第1の音声エージェントと、を備えた、上記音声エージェントネットワーク。
(項目16)
上記指示が、上記第1の音声エージェントから、上記音声による質問を識別する声紋を送信するようにさらに実行可能である、上記項目に記載の音声エージェントネットワーク。
(項目17)
上記指示が、上記現在の信号強度が、上記第2の音声エージェントから受信した、最後に報告された信号強度より高いことの判定にのみ応じて、上記第2の音声エージェントが上記マスター音声エージェントとしてアサインされている間に、上記第1の音声エージェントから、上記音声による質問に対応する検出された音声データの上記現在の信号強度の報告を送信するように、さらに実行可能である、上記項目のいずれか一項に記載の音声エージェントネットワーク。
(項目18)
上記指示が、上記第1の音声エージェントが上記マスター音声エージェントとしてアサインされている間に、上記音声入力の終了の通知を検出することと、上記音声による質問の上記終了の上記通知の検出に応じて、上記質問応答サーバに進行させるために、上記音声による質問の上記終了を示すメッセージを上記ネットワークデバイスに送信することと、をするようにさらに実行可能である、上記項目のいずれか一項に記載の音声エージェントネットワーク。
(項目19)
上記指示が、上記第1の音声エージェントにおいて、上記音声による質問に対する応答を受信することと、上記第1の音声エージェントの出力デバイスを介して、上記音声による質問に対する上記応答を出力することと、をするようにさらに実行可能である、上記項目のいずれか一項に記載の音声エージェントネットワーク。
(項目20)
上記指示が、上記音声エージェントネットワークに結合した上記第1の音声エージェントに応じて、アナウンスメッセージを送信するようにさらに実行可能である、上記項目のいずれか一項に記載の音声エージェントネットワーク。
(摘要)
実施例は、複数の音声エージェントを含む音声エージェントネットワークにおける音声入力検出の制御のために開示される。例示的音声エージェントは、オーディオセンサと、通信インターフェースと、プロセッサと、プロセッサによって実行可能な指示を貯蔵するメモリデバイスであって、オーディオセンサを介して、音声入力に対応するオーディオデータを検出すること、ならびに、音声エージェントネットワークの少なくとも1つの他の音声エージェントが、音声入力に対応する音声データを検出していることを判定することに応じて、音声データが検出される信号強度を判定すること、信号強度を、少なくとも1つの他の音声エージェントから報告された信号強度と比較すること、及び、信号強度を、少なくとも1つの他の音声エージェントから報告された信号強度と比較することに基づき、信号強度と検出された音声データとの、1つまたは複数の通知を、選択的に送信すること、を行うように、実行可能な指示を貯蔵するメモリデバイスと、を含んでいる。
本開示は、添付の図面を参照して、非限定的な実施形態の以下の詳細な説明を読むことで、よりよく理解され得る。
本開示の1つまたは複数の実施形態に係る、音声エージェントを配置する例示的環境を示す。 本開示の1つまたは複数の実施形態に係る、音声エージェントネットワークにおける、例示的な、音声データの通信ダイアグラム及び制御メッセージの進行を示す。 本開示の1つまたは複数の実施形態に係る、音声エージェントネットワークにおける、例示的な、音声データの通信ダイアグラム及び制御メッセージの進行を示す。 本開示の1つまたは複数の実施形態に係る、音声による質問の再構築、及び、音声による質問に対する応答の生成のための、例示的通信ダイアグラムを示す。 本開示の1つまたは複数の実施形態に係る、例示的音声エージェントネットワークのブロック図を示す。 本開示の1つまたは複数の実施形態に係る、音声エージェントネットワーク内の音声データの扱いの例示的方法のフローチャートである。 本開示の1つまたは複数の実施形態に係る、音声エージェントネットワーク内の音声エージェント制御の受渡しの例示的方法のフローチャートである。 本開示の1つまたは複数の実施形態に係る、音声エージェントネットワーク内の音声エージェント制御の受渡しを受信する例示的方法のフローチャートである。
音声エージェントは、音声入力を検出し、この音声入力に応じた作業を実施する、任意の音声制御式及び/または音声応答式デバイスを含み得る。たとえば、音声エージェントは、(たとえば、組み込まれているか、別様に関連付けられたマイクを介して)音声入力を検出し得る。音声入力には、音声による質問(たとえば、「What is the weather today」)、音声メモ(たとえば、「Remember to buy milk」)、音声の命令(たとえば、「Turn on lights」)、及び/または他の音声データが含まれる場合がある。複数の音声エージェントが環境にわたって配置されている実施例では、ユーザは、第1の音声エージェントによって検出される音声入力の提供を開始(たとえば、音声入力ストリングを開始)し得る。しかし、ユーザが環境を通って移動すると、異なる音声エージェントが音声入力の異なる部分(たとえば、音声入力ストリングの後半部分)を検出する場合がある。さらに複雑化することで、環境内のいくつかの音声エージェントのレンジがオーバーラップする場合があり、それにより、音声入力のある部分が、複数の音声エージェントによって検出されることになる。音声入力が完了(たとえば、音声による質問が完了)すると、複数の音声エージェントによって収集された音声データは、音声データをパースし、関連する応答を提供するか、関連する動作を行うために、収集及び分析がされる場合がある。多くの実施例では、上述の処理は、オフボード(たとえば、遠位のサーバ(複数可))で実施され得るか、少なくとも、音声エージェントの1つのみで実施され得る。したがって、いくつかのシステムでは、各音声エージェントは、検出された音声データすべてを処理デバイス(たとえば、遠位のサーバ(複数可)及び/または専用の音声エージェント)に送る場合がある。
処理の負荷と、音声データの処理の間に利用されるバンド幅のリソースとを低減するために、本開示は、単一の音声エージェント(たとえば、マスター音声エージェント)のみが、所与の時点でネットワーク及び/または音声処理デバイスに音声データを進行させることを担うようになっている、音声エージェントネットワーク内の音声エージェントを制御するためのシステム及び方法を提供する。具体的には、本開示は、検出された音声データの信号強度に基づき、音声エージェントがマスター音声エージェントであるように選択され、マスター音声エージェントが、他の音声エージェントが現在のマスター音声エージェントより高い信号強度で音声データを検出していることの判定に応じて、制御を進行させる(たとえば、別の音声エージェントをマスター音声エージェントであるようにアサインする)、音声エージェントネットワークを提供する。この方法で、マスター音声エージェントのみが、音声データを音声データ処理デバイスに進行させ、他の音声エージェントは、検出された音声データの信号強度のインジケータを送信し、検出された音声データは送信しない(または、マスター音声エージェントよりも少ない、検出された音声データを送信する)。
さらに、音声エージェントは、起動ワード(たとえば、ワード、フレーズ、トーン、または他の予め規定されたサウンドなどである場合がある、特定の音声データストリング)が検出された際にのみ、音声データのリスニングを開始するように構成されている場合がある。したがって、起動ワードを検出する音声エージェントは、関連する検出された音声データに関して声紋を識別し、この声紋を他の音声エージェントと共有し得る。この方法で、各エージェントによって検出される音声データは、マスター音声エージェントの受渡しの間、所与のユーザとの音声データの相関関係を維持するために、声紋に対応する識別されたユーザと関連づけられ得る。上述の特徴及び他のものは、以下により詳細に記載される。
図1は、音声エージェントネットワークを含む例示的環境100を概略的に示している。具体的には、図示の実施例の音声エージェントネットワークは、音声エージェント102a、102b、及び102cを含んでいる。他の実施例では、音声エージェントネットワークは、任意の数の音声エージェントを含む場合がある。音声エージェントの各々は、直接、及び/または、ネットワークデバイス104を介して、互いに(たとえば、無線または有線通信を介して)通信し得る。ネットワークデバイス104は、ルータまたは他の仲介ネットワークデバイスを含み得る。ルータまたは他の仲介ネットワークデバイスは、やはり、(たとえば、図4の質問応答サーバに関して以下に記載するような)追加の処理を実施するために、音声エージェントを遠位のコンピュータデバイスに接続し得る。いくつかの実施例では、追加の処理を実施する遠位のコンピュータデバイスは、音声エージェントネットワークの環境の外(たとえば、リモートサーバ、または、サーバが分布しているものなど、音声エージェントが位置する建物の外)であるか、音声エージェントネットワークの環境内(たとえば、モバイルデバイスまたはデスクトップ・コンピュータ・デバイスなどの、音声エージェントが位置する建物内)にある場合がある。
各音声エージェントは、音声エージェントのマイクまたは他のオーディオセンサの特性、及び、環境100内の障害物に基づくサイズ及び形状である、関連する作動レンジを有する場合がある。たとえば、音声エージェント102aは、関連する作動レンジ106aを有し、音声エージェント102bは、関連する作動レンジ106bを有し、また、音声エージェント106cは、関連する作動レンジ106cを有している。図示の実施例では、作動レンジ106bは、音声エージェント102bが位置する、より開いた領域に起因して、作動レンジ106a及び作動レンジ106cより大である。他の実施例では、音声エージェントネットワークの各音声エージェントに関する作動レンジは、互いに等しい場合がある。
ユーザ108が環境100を通して移動すると、ユーザ108は、1つの作動レンジから別の作動レンジに移行する場合がある。ユーザ108によって提供される任意の音声入力は、ユーザが位置する作動レンジ(複数可)に関連付けられた音声エージェント(複数可)によって検出される。図1に示すように、作動レンジのいくつかは、互いにオーバーラップしている。したがって、ユーザは、いくつかの時点において、2つの異なる音声エージェントに関する作動レンジ内に位置している場合がある。たとえば、位置Aでは、ユーザ108は、音声エージェント102aに関する作動レンジ106aにのみ位置している。しかし、位置Bでは、ユーザは、作動レンジ106aから(音声エージェント102bに関する)作動レンジ106bに移行する。最後に、位置Cでは、ユーザは、作動レンジ106bから(音声エージェント102cに関する)作動レンジ106cに移行する。
したがって、図1に示す実施例では、ユーザが位置Aにいる間に開始し、次いで、ユーザが位置B、次いで位置Cに移動するにつれて続く音声入力ストリングをユーザ108が提供する場合、音声入力の各部分が、音声入力ストリング全体を提供するコースにわたって、異なる音声エージェントによって検出され得る。そのような移行の間の例示的な音声エージェントの制御の受渡しが、図2A及び図2Bにおいて、以下に記載される。
図2A及び図2Bは、音声エージェントネットワーク内における音声エージェントとネットワークデバイスとの間のデータの伝達のための通信ダイアグラム200を示している。図2A及び図2Bの実施例では、3つの音声エージェントVA1(図1の音声エージェント102aの実施例である場合がある)、VA2(図1の音声エージェント102bの実施例である場合がある)、及びVA3((図1の音声エージェント102cの実施例である場合がある)が提供されている。しかし、より多いかより少ない音声エージェントが、音声エージェントネットワークに含まれる場合があり、また、図2A及び図2Bに関して論じたメッセージに類似のメッセージをやりとりする場合があることを理解されたい。音声エージェントは、図1のネットワークデバイス104及び/またはリモートサーバもしくはクラウド・コンピュータ・デバイスの実施例である場合があるネットワークデバイス202と通信するものとして示されている。
音声エージェントネットワーク内のデバイスのマップを構築し、維持するための、各音声エージェントは、音声エージェントネットワークに入ると、音声エージェントを識別するANNOUNCEメッセージを送信し得る。204で示すように、ANNOUNCEメッセージは、VA1がネットワークに結合している場合、VA1からネットワークデバイス202に送信される。他の実施例では、ANNOUNCEメッセージは、音声エージェントから定期的に(たとえば、一定の規定のインターバルで、及び/または、ネットワークの構成もしくは他のパラメータの変化などの異なるトリガに応じて)送信され得る。いくつかの実施例では、1つの音声エージェントからのANNOUNCEメッセージの送信は、音声エージェントネットワークの他の音声エージェントの各々からのANNOUNCEメッセージの送信のトリガになり得る。206と208とにおいて、VA1からのANNOUNCEメッセージは、ネットワークデバイス202から、VA2とVA3とにそれぞれ進行する。210と212とにおいて、VA2とVA3とがそれぞれのANNOUNCEメッセージをネットワークデバイス202に送信する。明確化の目的のために示されていないが、ネットワークデバイス202は、それぞれのANNOUNCEメッセージの受信に応じて、ANNOUNCEメッセージをVA2からVA1及びVA3にも進行させ得、また、ANNOUNCEメッセージをVA3からVA1及びVA2に進行させ得ることを理解されたい。
214では、ユーザ(たとえば、図1のユーザ108)は、音声による質問を開始する。簡潔に開示する目的のために、音声による質問に関する本明細書に記載の実施例は、任意の他の音声入力(たとえば、音声メモ、音声コマンドなど)に相応的に適用可能である。上述のように、音声エージェントは、予め規定された起動ワードの検出に応じて、音声入力に関するリスニングを開始するように構成され得る。たとえば、音声エージェントは、起動ワードの識別が可能であるだけ(または、起動ワードを含む少数のコマンドの用語の識別が可能であるだけ)の、簡略化されたスピーチ検出アルゴリズムを採用する場合がある。起動ワードを検出する前に、音声エージェントは、起動ワードが検出されるまで、受動的及び/または流動的方式(たとえば、音声データが起動ワードを含むかを判定する以外の音声データのいずれの処理も実施しない、音声データを貯蔵しない、音声データを送信しない、など)で音声データを検出し得る。起動ワードを検出したポイントでは、音声エージェントは、能動的に聞き、検出された音声データを処理及び/または伝達する。この方法で、起動ワードは、音声エージェントを受動的(たとえば、スリープまたは低電力)状態から起動し、音声エージェントを能動的なリスニング状態に移行する、割込信号として作用し得る。
したがって、214で開始された音声による質問は、音声エージェントネットワークに関連付けられた起動ワードを含み得、音声による質問の1つまたは複数の部分(たとえば、音声エージェントネットワークによって答えられることになる質問を含む音声ストリング)が続く。説明の目的のために、この実施例における起動ワードは、音声ストリング「Hey agent」であり、この実施例における音声による質問は、「What is the forecast for today?」である。したがって、214では、ユーザは、「Hey agent, what…」または、音声による質問のいくつかの他の部分を述べることにより、音声による質問を開始し得る。
216において、VA1は、起動ワードを確認し、音声データから声紋を抽出する。図1の環境100を説明的実施例として使用すると、音声による質問を提供するユーザは、起動ワード及び、音声による質問の第1の部分を声に出す間、音声エージェント102aのレンジ内の、位置Aに位置し得る。声紋は、音声による質問を提供するユーザに関連付けられた識別子またはサウンドマーカを含み得る。これにより、他の音声エージェントを、VA1において検出された音声入力と同じ声紋を有する音声入力に関連付けることを可能にする場合がある。したがって、218において、VA1は、音声エージェントネットワークを通しての分配のために、声紋をネットワークデバイス202に送信する。たとえば、明確化の目的のために記載されていないが、218において送信された声紋、及び/または、ネットワークデバイス202に送信された任意の他のデータは、ネットワークデバイス202からVA2及び/またはVA3に(たとえば、VA2及びVA3における貯蔵のために)進行させられ得る。220では、VA1は、少なくともネットワークデバイス202への第1の質問の部分に関し、その質問の部分が検出された信号強度の通知(たとえば、この実施例では100)とともに音声(たとえば、VA1のオーディオセンサによって検出された、加工されていない及び/またはデジタル化された音声データを含む場合がある音声データ)をストリーミングする。いくつかの実施例では、ネットワークデバイス202は、音声と、信号強度の通知との、一方または両方を、音声エージェントネットワーク内の他の音声エージェントの各々(または、同じ音声入力に関し、音声データを現在検出している他の音声エージェントの各々)に進行させる場合がある。追加的または代替的実施例では、ネットワークデバイス202は、音声を、質問応答サーバなどの遠位のコンピュータデバイスに進行させる場合がある。1つまたは複数の音声エージェントがマスター音声エージェントに直接接続されている(たとえば、中間のネットワークデバイスが無い)、さらなる追加的または代替的実施例では、音声と信号強度の通知との一方または両方が、1つまたは複数の音声エージェントに直接送信され得る(音声エージェント間のケーブル布線または他の接続性が、物理的ネットワークデバイスの代用として使用される場合がある)。この方法で、音声及び/または信号強度のデータは、音声エージェントネットワーク内の音声エージェント間で共有され得、ここでは、単一の音声エージェントのみが、所与の時点において、音声入力/音声による質問に関する音声データを伝達している。
信号強度は、(たとえば、平均を示すデシベル値、または、音声データが検出された、他の計算されたデシベルレベル)絶対値であるか、関数値(たとえば、見積もられた信号の質の様々なレベルを示すパーセンテージまたはレンジ)である場合がある。いくつかの実施例では、信号対ノイズ比(SNR)の測定値は、音声データが検出された信号強度を示し得、及び/または、信号強度を判定するために使用され得る。いずれのケースにおいても、各音声エージェント(たとえば、同じ声紋を有する音声データを検出している各音声エージェント)によって検出された音声データの相対的信号強度は、どの音声エージェントがマスター音声エージェントに選定されることになるか(たとえば、どの音声エージェントが、検出された音声データを含むネットワークに音声をストリーミングするか)を判定するために、互いに比較され得る。追加的または代替的実施例では、信号の品質の測定値は、どの音声エージェントがマスター音声エージェントに選定されることになるか(たとえば、もっとも高い品質の音声データを受信した音声エージェントの場所が、マスター音声エージェントに選定される)を判定するために、信号強度の測定値の代わりに、または信号強度の測定値と組み合わせて使用され得る。信号の品質の測定値は、SNR(たとえば、SNRの増大とともに品質が増大する場合)、エコー及び/または反射の量(たとえば、エコー及び/または反射の増大とともに品質が低下する場合)、歪曲の量(たとえば、歪曲の増大とともに品質が低下する場合)、音声データの下がった量または比率(たとえば、下がったデータ量または比の増大とともに品質が低下する場合)などの1つまたは複数の測定値から得られる場合がある。信号強度に関する、本明細書に記載の実施例は、本開示の範囲から逸脱することなく、信号強度に加えて、または、信号強度の代用として、信号の品質を利用するように調整され得ることを理解されたい。
222では、ユーザは、移動しつつ、音声による質問を提供し続ける。たとえば、ユーザは、質問の次のワード(たとえば、「is」)を続けながら、図1における位置Aと位置Bとの間を移動している場合がある。ユーザが依然としてVA1に関する作動レンジ内にいるが、レンジの縁部に向かって移動している場合があることから、信号強度は、音声による質問を提供する間、低下する場合がある。たとえば、VA1は、音声による質問の第1の部分を、音声による質問の第2の部分より高いデシベルレベルで検出する場合がある。この理由は、ユーザがVA1のマイクから離れるように移動しているためである。説明の目的のために、「部分」に関して記載したが、マスター音声エージェントは、音声データが検出されるにつれて、及び/または、マスター音声エージェントに利用可能であるネットワークリソースに基づいて言葉で描写される塊で、音声データ及び関連する信号強度を連続してストリーミングする場合があることを理解されたい。したがって、224では、VA1は、第2の質問が検出された信号強度がより低い(たとえば、この実施例では90)ことを報告し得る。しかし、他の音声エージェントが、音声による質問の検出を報告していないことから、VA1は、224においても、(たとえば、音声による質問の第2の部分、たとえば「is」を含む)音声のストリーミングを継続する。
226では、VA2は、音声による質問に対応する音声データを検出する(たとえば、VA2は、音声による質問の「is」の部分を検出する場合がある)。VA2は、音声データが、VA1によってストリーミングされている音声による質問の一部であることを判定または確認する(たとえば、抽出された声紋が、少なくともオーバーラップ量の閾値内で、VA1によって報告された声紋にマッチすることを判定する)ために、検出された音声データから声紋を抽出する場合がある。たとえば、226において、ユーザは、VA2の作動レンジにちょうど入ったところである場合がある(たとえば、部分的に、図1の位置Aと位置Bとの間にある)。しかし、ユーザが依然としてVA2よりもVA1により近いことから、VA2において検出された音声データの信号強度は、VA1において検出された音声データの信号強度より低い場合がある。VA2は、検出された音声データの信号強度を、VA1によって報告された信号強度と比較し、VA1が、より高い信号強度で音声データを検出していることを判定する場合がある。したがって、VA2は、検出された音声データの信号強度を伝達しない場合がある。他の実施例では、VA2は、検出された音声データの信号強度を伝達する場合があるが、VA2における信号強度がVA1における信号強度より低いことから、受渡しがまだ生じない場合がある。
228では、VA1は、音声による質問の第3の部分(たとえば、「the」)に対応する音声のストリーミングを継続し、信号強度が低下していること(たとえば、信号強度が80であること)を示す。230では、VA2は、VA2が音声による質問を検出する信号強度が、VA1から報告された信号強度よりも高い(たとえば、80よりも高い)ことを判定する。したがって、232において、VA2は、VA2が音声による質問を検出している信号強度(たとえば、85)の通知を伝達する。VA2の報告された信号強度がVA1の報告された信号強度より高いことから、VA1は、234において、検出される音声データのソースをVA2にアサインすることにより、音声による質問の検出の制御をVA2に受け渡す。この方法で、マスター音声エージェントは、VA1からVA2に切り替わるか受け渡される。
いくつかの実施例では、受渡しは、マスターではない音声エージェントの信号強度が、マスター音声エージェントの信号強度より、ある閾値だけ大であることに応じて生じ得ることを理解されたい。非限定的な実施例として、受渡しは、マスターではない音声エージェントが、マスター音声エージェントによって報告された信号強度よりも5ポイントまたは5デシベルレベル高い信号強度を検出するまで生じない場合があり、それにより、マスターではない音声エージェントが、5より小であるポイントまたはデシベルレベルだけ、マスター音声エージェントによって報告された信号強度より高い信号強度を検出した際に、受渡しが生じないようになっている。この閾値は、ネットワーク内の音声エージェントの数、ネットワーク内の音声エージェントの配置、ネットワーク内の音声エージェントの作動レンジのサイズ、及び/または、任意の他の適切なパラメータもしくはパラメータの組合せに基づく場合がある。追加的または代替的実施例では、スムーズな移行を行うために、受渡しは、マスターではない音声エージェントが、少なくとも所定の時間の間にマスター音声エージェントによって報告された信号強度よりも大(及び/または、ある閾値だけ大)である信号強度を検出することが判定されると生じ得る。さらに他の追加的または代替的実施例では、受渡しは、マスターではない音声エージェントが、マスター音声エージェントによって報告された信号強度より高く、かつ、所定の最小信号強度より高い信号強度を検出する場合にのみ生じ得る。
236では、VA2は、第4の質問の部分(たとえば、「fore」)に関する音声のストリーミングを開始し、VA2において音声データが検出された信号強度(たとえば、85)を伝達する。VA1が、この時間の前に音声の検出の制御を受け渡したことから、VA1は、音声のストリーミングを停止する場合があり、また、第4の質問の部分を伝達しない場合がある。しかし、他の実施例では、VA1は、音声による質問が完了した際に、複数のソースからの音声データの縫合に関するオーバーラップを提供するために、データの閾値の量、または制御の受渡しの後の時間の閾値量に関し(たとえば、VA2が音声のストリーミングを開始した後)、伝達する場合がある。
通信ダイアグラム200は、図2Bで継続し、ここでは、VA2が、第5の質問の部分(たとえば、「cast」)に関する音声のストリーミングを継続し、238において、関連する信号強度を示す。しかし、ユーザは、音声による質問を提供しながら、VA2の作動レンジの縁部に向かって移動している(たとえば、図1の位置Bから位置Cに移動している)場合があり、このため、報告される信号強度は(たとえば、78に)低下する場合がある。240では、VA3は、VA3が音声による質問(たとえば、声紋によって識別される)を、最後に報告されたVA2の信号強度よりも高い信号強度で検出している(たとえば、ユーザは、図1の実施例の位置Cに移動した場合がある)と判定する場合がある。したがって、VA3は、242において、VA3が音声による質問を検出する信号強度(たとえば、82)を示す場合がある。244では、VA3によって報告された信号強度が、VA2が音声による質問を検出している信号強度よりも大であることの判定に応じて、VA2が、音声データのソースをVA3にアサインすることにより、音声による質問の検出の制御を受け渡し、それにより、VA3を新たなマスター音声エージェントとして選定する。したがって、次の質問の部分(第6の部分及び第7の部分、たとえば、「for」及び「today」)、ならびに、関連する信号強度(たとえば、82及び88)が、それぞれ246及び248において、ストリーミングされるとともに報告される。
250では、VA3は、質問の終了(たとえば、質問を示す声の抑揚、閾値よりも高い音声データのパース、キーワードなど)を確認する。質問の終了の検出に応じて、VA3は、252において、質問の終了の通知を、質問に対する応答の要求とともに、ネットワークデバイス202に送信する。いくつかの実施例では、ネットワークデバイスは、質問の終了の通知を他の音声エージェントに進行させ、それにより、他の音声エージェントが音声データに関するリスニングを停止し、及び/または、現在の音声による質問に対する音声による質問の声紋の関連性を処分するようになっている(たとえば、それにより、それに次いで検出された任意の音声データが、異なる音声による質問に関連づけられる)。ネットワークデバイスは、他の音声エージェントに、応答に関する要求を進行させない場合があるが、質問応答サーバ、または、音声による質問をパースし、及び/もしくは、パースされた音声による質問に対する応答を提供するように構成された、他の遠位であるかローカルのデバイスに、応答に関する要求を進行させる場合がある。
254では、ネットワークデバイス202は、VA3に質問の応答を送信する。質問の応答は、いくつかの実施例では、音声による質問に対する応答を提供するために、ネットワークデバイス202において、質問応答サーバまたは他のデバイスから受信され得る。他の実施例では、ネットワークデバイスは、音声による質問をパースし、及び/または、音声による質問の応答を生成するための、処理要素を含んでいる場合がある。この場合、質問の応答は、局所的に生成される。256では、最後のマスター音声エージェント(たとえば、VA3、質問の終了を確認した音声エージェント)が、(たとえば、VA3に組み込まれ、及び/または、VA3に関連付けられた、スピーカ、ディスプレイ、及び/または他の出力デバイスを介して)質問の応答を出力する。
図3は、音声による質問に対する応答を生成するための、音声エージェントネットワークと質問応答サーバとの間の例示的通信を示す通信ダイアグラム300である。音声エージェントネットワークは、上述の音声エージェントネットワークの簡略化バージョンであり、VA4、VA5、及びネットワークデバイス302を含んでいる。VA4及びVA5は、上述の音声エージェントのいずれかの実施例である場合があり、また、ネットワークデバイス302は、図1のネットワークデバイス104、ならびに/または、図2A及び図2Bのネットワークデバイス202の実施例である場合がある。質問応答サーバ304は、ネットワークデバイス302を通して、VA4及びVA5に通信するように接続され得る。質問応答サーバ304は、複数のソース(たとえば、複数の音声エージェント)から受信した音声データからの音声による質問を再構築及びパースするための処理要素を含む場合がある。質問応答サーバ304は、パースされた音声による質問に対する応答を形成するための情報に関する要求を生成するため、及び、受信した情報に基づいて質問の応答を生成するための処理要素も含む場合がある。質問の応答を生成するために使用される情報は、1つまたは複数の情報ソース306から受信される場合がある。たとえば、図2A及び図2Bに関して上述した例示的な音声による質問を満たすために使用される情報ソースは、気象情報のソースである場合がある。他の実施例では、情報ソースには、ユーザのプロフィール/ソーシャル・ネットワーキング・サービス、メディア・ストレージ・デバイス、インターネットの検索エンジンなどが含まれ得る。
308では、VA4は、音声による質問の最初に検出された部分、及び、関連する信号強度に関する音声をネットワークデバイス302にストリーミングする。明確化の目的のために、図2A及び図2Bで上述した通信の詳細のいくつかは、通信ダイアグラム300からは省略されている場合がある。しかし、そのような通信は依然として生じ得ることを理解されたい。たとえば、VA4は、第1のマスター音声エージェントであるように予め取り決められている場合があり、また、上述の音声による質問が検出されると、声紋を送信し得る。310では継続して、ネットワークデバイス302が、音声による質問の第1の部分に関する、受信した音声データを質問応答サーバ304に進行させる。他の実施例では、ネットワークデバイスは、追加的または代替的に、音声データを収集する場合があり、また、質問の終了が音声エージェントによって示されるまで、質問応答サーバに音声データを伝達しない場合がある。しかし、図示の実施例では、ネットワークは、データがマスター音声エージェントから受信されると、ほぼリアルタイムで、現在のマスター音声エージェントからの音声データを質問応答サーバに継続的に進行させる。
312では、VA5が、音声による質問を検出し、VA4によって最後に報告された信号強度よりも高い信号強度を報告する。したがって、314では、VA4が、音声データのソースをVA5にアサインし、それにより、マスターステータスをVA5に受け渡す。316では、VA5は、音声による質問の第2の部分を、信号強度の通知とともにネットワークデバイス302にストリーミングする。318では、ネットワークデバイスは、VA5からの音声データ(たとえば、音声による質問の第2の部分)を質問応答サーバ304に進行させる。
320では、VA5は、(たとえば、図2Bの250で上述した)質問の終了を確認する。したがって、322において、VA5は、質問の終了の通知と、質問の応答に関する要求を、ネットワークデバイス302に送信する。ネットワークデバイス302は、質問の応答に関する要求を、324において質問応答サーバ304に進行させる。326では、質問応答サーバ304は、VA4及びVA5から受信したデータを使用して、音声による質問を構築及び/またはパースする。いくつかの実施例では、質問応答サーバ304は、データをネットワークデバイス302から受信するのに応じて、継続して質問を構築し得る。他の実施例では、質問応答サーバは、受信したデータすべてを一度に処理し、そこから質問を構築するために、質問の終了が検出されるまで待機する場合がある。質問の構築には、複数の音声エージェントからの音声データの縫合と、質問の内容を判定するため(たとえば、何の情報が質問によって要求されているかを判定するため)に、スピーチの確認の実施とが含まれる場合がある。音声による質問に関する、音声データのストリーミングにわたる、開示の制御は、音声データが実質的に、ある時点で1つの音声エージェントのみから受信されていることから、音声エージェントネットワーク上でのバンド幅の負荷の低減と、他のシステムに比べての、質問応答サーバ上の処理の負荷の低減との、技術的効果を有している。対照的に、他のシステムでは、音声による質問を検出する音声エージェントの各々は、検出された音声データを連続して送信する場合があり、それにより、質問応答サーバを、音声による質問を再構築するために分析されることになる音声データで満たす。
328では、質問応答サーバは、1つまたは複数の情報ソース306に情報に関する要求を送信して、音声による質問を履行する場合がある(たとえば、図2A及び図2Bに関して記載した例示的な音声による質問に関する、気象情報の要求)。330では、要求された情報が、情報ソース(複数可)306から受信され得る。いくつかの実施例では、音声による質問を履行する(たとえば、音声による質問によって提起された質問に応答する)ための情報は、質問応答サーバに局所的に貯蔵されている場合があり、この場合、情報に関する要求と、それに次ぐ、情報ソースからの情報の受信は、実施されない場合があることを理解されたい。332では、質問応答サーバは、要求された情報(及び/または、質問に応答するための局所的情報)を含む質問の応答を生成する。いくつかの実施例では、質問応答サーバは、情報に関するプレースホルダを含む質問の応答を構築する場合がある(たとえば、「the current forecast for today is [forecast]」であり、この場合では、[forecast]が、情報ソースからの受信された際に、応答に挿入される情報のタイプを識別するプレースホルダタグである)。プレースホルダは、局所的データが及び/または情報ソース306の1つもしくは複数からのデータを使用して満たされる。
334では、生成された質問の応答がネットワークデバイス302に送信され、このネットワークデバイス302が、336において質問の応答を最後のマスター音声エージェント(たとえば、VA5)に進行させる。338では、最後のマスター音声エージェント(たとえば、VA5)が、(たとえば、スピーカ、ディスプレイ、または他の出力デバイスを介して)質問の応答を出力する。
図4は、例示的音声エージェントネットワーク400及び関連するデバイスのブロック図である。音声エージェントネットワーク400は、1つまたは複数の音声エージェント402と、ネットワークデバイス404とを含んでおり、これらの各々またはいずれかが、質問応答サーバ406または他の遠位のデバイスと通信するように構成されている場合がある。音声エージェント402は、声紋の分析、起動ワードの検出、信号強度の分析、及び/または本明細書に記載の操作または方法のいずれかの操作を実施するように、プロセッサ410によって実行可能である指示を貯蔵する、メモリデバイス408(たとえば、ランダム・アクセス・メモリ[RAM]、リード・オンリ・メモリ[ROM]、フラッシュメモリ、ハード・ディスク・ドライブ、及び/または他のハードウェア・ストレージ・デバイス)を含む場合がある。いくつかの実施例では、メモリ408は、音声エージェント上のオペレーティングシステムもしくは他のアプリケーションを実行するための指示、及び/または、音声エージェントの他の要素を制御するための指示を含む場合がある。
指示は、単一のデバイスに貯蔵されている、及び/または、複数のデバイスにわたって分配されている場合があり、所与の作業のための指示は、その作業を実施するためのモジュールとして構成される場合がある。たとえば、声紋分析モジュールは、受信した音声データを分析し、音声データを特定のユーザ及び/または質問に関連付けるための音声データの識別構成要素を抽出するように、プロセッサによって実行可能な指示を含む場合がある。起動ワード検出モジュールは、音声データを、予め規定された起動ワード(たとえば、「hey voice agent」)に対応する既知の音声サンプルと比較することにより、検出された音声データを分析するために、プロセッサによって実行可能である指示を含む場合がある。上述のように、「word」として言及したが、起動ワードは、音声入力(たとえば、音声による質問)の開始を示し、検出及び、検出された音声データの報告を開始するように音声エージェントを制御するために使用される、スピーチの任意のストリング及び/または音声のトーン(複数可)を含む場合がある。いくつかの実施例では、起動ワードは、追加的または代替的に、ユーザの声以外のソースによって形成される入力(たとえば、ボタンの作動、ジェスチャなど)を含む場合がある。そのような実施例では、声紋分析及び、それに続く処理/伝達は、代替的な起動ワードの入力の後に、次に話される入力上で実施される場合がある。信号強度分析モジュールは、音声データが検出された強度(たとえば、デシベルレベルまたは他のインジケータ)を判定するように、検出された音声データを分析するように、プロセッサによって実行可能である指示を含む場合がある。
メモリ408内の指示は、ヒューマン・マシン・インターフェース412及び/またはアンテナ/通信インターフェース414の要素などの、音声エージェントの他のハードウェア要素の動作と連携して実行され得る。ヒューマン・マシン・インターフェース412は、ユーザが音声エージェントと相互作用することを可能にする、マイク、スピーカ、オプションのディスプレイ、及び/または他の入力デバイス(複数可)(たとえば、ボタン、タッチセンサ、ダイアル、ノブ、ジェスチャの検出のためのカメラまたは他のセンサなど)を含む場合がある。アンテナ/通信インターフェース414は、音声エージェントへの情報の送信及び/または音声エージェントからの情報の受信のための、ハードウェアインターフェース要素を含む場合がある。たとえば、アンテナ/通信インターフェース414は、ネットワークデバイス404及び/または質問応答サーバ406と、音声データ及び他の情報を通信するために使用され得る。各音声エージェントが互いに直接接続されている実施例では、情報は、それぞれのアンテナ/通信インターフェースを介して音声エージェント間で伝達され得る。アンテナ/通信インターフェース414は、デバイス間の関連する有線または無線通信を可能にするように、有線(たとえば、Ethernet(登録商標))及び/または無線(たとえば、WIFI、BLUETOOTH(登録商標)、Near-Field Communicationなど)インターフェース要素を含む場合がある。
ネットワークデバイス404は、メモリ416、プロセッサ(複数可)418、及びアンテナ/通信インターフェース420を含む場合がある。これらは、メモリ408、プロセッサ(複数可)410、及びアンテナ/通信インターフェース414に関して上述した特徴に類似の特徴を含む場合がある。いくつかの実施例では、ネットワークデバイス404は、音声エージェントネットワークのデバイス間でデータを伝えるように、及び/または、音声エージェントネットワークのデバイスから遠位のデバイス(たとえば、質問応答サーバ406)にデータを伝えるように、デバイスを進行させる仲介データとして役割を果たすのみである場合がある。そのような実施例では、メモリ416は、データの送受信を扱うための指示のみを含む場合がある(たとえば、データが適切に送信され得、封止、エンコード、デコードなどを実施し、データ送信のスケジューリングなどを行うようにデータを処理する)。そのような実施例では、受渡し制御モジュールなどのモジュール、及び/または、音声エージェントマップは、音声エージェント402で貯蔵される場合がある。他の実施例では、受渡し制御モジュール及び/または音声エージェントマップは、ネットワークデバイスで貯蔵される場合がある。受渡し制御モジュールは、(たとえば、図2A及び図2Bに関して上述したように)どの時点で制御を新たなマスター音声エージェントに受け渡すかを判定するために、マスターではない音声エージェントにおいて音声データが受信された信号強度を、マスター音声エージェントから報告された信号強度と比較するように実行可能な指示を含む場合がある。音声エージェントマップは、(たとえば、図2Aに関して上述した)ANNOUNCEデータを使用して構築され、また、音声エージェントネットワークに結合及び音声エージェントネットワークから離れる際に音声エージェントとして維持され得る。音声エージェントマップは、各音声エージェントに関する関連する識別子、及び/または、他の情報(たとえば、各音声エージェントから最後に受信した通信など)を含む、音声エージェントネットワーク内でアクティブであるすべての音声エージェントのリストを含み得る。
質問応答サーバ406は、メモリ422、プロセッサ(複数可)424、及びアンテナ/通信インターフェース426を含む場合がある。これらは、メモリ408、プロセッサ(複数可)410、及びアンテナ/通信インターフェース414に関して上述した特徴に類似の特徴を含む場合がある。質問応答サーバ406は、音声による質問に対応する音声データを受信し、音声による質問の応答を送信するために、ネットワークデバイス404及び/または音声エージェント402に直接(または、仲介デバイスを介して)接続されている場合がある。メモリ422は、音声による質問を構築し、音声による質問の応答を生成するように、音声データを処理するための1つまたは複数のモジュールを含む場合がある。たとえば、メモリ422は、スピーチ確認モジュールを含む場合がある。このモジュールは、音声エージェントから受信した、加工されていない音声データ内のスピーチを確認するために、プロセッサ(複数可)424によって実行可能である指示を含んでいる。いくつかの実施例では、音声エージェント402は、いくつかの根本のスピーチ処理能力を含んでいる場合がある。この場合、スピーチ確認モジュールは、音声エージェントによってスピーチの処理が実施されると、ユーザによって与えられた質問を判定するように、構築され得る。メモリ422は、質問処理モジュールも含む場合がある。この質問処理モジュールは、音声による質問を構築するように音声データを縫合し、何の情報が質問によって要求されているかを判定するように音声による質問をパースし、要求された情報を含む質問の応答を生成するために、プロセッサ(複数可)424によって実行可能である指示を含んでいる。質問処理モジュールは、加工していない音声データを理知的に処理し、質問のストリングを再構築するために、スピーチ確認モジュールとともに作用する場合がある。
図5は、複数の音声エージェントの環境において音声による質問の扱いを制御するための、例示的方法500のフローチャートである。たとえば、方法500は、図4の音声エージェントネットワーク400の1つまたは複数のデバイス、及び/または、関連するデバイスによって実施され得る。より具体的には、方法500は、図1のネットワークデバイス104、図2A、図2B、及び図3のネットワークデバイス202または302、ならびに/または、図4のネットワークデバイス404などのネットワークデバイスによって実施され得る。502では、本方法は、ネットワークに結合した各音声エージェントからの1つまたは複数のアナウンスメッセージを受信することを含んでいる。504では、本方法は、受信したアナウンスメッセージに基づき、音声エージェントマップを構築することを含んでいる。たとえば、音声エージェントがネットワークに結合し、アナウンスメッセージを送信する毎に、音声エージェントに関する識別情報(たとえば、アナウンスメッセージに含まれる)は、新たに結合した音声エージェントに対応するエントリを付加するように音声エージェントマップに加えられる場合がある。いくつかの実施例では、音声エージェントは、音声エージェントがネットワークを離れたことの通知(たとえば、時間の閾値の間、音声エージェントから通信が受信されない、通信に関する要求に対する応答が無い、など)に応じて、マップから除去される場合がある。
506では、本方法は、音声による質問の開始のインジケータを受信することを含んでいる。たとえば、インジケータは、508において示されているような、少なくとも1つの音声エージェントによって確認された起動ワード、及び/または、510において示されているような、音声による質問を提供するユーザを識別する声紋を含む場合がある。本明細書で使用される場合、起動ワードは、音声入力に対応する音声データに加えて受信され得る(たとえば、起動ワードは、音声による質問などの音声入力とは分かれた入力である場合がある)。512では、本方法は、検出された音声データの信号強度に基づき、マスター音声エージェントを取り決めることを含んでいる。たとえば、音声データを検出する第1の音声エージェントは、(たとえば、検出された音声データの声紋が、510で示された声紋にマッチするのに基づいて判定される際に)他の音声エージェントが同じ音声による質問の検出を報告するまで、自動的にマスター音声エージェントとして選定され得る。他の音声エージェントが同じ音声による質問の検出を報告すると、もっとも高い信号強度で音声による質問を検出する音声エージェントが、マスター音声エージェントとして選定され得る。
514では、本方法は、マスター音声エージェントから、音声データのストリームと、(音声データが検出された)関連する信号強度とを受信することを含んでいる。516では、本方法は、マスター音声エージェントが依然として、(たとえば、ネットワークの他の音声エージェントに比べて)もっとも高い信号強度で音声データを受信しているかを判定することを含んでいる。マスター音声エージェントが、もっとも高い信号強度で音声データを受信していない場合(たとえば、別の音声エージェントが、マスター音声エージェントによって報告された信号強度よりも高い、その音声による質問に関する信号強度を報告した場合、516における「NO」)、本方法は、512に戻って、信号強度に基づき、マスター音声エージェントを再び取り決め(たとえば、マスター音声エージェントを、他の音声エージェントに比べてもっとも高い信号強度で音声データを検出している音声エージェントに切り替える)、次いで、(たとえば、514において)新たなマスター音声エージェントから音声データを受信する。マスター音声エージェントが依然として、もっとも高い信号強度で音声データを受信している場合(たとえば、他のどの音声エージェントも、マスター音声エージェントによって報告された信号強度よりも高い、その音声による質問に関する信号強度を報告しない場合、516における「YES」)、本方法は、518に進行して、質問の終了が検出されたかを判定する。
質問の終了が検出されない場合(たとえば、518における「NO」)、本方法は514に戻って、マスター音声エージェントから、音声による質問に関する音声データのストリームの受信を継続する。質問の終了が検出された場合(たとえば、518における「YES」)、本方法は520に進行して、質問を質問応答サーバに送信する。たとえば、質問を送信することには、方法500を実施するコースにわたって収集された、統合音声データを送信することを含み得るか、音声データがマスター音声エージェントから受信されるにつれて、音声データの部分が継続して質問応答サーバに進行される場合、音声データの最後の部分を送信することが含まれ得る。いずれのケースでも、質問を送信することは、質問の終了が検出されたこと(たとえば、質問が完了したこと)の通知を送信することをも含んでいる場合がある。522では、本方法は、最後のマスター音声エージェントにおいて出力に関する質問の応答を受信することを含んでいる。
図6は、音声による質問の検出の制御を受け渡すための、例示的方法600のフローチャートである。たとえば、方法600は、上述の音声エージェントのいずれか(たとえば、図4の音声エージェント402)などのマスター音声エージェントとして選定された音声エージェントによって実施され得る。602では、本方法は、起動ワードを確認することを含んでいる。上述のように、起動ワードは、音声入力に関するリスニングを開始するように、音声エージェントを制御するために使用される、任意の適切なサウンド、または一連のサウンドを含む場合がある。この方法で、音声エージェントは、起動ワードが検出されるまで、起動ワードではないすべての音声入力を無視する場合がある。604では、本方法は、関連する信号強度で音声による質問を受信することを含んでいる。606で示されているように、音声による質問及び/または起動ワードは、音声による質問を提供するユーザを識別する、及び/または、別様に独自に、音声による質問のソースを識別する、声紋を判定するために、分析され得る。
608では、本方法は、その部分が受信された関連する信号強度の通知を伴う、受信された音声による質問の第1の部分を送信することを含んでいる。上述のように、説明の目的のために、「部分」に関して記載したが、マスター音声エージェントは、音声データが検出されるにつれて、音声データ及び関連する信号強度を連続してストリーミングする場合があることを理解されたい。608では、音声データをストリーミングする音声エージェントは、マスター音声エージェントとして選定され得、それにより、他のどの音声エージェントも、その音声による質問に関連する、検出された音声データをストリーミングしないようになっている。受信された音声による質問の第1の部分を送信する前、または送信と同時に、音声エージェントは、ネットワーク内の他の音声エージェントが、検出された音声による質問がマスター音声エージェントによって検出されている音声による質問と同じであるかを識別することを可能にするために、声紋の通知を送信する場合がある。
610では、本方法は、(たとえば、音声による質問を検出する他の音声エージェントによって受信された信号強度の報告に基づき)より高い信号強度で音声による質問を検出している第2の(異なる)音声エージェントの通知が受信されたかを判定することを含んでいる。より高い信号強度の第2の音声エージェントの通知が受信されなかった場合(たとえば、610における「NO」)、本方法は、612に進行して、受信された音声による質問の次の部分を、関連する信号強度の通知とともに送信し、また、610に戻って、別の音声エージェントがより高い信号強度を報告しているかを監視する。
より高い信号強度の第2の音声エージェントの通知が受信された場合(たとえば、610における「YES」)、本方法は、614に進行して、音声による質問の検出を第2の音声エージェントに受け渡す。616において示されているように、受渡しには、受信された音声による質問の送信を停止すること、及び/または、618で示されるように、受信された音声による質問の信号強度の通知の送信を継続することが含まれ得る。610において、複数の音声エージェントが、マスター音声エージェントよりも高い信号強度を報告した場合、マスター音声エージェントは、もっとも高い信号強度を報告した音声エージェントに音声による質問の検出を受け渡す場合があることを理解されたい。
620では、本方法は、(たとえば、マスター音声エージェントからの質問の終了の報告に基づき)質問の終了が検出されたかを判定することを含んでいる。質問の終了が検出されない場合(たとえば、620における「NO」)、本方法は、音声による質問に関する監視を継続することと、受信された音声による質問の信号強度の通知を選択的に送信することとを含んでいる(たとえば、信号強度は、音声による質問が検出されている限り、報告される場合があるか、マスター音声エージェントによって報告された信号強度よりも高い場合にのみ、報告される場合がある)。本方法は次いで、620に戻って、質問の終了に関する監視を継続する。622及び620における監視の実行の間の任意のポイント(たとえば、質問の終了が検出される前の任意のポイント)において、音声エージェントの信号強度が、マスター音声エージェントによって報告された信号強度よりも高い場合、音声エージェントがマスター音声エージェントに戻るように切り替わる場合があることから、本方法は、612に戻る場合があることを理解されたい。質問の終了が検出された場合(たとえば、620における「YES」)、本方法は音声による質問の監視を停止することを含む場合がある。たとえば、音声エージェントは、起動ワードに関する監視のみに戻る場合がある。
図7は、音声による質問の検出にわたって、制御の受渡しを受信するための方法700のフローチャートである。たとえば、方法700は、上述の音声エージェントのいずれか(たとえば、図4の音声エージェント402)などのマスター音声エージェントとして選定されていない音声エージェントによって実施され得る。702では、本方法は任意選択的に、起動ワードを確認することを含んでいる。マスターではない音声エージェントは、音声による質問の入力の開示時において、音声による質問を検出しない場合があり、このため、いくつかの実施例では、起動ワードを確認しない場合がある。他の実施例では、マスターではない音声エージェントは、起動ワードを検出する場合があるが、別の音声エージェントに比べて低い信号強度で起動ワードを検出する場合がある(また、このため、音声による質問の開始時において、マスター音声エージェントとして選定されていない場合がある)。
704では、本方法は、関連する信号強度で音声による質問を受信することを含んでいる。マスターではない音声エージェントが起動ワードを検出しない実施例では、マスター音声エージェントからの声紋の受信(たとえば、図2Aの218で記載したように、起動ワード及びそれに次ぐ音声による質問を検出する第1の音声エージェントは、音声による質問の声紋を抽出するとともに、後の比較のために、ネットワーク内の他の音声エージェントに送信する)は、マスターではない音声エージェントが、起動ワード以外の音声データのリスニングを開始することのトリガになる場合がある(たとえば、マスターではない音声エージェントが起動ワードを検出した場合のように、マスターではない音声エージェントが「wake(起動)」するトリガとなる場合がある)。706において示したように、音声による質問を提供するユーザを識別する声紋は、音声による質問を受信している間に判定され、また、マッチを判定するために、音声による質問に関して第1のマスター音声エージェントによって送信された声紋と比較される場合がある。708では、本方法は、関連する信号強度の通知を送信することを含んでいる。710では、本方法は、音声による質問が、マスター音声エージェントによって報告された信号強度よりも高い信号強度で受信されているかを判定することを含んでいる。音声エージェントが音声による質問を検出している信号強度が、マスターデバイスによって最後に報告された信号強度よりも高くない場合(たとえば、710における「NO」)、本方法は704に戻って、音声による質問の受信、及び、関連する信号強度の通知の送信を継続する。いくつかの実施例では、関連する信号強度の通知が、マスター音声エージェントから最後に報告された信号強度よりも高い場合にのみ送信される場合があることを理解されたい。
音声による質問が、マスター音声エージェントの、最後に報告された信号強度よりも高い信号強度で受信されている場合(たとえば、710における「YES」)、本方法は、712に進んで、現在のマスター音声エージェントからの音声による質問の検出の制御の受渡しを受信する。714では、本方法は、その部分が検出された関連する信号強度の通知を伴う、受信された音声による質問の次の部分を送信することを含んでいる。音声による質問の伝達は、前のマスター音声エージェントからの受渡しを受信するのに応じて、(公称の処理の遅延以外に)遅延することなく、新たなマスター音声エージェントによって速やかに実施され得ることを理解されたい。
716では、本方法は、質問の終了が検出されるかの判定を含んでいる。質問の終了が検出されない場合(たとえば、716における「NO」)、本方法は、718に進行して、より高い信号強度を伴う別の音声エージェントの通知が受信されたかを判定する。そのような通知が受信されない場合(たとえば、718における「NO」)、本方法は714に戻り、検出された音声による質問の送信と、質問の終了に関する監視とを継続する。より高い信号強度の別の音声エージェントの通知が受信された場合(たとえば、718における「YES」)、本方法は、720に進行して、音声による質問の検出をその他の音声エージェントに受け渡す。本方法は、722において、音声エージェントでの信号強度の通知を送信(または、信号強度が、新たなマスター音声エージェントによって報告された信号強度より高くなったら、信号強度の通知を送信)し、質問の終了に関する監視を継続するために、716に戻ることを継続することをさらに含んでいる場合がある。質問の終了が検出された場合(たとえば、716における「YES」)、本方法は724に進行して、音声による質問に関する監視を停止する。本方法は、726で示されているように、質問を質問応答サーバに送信することと、728における質問の応答を受信及び出力することとを含んでいる。
別の実施例には、音声エージェントであって、オーディオセンサと、通信インターフェースと、プロセッサと、プロセッサによって実行可能な指示を貯蔵するメモリデバイスであって、オーディオセンサを介して、音声入力に対応する第1のオーディオデータを検出すること、ならびに、音声エージェントネットワークの少なくとも1つの他の音声エージェントが、音声入力に対応する第2の音声データを検出していることを判定することに応じて、第1の音声データが検出される信号強度を判定すること、信号強度を、少なくとも1つの他の音声エージェントから受信された第2の音声データの報告された信号強度と比較すること、及び、第1の音声データの信号強度を、少なくとも1つの他の音声エージェントから受信された第2の音声データの報告された信号強度と比較することに基づき、第1の音声データと検出された音声データとの信号強度の、1つまたは複数の通知を、選択的に送信すること、を行うように、実行可能な指示を貯蔵するメモリデバイスと、を含む、音声エージェントが含まれる。音声エージェントの第1の実施例では、指示が、追加的または代替的に、少なくとも1つの他の音声エージェントが、別の音声エージェントからの音声入力と関連づけられた第1の声紋を受信することにより、音声入力に対応する音声データを検出していることを判定するように、さらに実行可能であり、音声データの第2の声紋を判定し、第2の声紋を第1の声紋と比較して、第2の声紋が第1の声紋にマッチすることを判定する場合がある。音声エージェントの第2の実施例は、第1の実施例を任意選択的に含み、さらに、指示が、音声データが検出される現在の信号強度よりも高い、少なくとも1つの他の音声エージェントの選択された音声エージェントからの第3の音声データの、報告された信号強度を受信するのに応じて、検出された音声データの送信を停止するように、さらに実行可能である、音声エージェントを含んでいる。音声エージェントの第3の実施例は、第1の実施例と第2の実施例との一方または両方を任意選択的に含み、さらに、指示が、音声入力の終了の通知を検出することと、音声入力の終了の通知の検出に応じて、少なくとも音声エージェントネットワークのネットワークデバイスに、音声入力の終了を示すメッセージを選択的に送信すること、をさらに実行可能である、音声エージェントを含んでいる。音声エージェントの第4の実施例は、第1の実施例から第3の実施例の1つまたは複数を任意選択的に含み、さらに、メッセージを選択的に送信することが、音声入力の終了の通知を検出した際に、音声エージェントが検出された音声データを送信している場合、メッセージを送信することと、音声入力の終了の通知を検出した際に、音声エージェントが検出された音声データを送信していない場合、メッセージを送信しないことと、を含んでいる、音声エージェントを含んでいる。第5の実施例は、第1の実施例から第4の実施例の1つまたは複数を任意選択的に含み、さらに、出力デバイスをさらに備え、指示が、音声入力の終了の通知を検出した際に、音声エージェントが検出された音声データを送信しているかに基づき、出力デバイスを介して、音声入力に対する応答を、選択的に受信及び出力するようにさらに実行可能である、音声エージェントを含んでいる。第6の実施例は、第1の実施例から第5の実施例の1つまたは複数を任意選択的に含み、さらに、指示が、音声入力に対応する音声データの検出を開始することと、音声エージェントネットワークの他の音声エージェントの各々に対し、予め規定された起動ワードの検出に応じて音声データが検出される信号強度を報告することと、をするようにさらに実行可能である、音声エージェントを含んでいる。第7の実施例は、第1の実施例から第6の実施例の1つまたは複数を任意選択的に含み、さらに、指示が、音声エージェントネットワークに結合した音声エージェントに応じて、アナウンスメッセージを送信するようにさらに実行可能である、音声エージェントを含んでいる。第8の実施例は、第1の実施例から第7の実施例の1つまたは複数を任意選択的に含み、さらに、信号強度の通知と、検出された音声データとの1つまたは複数を選択的に送信することが、マスター音声エージェントとしてアサインされるのに応じて、少なくとも音声エージェントネットワークのネットワークデバイスに、検出された音声データ、及び、信号強度の通知を送信することと、信号強度が、少なくとも1つの他の音声エージェントの報告された信号強度より高いことと、音声エージェントが現在、マスター音声エージェントとしてアサインされていないこととの判定に応じて、少なくとも音声エージェントネットワークのネットワークデバイスに、信号強度の通知のみを送信することと、を含んでいる、音声エージェントを含んでいる。
別の実施例は、複数の音声エージェントを含む音声エージェントネットワークにおける音声入力の検出の制御方法であって、複数の音声エージェントの第1の音声エージェントにおいて、第1の信号強度における音声入力に対応する第1の音声データを検出することと、第1の信号強度が、音声エージェントネットワーク内の他の音声エージェントの各々から報告された、受信した信号強度より高いことの判定に応じて、第1の音声エージェントをマスター音声エージェントとしてアサインすることと、第1の音声エージェントから、第1の音声データと、第1の音声エージェントがマスター音声エージェントとしてアサインされている間に第1の音声データが検出される、継続的にアップデートされる信号強度の報告とを含むストリームを送信することと、複数の音声エージェントの第2の音声エージェントが、第1の音声エージェントから現在報告されている信号強度よりも高い信号強度において、音声入力に対応する第2の音声データを検出することの通知を受信するのに応じて、第2の音声エージェントをマスター音声エージェントとしてアサインし、第1の音声エージェントにおけるストリームの送信を停止することと、を含む、制御方法を含んでいる。第1の実施例では、本方法は、追加的または代替的に、第1の音声エージェントから、音声入力を識別する声紋を送信することをさらに含む場合がある。第2の実施例は、第1の実施例を任意選択的に含み、さらに、現在の信号強度が、第2の音声エージェントから受信した、最後に報告された信号強度より高いことの判定にのみ応じて、第2の音声エージェントがマスター音声エージェントとしてアサインされている間に、第1の音声エージェントから、音声入力に対応する検出された音声データの現在の信号強度の報告を送信することをさらに含む、方法を含んでいる。第3の実施例は、第1の実施例と第2の実施例との一方または両方を任意選択的に含み、さらに、第1の音声エージェントがマスター音声エージェントとしてアサインされている間に、音声入力の終了の通知を検出することと、音声入力の終了の通知の検出に応じて、音声入力の終了を示すメッセージを遠位のデバイスに送信することと、をさらに含む、方法を含んでいる。第4の実施例は、第1の実施例から第3の実施例の1つまたは複数を任意選択的に含み、さらに、音声入力が音声による質問を含み、遠位のデバイスが質問応答サーバを含み、方法がさらに、第1の音声エージェントにおいて、音声による質問に対する応答を受信することと、第1の音声エージェントの出力デバイスを介して、音声による質問に対する応答を出力することと、をさらに含む、方法を含んでいる。
別の実施例は、音声入力の検出を制御するための例示的音声エージェントネットワークは、複数の音声エージェントと、複数の音声エージェント、及び、質問応答サーバに通信するように結合されたネットワークデバイスと、第1の複数の音声エージェントの第1の音声エージェントであって、第1の音声エージェントのプロセッサにより、第1の信号強度での音声による質問に対応する第1の音声データを検出することと、第1の信号強度が、音声エージェントネットワーク内の他の音声エージェントの各々から報告された、受信した信号強度より高いことの判定に応じて、マスター音声エージェントとしてのアサインを受信することと、第1の音声データと、第1の音声エージェントがマスター音声エージェントとしてアサインされている間に第1の音声データが検出される、継続的にアップデートされる信号強度の報告とを含むストリームを送信することと、複数の音声エージェントの第2の音声エージェントが、第1の音声エージェントから現在報告されている信号強度よりも高い信号強度における音声による質問に対応する第2の音声データを検出することの通知を受信するのに応じて、第2の音声エージェントをマスター音声エージェントとしてアサインし、第1の音声エージェントにおけるストリームの送信を停止することと、をするように実行可能である指示を貯蔵するメモリデバイスを含む、第1の音声エージェントとを含んでいる、音声エージェントネットワークを含んでいる。第1の実施例では、指示は、追加的または代替的に、第1の音声エージェントから、音声による質問を識別する声紋を送信するようにさらに実行可能である場合がある。第2の実施例は、第1の実施例を任意選択的に含み、さらに、指示が、現在の信号強度が、第2の音声エージェントから受信した、最後に報告された信号強度より高いことの判定にのみ応じて、第2の音声エージェントがマスター音声エージェントとしてアサインされている間に、第1の音声エージェントから、音声による質問に対応する検出された音声データの現在の信号強度の報告を送信するように、さらに実行可能である、音声エージェントネットワークを含んでいる。第3の実施例は、第1の実施例と第2の実施例との一方または両方を任意選択的に含み、さらに、指示が、第1の音声エージェントがマスター音声エージェントとしてアサインされている間に、音声入力の終了の通知を検出することと、音声による質問の終了の通知の検出に応じて、質問応答サーバに進行させるために、音声による質問の終了を示すメッセージをネットワークデバイスに送信することと、をするようにさらに実行可能である、音声エージェントネットワークを含んでいる。第4の実施例は、第1の実施例から第3の実施例の1つまたは複数を任意選択的に含み、さらに、指示が、第1の音声エージェントにおいて、音声による質問に対する応答を受信することと、第1の音声エージェントの出力デバイスを介して、音声による質問に対する応答を出力することと、をするようにさらに実行可能である、音声エージェントネットワークを含んでいる。第5の実施例は、第1の実施例から第4の実施例の1つまたは複数を任意選択的に含み、さらに、指示が、音声エージェントネットワークに結合した第1の音声エージェントに応じて、アナウンスメッセージを送信するようにさらに実行可能である、音声エージェントネットワークを含んでいる。
別の実施例には、音声エージェントネットワークであって、複数の音声エージェントと、複数の音声エージェント、及び、質問応答サーバに通信するように結合されたネットワークデバイスと、第1の複数の音声エージェントの第1の音声エージェントであって、第1の音声エージェントのプロセッサにより、第1の信号強度及び第1の信号の品質で、音声による質問に対応する第1の音声データを検出することと、第1の信号強度と第1の信号の品質との一方または両方が、音声エージェントネットワーク内の他の音声エージェントの各々から報告された、受信した信号強度と信号の品質とのそれぞれより高いことの判定に応じて、マスター音声エージェントとしてのアサインを受信することと、第1の音声データと、第1の音声エージェントがマスター音声エージェントとしてアサインされている間に第1の音声データが検出される、継続的にアップデートされる信号強度、及び/または、継続的にアップデートされる信号の品質の報告とを含むストリームを送信することと、複数の音声エージェントの第2の音声エージェントが、第1の音声エージェントから現在報告されている信号強度と信号の品質とのそれぞれよりも高い第2の信号強度と第2の信号の品質との一方または両方において、音声による質問に対応する第2の音声データを検出することの通知を受信するのに応じて、第2の音声エージェントをマスター音声エージェントとしてアサインし、第1の音声エージェントにおけるストリームの送信を停止することと、をするように実行可能である指示を貯蔵するメモリデバイスを含む、第1の音声エージェントと、を備えた、音声エージェントネットワークが含まれている。
各実施形態の記載は、説明及び記載の目的で提供されたものである。各実施形態に対する適切な変更及び変形は、上述の記載を鑑みて行われ得るか、本方法の実施から得られる場合がある。たとえば、別様に記載されていない限り、記載の方法の1つまたは複数は、図1から図4に関して上述した、音声エージェント、ネットワークデバイス、及び/または質問応答サーバなどの、適切なデバイス及び/またはデバイスの組合せによって実施され得る。本方法は、ストレージデバイス、メモリ、ハードウェア・ネットワーク・インターフェース/アンテナ、スイッチ、アクチュエータ、クロック回路などの、1つまたは複数の追加のハードウェア要素と組み合わせて、1つまたは複数の論理デバイス(たとえば、プロセッサ)で、貯蔵された指示を実行することによって実施され得る。記載の方法及び関連する動作は、本出願で記載された順番に加え、並列して、及び/または同時に、様々な順番でも実施され得る。上述のシステムは、例示的性質のものであり、追加の要素を含み得、及び/または、要素を省略し得る。本開示の主題は、すべての新規の、かつ、明らかではない、様々なシステム及び構成、ならびに、開示の他の特徴、機能、及び/または特性の、組合せ及びサブの組合せを含んでいる。
本出願で使用される場合、単数で述べられ、「a」または「an」のワードに続く要素またはステップは、そのような除外が述べられていない限り、複数の前述の要素またはステップを除外しないものとして理解されるものとする。さらに、本開示の「1つの実施形態」または「1つの実施例」に対する参照は、やはり述べられた特徴を組み込んでいるさらなる実施形態の存在を除外するものとして解されることは意図されていない。「first」、「second」、及び「third」などの用語は、単にラベルとして使用されているものであり、数値上の要請、または、その対象の特定の位置的順番を課すことを意図するものではない。添付の特許請求の範囲は、特に、新規であり明らかではないものと見なされる、上述の開示からの主題を指摘している。

Claims (18)

  1. 音声エージェントであって、
    オーディオセンサと、
    通信インターフェースと、
    プロセッサと、
    モリデバイスであって、前記メモリデバイスは、
    前記オーディオセンサを介して、音声入力に対応する第1の音声データを検出すること、ならびに、
    音声エージェントネットワークの少なくとも1つの他の音声エージェントが、前記音声入力に対応する第2の音声データを検出していることを判定することに応じて、
    前記第1の音声データが検出される信号強度を判定すること、
    前記信号強度を、前記少なくとも1つの他の音声エージェントから受信された前記第2の音声データの報告された信号強度と比較すること、及び、
    前記第1の音声データの前記信号強度、前記少なくとも1つの他の音声エージェントから受信された前記第2の音声データの前記報告された信号強度よりも高い場合、前記第1の音声データの前記信号強度の通を送信すること、を行うように、前記プロセッサによって実行可能な指示を貯蔵するメモリデバイスと、を備えた音声エージェント。
  2. 前記指示が、少なくとも1つの他の音声エージェントが、別の音声エージェントからの前記音声入力と関連づけられた第1の声紋を受信することにより、前記音声入力に対応する音声データを検出していることを判定するように、さらに実行可能であり、前記音声データの第2の声紋を判定し、前記第2の声紋を前記第1の声紋と比較して、前記第2の声紋が前記第1の声紋にマッチすることを判定する、請求項1に記載の音声エージェント。
  3. 前記指示が、前記音声入力の終了の通知を検出することと、前記音声入力の前記終了の前記通知の検出に応じて、少なくとも前記音声エージェントネットワークのネットワークデバイスに、前記音声入力の前記終了を示すメッセージを送信すること、をさらに実行可能である、請求項1に記載の音声エージェント。
  4. 前記メッセージを送信することが、前記音声入力の前記終了の前記通知を検出した際に、前記音声エージェントが検出された第1の音声データを送信している場合、前記メッセージを送信することと、前記音声入力の前記終了の前記通知を検出した際に、前記音声エージェントが検出された第1の音声データを送信していない場合、前記メッセージを送信しないことと、を含んでいる、請求項に記載の音声エージェント。
  5. 出力デバイスをさらに備え、前記指示が、前記音声入力の前記終了の前記通知を検出した際に、前記音声エージェントが検出された第1の音声データを送信しているかに基づき、前記出力デバイスを介して、前記音声入力に対する応答を、受信及び出力するようにさらに実行可能である、請求項に記載の音声エージェント。
  6. 前記指示が、前記音声入力に対応する前記第1の音声データの検出を開始することと、前記音声エージェントネットワークの他の音声エージェントの各々に対し、予め規定された起動ワードの検出に応じて前記第1の音声データが検出される信号強度を報告することと、をするようにさらに実行可能である、請求項1に記載の音声エージェント。
  7. 前記指示が、前記音声エージェントネットワークに結合した前記音声エージェントに応じて、アナウンスメッセージを送信するようにさらに実行可能である、請求項1に記載の音声エージェント。
  8. 複数の音声エージェントを含む音声エージェントネットワークにおける音声入力の検出制御する方法であって、
    前記複数の音声エージェントの第1の音声エージェントにおいて、第1の信号強度における音声入力に対応する第1の音声データを検出することと、
    前記第1の信号強度が、前記音声エージェントネットワーク内の他の音声エージェントの各々から報告された、受信した信号強度より高いことの判定に応じて、前記第1の音声エージェントをマスター音声エージェントとしてアサインすることと、
    前記第1の音声エージェントから前記第1の音声エージェントが前記マスター音声エージェントとしてアサインされている間に前記第1の音声データが検出される際に、(i)前記第1の音声データと(ii)継続的にアップデートされる信号強度の報告とを含むストリームを送信することと、
    前記複数の音声エージェントの第2の音声エージェントが、前記第1の音声エージェントから現在報告されている信号強度よりも高い信号強度において、前記音声入力に対応する第2の音声データを検出することの通知を受信するのに応じて、前記第2の音声エージェントを前記マスター音声エージェントとしてアサインし、前記第1の音声エージェントにおける前記ストリームの前記送信を停止することと、を含む方法。
  9. 前記第1の音声エージェントから、前記音声入力を識別する声紋を送信することをさらに含む、請求項に記載の方法。
  10. 前記現在の信号強度が、前記第2の音声エージェントから受信した、最後に報告された信号強度より高いことの判定にのみ応じて、前記第2の音声エージェントが前記マスター音声エージェントとしてアサインされている間に、前記第1の音声エージェントから、前記音声入力に対応する検出された第1の音声データの前記現在の信号強度の報告を送信することをさらに含む、請求項に記載の方法。
  11. 前記第1の音声エージェントが前記マスター音声エージェントとしてアサインされている間に、前記音声入力の終了の通知を検出することと、前記音声入力の前記終了の前記通知の検出に応じて、前記音声入力の前記終了を示すメッセージを遠位のデバイスに送信することと、をさらに含む、請求項に記載の方法。
  12. 前記音声入力が音声による質問を含み、前記遠位のデバイスが質問応答サーバを含み、前記方法がさらに、前記第1の音声エージェントにおいて、前記音声による質問に対する応答を受信することと、前記第1の音声エージェントの出力デバイスを介して、前記音声による質問に対する前記応答を出力することと、をさらに含む、請求項11に記載の方法。
  13. 音声エージェントネットワークであって、
    複数の音声エージェントと、
    前記複数の音声エージェント、及び、質問応答サーバに通信するように結合されたネットワークデバイスと、
    メモリデバイスを含む前記複数の音声エージェントの第1の音声エージェントであって、前記メモリデバイスは、
    第1の信号強度及び第1の信号の品質で、音声による質問に対応する第1の音声データを検出することと、
    前記第1の信号強度と前記第1の信号の品質との一方または両方が、前記音声エージェントネットワーク内の他の音声エージェントの各々から報告された、受信した信号強度と信号の品質とのそれぞれより高いことの判定に応じて、マスター音声エージェントとしてのアサインを受信することと、
    記第1の音声エージェントが前記マスター音声エージェントとしてアサインされている間に前記第1の音声データが検出される際に、(i)前記第1の音声データと(ii)継続的にアップデートされる信号強度及び/または継続的にアップデートされる信号の品質の報告とを含むストリームを送信することと、
    前記複数の音声エージェントの第2の音声エージェントが、前記第1の音声エージェントから現在報告されている信号強度と信号の品質とのそれぞれよりも高い第2の信号強度と第2の信号の品質との一方または両方において、前記音声による質問に対応する第2の音声データを検出することの通知を受信するのに応じて、前記第2の音声エージェントを前記マスター音声エージェントとしてアサインし、前記第1の音声エージェントにおける前記ストリームの前記送信を停止することと、
    行うように前記第1の音声エージェントのプロセッサによって実行可能である指示を貯蔵する、第1の音声エージェントと、を備えた音声エージェントネットワーク。
  14. 前記指示が、前記第1の音声エージェントから、前記音声による質問を識別する声紋を送信するようにさらに実行可能である、請求項13に記載の音声エージェントネットワーク。
  15. 前記指示が、前記現在の信号強度が、前記第2の音声エージェントから受信した、最後に報告された信号強度より高いことの判定にのみ応じて、前記第2の音声エージェントが前記マスター音声エージェントとしてアサインされている間に、前記第1の音声エージェントから、前記音声による質問に対応する検出された第1の音声データの前記現在の信号強度の報告を送信するように、さらに実行可能である、請求項13に記載の音声エージェントネットワーク。
  16. 前記指示が、前記第1の音声エージェントが前記マスター音声エージェントとしてアサインされている間に、前記音声による質問の終了の通知を検出することと、前記音声による質問の前記終了の前記通知の検出に応じて、前記質問応答サーバに進行させるために、音声入力の終了を示すメッセージを前記ネットワークデバイスに送信することと、をするようにさらに実行可能である、請求項13に記載の音声エージェントネットワーク。
  17. 前記指示が、前記第1の音声エージェントにおいて、前記音声による質問に対する応答を受信することと、前記第1の音声エージェントの出力デバイスを介して、前記音声による質問に対する前記応答を出力することと、をするようにさらに実行可能である、請求項16に記載の音声エージェントネットワーク。
  18. 前記指示が、前記音声エージェントネットワークに結合した前記第1の音声エージェントに応じて、アナウンスメッセージを送信するようにさらに実行可能である、請求項13に記載の音声エージェントネットワーク。
JP2018111596A 2017-06-13 2018-06-12 音声エージェントの進行 Active JP7152196B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/621,678 2017-06-13
US15/621,678 US10069976B1 (en) 2017-06-13 2017-06-13 Voice agent forwarding

Publications (2)

Publication Number Publication Date
JP2019003190A JP2019003190A (ja) 2019-01-10
JP7152196B2 true JP7152196B2 (ja) 2022-10-12

Family

ID=62245146

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018111596A Active JP7152196B2 (ja) 2017-06-13 2018-06-12 音声エージェントの進行

Country Status (5)

Country Link
US (2) US10069976B1 (ja)
EP (2) EP3800635B1 (ja)
JP (1) JP7152196B2 (ja)
KR (1) KR20180135817A (ja)
CN (1) CN109087637B (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190130898A1 (en) * 2017-11-02 2019-05-02 GM Global Technology Operations LLC Wake-up-word detection
CN107895573B (zh) * 2017-11-15 2021-08-24 百度在线网络技术(北京)有限公司 用于识别信息的方法及装置
US11250840B1 (en) * 2018-04-09 2022-02-15 Perceive Corporation Machine-trained network detecting context-sensitive wake expressions for a digital assistant
US10649727B1 (en) * 2018-05-14 2020-05-12 Amazon Technologies, Inc. Wake word detection configuration
KR20200044175A (ko) * 2018-10-05 2020-04-29 삼성전자주식회사 전자 장치 및 그의 비서 서비스 제공 방법
CN109448725A (zh) * 2019-01-11 2019-03-08 百度在线网络技术(北京)有限公司 一种语音交互设备唤醒方法、装置、设备及存储介质
JP7266418B2 (ja) * 2019-02-14 2023-04-28 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
EP3726856B1 (en) 2019-04-17 2022-11-16 Oticon A/s A hearing device comprising a keyword detector and an own voice detector
CN110033775A (zh) * 2019-05-07 2019-07-19 百度在线网络技术(北京)有限公司 多音区唤醒交互方法、装置及存储介质
JPWO2020235141A1 (ja) * 2019-05-17 2020-11-26
KR102245953B1 (ko) * 2019-06-05 2021-04-28 엘지전자 주식회사 복수의 전자기기의 제어방법
CN110246501B (zh) * 2019-07-02 2022-02-01 思必驰科技股份有限公司 用于会议记录的语音识别方法及系统
US10839060B1 (en) * 2019-08-27 2020-11-17 Capital One Services, Llc Techniques for multi-voice speech recognition commands
EP4037328A4 (en) * 2019-09-27 2023-08-30 LG Electronics Inc. ARTIFICIAL INTELLIGENCE DISPLAY DEVICE AND SYSTEM
US11164563B2 (en) * 2019-12-17 2021-11-02 Motorola Solutions, Inc. Wake word based on acoustic analysis
CN111601004A (zh) * 2020-05-18 2020-08-28 海能达通信股份有限公司 一种呼叫处理方法、装置及系统
US11893985B2 (en) 2021-01-15 2024-02-06 Harman International Industries, Incorporated Systems and methods for voice exchange beacon devices
US11620993B2 (en) * 2021-06-09 2023-04-04 Merlyn Mind, Inc. Multimodal intent entity resolver

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080120104A1 (en) 2005-02-04 2008-05-22 Alexandre Ferrieux Method of Transmitting End-of-Speech Marks in a Speech Recognition System
US20170025124A1 (en) 2014-10-09 2017-01-26 Google Inc. Device Leadership Negotiation Among Voice Interface Devices
WO2017044629A1 (en) 2015-09-11 2017-03-16 Amazon Technologies, Inc. Arbitration between voice-enabled devices
US20170090864A1 (en) 2015-09-28 2017-03-30 Amazon Technologies, Inc. Mediation of wakeword response for multiple devices

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070112563A1 (en) * 2005-11-17 2007-05-17 Microsoft Corporation Determination of audio device quality
US8219394B2 (en) * 2010-01-20 2012-07-10 Microsoft Corporation Adaptive ambient sound suppression and speech tracking
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US20150117674A1 (en) * 2013-10-24 2015-04-30 Samsung Electronics Company, Ltd. Dynamic audio input filtering for multi-device systems
US9424841B2 (en) * 2014-10-09 2016-08-23 Google Inc. Hotword detection on multiple devices
US20170351330A1 (en) * 2016-06-06 2017-12-07 John C. Gordon Communicating Information Via A Computer-Implemented Agent

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080120104A1 (en) 2005-02-04 2008-05-22 Alexandre Ferrieux Method of Transmitting End-of-Speech Marks in a Speech Recognition System
US20170025124A1 (en) 2014-10-09 2017-01-26 Google Inc. Device Leadership Negotiation Among Voice Interface Devices
WO2017044629A1 (en) 2015-09-11 2017-03-16 Amazon Technologies, Inc. Arbitration between voice-enabled devices
US20170090864A1 (en) 2015-09-28 2017-03-30 Amazon Technologies, Inc. Mediation of wakeword response for multiple devices

Also Published As

Publication number Publication date
KR20180135817A (ko) 2018-12-21
JP2019003190A (ja) 2019-01-10
EP3800635B1 (en) 2022-11-16
CN109087637A (zh) 2018-12-25
EP3800635A1 (en) 2021-04-07
US20180359364A1 (en) 2018-12-13
CN109087637B (zh) 2023-09-19
US10069976B1 (en) 2018-09-04
EP3416164B1 (en) 2020-12-09
EP3416164A1 (en) 2018-12-19
US10298768B2 (en) 2019-05-21

Similar Documents

Publication Publication Date Title
JP7152196B2 (ja) 音声エージェントの進行
KR102098136B1 (ko) 응답을 제공하기 위한 디바이스 선택
US10904665B2 (en) Selection of master device for synchronized audio
US11908445B2 (en) Conversation-aware proactive notifications for a voice interface device
US11563854B1 (en) Selecting user device during communications session
US9583102B2 (en) Method of controlling interactive system, method of controlling server, server, and interactive device
US20170330566A1 (en) Distributed Volume Control for Speech Recognition
US20190196779A1 (en) Intelligent personal assistant interface system
US11914921B2 (en) Synchronous sounds for audio assistant on devices
KR20200089728A (ko) 디지털 음성 어시스턴트 컴퓨팅 디바이스들 사이에서 신호 프로세싱 조정
US20220358921A1 (en) Speech processing for multiple inputs
CN110383236A (zh) 对主装置进行选择以实现同步音频
US11783833B2 (en) Multi-device output management based on speech characteristics
US20220007484A1 (en) Adapting a lighting control interface based on an analysis of conversational input
US12002469B2 (en) Multi-device output management based on speech characteristics
US11741969B1 (en) Controlled access to device data
US20220230634A1 (en) Systems and methods for voice exchange beacon devices

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220510

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220929

R150 Certificate of patent or registration of utility model

Ref document number: 7152196

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150