JP2020526789A - ラストマイル等化 - Google Patents

ラストマイル等化 Download PDF

Info

Publication number
JP2020526789A
JP2020526789A JP2019572087A JP2019572087A JP2020526789A JP 2020526789 A JP2020526789 A JP 2020526789A JP 2019572087 A JP2019572087 A JP 2019572087A JP 2019572087 A JP2019572087 A JP 2019572087A JP 2020526789 A JP2020526789 A JP 2020526789A
Authority
JP
Japan
Prior art keywords
audio
streaming
player
response
digital
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019572087A
Other languages
English (en)
Other versions
JP7053687B2 (ja
Inventor
マイケル・エリオット
デバスミット・バネルジー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bose Corp
Original Assignee
Bose Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bose Corp filed Critical Bose Corp
Publication of JP2020526789A publication Critical patent/JP2020526789A/ja
Application granted granted Critical
Publication of JP7053687B2 publication Critical patent/JP7053687B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/02Manually-operated control
    • H03G5/025Equalizers; Volume or gain control in limited frequency bands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/005Audio distribution systems for home, i.e. multi-room use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

オーディオ再生システムは、第1のオーディオストリーム内に含まれた第1のタイプのオーディオを識別することと、第1のオーディオストリームに、第1のタイプのオーディオに対応する第1のデジタルタグでタグ付けすることと、第2のオーディオストリーム内に含まれた第2のタイプのオーディオを識別することと、第2のオーディオストリームに、第2のタイプのオーディオに対応する第2のデジタルタグでタグ付けすることと、第1のオーディオストリームを、それに第1の等化プロファイルが適用された状態でレンダリングすることであって、第1の等化プロファイルが、オーディオ再生システムが第1のオーディオストリーム内の第1のデジタルタグを検出したことに応答して選択される、レンダリングすることと、第2のオーディオストリームを、それに第1の等化プロファイルとは異なる第2の等化プロファイルが適用された状態でレンダリングすることであって、第2の等化プロファイルが、オーディオ再生システムが第2のオーディオストリーム内の第2のデジタルタグを検出したことに応答して選択される、レンダリングすることとを含む方法を実施する。

Description

本開示の態様および実装形態は一般に、音楽などのオーディオコンテンツを再生するための、またユーザによるコマンドまたはクエリに対するオーディオ応答を提供するための両方の機能を含む、オーディオプレーヤを対象とする。
バーチャルパーソナルアシスタント(VPA)は、口頭によるクエリの形をとってよいユーザクエリに、ユーザのクエリに対する応答をデータベース、例えばインターネット内で検索して、ユーザに対する応答を、しばしば合成スピーチなどの可聴応答の形で提供することによって応答する、デバイスである。VPAは、指定されたオーディオソース、例えばインターネットラジオ局からオーディオを再生せよとの、あるいはスマートデバイスを制御せよ、例えばライトをオンもしくはオフせよ、またはVPAがアクセスすることのできる別のスマートデバイスの設定を変更せよとのユーザコマンドに、例えば、Wi-Fi信号によって、直接的にかまたはユーザのインターネットルータを通じて、応答することもできる。クエリまたはコマンドは、典型的には、ユーザがVPAに呼び掛けていることをVPAに示すウェイクアップワードまたはウェイクアップフレーズ、例えば「アレクサ(Alexa)」をユーザが言った後に、ユーザによってVPAに与えられる。VPAは、さまざまな企業が競合デバイス、例えばAmazonのEcho(商標) VPA、GoogleのGoogle Home(商標) VPA、およびAppleのSiri(商標)アプリケーションを組み込んださまざまなデバイスを提供して、いっそう普及しつつある。スマートスピーカシステムは、音楽または他のオーディオコンテンツをストリーミングするための、またVPAとしての役目を果たすための機能を含むことができる。
本開示の一態様によれば、プロセッサと、関連するプログラム(programming)とを含む、オーディオ再生システムが提供される。プログラムは、プロセッサ上で実行されると、第1のオーディオストリーム内に含まれた第1のタイプのオーディオを識別することと、第1のオーディオストリームに、第1のタイプのオーディオに対応する第1のデジタルタグでタグ付けすることと、第2のオーディオストリーム内に含まれた第2のタイプのオーディオを識別することと、第2のオーディオストリームに、第2のタイプのオーディオに対応する第2のデジタルタグでタグ付けすることと、第1のオーディオストリームを、それに第1の等化プロファイルが適用された状態でレンダリングすることであって、第1の等化プロファイルが、オーディオ再生システムが第1のオーディオストリーム内の第1のデジタルタグを検出したことに応答して選択される、レンダリングすることと、第2のオーディオストリームを、それに第1の等化プロファイルとは異なる第2の等化プロファイルが適用された状態でレンダリングすることであって、第2の等化プロファイルが、オーディオ再生システムが第2のオーディオストリーム内の第2のデジタルタグを検出したことに応答して選択される、レンダリングすることとを含む方法を、オーディオ再生システムに実施させる。
オーディオ再生システムは、マスタストリーミングオーディオプレーヤと、少なくとも1つのスレーブストリーミングオーディオプレーヤとを含んでよく、少なくとも1つのスレーブストリーミングオーディオプレーヤは、マスタストリーミングオーディオプレーヤの制御下で第1のオーディオストリームおよび第2のオーディオストリームをレンダリングするように構成される。
いくつかの実装形態では、少なくとも1つのスレーブストリーミングオーディオプレーヤが、口頭によるユーザクエリを識別して、ユーザクエリをマスタデバイスに通信するように構成され、マスタストリーミングオーディオプレーヤが、ユーザクエリに対する応答を生成して、ユーザクエリに対する応答を第1のオーディオストリーム内で少なくとも1つのスレーブストリーミングオーディオプレーヤにレンダリングのために通信するように構成され、第1のオーディオストリーム内に含まれた第1のタグが、第1のオーディオストリームをユーザクエリに対する応答を含むものと識別する。
いくつかの実装形態では、少なくとも1つのスレーブストリーミングオーディオプレーヤが、ユーザによって発話されたウェイクワードを検出したことに応答して、少なくとも1つのスレーブストリーミングオーディオプレーヤを通じてレンダリングされているオーディオストリームの音量を低減してよい。
いくつかの実装形態では、ユーザクエリを識別するスレーブストリーミングオーディオプレーヤのみが、ユーザクエリに対する応答をレンダリングする。他の実装形態では、システム内の各ストリーミングオーディオプレーヤが、ユーザクエリに対する応答をレンダリングする。
いくつかの実装形態では、少なくとも1つのスレーブストリーミングオーディオプレーヤが、第1のオーディオストリーム内の第1のタグを識別するように、また第1のタグを識別したことに応答して、ユーザクエリに対する応答に第1の等化プロファイルを適用するように構成される。
いくつかの実装形態では、マスタストリーミングオーディオプレーヤが、少なくとも1つのスレーブストリーミングオーディオプレーヤに第2のオーディオストリームを通信するようにさらに構成され、第2のオーディオストリーム内の第2のタグが、第2のオーディオストリームをユーザクエリに対する応答以外のオーディオを含むものと識別し、少なくとも1つのスレーブストリーミングオーディオプレーヤが、第2のオーディオストリーム内の第2のタグを識別するように、また第2のタグを検出したことに応答して、第2のオーディオストリームに第2の等化プロファイルを適用するように構成される。マスタストリーミングオーディオプレーヤは、少なくとも1つのスレーブストリーミングオーディオプレーヤにオーディオチャイムを含む第3のオーディオストリームを通信するようにさらに構成されてよく、第3のオーディオストリームが、第3のオーディオストリームをオーディオチャイムを含むものと識別する第3のタグを含み、少なくとも1つのスレーブストリーミングオーディオプレーヤが、第3のオーディオストリーム内の第3のタグを識別するように、また第3のタグを検出したことに応答して、第3のオーディオストリームに第1の等化プロファイルとは異なる第3の等化プロファイルを適用するように構成される。
いくつかの実装形態では、第1の等化プロファイルおよび第2の等化プロファイルが、少なくとも1つのスレーブストリーミングオーディオプレーヤ内にプログラムされ、少なくとも1つのスレーブストリーミングオーディオプレーヤにおいて、それぞれに対応する第1のタグおよび第2のタグと関連付けられる。
いくつかの実装形態では、少なくとも1つのスレーブストリーミングオーディオプレーヤが、第2のオーディオストリームをレンダリングしている間に第1のタグを含むオーディオストリームを受信した場合、少なくとも1つのスレーブストリーミングオーディオプレーヤは、第2のオーディオストリームの音量を低減し、第1のタグを含むオーディオストリームを、第2のオーディオストリームに比べて大きい音量でレンダリングする。
別の態様によれば、ユーザによって発話されたユーザクエリをストリーミングオーディオプレーヤのマイクロホンにおいて受領することと、ユーザクエリに対するスピーチ応答を、ストリーミングオーディオプレーヤを用いて、ユーザクエリに対する応答に第1の等化プロファイルが適用された状態でレンダリングすることと、エンターテインメントオーディオを、ストリーミングオーディオプレーヤを用いて、エンターテインメントオーディオに第1の等化プロファイルとは異なる第2の等化プロファイルが適用された状態でレンダリングすることとを含む方法が提供される。
いくつかの実装形態では、ストリーミングオーディオプレーヤが、マスタストリーミングオーディオプレーヤの制御下で動作するスレーブストリーミングオーディオプレーヤであり、方法が、ユーザクエリをスレーブストリーミングオーディオプレーヤからマスタストリーミングオーディオプレーヤに通信することと、ユーザクエリに対する応答をマスタストリーミングオーディオプレーヤからスレーブストリーミングオーディオプレーヤに通信することとをさらに含む。
方法は、マスタストリーミングオーディオプレーヤが、ユーザクエリをクラウドベースのサービスに通信し、ユーザクエリに対する応答をクラウドベースのサービスから受信することをさらに含んでよい。
方法は、マスタストリーミングオーディオプレーヤが第1のオーディオストリーム内に、第1のオーディオストリームをユーザクエリに対する応答を含むものと識別する第1の標識を含めることをさらに含んでよく、ユーザクエリに対する応答をマスタストリーミングオーディオプレーヤからスレーブストリーミングオーディオプレーヤに通信することが、この第1のオーディオストリームをマスタストリーミングオーディオプレーヤからスレーブストリーミングオーディオプレーヤに通信することを含む。
いくつかの実装形態では、スレーブストリーミングオーディオプレーヤが、第1のオーディオストリーム内の第1の標識を識別したことに応答して、ユーザクエリに対する応答に第1の等化プロファイルを適用する。
方法は、マスタストリーミングオーディオプレーヤが第2のオーディオストリーム内に、第2のオーディオストリームをエンターテインメントオーディオを含むものと識別する第2の標識を含めることをさらに含んでよく、スレーブストリーミングオーディオプレーヤが、第2のオーディオストリーム内の第2の標識を識別したことに応答して、エンターテインメントオーディオを、それに第2の等化プロファイルが適用された状態でレンダリングする。
いくつかの実装形態では、スレーブストリーミングオーディオプレーヤが、第1のオーディオストリームを受信して、第1のオーディオストリーム内の第1の標識を識別したことに応答して、スレーブオーディオデバイス上でレンダリングされているエンターテインメントオーディオの音量を低減し、スレーブストリーミングオーディオプレーヤが、ユーザクエリに対する応答を、エンターテインメントオーディオの音量に比べて増大された音量でレンダリングする。
方法は、ストリーミングオーディオプレーヤが、ストリーミング音楽サービスからのエンターテインメントオーディオをストリーミングすることをさらに含んでよい。
いくつかの実装形態では、ストリーミングオーディオプレーヤが、ユーザクエリに先行するウェイクワードを識別し、ウェイクワードを識別したことに応答して、エンターテインメントオーディオの音量を下げる。
別の態様によれば、ストリーミングオーディオプレーヤが提供される。ストリーミングオーディオプレーヤは、デジタル-アナログコンバータと、デジタル-アナログコンバータに結合された電気音響変換器と、ネットワークインターフェースと、デジタル-アナログコンバータおよびネットワークインターフェースに結合されたプロセッサと、非一時的コンピュータ可読媒体上に記憶された命令とを備える。命令は、実行されると、ネットワークインターフェースを介して第1のデジタルオーディオデータを受信することと、第1のデジタルオーディオデータと関連付けられた第1のデジタルタグに基づいて、複数の等化プロファイルから第1の等化プロファイルを選択することと、第1の等化プロファイルに従って、第1のデジタルオーディオデータを等化することとを、プロセッサに行わせる。
いくつかの実装形態では、第1のデジタルオーディオデータが、クラウドベースのサービスから受信されたものである、音声要求に対する応答を含み、命令が、実行されると、第1のデジタルオーディオデータに第1のデジタルタグを付加することを、プロセッサにさらに行わせ、第1の等化タグが、第1のデジタルオーディオデータを音声要求に対する応答であると識別する。命令は、実行されると、第1のデジタルタグがそこに付加された第1のデジタルオーディオデータを、ネットワークインターフェースを介して1つまたは複数の他のストリーミングオーディオプレーヤに、1つまたは複数の他のストリーミングオーディオプレーヤ上で第1のデジタルオーディオデータをレンダリングするために送信することを、プロセッサにさらに行わせてよい。
いくつかの実装形態では、命令が、実行されると、ネットワークインターフェースを介して第2のデジタルオーディオデータを受信することと、第2のデジタルオーディオデータと関連付けられた第2のデジタルタグに基づいて、複数の等化プロファイルから第2の等化プロファイルを選択することと、第2の等化プロファイルに従って、第2のデジタルオーディオデータを等化することとを、プロセッサにさらに行わせ、第2の等化プロファイルが、第1の等化プロファイルとは異なる。ストリーミングオーディオプレーヤは、第1の等化プロファイルに従って等化された第1のデジタルオーディオデータと第2の等化プロファイルに従って等化された第2のデジタルオーディオデータを同時にレンダリングするように構成されてよい。ストリーミングオーディオプレーヤは、第1のデジタルオーディオデータをレンダリングしている間に、レンダリングされた第2のデジタルオーディオデータの音量を低減させるように構成されてよい。
いくつかの実装形態では、命令が、実行されると、第2のデジタルオーディオデータに第2のデジタルタグを付加することを、プロセッサにさらに行わせ、第2の等化タグが、第2のデジタルオーディオデータをエンターテインメントオーディオデータであると識別する。命令は、実行されると、第2のデジタルタグがそこに付加された第2のデジタルオーディオデータを、ネットワークインターフェースを介して1つまたは複数の他のストリーミングオーディオプレーヤに、1つまたは複数の他のストリーミングオーディオプレーヤ上で第2のデジタルオーディオデータをレンダリングするために送信することを、プロセッサにさらに行わせてよい。ストリーミングオーディオプレーヤは、第1のデジタルオーディオデータと第2のデジタルオーディオデータを1つまたは複数の他のストリーミングオーディオプレーヤに同時に送信するように構成されてよい。
いくつかの実装形態では、ストリーミングオーディオプレーヤが、ユーザからの音声要求を受領することと、音声要求をネットワークインターフェースを介してクラウドベースのサービスに送信することと、クラウドベースのサービスからネットワークインターフェースを介して音声要求に対する応答を受信することとを行うように構成され、応答が、第1のデジタルオーディオデータを構成する。ストリーミングオーディオプレーヤはマイクロホンを備えてよく、音声要求はマイクロホンを介して受領されてよい。音声要求は、別のストリーミングオーディオプレーヤからネットワークインターフェースを介して受信されてもよい。
添付の図面は、一定の縮尺で描かれるようには意図されていない。図面では、さまざまな図中に示されている同一またはほぼ同一のコンポーネントはそれぞれ、同様の数字によって表されている。見やすくする目的で、すべての図面においてどのコンポーネントもラベリングされるとは限らない場合がある。
VPA機能を含むストリーミングオーディオプレーヤの一実施形態の等角図である。 図1のストリーミングオーディオプレーヤデバイスの平面図である。 図1のストリーミングオーディオプレーヤ内に含まれる電子モジュールを示す図である。 図1のストリーミングオーディオプレーヤ内に含まれるさらなる電子モジュールを示す図である。 ユーザとVPA機能を含むストリーミングオーディオプレーヤとの間の通信を示す図である。 ユーザとストリーミングオーディオプレーヤとの間、およびストリーミングオーディオプレーヤとVPA機能を含む別個のデバイスとの間の通信を示す図である。 マスタストリーミングオーディオプレーヤとスレーブストリーミングオーディオプレーヤとの間の、ルータを通じた通信を示す図である。 マスタストリーミングオーディオプレーヤとスレーブストリーミングオーディオプレーヤとの間の、直接的な通信を示す図である。
本明細書において開示する態様および実装形態は、以下の説明に記載の、または図面に示す、構造の詳細およびコンポーネントの構成に限定されない。本明細書において開示する態様および実装形態は、さまざまな方途で実践されること、または遂行されることが可能である。
本明細書において開示する態様および実装形態は、多種多様なオーディオプレーヤに、例えば、バーチャルパーソナルアシスタント(VPA)機能を組み込むことのできるストリーミングオーディオプレーヤもしくはスマートスピーカシステム、またはVPAと通信するスマートスピーカに、適用可能となり得る。本明細書において開示するオーディオプレーヤの態様および実装形態は、オーディオプレーヤに、オーディオストリーム内の異なる形態のコンテンツ同士を区別するとともにオーディオストリームをコンテンツのタイプに基づいて変わる様式でレンダリングする能力をもたせる機能を含む。例えば、オーディオプレーヤは、ユーザクエリまたはユーザコマンドに対する応答を提供しているとき、応答を第1の等化または周波数応答を用いてレンダリングすることができる。オーディオプレーヤは、音楽を再生しているとき、音楽を第2の等化または周波数応答を用いてレンダリングすることができる。いくつかの実装形態では、オーディオプレーヤは、エンターテインメントオーディオを再生していてよく、ウェイクアップワードまたはウェイクアップフレーズを検出したことに応答して、エンターテインメントオーディオの音量を小さくし、ユーザからのクエリまたはコマンドを待ち、ユーザのクエリまたはコマンドに応答してから、エンターテインメントオーディオを元の音量で再生再開することができる。
図1Aは、エンクロージャ11を含む例示的ストリーミングオーディオプレーヤ10を示す。エンクロージャ11上にグラフィカルインターフェース12(例えばOLEDディスプレイ)があり、現在再生している(「現在再生中(Now Playing)」)オーディオコンテンツ(例えばストリーミング音楽)に関する情報、またはシステムステータスに関する他の情報を、ユーザに提供することができる。スクリーン14が、1つまたは複数の電気音響変換器15(図1C)を見えないようにしている。ストリーミングオーディオプレーヤ10は、ユーザ入力インターフェース16も含む。図1Bに示すように、ユーザ入力インターフェース16は、複数のプリセットインジケータ18を含み、それらは図示の例ではハードウェアボタンである。プリセットインジケータ18(1〜6と番号付けされている)により、ユーザは、それらのボタンに割り当てられた実体に、1回押せば簡単にアクセスできるようになっている。
図1Bに示すように、ユーザ入力インターフェース16は、ユーザからの音声クエリまたは音声コマンドを受領するための1つまたは複数のマイクロホン17も含むことができる。いくつかの実装形態では、1つまたは複数の電気音響変換器15(図1C)が、オーディオコンテンツをレンダリングするためと、ユーザからの音声クエリまたは音声コマンドを受領するための両方に利用され得る。
図1Cを参照すると、ストリーミングオーディオプレーヤ10は、ネットワークインターフェース20、プロセッサ22、オーディオハードウェア24、さまざまなストリーミングオーディオプレーヤコンポーネントに給電するための電源26、およびメモリ28も含む。プロセッサ22、グラフィカルインターフェース12、ネットワークインターフェース20、オーディオハードウェア24、電源26、およびメモリ28の各々は、さまざまなバスを使用して相互接続され、これらのコンポーネントのうちのいくつかは、共通のマザーボード上に取り付けられてもよく、または他の様式で適宜取り付けられてもよい。VPA機能は、関連するプログラムが例えばメモリ28内に常駐する状態で、プロセッサ22内に含まれてよい。
ネットワークインターフェース20は、ワイヤレスインターフェース30と有線インターフェース32のいずれか一方または両方を提供することができる。ワイヤレスインターフェース30は、ストリーミングオーディオプレーヤ10が他のデバイスと、IEEE 802.11b/gなどの通信プロトコルに従ってワイヤレスに通信することを可能にする。有線インターフェース32は、有線(例えばイーサネット(登録商標))接続によってネットワークインターフェース機能を提供する。
ネットワークパケットによってもたらされるデジタルオーディオは、ネットワークメディアプロセッサ34からUSBブリッジ36を通じてプロセッサ22に導かれて、デコーダ、DSPに流れ込み、最終的には、電気音響変換器15を介して再生(レンダリング)され得る。
ネットワークインターフェース20は、ブルートゥース(登録商標)ローエナジー用途向け(例えばブルートゥース(登録商標)対応コントローラとのワイヤレス通信向け)のブルートゥース(登録商標)ローエナジー(BTLE)システムオンチップ(SoC)38も含むことができる。適切なBTLE SoCは、Dallas、Texasに本社を置くTexas Instrumentsから入手可能なCC2540である。
ストリーミングされたデータは、ネットワークインターフェース20からプロセッサ22に渡される。プロセッサ22は、メモリ28内に記憶された命令を含む、(例えば、とりわけデジタル信号処理、復号、および等化機能を実施するための)ストリーミングオーディオプレーヤ内の命令を実行することができる。プロセッサ22は、別個の複数のアナログおよびデジタルプロセッサを含むチップからなるチップセットとして実装することができる。プロセッサ22は、例えば、ユーザインターフェースまたはストリーミングオーディオプレーヤ10によって実行されたアプリケーションの制御など、ストリーミングオーディオプレーヤ10の他のコンポーネントの調整を行うことができる。
プロセッサ22は、処理されたデジタルオーディオ信号を、デジタルオーディオ信号をアナログオーディオ信号に変換するための1つまたは複数のデジタル-アナログ(D/A)コンバータを含むオーディオハードウェア24に供給する。オーディオハードウェア24は、増幅されたアナログオーディオ信号を再生のために電気音響変換器15に供給する、1つまたは複数の増幅器も含む。加えて、オーディオハードウェア24は、他のデバイスと共用するためのデジタルオーディオ信号をもたらすようにアナログ入力信号を処理するための回路を含むこともできる。
メモリ28は、ストリーミングオーディオプレーヤ10内の情報を記憶する。この点に関して、メモリ28は、オーディオ局またはオーディオチャネルのプリセットに関する情報などのアカウント情報を記憶することができる。
メモリ28は、例えば、フラッシュメモリおよび/または不揮発性ランダムアクセスメモリ(NVRAM)を含むことができる。いくつかの実装形態では、命令(例えばソフトウェア)が、情報キャリア内に記憶される。命令は、1つまたは複数のコンピュータ可読媒体または機械可読媒体(例えばメモリ28、またはプロセッサ上のメモリ)など、1つまたは複数の記憶デバイスによって記憶されてもよい。命令には、復号を実施するための命令(すなわち、ソフトウェアモジュールが、デジタルオーディオストリームを復号するためのオーディオコーデックを含む)、ならびにデジタル信号処理および等化を実施するための命令が含まれ得る。
ネットワークインターフェース20は、ストリーミングオーディオプレーヤ10と、コントローラ(例えばリモートコントロールまたはスマートフォンまたは適切な制御アプリケーションがインストールされたコンピュータ)、ユーザのオーディオシステムアカウントに関する情報を含むアカウントデータベースを収容することのできる、インターネットに接続されたサーバまたはクラウドベースのサーバ、オーディオソース、および他のストリーミングオーディオプレーヤ10との間の、1つまたは複数の通信プロトコルを介した通信を可能にする。ネットワークインターフェース20は、ストリーミングオーディオプレーヤ10と、ユーザによるクエリに応答して、ユーザのクエリに対するオーディオ応答の準備およびレンダリングに使用する情報を取得するのに使用されるクラウドベースのサービス、例えばAlexa Voice Serviceとの間の通信も、可能にすることもできる。ネットワークインターフェース20とクラウドベースのサービスとの間の通信は、インターネットルータを通じていてよい。このサービスは、マイクロホン17によって記録された、アップロードされたオーディオ(音声)ファイルを受け取り、音声ファイルに対して自動スピーチ認識および自然言語理解を実施して、適切な応答を提供する。応答は、ストリーミングオーディオプレーヤ10に、例えばデジタルオーディオファイルとしてフィードバックされる。例えば、ユーザは、ストリーミングオーディオプレーヤ10上に常駐するVPAに、現在の天気予報がどうなっているかを尋ねることができる。VPAは、その問合せを含む記録された音声ファイルを音声サービスに供給し、そこから、ストリーミングオーディオプレーヤ10上で再生するための、地域の天気予報を含むデジタルオーディオファイルを受信する。
図2Aは、ユーザ100が、(例えばウェイクワードを発したことによってトリガされる)口頭によるクエリ100Aを、本明細書において開示するようなVPA機能を含むストリーミングオーディオプレーヤ10に与える様子を示す。ストリーミングオーディオプレーヤ10は、口頭によるクエリ100Aを認識し、インターネットルータ150を介してクラウド1000内のクラウドベースのサービスにアクセスして、クエリ100Aに応答するのに必要な情報を取得する。ストリーミングオーディオプレーヤ10は、要求された情報をクラウド1000内のクラウドベースのサービスからインターネットルータ150を介して受信し、受信された情報がまだオーディオ形式になっていない場合は、受信された情報のテキスト-スピーチ変換(text-to-speech transformation)を実施し、クエリ100Aに対する応答100Bを、合成スピーチによって提供する。場合によっては、クラウドベースのサービスが、要求された情報をオーディオ形態で提供することできる(例えば、クラウドベースのサービスが、検索結果のテキスト-スピーチ変換を実施することができる)。クエリ100Aに対する応答100Bがレンダリングされることになっていたときにストリーミングオーディオプレーヤ10がエンターテインメントオーディオ、例えば音楽を再生していたなら、クエリ100Aに対する応答100Bは、エンターテインメントオーディオに比べて高められた音量でレンダリングされ得る。エンターテインメントオーディオは、クエリ100Aに対する応答100Bのレンダリングの間に、音量が一時的に低減されてもよく、オフにされてもよい。
他の実装形態では、VPA機能、例えば情報を求める要求をVPAサービスプロバイダまたは他の情報ソースに送り、VPAサービスプロバイダまたは他の情報ソースから情報を求める要求に対する応答を受信することが、ユーザクエリもしくはユーザコマンドを受領するかまたはユーザクエリもしくはユーザコマンドに対する応答をレンダリングするデバイスとは別個のデバイスにおいて実施され得る。例えば、いくつかの実装形態では、情報を求める要求をVPAサービスプロバイダまたは他の情報ソースに送り、VPAサービスプロバイダまたは他の情報ソースから情報を求める要求に対する応答を受信する機能を、ストリーミングオーディオプレーヤ10が欠いている場合がある。ストリーミングオーディオプレーヤ10はしたがって、情報をVPAサービスプロバイダまたは他の情報ソースから送受信するVPA機能を含む、別個のデバイスと通信することができる。
図2Bに示すように、ユーザ100は、口頭によるクエリ100Aをストリーミングオーディオプレーヤ10に与えることができる。ユーザ100は、口頭によるクエリ100Aを与える前に、ストリーミングオーディオプレーヤ10が口頭によるクエリ100Aを、それに対してユーザ100が応答を所望しているものであると解釈するように、ストリーミングオーディオプレーヤ10に対してウェイクワードを発話することができる。ストリーミングオーディオプレーヤ10は口頭によるクエリ100Aを、オプションで、口頭によるクエリ100Aを記録した後で、上で説明したような、VPAサービスプロバイダまたは他の情報ソースから、例えばクラウド1000内のサービスプロバイダまたは他の情報ソースに、ユーザクエリ100Aに対する応答を要求および受信することのできる能力を有するVPA対応デバイス101(本明細書では単に「VPA」とも呼ばれる)に、中継することができる。VPA101は、VPAサービスプロバイダまたは他の情報ソースからユーザクエリに対する応答を受信して、応答をストリーミングオーディオプレーヤ10にレンダリングのために通信することができる。ストリーミングオーディオプレーヤ10はこの応答を、本明細書において開示するように適切な等化を応答に適用した後で、ユーザ100に対するオーディオ応答100Bとしてレンダリングすることができる。
VPA101は、プロセッサ、メモリ、およびネットワークインターフェースを含むことができ、それらは、上でストリーミングオーディオプレーヤ10に関して説明したプロセッサ22、メモリ28、およびネットワークインターフェース20と同様に構成されてもよく、それらと同様の機能を含んでもよい。VPA101のプロセッサは、VPA101のメモリ内に記憶された命令を実装することができ、それにより、VPA101が、情報を求める要求をVPAサービスプロバイダまたは他の情報ソースに送り、VPAサービスプロバイダまたは他の情報ソースから情報を求める要求に対する応答を受信すること、ならびにストリーミングオーディオプレーヤ10からクエリを受信すること、およびクエリに対する応答をストリーミングオーディオプレーヤ10に送ることが可能になる。
ストリーミングオーディオプレーヤ10とVPA101との間の通信は、図2Bに示すように、ルータ150を通じていてもよく、ストリーミングオーディオプレーヤ10とVPA101との間の直接的な通信(有線またはワイヤレス)の形をとってもよい。
本明細書におけるストリーミングオーディオプレーヤ10への言及は、単一のコンポーネントが、口頭によるユーザクエリを受領し、ユーザに対するオーディオ応答を提供するとともに、クエリに対する応答を外部ソースから要求および受信するシステムも、図2Bに示すように、第1のデバイス(例えばn個のストリーミングオーディオプレーヤ10)が、ユーザクエリを受領し、ユーザに対する応答をレンダリングし、第2のデバイス(例えばVPA101)が、ユーザクエリに対する応答を要求および受信し、その応答を第1のデバイスにレンダリングのために通信するシステムも含む、ということを理解されたい。
いくつかの態様および実装形態によれば、ストリーミングオーディオプレーヤ10のメモリ28は、プロセッサによって実行されると、オーディオストリームに、ストリーム内に含まれたコンテンツのタイプに特定的なラベル(本明細書においてデジタルタグまたは単にタグとも呼ばれる)でラベリングすることを、プロセッサに行わせる命令を含む。例えば、プロセッサは、ユーザクエリまたはユーザコマンドに対するVPA応答を含むオーディオストリーム内に、第1のオーディオストリームをそのようなものと識別する第1のタイプのデジタルタグを含めることができ、音楽を含む第2のオーディオストリーム内に、第2のオーディオストリームをエンターテインメントオーディオであると識別する第2のタイプのデジタルタグを含めることができる。ストリーミングオーディオプレーヤ10のオーディオハードウェア24は、オーディオストリームをレンダリングする際、オーディオストリーム内に含まれたデジタルタグのタイプに基づいて、オーディオストリームに異なる信号調整、例えば異なるタイプの等化を適用することができる。例えば、オーディオストリーム内のデジタルタグが、音楽に関連するデジタルタグである場合、ストリーミングオーディオプレーヤ10のオーディオハードウェア24は、オーディオストリームを、デジタルタグがスピーチに関連するものである場合よりも大きい低音周波数域振幅を用いてレンダリングすることができる。オーディオストリーム内のデジタルタグが、ストリーミングオーディオプレーヤ10に対してなされたユーザクエリに対する応答に関連するデジタルタグである場合、ストリーミングオーディオプレーヤ10のオーディオハードウェア24は、応答がユーザにとってより理解しやすいものになり得るように、オーディオストリームを、デジタルタグが音楽に関連するものである場合よりも小さい低音周波数域振幅を用いてレンダリングすることができる。
ストリーミングオーディオプレーヤ10のプロセッサは、オーディオストリームを、ユーザクエリまたはユーザコマンドに対するVPA応答を含むオーディオストリーム、およびエンターテインメントオーディオを含むオーディオストリームだけではなく、それ以上に区別することができる。ストリーミングオーディオプレーヤ10のプロセッサは、オーディオストリームを、発話された音声、エンターテインメントオーディオ、例えばドアベルの鳴る音またはテキストメッセージもしくは電話呼出しを受けていることを示すチャイム、あるいは異なるタイプの音楽、例えばクラッシック音楽対ロック音楽などの、さらなる分類に区別することができる。プロセッサは、これらの異なるタイプのオーディオのいずれかを表すデジタルタグを、ストリーミングオーディオプレーヤ10において受信されたオーディオストリームに埋め込むことができ、異なる所定の等化プロファイルが、それぞれの異なるタイプのオーディオに、それぞれに対応するオーディオストリームに埋め込まれた特定のデジタルタグに基づいて適用され得る。異なるタイプのオーディオとしては、例えば、音声(例えばテキスト読上げ(text-to-speech)、トークラジオ、ニュース放送)、音楽、映画、オーディオチャイムなどがあり得る。オーディオストリーム内の異なるタイプのオーディオは、ストリーミングオーディオプレーヤ10のプロセッサによって、ストリーミングオーディオプレーヤ10のプロセッサが特定のオーディオストリーム内のオーディオと照合しようと試みることのできる異なるタイプのオーディオに関連する周波数プロファイル、異なるタイプのオーディオのソース、または異なるタイプのオーディオを含むオーディオストリーム内にすでに存在する他の識別メタデータのうちの1つまたは複数に基づいて識別され得る。
図1Dに示すように、ストリーミングオーディオプレーヤ10は、パーサ40、リングバッファ42、デコーダ44、サンプルバッファ46、同期モジュール(SM)48、非同期サンプルレートコンバータ(ASRC)50、および等化器52を含むことができる。これらのコンポーネントは、図1Cに示すコンポーネントに加えたものであってもよく、例えば、図1Cに示すプロセッサ22、オーディオハードウェア24、および/またはメモリ28内に含まれてもよい。ストリームの最初に、データ(符号化オーディオ、例えばエンターテインメントオーディオ、または音声要求に対する応答)が、ストリーミングオーディオプレーヤ10に流れ始め、そこで、パーサ40によってパースされて、フレームバウンダリが識別される。パーサ40は、符号化オーディオが中にパックされた任意のコンテナ(例えばMP3)を取り去る。ストリーミングオーディオプレーヤ10は、符号化オーディオのタイプを特定し、符号化オーディオのタイプに関連するデジタルタグを、符号化オーディオのパケットヘッダに付加する。パースされたものの依然として符号化されているデータは、マスタのリングバッファ42内に記憶される。次に、符号化データが復号され、時間オフセットが生成されて、オーディオフレームのヘッダに添付され、復号オーディオフレームは、サンプルバッファ46内に記憶される。オフセットは、同期モジュール48によって、対応するオーディオフレームからのオーディオサンプルがいつASRC50に供給されるかを特定するのに使用される。ASRC50は、レンダリングのための一定のサンプルレートを確実なものにする。ASRC50の出力は、(デジタルタグによって標識されたような)適切な等化プロファイルを適用する等化器52に供給されてから、オーディオハードウェア24のデジタル-アナログコンバータに供給され、最終的には、変換器15によって音響エネルギーに変換される。
いくつかの実装形態では、複数のストリーミングオーディオプレーヤ10が一緒にグループ化されて、同期されたマルチルーム再生を行うことができる。一般に、そのようなグループでは、デバイスのうちの1つがマスタの役割を果たし、残りのデバイスがスレーブとして動作する。マスタデバイスは、オーディオストリーム、再生タイミング情報、およびマスタクロック時間をスレーブに供給する。スレーブは、次いで、再生タイミング情報およびマスタクロック時間を使用して、ストリーミングされたオーディオをマスタと、また相互に、同期して再生することができる。マスタデバイスは、スレーブデバイスにクロックデータを供給し(すなわちマスタデバイスはタイムサーバとして働く)、スレーブデバイスは次いで、そのクロックデータを使用して、それらのそれぞれに対応するクロックを、マスタデバイスのクロックと同期するように更新する。クロックデータは、スレーブデバイスを更新状態かつマスタと同期がとれた状態に維持するために、定期的に(例えば1から6秒ごとに)供給され得る。
マスタデバイスはまた、「再生開始(play at)」時間をスレーブデバイスに供給する。この「再生開始」時間は、デバイスがオーディオストリーム内の第1のサンプルを再生し始めることになっている時間を表す。この「再生開始」時間は、オーディオストリームとは別個の制御データ内で通信され得る。どの新規のトラックまたはストリームもみな、新規の「再生開始」時間を得る。
スレーブデバイスは、ストリーム内の第1のサンプルを受信し、指定された「再生開始時間」において再生を開始する。全てのデバイスが、同じ現在クロック時間を有するので、それらは全て、同じ時間に再生を開始する。その時点から、デバイスは全て、一定のサンプルレートにおける再生を行い、その結果、常に同期がとれた状態にある。
マルチルーム同期では、符号化データは、マスタのリングバッファから直ちに取り出され、スレーブ再生デバイス(別称スレーブ)のリングバッファに供給される。その時点から、スレーブは、上で概説したのと同じプロセスをたどる。各スレーブは、マスタから取り出された符号化オーディオを復号し、フレームヘッダにオフセットを割り当て、復号オーディオフレームをそれらのそれぞれに対応するサンプルバッファ内に記憶する。スレーブはそれぞれ、それら自体のオフセットをオーディオフレームに適用するが、これらのオフセットは、各デバイスが同じストリームを受信しており、同じデコーダソフトウェアを使用しているので、マスタによって適用されるものと同じになる。スレーブデバイスはまた、オーディオデータに付加されたデジタルタグを使用して、適切な等化プロファイルをオーディオに適用する。その点に関して、各デバイスは、メモリ内に記憶された等化プロファイルのライブラリを有することができ、デジタルタグを対応する等化プロファイルと関連付けるためにルックアップテーブルが使用され得る。いくつかの例では、例えば以前のユーザ入力およびユーザ選択に基づいて、同じタグが、異なるスレーブデバイスに、異なる等化プロファイルをオーディオコンテンツに利用させる場合がある。例えば、特定のインターネットラジオ局が、あるスレーブデバイス上では音声コンテンツと関連する等化プロファイルを用いてレンダリングされ、別のスレーブデバイス上では音楽と関連する等化プロファイルを用いてレンダリングされる場合がある。
例えば、図3Aに示すように、マスタストリーミングオーディオプレーヤ10は、1つまたは複数のスレーブストリーミングオーディオプレーヤ10A、10B、10Cと、ルータ150を介して通信することができる。あるいは、図3Bに示すように、マスタストリーミングオーディオプレーヤ10とスレーブストリーミングオーディオプレーヤ10A、10B、10Cは、例えばマスタデバイスおよびスレーブデバイスの各々内のネットワークインターフェースを利用して、互いに直接的に通信することもできる。
マスタストリーミングオーディオプレーヤ10および/またはスレーブストリーミングオーディオプレーヤ10A、10B、10CのVPA機能は、ユーザからのウェイクワードによってトリガされ得、ウェイクワードは、マスタストリーミングオーディオプレーヤ10および/またはスレーブストリーミングオーディオプレーヤ10A、10B、10Cによって検出され、次いで音声要求がその後に続く。ウェイクワードおよびユーザ音声要求またはユーザクエリ100Aを検出する、マスタストリーミングオーディオプレーヤ10および/またはスレーブストリーミングオーディオプレーヤ10A、10B、10Cのうちの1つは、そのマイクロホン17がウェイクワードを検出すると、音声要求を記録する。ユーザ音声要求またはユーザクエリ100Aを受領するのがマスタストリーミングオーディオプレーヤ10である場合、マスタストリーミングオーディオプレーヤ10が、上で説明したように、ユーザに対する合成音声応答100Bを提供することができる。
いくつかの場合には、スレーブストリーミングオーディオプレーヤ10A、10B、10Cのうちの1つが、音声要求を受領することがある。ユーザは、グループ内のどのデバイスがマスタストリーミングオーディオプレーヤ10であるかを知らないか、またはマスタストリーミングオーディオプレーヤ10があることすら知らない場合があるので、音声要求をスレーブストリーミングオーディオプレーヤ10A、10B、10Cのうちの1つに知らずに向けることがある(例えばユーザは単に、音声要求を自身に最も近いストリーミングオーディオプレーヤに向けることがある)。受領側のスレーブストリーミングオーディオプレーヤ10A、10B、10Cなら、音声要求をクラウドベースの音声サービスに通信することが可能であろうが、典型的には、クラウドベースの音声サービスからの応答は、セキュアソケット上で、クラウドベースの音声サービスに音声要求を通信したのと同じデバイスに供給し戻され、すなわち、音声サービスからの応答は、その他の点では十分な能力が備わっておらず、それによってオーディオを他のストリーミングオーディオプレーヤに配信することができない可能性のある受領側のスレーブストリーミングオーディオプレーヤ10A、10B、10Cに戻されることがある。これに対処するために、音声要求がスレーブストリーミングオーディオプレーヤ10A、10B、10Cのマイクロホン17によってピックアップされる状況下では、スレーブストリーミングオーディオプレーヤは、対応するオーディオファイルをクラウドベースの音声サービスに通信するために、それをマスタストリーミングオーディオプレーヤ10に転送することができる。これにより、確実に応答がマスタストリーミングオーディオプレーヤ10に戻されるようになり、マスタストリーミングオーディオプレーヤ10は次いで、オーディオにラベリングし、それをスレーブストリーミングオーディオプレーヤ10A、10B、10Cに配信することができる。いくつかの場合には、マスタストリーミングオーディオプレーヤ10は、スレーブストリーミングオーディオプレーヤ10A、10B、10Cのうちのどれがユーザ要求100Aをマスタストリーミングオーディオプレーヤ10に転送したかを示す標識を記録することができ、応答100Bを、ユーザ要求100Aをマスタストリーミングオー
ディオプレーヤ10に転送したのと同じスレーブストリーミングオーディオプレーヤに転送することができる。あるいは、応答100Bは、各スレーブストリーミングオーディオプレーヤ10A、10B、10Cにレンダリングのために送られてもよい。応答100Bはその上、またはその代わりに、マスタストリーミングオーディオプレーヤ10によってレンダリングされてもよい。
ユーザクエリ100Aに対するVPA合成音声応答100Bを配信するための1つのオプションが、それをマスタストリーミングオーディオプレーヤ10において、再生されていてよい任意のエンターテインメントオーディオストリームと混合し、次いで、単一の混合されたオーディオストリームを、スレーブストリーミングオーディオプレーヤ10A、10B、10Cにおいて再生するために配信する、というものである。このオプションは、スレーブストリーミングオーディオプレーヤ10A、10B、10Cがすでにマスタストリーミングオーディオプレーヤ10のクロック時間に同期されていることを利用する。しかし、そのオプションに伴う問題は、スレーブストリーミングオーディオプレーヤ10A、10B、10Cが、音声応答100Bをエンターテインメントオーディオと区別および分離することができない場合があり、したがって、異なる等化プロファイル(例えば異なる周波数帯の異なるレベルの増幅)をそれらのオーディオタイプに、レンダリングの前に適用することができない、というものである。
スレーブストリーミングオーディオプレーヤ10A、10B、10Cが異なるタイプのオーディオストリーム(例えばVPA応答100B対エンターテインメントオーディオ)を区別することをより容易に可能にするために、マスタストリーミングオーディオプレーヤ10は、各オーディオストリームがそれ自体の再生タイミング情報を有するオーディオの複数の別個のストリームを、スレーブストリーミングオーディオプレーヤ10A、10B、10Cに配信することができる。これらのストリームは、並列に配信され得る。これらのストリームは、エンターテインメントオーディオ用の1つのストリーム、および音声要求に対するVPA応答100B用の別個のストリームを含むことができる。スレーブストリーミングオーディオプレーヤ10A、10B、10Cは、エンターテインメントオーディオの再生のために、マスタストリーミングオーディオプレーヤ10のクロックにすでに同期されていてよい。しかし、スレーブ側では、各オーディオストリームは別々に処理され得(例えば、各ストリームにはそれ自体のバッファ、デコーダ、非同期サンプルレートコンバータ(ASRC)、および等化プロファイルがあってよい)、それによって異なるストリームに異なる等化が適用されることが可能である。2つのストリームの処理は、並列に行われ得る。スレーブストリーミングオーディオプレーヤ10A、10B、10Cは一般に、オーディオストリーム内のコンテンツのコンテンツタイプまたはソースを認識していないので、マスタストリーミングオーディオプレーヤ10は、確実にコンテンツをレンダリングする前にスレーブストリーミングオーディオプレーヤ10A、10B、10Cによって適切な等化が適用されるようにするために、ストリームに、対応するコンテンツタイプでラベリングすることができる。例えば、マスタストリーミングオーディオプレーヤ10は、オーディオコンテンツタイプの識別情報を、スレーブストリーミングオーディオプレーヤ10A、10B、10Cに供給されるオーディオパケットのヘッダ内に含めることができる。スレーブストリーミングオーディオプレーヤ10A、10B、10Cには、マスタストリーミングオーディオプレーヤ10から通信されたオーディオストリーム内に与えられたオーディオコンテンツタイプの識別情報に基づいて異なるタイプのオーデ
ィオコンテンツに適用するための、異なる等化プロファイル(例えば、オーディオストリーム内の異なる周波数域についての異なる増幅率)が予めプログラムされていてよい。スレーブストリーミングオーディオプレーヤ10A、10B、10Cには、マスタストリーミングオーディオプレーヤ10から通信されたオーディオストリーム内に与えられたオーディオコンテンツタイプの識別情報に基づいて異なるタイプのオーディオコンテンツをそれにおいてレンダリングするための、異なる音量が予めプログラムされていてよい。スレーブストリーミングオーディオプレーヤ10A、10B、10Cは、レンダリングされている第1のオーディオストリームの音量を、注意を喚起するために第2のタイプのオーディオストリームを受信するとすぐに、第2のタイプのオーディオストリームが第1のものよりも大きく聞こえ得るように変更するよう、予めプログラムされていてよい。例えば、スレーブストリーミングオーディオプレーヤ10A、10B、10Cは、レンダリングされているエンターテインメントオーディオの音量を、VPA応答100Bが受信されたとき、およびVPA応答100Bがレンダリングされている間に、VPA応答100Bがエンターテインメントオーディオよりも大きく聞こえ得るように低減させるよう、予めプログラムされていてよい。
他の例では、異なる等化プロファイルおよび/または音量調整が、マスタストリーミングオーディオプレーヤ10によって、異なるタイプのオーディオストリームに、異なるタイプのオーディオストリームをスレーブストリーミングオーディオプレーヤ10A、10B、10Cにレンダリングのために送る前に適用され得る。例えば、マスタストリーミングオーディオプレーヤ10は、低いほうの周波数域を強調させる等化を、ロック音楽を含むものと識別されたオーディオストリーム内に適用することができ、高いほうの周波数域を強調させる等化を、音声またはVPA応答100Bを含むものと識別されたオーディオストリーム内に適用することができる。そのような例では、スレーブストリーミングオーディオプレーヤ10A、10B、10Cにおいてレンダリングのために受信されたオーディオストリームはすでに、マスタストリーミングオーディオプレーヤ10によって適切な等化がそれに適用されている可能性があり、スレーブストリーミングオーディオプレーヤ10A、10B、10Cは、オーディオストリーム内のオーディオのタイプを識別するタグの有無をチェックする、またはオーディオタイプに特定的な等化を受信されたオーディオストリームに適用する必要がない可能性がある。
実装形態は、マスタストリーミングオーディオプレーヤ10からスレーブストリーミングオーディオプレーヤ10A、10B、10Cに、単に2つのタイプのオーディオストリーム(例えばエンターテインメントオーディオおよびVPA応答100B)を送ることに限定されない。いくつかの例では、マスタストリーミングオーディオプレーヤ10は、異なる識別情報ラベルをもつさらなるオーディオストリームを、スレーブストリーミングオーディオプレーヤ10A、10B、10Cに同期させ、スレーブストリーミングオーディオプレーヤ10A、10B、10Cに送ることができる。さらなるタイプのオーディオストリームの一例としては、オーディオチャイム、例えばドアベルが鳴らされていることを示す、または電話呼出しもしくはテキストメッセージの着信を示す標識があり得る。スレーブストリーミングオーディオプレーヤ10A、10B、10Cは、上でVPA応答100Bに関して説明したのと同じルールに従って、エンターテインメントオーディオというラベリングのされたオーディオストリームに適用するのとは異なる等化プロファイルを、オーディオチャイムというラベリングのされたオーディオストリームに適用することができる。他の例では、異なるタイプのオーディオについて、スレーブストリーミングオーディオプレーヤ10A、10B、10C(またはマスタストリーミングオーディオプレーヤ10)のメモリ内に、優先順位付け階層が定義され得る。優先順位付け階層に基づいて、第1のタイプのオーディオ、例えばオーディオチャイムまたはVPA応答100Bを含むオーディオストリームが、第1のタイプのオーディオよりも重要さが劣ると考えられ得る第2のタイプのオーディオ、例えば音楽を含む、同時に受信されたオーディオストリームよりも大きい音量でレンダリングされ得る。
かくして、少なくとも1つの実装形態のいくつかの態様について説明してきたが、さまざまな代替形態、修正形態、および改善点が、当業者には容易に想到されることを理解されたい。そのような代替形態、修正形態、および改善点は、本開示の一部であることが意図されており、本開示の趣旨および範囲に含まれることが意図されている。本明細書において開示した方法の行為は、図示したものとは代わる順序で実施されてよく、1つまたは複数の行為が、省略されてもよく、代わりに使用されてもよく、追加されてもよい。本明細書において開示したいずれか1つの例の1つまたは複数の特徴が、開示したどんな他の例の1つまたは複数の特徴と組み合わされてもよく、その代わりに使用されてもよい。したがって、前述の説明および図面は例にすぎない。
本明細書において使用する専門語および術語は、説明のためのものであり、限定するものとみなすべきではない。本明細書で使用される場合、「複数」という用語は、2つ以上のアイテムまたはコンポーネントを指す。本明細書で使用される場合、「実質的に類似」であると説明される寸法は、互いの約25%以内にあると考えるべきである。本記載においてであろうと、特許請求の範囲などにおいてであろうと、「備える」、「含む」、「担持する」、「有する」、「収容する」、および「関与する」という用語は、オープンエンドの用語であり、すなわち、「〜を含むがそれに限定されない」を意味するためのものである。したがって、そのような用語の使用は、その後に列挙されるアイテムおよびそれらの等価物、ならびにさらなるアイテムを包含することが意図されている。「〜からなる」および「本質的に〜からなる」という移行句のみがそれぞれ、特許請求の範囲に関して、クローズドまたはセミクローズドの移行句である。特許請求の範囲においてクレーム要素を修飾するために「第1の」、「第2の」、「第3の」などのような序数語を使用することは、それ自体では、あるクレーム要素の別のクレーム要素に勝る任意の優先順位、優先度、および順序、または方法の行為が実施される時間的順序を暗示するものではなく、それらは、クレーム要素同士を区別するために、ある名称を有するあるクレーム要素を(序数語がなければ)同じ名称を有する別の要素と区別するためのラベルとして使用されるにすぎない。
10 例示的ストリーミングオーディオプレーヤ、マスタストリーミングオーディオプレーヤ
10A スレーブストリーミングオーディオプレーヤ
10B スレーブストリーミングオーディオプレーヤ
10C スレーブストリーミングオーディオプレーヤ
11 エンクロージャ
12 グラフィカルインターフェース
14 スクリーン
15 電気音響変換器
16 ユーザ入力インターフェース
17 マイクロホン
18 プリセットインジケータ
20 ネットワークインターフェース
22 プロセッサ
24 オーディオハードウェア
26 電源
28 メモリ
30 ワイヤレスインターフェース
32 有線インターフェース
34 ネットワークメディアプロセッサ
36 USBブリッジ
38 ブルートゥース(登録商標)ローエナジー(BTLE)システムオンチップ(SoC)
40 パーサ
42 リングバッファ
44 デコーダ
46 サンプルバッファ
48 同期モジュール(SM)
50 非同期サンプルレートコンバータ(ASRC)
52 等化器
100 ユーザ
100A 口頭によるクエリ、ユーザクエリ、ユーザ要求
100B オーディオ応答、VPA合成音声応答、VPA応答
101 VPA対応デバイス、VPA
150 インターネットルータ
1000 クラウド

Claims (32)

  1. プロセッサと、関連するプログラムとを含む、オーディオ再生システムであって、前記プログラムが、前記プロセッサ上で実行されると、
    第1のオーディオストリーム内に含まれた第1のタイプのオーディオを識別することと、
    前記第1のオーディオストリームに、前記第1のタイプのオーディオに対応する第1のデジタルタグでタグ付けすることと、
    第2のオーディオストリーム内に含まれた第2のタイプのオーディオを識別することと、
    前記第2のオーディオストリームに、前記第2のタイプのオーディオに対応する第2のデジタルタグでタグ付けすることと、
    第1のオーディオストリームを、それに第1の等化プロファイルが適用された状態でレンダリングすることであって、前記第1の等化プロファイルが、前記オーディオ再生システムが前記第1のオーディオストリーム内の前記第1のデジタルタグを検出したことに応答して選択される、レンダリングすることと、
    第2のオーディオストリームを、それに前記第1の等化プロファイルとは異なる第2の等化プロファイルが適用された状態でレンダリングすることであって、前記第2の等化プロファイルが、前記オーディオ再生システムが前記第2のオーディオストリーム内の前記第2のデジタルタグを検出したことに応答して選択される、レンダリングすることと
    を含む方法を、前記オーディオ再生システムに実施させる、オーディオ再生システム。
  2. マスタストリーミングオーディオプレーヤと、少なくとも1つのスレーブストリーミングオーディオプレーヤとを備え、前記少なくとも1つのスレーブストリーミングオーディオプレーヤが、前記マスタストリーミングオーディオプレーヤの制御下で前記第1のオーディオストリームおよび前記第2のオーディオストリームをレンダリングするように構成される、請求項1に記載のオーディオ再生システム。
  3. 前記少なくとも1つのスレーブストリーミングオーディオプレーヤが、口頭によるユーザクエリを識別して、前記ユーザクエリを前記マスタデバイスに通信するように構成され、前記マスタストリーミングオーディオプレーヤが、前記ユーザクエリに対する応答を生成して、前記ユーザクエリに対する前記応答を前記第1のオーディオストリーム内で前記少なくとも1つのスレーブストリーミングオーディオプレーヤにレンダリングのために通信するように構成され、前記第1のオーディオストリーム内に含まれた前記第1のタグが、前記第1のオーディオストリームを前記ユーザクエリに対する前記応答を含むものと識別する、請求項2に記載のオーディオ再生システム。
  4. 前記少なくとも1つのスレーブストリーミングオーディオプレーヤが、ユーザによって発話されたウェイクワードを検出したことに応答して、前記少なくとも1つのスレーブストリーミングオーディオプレーヤを通じてレンダリングされているオーディオストリームの音量を低減する、請求項3に記載のオーディオ再生システム。
  5. 前記ユーザクエリを識別するスレーブストリーミングオーディオプレーヤのみが、前記ユーザクエリに対する前記応答をレンダリングする、請求項3に記載のオーディオ再生システム。
  6. 前記システム内の各ストリーミングオーディオプレーヤが、前記ユーザクエリに対する前記応答をレンダリングする、請求項3に記載のオーディオ再生システム。
  7. 前記少なくとも1つのスレーブストリーミングオーディオプレーヤが、前記第1のオーディオストリーム内の前記第1のタグを識別するように、また前記第1のタグを識別したことに応答して、前記ユーザクエリに対する前記応答に前記第1の等化プロファイルを適用するように構成される、請求項3に記載のオーディオ再生システム。
  8. 前記マスタストリーミングオーディオプレーヤが、前記少なくとも1つのスレーブストリーミングオーディオプレーヤに前記第2のオーディオストリームを通信するようにさらに構成され、前記第2のオーディオストリーム内の前記第2のタグが、前記第2のオーディオストリームを前記ユーザクエリに対する前記応答以外のオーディオを含むものと識別し、前記少なくとも1つのスレーブストリーミングオーディオプレーヤが、前記第2のオーディオストリーム内の前記第2のタグを識別するように、また前記第2のタグを検出したことに応答して、前記第2のオーディオストリームに前記第2の等化プロファイルを適用するように構成される、請求項3に記載のオーディオ再生システム。
  9. 前記マスタストリーミングオーディオプレーヤが、前記少なくとも1つのスレーブストリーミングオーディオプレーヤにオーディオチャイムを含む第3のオーディオストリームを通信するようにさらに構成され、前記第3のオーディオストリームが、前記第3のオーディオストリームを、前記オーディオチャイムを含むものと識別する第3のタグを含み、前記少なくとも1つのスレーブストリーミングオーディオプレーヤが、前記第3のオーディオストリーム内の前記第3のタグを識別するように、また前記第3のタグを検出したことに応答して、前記第3のオーディオストリームに前記第1の等化プロファイルとは異なる第3の等化プロファイルを適用するように構成される、請求項8に記載のオーディオ再生システム。
  10. 前記第1の等化プロファイルおよび前記第2の等化プロファイルが、前記少なくとも1つのスレーブストリーミングオーディオプレーヤ内にプログラムされ、前記少なくとも1つのスレーブストリーミングオーディオプレーヤにおいて、それぞれに対応する前記第1のタグおよび前記第2のタグと関連付けられる、請求項8に記載のオーディオ再生システム。
  11. 前記少なくとも1つのスレーブストリーミングオーディオプレーヤが、前記第2のオーディオストリームをレンダリングしている間に前記第1のタグを含むオーディオストリームを受信した場合、前記少なくとも1つのスレーブストリーミングオーディオプレーヤが、前記第2のオーディオストリームの音量を低減し、前記第1のタグを含む前記オーディオストリームを、前記第2のオーディオストリームに比べて大きい音量でレンダリングする、請求項8に記載のオーディオ再生システム。
  12. ユーザによって発話されたユーザクエリをストリーミングオーディオプレーヤのマイクロホンにおいて受領するステップと、
    前記ユーザクエリに対するスピーチ応答を、前記ストリーミングオーディオプレーヤを用いて、前記ユーザクエリに対する前記応答に第1の等化プロファイルが適用された状態でレンダリングするステップと、
    エンターテインメントオーディオを、前記ストリーミングオーディオプレーヤを用いて、前記エンターテインメントオーディオに前記第1の等化プロファイルとは異なる第2の等化プロファイルが適用された状態でレンダリングするステップと
    を含む方法。
  13. 前記ストリーミングオーディオプレーヤが、マスタストリーミングオーディオプレーヤの制御下で動作するスレーブストリーミングオーディオプレーヤであり、前記方法が、
    前記ユーザクエリを前記スレーブストリーミングオーディオプレーヤから前記マスタストリーミングオーディオプレーヤに通信するステップと、
    前記ユーザクエリに対する前記応答を前記マスタストリーミングオーディオプレーヤから前記スレーブストリーミングオーディオプレーヤに通信するステップと
    をさらに含む、請求項12に記載の方法。
  14. 前記マスタストリーミングオーディオプレーヤが、前記ユーザクエリをクラウドベースのサービスに通信し、前記ユーザクエリに対する前記応答を前記クラウドベースのサービスから受信するステップをさらに含む、請求項13に記載の方法。
  15. 前記マスタストリーミングオーディオプレーヤが第1のオーディオストリーム内に、前記第1のオーディオストリームを前記ユーザクエリに対する前記応答を含むものと識別する第1の標識を含めるステップをさらに含み、前記ユーザクエリに対する前記応答を前記マスタストリーミングオーディオプレーヤから前記スレーブストリーミングオーディオプレーヤに通信するステップが、前記第1のオーディオストリームを前記マスタストリーミングオーディオプレーヤから前記スレーブストリーミングオーディオプレーヤに通信するステップを含む、請求項13に記載の方法。
  16. 前記スレーブストリーミングオーディオプレーヤが、前記第1のオーディオストリーム内の前記第1の標識を識別したことに応答して、前記ユーザクエリに対する前記応答に前記第1の等化プロファイルを適用する、請求項15に記載の方法。
  17. 前記マスタストリーミングオーディオプレーヤが第2のオーディオストリーム内に、前記第2のオーディオストリームを、前記エンターテインメントオーディオを含むものと識別する第2の標識を含めるステップをさらに含み、前記スレーブストリーミングオーディオプレーヤが、前記第2のオーディオストリーム内の前記第2の標識を識別したことに応答して、前記エンターテインメントオーディオを、それに第2の等化プロファイルが適用された状態でレンダリングする、請求項16に記載の方法。
  18. 前記スレーブストリーミングオーディオプレーヤが、前記第1のオーディオストリームを受信して、前記第1のオーディオストリーム内の前記第1の標識を識別したことに応答して、前記スレーブオーディオデバイス上でレンダリングされているエンターテインメントオーディオの音量を低減し、前記スレーブストリーミングオーディオプレーヤが、前記ユーザクエリに対する前記応答を、前記エンターテインメントオーディオの前記音量に比べて増大された音量でレンダリングする、請求項16に記載の方法。
  19. 前記ストリーミングオーディオプレーヤが、ストリーミング音楽サービスからの前記エンターテインメントオーディオをストリーミングするステップをさらに含む、請求項12に記載の方法。
  20. 前記ストリーミングオーディオプレーヤが、前記ユーザクエリに先行するウェイクワードを識別し、前記ウェイクワードを識別したことに応答して、前記エンターテインメントオーディオの音量を下げる、請求項12に記載の方法。
  21. デジタル-アナログコンバータと、
    前記デジタル-アナログコンバータに結合された電気音響変換器と、
    ネットワークインターフェースと、
    前記デジタル-アナログコンバータおよび前記ネットワークインターフェースに結合されたプロセッサと、
    非一時的コンピュータ可読媒体上に記憶された命令であって、実行されると、
    前記ネットワークインターフェースを介して第1のデジタルオーディオデータを受信すること、
    前記第1のデジタルオーディオデータと関連付けられた第1のデジタルタグに基づいて、複数の等化プロファイルから第1の等化プロファイルを選択すること、および
    前記第1の等化プロファイルに従って、前記第1のデジタルオーディオデータを等化すること
    を、前記プロセッサに行わせる命令と
    を備える、ストリーミングオーディオプレーヤ。
  22. 前記第1のデジタルオーディオデータが、クラウドベースのサービスから受信されたものである、音声要求に対する応答を含み、
    前記命令が、実行されると、前記第1のデジタルオーディオデータに前記第1のデジタルタグを付加することを、前記プロセッサにさらに行わせ、前記第1の等化タグが、前記第1のデジタルオーディオデータを音声要求に対する応答であると識別する、
    請求項21に記載のストリーミングオーディオプレーヤ。
  23. 前記命令が、実行されると、前記第1のデジタルタグがそこに付加された前記第1のデジタルオーディオデータを、前記ネットワークインターフェースを介して1つまたは複数の他のストリーミングオーディオプレーヤに、前記1つまたは複数の他のストリーミングオーディオプレーヤ上で前記第1のデジタルオーディオデータをレンダリングするために送信することを、前記プロセッサにさらに行わせる、請求項22に記載のストリーミングオーディオプレーヤ。
  24. 前記命令が、実行されると、
    前記ネットワークインターフェースを介して第2のデジタルオーディオデータを受信することと、
    前記第2のデジタルオーディオデータと関連付けられた第2のデジタルタグに基づいて、前記複数の等化プロファイルから第2の等化プロファイルを選択することと、
    前記第2の等化プロファイルに従って、前記第2のデジタルオーディオデータを等化することと
    を、前記プロセッサにさらに行わせ、前記第2の等化プロファイルが、前記第1の等化プロファイルとは異なる、請求項21に記載のストリーミングオーディオプレーヤ。
  25. 前記第1の等化プロファイルに従って等化された前記第1のデジタルオーディオデータと前記第2の等化プロファイルに従って等化された前記第2のデジタルオーディオデータを同時にレンダリングするように構成される、請求項24に記載のストリーミングオーディオプレーヤ。
  26. 前記第1のデジタルオーディオデータをレンダリングしている間に、前記レンダリングされた第2のデジタルオーディオデータの音量を低減させるように構成される、請求項25に記載のストリーミングオーディオプレーヤ。
  27. 前記命令が、実行されると、
    前記第2のデジタルオーディオデータに前記第2のデジタルタグを付加すること
    を、前記プロセッサにさらに行わせ、前記第2の等化タグが、前記第2のデジタルオーディオデータをエンターテインメントオーディオデータであると識別する、請求項24に記載のストリーミングオーディオプレーヤ。
  28. 前記命令が、実行されると、前記第2のデジタルタグがそこに付加された前記第2のデジタルオーディオデータを、前記ネットワークインターフェースを介して1つまたは複数の他のストリーミングオーディオプレーヤに、前記1つまたは複数の他のストリーミングオーディオプレーヤ上で前記第2のデジタルオーディオデータをレンダリングするために送信することを、前記プロセッサにさらに行わせる、請求項27に記載のストリーミングオーディオプレーヤ。
  29. 前記第1のデジタルオーディオデータと前記第2のデジタルオーディオデータを前記1つまたは複数の他のストリーミングオーディオプレーヤに同時に送信するように構成される、請求項28に記載のストリーミングオーディオプレーヤ。
  30. ユーザからの音声要求を受領することと、
    前記音声要求を、前記ネットワークインターフェースを介してクラウドベースのサービスに送信することと、
    前記クラウドベースのサービスから前記ネットワークインターフェースを介して前記音声要求に対する応答を受信することと
    を行うように構成され、
    前記応答が、前記第1のデジタルオーディオデータを備える、
    請求項21に記載のストリーミングオーディオプレーヤ。
  31. マイクロホンを備え、前記音声要求が前記マイクロホンを介して受領される、請求項30に記載のストリーミングオーディオプレーヤ。
  32. 前記音声要求が、別のストリーミングオーディオプレーヤから前記ネットワークインターフェースを介して受信される、請求項30に記載のストリーミングオーディオプレーヤ。
JP2019572087A 2017-07-06 2018-06-26 ラストマイル等化 Active JP7053687B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/642,428 US10038419B1 (en) 2017-07-06 2017-07-06 Last mile equalization
US15/642,428 2017-07-06
PCT/US2018/039477 WO2019010035A1 (en) 2017-07-06 2018-06-26 EQUALIZATION OF THE LAST KILOMETER

Publications (2)

Publication Number Publication Date
JP2020526789A true JP2020526789A (ja) 2020-08-31
JP7053687B2 JP7053687B2 (ja) 2022-04-12

Family

ID=62948492

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019572087A Active JP7053687B2 (ja) 2017-07-06 2018-06-26 ラストマイル等化

Country Status (5)

Country Link
US (2) US10038419B1 (ja)
EP (1) EP3649638A1 (ja)
JP (1) JP7053687B2 (ja)
CN (1) CN110832579B (ja)
WO (1) WO2019010035A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9031244B2 (en) * 2012-06-29 2015-05-12 Sonos, Inc. Smart audio settings
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US20190179611A1 (en) * 2017-12-11 2019-06-13 Sonos, Inc. Systems and Methods of Receiving Voice Input
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US11410651B2 (en) * 2018-10-22 2022-08-09 Google Llc Network source identification via audio signals
WO2020086050A1 (en) 2018-10-22 2020-04-30 Google Llc Network source identification via audio signals
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US11533560B2 (en) * 2019-11-15 2022-12-20 Boomcloud 360 Inc. Dynamic rendering device metadata-informed audio enhancement system
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002287762A (ja) * 2001-03-28 2002-10-04 Fyuutorekku:Kk 音源装置
CN106210002A (zh) * 2016-06-30 2016-12-07 联想(北京)有限公司 控制方法、装置及电子设备
JP2017060175A (ja) * 2012-03-23 2017-03-23 ドルビー ラボラトリーズ ライセンシング コーポレイション 2dまたは3d会議シーンにおける語り手の配置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8165321B2 (en) * 2009-03-10 2012-04-24 Apple Inc. Intelligent clip mixing
US8983640B2 (en) * 2009-06-26 2015-03-17 Intel Corporation Controlling audio players using environmental audio analysis
US20130245798A1 (en) * 2010-04-15 2013-09-19 Sonos, Inc. Method and apparatus for signal processing based upon characteristics of music
US8744091B2 (en) * 2010-11-12 2014-06-03 Apple Inc. Intelligibility control using ambient noise detection
US9053710B1 (en) * 2012-09-10 2015-06-09 Amazon Technologies, Inc. Audio content presentation using a presentation profile in a content header
KR20150026069A (ko) * 2013-08-30 2015-03-11 삼성전자주식회사 컨텐츠 재생 방법 및 그 방법을 처리하는 전자 장치
US9516081B2 (en) * 2013-09-20 2016-12-06 Amazon Technologies, Inc. Reduced latency electronic content system
US9626966B2 (en) * 2013-12-18 2017-04-18 Harman International Industries, Incorporated Voice recognition query response systems and methods for generating query responses using information from a vehicle
US8874448B1 (en) * 2014-04-01 2014-10-28 Google Inc. Attention-based dynamic audio level adjustment
US10419497B2 (en) * 2015-03-31 2019-09-17 Bose Corporation Establishing communication between digital media servers and audio playback devices in audio systems
US20160379638A1 (en) * 2015-06-26 2016-12-29 Amazon Technologies, Inc. Input speech quality matching
CN205004033U (zh) * 2015-09-10 2016-01-27 微鲸科技有限公司 云智能语音识别音响装置
US10341770B2 (en) * 2015-09-30 2019-07-02 Apple Inc. Encoded audio metadata-based loudness equalization and dynamic equalization during DRC
US9858927B2 (en) * 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
US9772817B2 (en) * 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002287762A (ja) * 2001-03-28 2002-10-04 Fyuutorekku:Kk 音源装置
JP2017060175A (ja) * 2012-03-23 2017-03-23 ドルビー ラボラトリーズ ライセンシング コーポレイション 2dまたは3d会議シーンにおける語り手の配置
CN106210002A (zh) * 2016-06-30 2016-12-07 联想(北京)有限公司 控制方法、装置及电子设备

Also Published As

Publication number Publication date
US10200004B2 (en) 2019-02-05
CN110832579A (zh) 2020-02-21
JP7053687B2 (ja) 2022-04-12
US10038419B1 (en) 2018-07-31
EP3649638A1 (en) 2020-05-13
CN110832579B (zh) 2023-10-27
US20190013788A1 (en) 2019-01-10
WO2019010035A1 (en) 2019-01-10

Similar Documents

Publication Publication Date Title
JP7053687B2 (ja) ラストマイル等化
KR102660922B1 (ko) 복수의 지능형 개인 비서 서비스를 위한 관리 계층
US8117036B2 (en) Non-disruptive side conversation information retrieval
CN116954545A (zh) 处理系统及其对应方法、计算机可读介质和回放设备
US20150170665A1 (en) Attribute-based audio channel arbitration
JP2021071733A (ja) オーディオ透かしによるキーフレーズ検出
EP3166343A1 (en) Audio playing method and apparatus for multiple playing devices
CN107005800B (zh) 音频文件的传输、接收方法及装置、设备及其系统
JP2022534644A (ja) Bluetoothデバイスを操作するための方法
US20130178964A1 (en) Audio system with adaptable audio output
WO2018034077A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN110659361B (zh) 一种对话方法、装置、设备及介质
US20130178963A1 (en) Audio system with adaptable equalization
EP4289129A1 (en) Systems and methods of handling speech audio stream interruptions
US10693944B1 (en) Media-player initialization optimization
JP2015002394A (ja) 情報処理装置及びコンピュータプログラム
US20200293622A1 (en) Real-time chat and voice translator
US11699438B2 (en) Open smart speaker
JP2016206249A (ja) 対話装置、対話システム、及び対話装置の制御方法
US20210193132A1 (en) Communication apparatuses
WO2020217848A1 (ja) 情報処理装置、情報処理方法およびプログラム
US20050262256A1 (en) Method and device for multimedia processing
JP6468069B2 (ja) 電子機器制御システム、サーバー、及び、端末装置
US20190132640A1 (en) Automated Playback and Redistribution of Internet Streaming Content
CN106340301B (zh) 一种音频播放方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210302

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210510

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210810

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220314

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220331

R150 Certificate of patent or registration of utility model

Ref document number: 7053687

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150