JP6595039B2 - ビーム形成ラウドスピーカアレイを介して生成される空間ダッキングオーディオ - Google Patents

ビーム形成ラウドスピーカアレイを介して生成される空間ダッキングオーディオ Download PDF

Info

Publication number
JP6595039B2
JP6595039B2 JP2018092298A JP2018092298A JP6595039B2 JP 6595039 B2 JP6595039 B2 JP 6595039B2 JP 2018092298 A JP2018092298 A JP 2018092298A JP 2018092298 A JP2018092298 A JP 2018092298A JP 6595039 B2 JP6595039 B2 JP 6595039B2
Authority
JP
Japan
Prior art keywords
audio
content
program
pattern
warning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018092298A
Other languages
English (en)
Other versions
JP2018207482A (ja
Inventor
ファミリー アフルーズ
アイ ブッチャー ゲアリー
ディー フェルヴァイ ヒューホ
シー グラハム デイヴィッド
チャウドリ イムラン
アロンソ ルイス マルコス
ジェイ ストリンガー クリストファー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Inc filed Critical Apple Inc
Publication of JP2018207482A publication Critical patent/JP2018207482A/ja
Application granted granted Critical
Publication of JP6595039B2 publication Critical patent/JP6595039B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2203/00Details of circuits for transducers, loudspeakers or microphones covered by H04R3/00 but not provided for in any of its subgroups
    • H04R2203/12Beamforming aspects for stereophonic sound reproduction with loudspeaker arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/003Digital PA systems using, e.g. LAN or internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/005Audio distribution systems for home, i.e. multi-room use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/01Input selection or mixing for amplifiers or loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

この非仮特許出願は、2017年6月2日に出願された米国仮特許出願公開第62/514,712号の先の出願日の利益を主張する。
本発明の一実施形態は、ラウドスピーカアレイを介して出力するためにレンダリングされる空間ダッキングプログラムオーディオに関する。他の実施形態も記載される。
ラウドスピーカアレイは、ビームパターンを生成して異なる方向にサウンドを発射することができる。例えば、ビームフォーマは、サウンドプログラムコンテンツ(例えば、音楽)の入力オーディオチャネルを受信して、その入力オーディオチャネルを、ラウドスピーカアレイのトランスデューサを駆動するいくつかのドライバ信号に変換し、1つ以上のサウンドビームパターンを生成することができる。いくつかのビームパターンを有することにより、オーディオシステムは、ラウドスピーカアレイが配置された室内全体に異なる方向にサウンドを発射することができる。
コンピュータプログラム又はアプリケーションは、聴取者のためにレンダリングされ出力される(又は再生される)異なるタイプのオーディオを必要とする。例えば、リマインダアプリケーションは、オーディオシステムによってレンダリングされて出力される可聴通知(例えば、「30分内のティー時間」)を生成することができる。別の例は、仮想携帯端末(「VPA」)として動作するコンピュータプログラムであり、それは聴取者が仮想端末との会話を開始して行うことを可能にする。例えば、聴取者は、トリガフレーズ(「ヘイ ハル、聞こえますか?」)を発声することによってVPAをトリガし、次いでVPAに質問(又はコマンドを発行)してもよい。これに応答して、VPAは、システムによってレンダリングされ、出力されるオーディオ信号として可聴応答を取得する(「どのように私はあなたを助けることができますか デーブ?」又は「今あなたは何をしていると思いますか、デーブ?デーブ、私は本当にその質問への回答に対する資格があると思います。」)楽曲のような進行中のサウンドプログラムコンテンツ(プログラムオーディオ)が出力されている間に、これらのタイプのオーディオが聴取者に出力されると、聴取者に混乱が生じる。
より良い解決策は、進行中のサウンドプログラムコンテンツを「ダッキング」することである。例えば、システムによって出力されている音楽を楽しみながら、聴取者はVPAと対話することを望んでもよい。この対話は、聴取者がトリガフレーズを発声するか、又はボタンを押圧することによって開始することができる。システムが、聴取者がVPAと対話することを望んでいると判定すると、出力されている音楽はダッキングされ(例えば、その音量が低減され)、VPAと聴取者が話し言葉を介して対話することができる。対話が完了したとデバイスによって判定されると、デバイスは、ダッキングを適用せずに、音楽の出力を再開することができる。これは、一時停止と再開の繰り返し、又は音量の単純な下げと上げよりも優れた解決策であることができ、後者は聴取者にだけでなく、VPAと直接対話していない他の聴取者にも混乱をもたらし得る。
本発明の一実施形態は、出力が進行中であるサウンドプログラムコンテンツ(例えば、音楽)のプログラムオーディオを「空間ダッキング」するオーディオシステムであり、同時に警告オーディオを出力することにより、例えばVPAセッション中に音楽によって引き起こされる混乱を優雅にかつ簡潔に軽減する。空間ダッキングは、音楽を「前景」から引き出し、「背景」に移動させることによって、聴取者の音楽の知覚を効果的に変化させる。音楽を背景で出力することは、聴取者に、音楽がずっと離れた場所(例えば、別の部屋)で出力されているという知覚を与える。言い換えると、空間ダッキングは、聴取者が経験する音楽のサウンドを「ぼかす」ことをもたらし、サウンド源(例えば、オーディオシステムのラウドスピーカキャビネットからの)が聴取者によって容易に識別可能ではないようにする。進行中のサウンドプログラムコンテンツが空間ダッキングされることを開始すると、警告オーディオが前景で出力され得る。これにより、聴取者は、聴取者の経験を混乱させることが少ない快適な方法で(一時停止されるか又は単に音量を下げて出力されるのではなく)、背景で音楽が引き続き出力されている間でも、聴取者が警告オーディオを直接聴取することができる。
本発明の一実施形態は、ラウドスピーカアレイベースのビーム形成オーディオシステムによって実行される方法であり、ラウドスピーカアレイによって出力されているサウンドプログラムコンテンツのプログラムオーディオを空間ダッキングする。これにより、まさに背景においてプログラムオーディオの継続的な出力がもたらされるが、警告オーディオは前景で出力される。システムはレンダリングプロセッサを有し、プログラムオーディオを受信してそれをラウドスピーカアレイによってサウンドに変換されるトランスデューサドライバ信号にレンダリングする。ここで、通常の出力中(出力される警告オーディオがない間)に、受信されたプログラムオーディオが主拡散ビーム形成レンダリングモードを使用してレンダリングされている場合を考える。そのモードでは、ラウドスピーカアレイは、ii)異なる方向に向けられた複数の拡散コンテンツパターン(2つ以上の拡散コンテンツローブ又はビーム)と重ね合わされた、i)主コンテンツパターン(主ビーム)を有するいくつかのサウンドビームを生成するように駆動される。このレンダリングモードでのプログラムオーディオの出力中、聴取者は、「トリガフレーズ」を発声することによって、VPAとの会話を開始することを試みることができる。オーディオシステムのマイクロフォンを介して、発声されたトリガフレーズが感知される。自動スピーチレコグナイザは、感知された聴取者のスピーチを分析して、その中にスピーチを見出す(又は認識する)。認識されたスピーチは、トリガフレーズ検出器に送られて、認識されたスピーチ内にトリガフレーズがあるかどうかを判定する。
トリガフレーズが検出されると、警告オーディオをレンダリングして聴取者に出力する必要がある(VPAの「口頭」応答として)。一実施形態では、トリガフレーズに対する適切なテキスト応答が最初に取得される(記憶装置から形成されるか又はアクセスされる)。例えば、「どのようにあなたを助けることができますか デーブ?」これは、次いで、スピーチ、TTS、システムのテキストに提供され、それは信号化もされて適切なテキスト応答(警告オーディオとして)の合成スピーチバージョンを生成する。あるいは、警告オーディオは、(トリガフレーズに対する応答であることが適切であるとみなされる)以前に記録された、人間が発声したフレーズとして取得され得る。どちらの場合も、警告オーディオを示すか又は含み、警告オーディオトリガイベントに応答して出力されるように意図されたVPAによる適切なスピーチ応答を含む警告メッセージが、判定ロジックに(及び任意選択でレンダリングプロセッサに)提供される。
警告メッセージに応答して、レンダリングプロセッサと一緒に動作する判定ロジックは、i)主コンテンツパターン(主ビーム)において出力されているプログラムオーディオの部分(一部又は全部)を拡散コンテンツパターン(2つ以上のビーム)に移動させ、ii)、ある意味では、主コンテンツパターンから移動されたプログラムオーディオの部分を警告オーディオと「置換」する。これは、聴取者に(VPAから)明確で直接的な可聴フィードバックを与え、VPAの応答を効果的に前景において提示するとともに進行中のサウンドプログラムコンテンツを空間ダッキングする(それを背景に移動させる)。
プログラムオーディオを主拡散レンダリングモードでレンダリングする間に、判定ロジック(又は決定プロセッサ)は、プログラムオーディオのいくつかの入力オーディオチャンネル(例えば、左及び右チャンネル)でコンテンツ分析を行い、そこで相関コンテンツ及び無相関(非相関)コンテンツを見出す。次いで、レンダリングプロセッサのビーム形成能力を使用して、相関コンテンツは主コンテンツパターンビーム内で(拡散コンテンツパターンビーム又はローブ内にはなく)レンダリングされ、一方、非相関コンテンツは1つ以上の拡散コンテンツパターンビーム(又はローブ)でレンダリングされる。その状況では、警告メッセージが受信されたことに応答して、(プログラムオーディオを空間ダッキングするために)以下のプロセスが実行されてもよい。主コンテンツビームパターン内に出力されているプログラムオーディオの「現在の」部分が識別され、判定ロジックのコンテンツ分析ルーチンに提供される前に、そこで非相関化プロセスが実行される。その非相関化は、識別された現在の部分を含むプログラムオーディオの1つ以上の入力オーディオチャネルのセグメントに残響を付加することによって達成され得る。結果として、コンテンツ分析ルーチンは、次いで、ここで非相関コンテンツを検出し、レンダリングプロセッサに信号を送って、拡散コンテンツパターンビームでそのコンテンツをレンダリングする。したがって、このアプローチは、直接的又は本質的に、i)意図的にオーディオシステムによって非相関化された(例えば、付加された残響によって)プログラムオーディオの元の直接部分と、加えてii)プログラムオーディオの元の拡散部分、の両方を含む拡散コンテンツパターンビームをもたらす。
上記は、元の相関又は直接コンテンツを含み、警告メッセージが受信されたときに主コンテンツパターンビームを介して出力されているプログラムオーディオの部分が、どのように拡散コンテンツパターンビームに移動されるかの一例であった。主コンテンツパターンビームが、プログラムオーディオの元の直接又は相関コンテンツを部分的に又は全部欠くようになると、相関コンテンツ(例えば、モノラルオーディオ又は単一のオーディオチャネル)のみを含むとみなされ得る警告オーディオが付加されるか又は効果的に主コンテンツパターンビームに挿入される(拡散コンテンツパターンビームのいずれにも挿入されない)。
別の実施形態では、プログラムオーディオの直接コンテンツ部分を背景に移動させることの知覚は、1)(少なくとも直接コンテンツ部分に)残響を付加すること、2)それを拡散コンテンツパターンビームに移動させること、及び3)ローパスフィルタを介してそれをフィルタリングして高周波数コンテンツを除去すること、の組み合わせによって達成される。別の実施形態では、ローパスフィルタリングの代わりに、又はそれに加えて、直接コンテンツ部分のスカラーフルバンドゲインを調整して、その「音量レベル」を低減することができる。すべてのこれらの場合において、聴取者は鮮明でわかりやすい警告オーディオを聴取するが、空間ダッキングプログラムオーディオはまさに「背景で」出力し続け、それによってより快適な聴取体験を提供する。
プログラムオーディオが他のサウンドレンダリングモード(上述の主拡散モードとは異なる)でレンダリングされているとき、プログラムオーディオが受信された警告メッセージに応答して空間ダッキングされる(効果的に背景に移動される)方法は異なり得る。例えば、レンダリングプロセッサがラウドスピーカアレイを駆動して、ii)いくつかのローブを有する指向性パターンと重ね合わされたi)全方向性パターンを有するいくつかの同時サウンドビームを生成する、中央側レンダリングモードを考える。そのような出力中に警告メッセージが受信されると、レンダリングプロセッサは、i)現在全方向性パターンにあるプログラムオーディオの部分(一部又は全部)を指向性パターンのいくつかのローブに移動させ、ii)ある意味では、移動された部分(全方向性パターンの)を警告オーディオと置換する。
上記要約は、本発明のすべての態様の網羅的なリストを含むものではない。本発明は、上記で要約した様々な態様のすべての適切な組み合わせによって実施され得るすべてのシステム及び方法、並びに以下の「発明を実施するための形態」で開示され、特に本出願と共に提出された特許請求の範囲に指摘されるものを含むことが意図される。このような組み合わせは、上記概要には具体的に記載していない特定の利点を有する。
本発明の実施形態は、例として示されており、同様の参照符号が同様の要素を示す添付の図面の図の限定として示されているのではない。本開示における本発明の「an」又は「one」実施形態への言及は、必ずしも同じ実施形態に言及するのではなく、少なくとも1つを意味することに留意されたい。また、図面を簡潔にし、総数を減らすために、所与の図が使用されて本発明の複数の実施形態の特徴を示してもよく、図のすべての要素が所与の実施形態に必要とされなくてもよい。
ラウドスピーカアレイを含むオーディオ受信機及び円筒状のラウドスピーカキャビネットを示す。 VPAセッション中の、空間ダッキングされたプログラムオーディオとVPA口頭応答の同時出力のタイムラインを示す。 ビーム形成ラウドスピーカアレイを有するオーディオシステムのブロック図である。 図2Aのものと同様のオーディオシステムの詳細なブロック図を示す。 本発明の一実施形態に係るオーディオシステムによって生成された例示的サウンドビームの下向き図を示す。 ユーザが図3に示すように動作しているオーディオシステムと対話する、いくつかの段階の進行を示す。 本発明の別の実施形態に係るオーディオシステムによって生成されるサウンドビームの例の下向きの図を示す。 ユーザが図5に示すように動作しているオーディオシステムと対話する、いくつかの段階の進行を示す。 ユーザが図5に示すようにそれぞれ動作しているいくつかのオーディオシステムの1つと対話する、いくつかの段階の進行を示す。
本発明のいくつかの実施形態を、添付図面を参照してここに説明する。実施形態に記載される部品の形状、相対位置、及び他の態様が明瞭には規定されない場合はいつでも、本発明の範囲は、示した部品のみに限定されず、その部品は、単に説明目的のためであることが意味される。多くの詳細が説明されるが、本発明のいくつかの実施形態は、これらの詳細なしに実施され得ることも理解される。他の事例では、本明細書の理解を妨げないように、周知の回路、構造、及び技術は詳細には示していない。
図1Aは、オーディオ受信機105及びラウドスピーカアレイ115を含む概して円筒形状のラウドスピーカキャビネット110を示す。オーディオ受信機105は、円筒状ラウドスピーカキャビネット110に結合されてラウドスピーカアレイ115の個々のドライバ120を駆動し、様々なサウンドビームを聴取エリアに放出することができる。有線のようなケーブルで結合されているように示されているが、受信機105は代わりに無線手段を介してラウドスピーカキャビネット110と通信することができる。別の実施形態では、オーディオ受信機105によって実行される機能(例えば、オーディオレンダリングプロセッサによるデジタル信号処理)は、ラウドスピーカキャビネット110内に収容された電子回路構成要素によって実行され、受信機105及びラウドスピーカキャビネット110の電気的ハードウェア構成要素の一部又は全部を単一の筐体に統合することができる。一実施形態では、オーディオ受信機105及びラウドスピーカキャビネット110は、ホームオーディオシステムの一部であってもよく、別の実施形態では、車室内に組み込まれたオーディオ又はインフォテインメントシステムの一部であってもよい。
ラウドスピーカアレイ115内のドライバ120は、様々な方法で配置されてもよい。図1Aに示すように、ドライバ120は、キャビネット110の中心垂直軸の周りに並んで周方向に配置される。ドライバ120に対する他の配置も可能である。ドライバ120は、電動式ドライバであってもよく、例えば、ツイータ及びミッドレンジドライバの適切な組み合わせを含む異なる周波数帯域でのサウンド出力のために特別に設計されたものを含んでもよい。更に、キャビネット110は、ドーナツ形状、又は略球又は楕円形状のような他の形状を有してもよく、ドライバ120は、楕円体の実質的に全面に均一に分布されてもよい。別の実施形態では、キャビネット110は、スマートフォン、タブレットコンピュータ、ラップトップ、又はデスクトップコンピュータの一部であってよい。
図1Bは、VPAセッション中に、同時に出力されているサウンドプログラムコンテンツのプログラムオーディオとVPA口頭応答(例えば、警告オーディオ)の、タイムラインを示す。具体的には、この図は、それが判定ロジック215に提供されているとき−図2A参照、プログラムオーディオ130(例えば、入力オーディオチャンネル)の上部タイムラインを示す。判定ロジックは、レンダリングプロセッサがいくつかのレンダリングモードの1つでプログラムオーディオ130をレンダリングして出力するために、プログラムオーディオ130を処理することができる。この図は、いくつかのVPA口頭応答(例えば、警告オーディオ)140及び145の下部タイムラインも有する。これらの応答は、プログラムオーディオ130が空間ダッキングされている間に、判定ロジックにも提供され(続いてレンダリングプロセッサによる出力のためにレンダリングされる)、それにより、プログラムオーディオによって不当に乱されることなく、VPAセッション中に聴取者がVPAと通信することを可能にする。この図は、ビーム形成ラウドスピーカアレイを用いてオーディオを空間ダッキングするプロセスの例として、以下に更に説明される。
図2Aは、サウンドプログラムコンテンツ(例えば、音楽作品、映画サウンドトラック)のプログラムオーディオを出力するために使用されるビーム形成ラウドスピーカアレイを有するオーディオシステム200のブロック図を示す。オーディオシステム200は、ラウドスピーカキャビネット110、レンダリングプロセッサ210、判定ロジック215(判定プロセッサとも呼ばれる)、及びスピーチベースのサービス230を含む。この例のラウドスピーカキャビネット110は、その中に多数のパワーオーディオ増幅器250を含み、その各々はそれぞれのラウドスピーカドライバ120の駆動信号入力に結合された出力を有する。ラウドスピーカキャビネット110は、ラウドスピーカドライバ120を用いて、プログラムオーディオを「出力」するか又は「再生」して、結果として得られるデジタルスピーカドライバ信号をサウンドに変換する。これは増幅器250を用いて達成されることが可能であり、その各々はそれぞれのデジタルアナログ変換器(DAC)245からのアナログ入力を受信することができ、ここで後者はオーディオ通信リンク275を介してその入力デジタルオーディオ信号を受信する。DAC245及び増幅器250は別のブロックとして示されているが、一実施形態では、これらの電子回路構成要素は、例えば、例えばクラスD増幅器技術を用いて、個々のドライバ信号のより効率的なデジタルアナログ変換及び増幅動作を提供するために、各ドライバにだけでなく複数のドライバに組み合わされてもよい。
各ドライバ120の個々のデジタルオーディオドライバ信号は、オーディオ通信リンク275を介してレンダリングプロセッサ210から送出される。レンダリングプロセッサ210は、ラウドスピーカキャビネットとは別の筐体内に(例えば、図1Aの受信機105の一部として)実装されてもよい。レンダリングプロセッサ210及び図2Aに示す他のデジタル信号処理構成要素は、例えばスマートフォン、タブレットコンピュータ、ラップトップコンピュータ、又はデスクトップコンピュータ内に実装されてもよい。これらの場合、オーディオ通信リンク275は、BLUETOOTH(登録商標)リンク又は無線ローカルエリアネットワークリンクのような、無線デジタル通信リンクである可能性がより高い。他の例では、オーディオ通信リンク275は、デジタル光オーディオケーブル(例えば、TOSLINK接続)のような物理的ケーブル、又は、高精細マルチメディアインターフェース(HDMI(登録商標))ケーブル上であってもよい。更に他の実施形態では、レンダリングプロセッサ210は、ラウドスピーカキャビネット110内に実装されてもよく、その場合、オーディオ通信リンク275は、オンチップとチップ間の適切に高速な組み合わせ、チップデジタル又は電気光学相互接続のような有線接続であることができる。
レンダリングプロセッサ210は、サウンドプログラムコンテンツ(例えば、判定ロジック215から)のプログラムオーディオを受信するためのものである。このプログラムオーディオは、ステレオ録音の「左」及び「右」チャネルのような多数の入力オーディオチャネルを含むことができる。そのようなプログラムオーディオは、元は2つのチャンネルのみとして記録されることができた音楽作品のものであってもよい。あるいは、プログラムオーディオは、例えば、ホームシアターオーディオシステム用の動画フィルム若しくは映画の5.1サラウンドフォーマットのオーディオサウンドトラック全体、又は大衆映画シアターの設定のような、2つを超える入力オーディオチャネルの形態であってもよい。別の実施形態では、プログラムオーディオは、単一の入力オーディオチャネルの形であってもよい。すべてのこれらの例では、プログラムオーディオは、入力チャネルを個別の入力駆動信号に変換するレンダリングプロセッサ210によってラウドスピーカアレイのトランスデューサ又はドライバにレンダリングされた後、ドライバ120によってサウンドに変換される。レンダリングプロセッサ210は、プログラムされたデジタルマイクロプロセッサとして全体的に、又はプログラムされたプロセッサとデジタルフィルタブロック及び状態機械などの専用配線デジタル回路の組み合わせとして実装されてもよい。
レンダリングプロセッサ210は、ビームフォーマを含むことができ、それは、ドライバ120(ビーム形成ラウドスピーカアレイの一部)によって放出される複数の同時の所望のビームとして、入力オーディオチャネルのオーディオコンテンツを「レンダリング」するように、ドライバ120のための個々の駆動信号を生成するように構成され得る。ビームは、ビームフォーマによって成形され、操縦されてもよく、各ビーム内のオーディオコンテンツは、多くの予め構成された動作のサウンドレンダリング動作モードの任意の1つにしたがって入力オーディオチャネルから調整されてもよい(後に説明される)。
レンダリングプロセッサ210は、例えば、2つ以上の中央側モード及び少なくとも1つの主拡散(例えば、周囲直接)モードなど、いくつかのビーム形成、サウンドレンダリング動作モードを有することができる。これらのモードは、システムが選択できる入力オーディオチャンネルとは別個のステレオエンハンスメントとみなされ、それに基づいて、特定の部屋(及び出力されている特定のコンテンツ)の聴取者に最良又は最高の影響を与えることが期待される。レンダリングプロセッサ210は、そのような動作モードで事前に構成され、サウンドプログラムコンテンツの出力中に、現在の動作モードを判定ロジック215によってリアルタイムで選択し変更することができる。サウンドレンダリングの動作モードについての詳細は以下に記載される。
判定ロジック215(判定プロセッサ)は、例えば、レンダリングプロセッサ210を含むチップ上の中央処理ユニット、アプリケーションプロセッサ又はシステムを共有するか、又は別のマイクロプロセッサのプログラミングによって、プログラムされたプロセッサとして実装され得る。判定ロジック215はいくつかの異なる決定を行うことができ、及び/又はいくつかの異なるオーディオ処理動作を実行することができる。例えば、判定ロジック215は、特定の入力に基づいて、出力している、又は出力しようとしている所定のサウンドプログラムコンテンツに対して、どのサウンドレンダリングモードを使用するかを決定するプログラムを実行することができる。選択されたレンダリングモードは、次いでレンダリングプロセッサ210を構成して、ラウドスピーカドライバ120を駆動し(サウンドプログラムコンテンツの出力中)、そこにビームとオーディオコンテンツの組み合わせを生成する。サウンドレンダリングモードは、判定ロジック215によって実行されている聴取者の位置、室内音響、及びコンテンツ分析のうちの1つ以上の変化に基づいて、出力中に(オーディオシステム200のユーザ又は聴取者からの直接的又は即時入力を必要とせず)自動的に変化することができる。
判定ロジック215は、その判定ロジック入力の変化に基づいて、出力中に自動的に(すなわち、オーディオシステム200のユーザ又は聴取者からの即時入力を必要とせずに)レンダリングモード選択を選択及び/又は変更することができる。一実施形態では、判定ロジック入力は、センサデータ及びユーザインターフェース選択のうちの1つ又は両方を含む。センサデータは、例えば、近接センサ、カメラ、又は1つ以上のマイクロフォンによって取り込まれた測定値を含むことができる。ユーザインターフェースの選択は、部屋の境界とその中の特定の物体の位置、例えば家具を描く、聴取者によって手動で入力されるデータであることができる。この情報を用いて、判定ロジック215は、ラウドスピーカドスピーカキャビネット110に対する聴取者の位置及び/又は音響的に重要な部屋の特徴(例えば、天井、壁、床、及び特定の物体の位置)を計算することができる。センサデータは、部屋に対するサウンド反射値、サウンド吸収値、又はインパルス応答を測定するためにも使用され得る。判定ロジック215は、例えば、ラウドスピーカキャビネット110が音響反射面に近接して配置されたときを判定するために、個々のラウドスピーカドライバ120と部屋の間の音響相互作用を評価する機能を有することができる。この場合、判定ロジック215は、所望のステレオエンハンスメント又は没入効果を促進するために、特定の角度に配向又は操縦され得る拡散コンテンツパターンビームを含む主拡散モードを選択することができる。例えば、拡散コンテンツパターンは、聴取者から離れる方向に向けられて、より拡散的なサウンド環境を生成するために、部屋の隣接する壁からはね返ることを可能にされ得る。
主拡散モードでは、レンダリングプロセッサ210内のビームフォーマの出力は、スピーカドライバ120に、ii)いくつかの拡散コンテンツパターンと重ね合わされた、i)主コンテンツパターンを有するサウンドビームを生成させることができる。一例として、図3はそのようなモードで生成されたサウンドビームを示す。具体的には、この図は、ラウドスピーカキャビネット110の下向きの図を示しているが、それは、主コンテンツパターン305(本明細書ではビームとも呼ばれる)並びに拡散コンテンツパターン315及び310(例えば、2つ以上のビーム、又は2つ以上のローブ)を生成している。図面は、2つの拡散コンテンツパターンのみを描いているが、一実施形態では、2つ超の拡散コンテンツパターン(拡散コンテンツを含む2つ超のビーム、又は2つ超のローブ)が存在し得る。
一実施形態では、主コンテンツパターン305及び拡散コンテンツパターン310、315は、すべて、図示のように、異なる方向に向けられている。主コンテンツパターン305は、決定された聴取者位置(例えば、ユーザ指定の又は自動的に検出された)に意図的に向けられ得るが、拡散コンテンツパターン310及び315は、その場合、決定された聴取者位置から離れるように向けられる。
別の実施形態では、拡散コンテンツパターンは、家具アイテムのものなどの隣接する壁、窓又は他の表面の決定された位置(その位置は、ユーザによって指定されてもよく、又は自動的に検出されてもよい)に意図的に向けられるが、主コンテンツパターンは、決定された位置から離れるように(異なる方向に)向けられる。隣接する音響面の決定された位置又は決定された聴取者位置は、前述のように、センサデータを含むその入力とユーザインターフェース選択の任意の適切な組み合わせを使用して、判定ロジック215によって計算され得る。したがって、主拡散モードの特定のパラメータは、オーディオコンテンツ、室内音響、及びラウドスピーカ配置に依存して、可変(例えば、ビーム幅及び角度)であってもよい。
主コンテンツパターン305及び拡散コンテンツパターン(例えば、310及び315)には、各々、プログラムオーディオの部分を含むことができる。例えば、判定ロジック215は、例えば、時間ウィンドウ表示の相関を使用して、プログラムオーディオの入力オーディオチャネル(例えば、L及びR)を分析し、その中に相関コンテンツ及び無相関(又は非相関)コンテンツを見出すことができる。判定ロジック215は、レンダリングプロセッサ210に、少なくとも1つのコンテンツパターン内で、どのコンテンツ(例えば、相関又は非相関)をレンダリングすべきかを通知することができる。例えば、入力オーディオチャネル内に含まれる相関コンテンツは、各入力オーディオチャネル内で有効に出現する相関コンテンツが、真正の「ドライ」センタ画像であるので、主コンテンツパターン305内でレンダリングされてもよい。一方、入力オーディオチャネル内に含まれる非相関コンテンツが抽出され(例えば、L−R又はR−Lの差分演算を行うことにより)、次いで拡散コンテンツパターン310及び315内に配置されてもよい。
レンダリングプロセッサは、1つ以上の中央側モードを含む他のサウンドレンダリングモードも有する。各中央側モードでは、レンダリングプロセッサ210の出力は、ラウドスピーカドライバ120に、ii)いくつかのローブを有する指向性パターンと重ね合わされた、i)全方向製パターンを有するサウンドビームを生成させることができる。一例として、図5は、1つのそのようなモードで生成されたサウンドビームを示す。具体的には、この図はラウドスピーカキャビネット110の下向きの図を示しているが、それは、全方向性パターン505及び指向性パターン525、ここでは4つの一次ローブ515a、515b、520a及び520bを有する四重極ビームを生成している。この図は高次の中央側モード(四重極ビーム)を示しているが、レンダリングプロセッサ210は、異なる次数の他の中央側モード(例えば、二重極ビームを生成する低次中央側モード)でも構成され得る。
低次モードと高次モードの間のような判定ロジック215による選択は、例えば、入力オーディオチャネルの現在の聴取者位置、室内音響、及びコンテンツ分析のような、以下の係数又はパラメータの少なくとも1つの関数であってもよい。例えば、選択はコンテンツ分析に基づいてもよく、低次又は高次指向性パターンの選択は、周囲又は拡散サウンドコンテンツ(例えば、残響)の量のような入力オーディオチャネルのスペクトル及び/又は空間特性に基づいてもよい。特定のタイプの拡散コンテンツは、低次中央側モードを介して出力されることから利益を得ることができ、それは室内の無相関(非相関)コンテンツの空間分離を強調する。ハードパンされた離散ソースのような強い空間分離をすでに含む他のタイプのコンテンツは、高次の中央側モードから利益を得ることができ、それは、ラウドスピーカの周りにより均一なステレオ体験を生成する。極端な場合には、最低次の中央側モードは、指向性パターン525のような指向性ビームなしで、本質的に全方向性パターン505のみが生成されるモードであってもよく、それは、サウンドコンテンツが純粋にモノラルである場合に適切であり得る。
図3に示す主コンテンツパターン305並びに拡散コンテンツパターン310及び315と同様に、全方向性パターン505及び指向性パターン525は、判定ロジック215によるプログラムオーディオの適切に選択又は結合された部分を含む。例えば、判定ロジック215は、レンダリングプロセッサに、プログラムオーディオの2つ以上の入力オーディオチャンネルの結合及び/又は差分のいずれかのこれらのビームパターンを構成するように通知することができる。言い換えると、判定ロジック215は、レンダリングプロセッサ210が結果を特定のビームパターンでレンダリングするために、2つ以上の入力オーディオチャネルを処理(例えば、結合及び/又は減算)し、その結果をレンダリングプロセッサ210に送ることができる。例えば、図5に戻って参照すると、プログラムオーディオが2つの入力オーディオチャネル(例えば、L及びR)を含む場合、全方向性ビームパターン505(モノラル主コンテンツパターンである)は、これらの2つのチャンネルの結合(例えば、L+R)であるオーディオコンテンツを含むことができる。一方、指向性パターン525のローブは、入力オーディオチャネル間の差分に起因する非相関オーディオコンテンツを含む。例えば、前向きローブ515bはR−Lコンテンツを含み、後向きローブ515aはR−Lコンテンツを含み、右向きローブ520bはL−Rコンテンツを含み、左向きローブ520aはL−Rコンテンツを含む。したがって、指向性パターン525の全方向性パターン505との結合又は重ね合わせにより、(ラウドスピーカキャビネット110の中心の周りに一緒に360度スパンする)オーディオのセクタが生成される。図5に示す例では、全方向性パターン505内に含まれる相関オーディオコンテンツの各セクタは、LからRを減算して導出された非相関オーディオコンテンツを含むローブ及びRからLを減算して導出された非相関オーディオコンテンツを含むローブが横に配置されている。一実施形態では、二重極ビームを用いた低次中央側モードでは、1つのローブはR−Lコンテンツを含み、他のローブはL−Rコンテンツを含む。
どのサウンドレンダリングモードを使用するかを判定することに加えて、判定ロジック215は、ラウドスピーカキャビネット110によって現在出力されているサウンドプログラムコンテンツの聴取者の知覚を、プログラムオーディオを「前景」から引き出して「背景」に移動させることによって変化させて、聴取者に、そのサウンドプログラムコンテンツが離れた場所(例えば、別室内)にあるという知覚を与えることにより、警告メッセージに応答してプログラムオーディオを空間ダッキングさせることもできる。サウンドプログラムコンテンツを背景で出力することにより、出力元(例えば、ラウドスピーカキャビネット110)は「ぼかされて」いるか、又は出力元は聴取者に容易に識別されない。一実施形態では、判定論理215のぼかしルーチン(図2A参照)は、レンダリングプロセッサ210にそれらを渡す前に(例えば、プログラムオーディオを空間ダッキングすることによって)プログラムオーディオの部分を調節する(したがって、レンダリングプロセッサ210はもはやプログラムオーディオを直接受信せず、代わりに調節されたプログラムオーディオを判定ロジック215のぼかしルーチンから受信している)。別の実施形態では、レンダリングプロセッサ210は、プログラムオーディオを直接受信し続け、プログラムオーディオが空間ダッキングされるとき、判定ロジック215はレンダリングプロセッサ210にそうする方法を指示することができる。
空間ダッキングの例示的アプリケーションは次のようになる。図1Bに戻って、両方のタイムライン上で左から右へ進むと、プログラムオーディオ130は、仮想携帯端末(VPA)の応答によって中断(一時停止又は休止)することなく、ラウドスピーカキャビネット110によって出力されている。一実施形態では、この時点でのプログラムオーディオ130は、ラウドスピーカキャビネット110を介して(例えば、レンダリングプロセッサが動作している現在のレンダリングモードによって)正常に出力されている。次に、聴取者は、トリガフレーズ(例えば、「ヘイ ハル、あなたは聞こえますか?」)を言って、VPA会話を開始しようとする。トリガフレーズが検出されると、VPA会話が発声されて開始し、それにより、プログラムオーディオの部分がラウドスピーカキャビネット110によって空間ダッキングされるようになる。この例では、プログラムオーディオの部分は、プログラムオーディオの連続した間隔をカバーし、持続時間は、聴取者とVPAの間の会話と一致する。プログラムオーディオが空間的にダッキングされると、VPA口頭応答140(例えば、「私はどのようにあなたを助けることができますか デーブ?)」がレンダリングされ、ラウドスピーカキャビネット110を介して出力される。VPA口頭応答140が出力されると、VPAは、聴取者にVPAにコマンド(例えば、質問)を発行するための時間を許容するために、特定の時間量(例えば3秒)待機する(例えば、遅延する)。遅延中に、聴取者は、例えば、「日本では何時ですか?」、と質問する。このコマンドは、マイクロフォン(ラウドスピーカキャビネットに結合されるか又は一体化され得る)によって感知される。感知されたコマンドは、次いで、VPAによって解釈され、それは、ある時間(例えば、2秒)を要する可能性がある。感知されたコマンドに対してVPA口頭応答145(例えば、「今5時です」)が取得されると、それはレンダリングされてラウドスピーカキャビネット110を介して出力される。再び、聴取者に追従コマンドを発行するためのより多くの時間を許容するために、VPAは、特定の時間遅延してもよい。追従コマンドを受信しないと、VPA会話が終了し、プログラムオーディオの部分の空間ダッキングが除去又はオフにされ、プログラムオーディオがラウドスピーカキャビネットによって正常に出力されることを可能にする。このプロセス(又はこのプロセスの少なくとも一部)は、聴取者がVPAとの会話を開始するためにトリガフレーズを発声するたびに、オーディオシステム200によって実行されてもよい。
サウンドプログラムコンテンツのプログラムオーディオを空間ダッキングするために、判定ロジック215内のぼかしルーチンは、ラウドスピーカキャビネット110によって放出される少なくとも1つのビームパターン内のプログラムオーディオの少なくとも選択された部分(例えば、含まれる相関又はモノラルコンテンツ)に対して非相関化処理を実行することができる。一実施形態では、判定ロジック215は、相関コンテンツを含み得るプログラムオーディオの部分を選択する。例えば、図3を参照して、レンダリングプロセッサ210が主拡散(周囲直接)レンダリングモードを使用してオーディオをレンダリングしているとき、判定ロジック215は、主コンテンツパターン305内の相関コンテンツを含むプログラムオーディオの選択された部分に対して非相関化を実行することができる。一方、中央側モード(図5)では、判定ロジック215は、全方向性パターン505内の相関コンテンツを含むプログラムオーディオの選択された部分に対して非相関化を実行することができる。非相関化を実行する効果及び異なるモードでプログラムオーディオの部分に対してそうする方法については、以下に更に記載される。
判定ロジック215は、異なる方法でプログラムオーディオの部分に対して非相関化を実行することができる。例えば、判定ロジック215は、プログラムオーディオの1つ以上の入力オーディオチャネルに残響を付加することによってそうすることができる。残響の付加量は、室内の音響に基づいてもよい。例えば、判定ロジック215は、ラウドスピーカキャビネット110が収容された部屋の測定されたインパルス応答に基づいて、どの程度の残響を付加するかを決定することができる。測定されたインパルス応答を使用して、判定ロジックは、インパルス応答の推定されたカートシス(例えば、「尖度」)に基づいて室内がどのように残響(例えば拡散)するかを評価することができる。カートシスが大きいほど、室内は拡散が少なくなる。したがって、判定ロジック215は、残響を付加し推定されたカートシスを低減し、それによってインパルス応答を平滑化して、室内効果の拡散性の増加をもたらすことができる。この「残響支援非相関化」は、聴取者によって知覚されるオーディオ「ぼかし」効果をもたらす。残響の付加により、ビームパターン内の相関コンテンツを含むプログラムオーディオの部分は、したがって、非相関化されるようになる。ビームパターン内のプログラムオーディオの部分に対して実行される非相関化処理は、ダッキングの「空間的」(又は拡散的)態様を達成し、それはプログラムオーディオのぼかされた印象(聴取者上で)を生成し、「背景」で出力されている印象を与える。聴取者への空間ダッキングの影響についての詳細は、図4に関連して以下に更に記載される。
一実施形態では、判定ロジック215は、ヘッド関連伝達関数(HRTF)を1つ以上の入力オーディオチャネルに適用することによって、ビームパターンにおけるプログラムオーディオの選択された部分に対して非相関化を実行することができる。別の実施形態では、判定ロジック215は、クロストークキャンセラを使用して、プログラムオーディオの選択された部分を非相関化することができる。更に別の実施形態では、プログラムオーディオが単一の(例えば、モノ)信号を含むとき、判定ロジック215は、それをマルチチャンネル信号(例えば、L及びRチャンネルで)にアップミックスし、それによって2つのチャネル内に非相関コンテンツを生成することができる。判定ロジック215は、プログラムオーディオの選択された部分を非相関化するための任意の手段を使用することができることを理解されたい。
プログラムオーディオの部分を非相関化することに加えて、判定ロジック215は、サウンドプログラムコンテンツの出力中に、それらの部分を1つのビームパターンから別のビームパターンに移動(例えば、パン)させることもできる。例えば、図3を参照して、周囲拡散モードでは、判定ロジック215は、主コンテンツパターン305内に含まれるプログラムオーディオの部分を、拡散コンテンツパターン310及び/又は315の1つ又は両方に移動させて非相関化することができる。図5の中央側モードでは、判定ロジック215は、全方向性パターン505内に現在含まれているプログラムオーディオの部分を、指向性パターン525の1つ以上のローブに、(その少なくとも一部を)移動させて非相関化することができる。入力オーディオチャネルに対して「相関化」されていると考えられる警告オーディオを主コンテンツパターン305(又は全方向性パターン505)に付加することによって、オーディオシステム200は、聴取者が付加された警告オーディオが「前景」にあると知覚する聴取経験を生成することができるが、プログラムオーディオは、ここで非相関形式にあって、異なるビームセットを介して出力されており、したがって背景にある。移動され新たに非相関化されたオーディオコンテンツの代わりに警告オーディオを付加することに関する詳細は、後述される。判定ロジック215は、レンダリングプロセッサ210に命令して、異なるビームパターン間で、プログラムオーディオの部分のここで非相関化されているコンテンツを移動させることができる。
一実施形態では、プログラムオーディオの非相関部分(ビーム間)の移動は、その部分を非相関化することに応答して本質的に生じ得る。説明のために、判定ロジック215はコンテンツ分析ルーチンを有し、それは、時間ウィンドウ表示の相関を用いて、その入力オーディオチャネル(例えば、プログラムオーディオのL及びR)を分析して、そこに相関コンテンツ及び非相関コンテンツを見出すことができる、と考える。判定ロジック215のぼかしルーチンが残響を入力オーディオチャンネルに付加した後にこの分析がここで実行された場合、コンテンツ分析ルーチンは残響が付加されて非相関化されたコンテンツを見出すので、判定ロジック215は、レンダリングプロセッサ210に、この修正された入力オーディオは、i)プログラムオーディオが主拡散レンダリングモードでレンダリングされている場合(例えば、図3)、拡散コンテンツパターン310及び/又は315の少なくとも1つ、又はii)プログラムオーディオが中央側レンダリングモードの1つでレンダリングされている場合(例えば、図5)、指向性パターン525のローブの少なくとも1つ、においてレンダリングされるべきであるということを通知するであろう。
一実施形態では、レンダリングプロセッサ210内のビームフォーマは、空間ダッキングがアクティブ化されていても、そのビーム構成(例えば、ビームの形状及び目標)を変更することなく、その入力オーディオ信号をビームにレンダリングし続ける。図2Bはそのような例を示す。具体的には、この図は、いくつかのビームフォーマ入力信号241〜243をレンダリングプロセッサ210内のビームフォーマ250に提供する判定ロジック215を示す。ビームフォーマ250は、判定ロジック215によって提供されるビーム構成命令に基づいて、入力信号241〜243を使用して、駆動信号を生成し、ラウドスピーカアレイ120を(ラウドスピーカキャビネット110内で)駆動して、ビームパターンを生成する。以下で説明するように、空間ダッキングがアクティブにされたとき、判定ロジックは、生成されたビームパターン内のサウンドコンテンツを簡単に調節することができる(残響を付加することによってサウンドをぼかす)が、ビームの形状又は向きを調節しない。
例えば、空間ダッキングの前に、レンダリングプロセッサ210は、判定ロジック215からいくつかのビームフォーマ入力信号241〜243としてプログラムオーディオを受信する。判定ロジック215は、プログラムオーディオの部分からビームフォーマ入力信号を生成する。ビームフォーマ入力信号の各々は、ラウドスピーカアレイによって生成された特定のビームパターン、例えば主コンテンツパターン305、並びに2つの拡散コンテンツパターン310及び315で出力されるオーディオコンテンツを含むことができる。そのような操作中に、聴取者は、トリガフレーズを発声するか又はボタンを押圧することによって、VPAとの会話を開始しようと試みることができる。トリガフレーズ又はメニューボタンの押圧(両方とも警告オーディオトリガイベントの例である)を検出し、適切な可聴レスポンス(警告オーディオ)を取得することに応答して、スピーチベースのサービス230は、警告オーディオを示すか又は含む警告メッセージ235を判定ロジック215に送信することができる。
警告メッセージに応答して、(1)判定ロジックのぼかしルーチンは、主コンテンツパターン305を介して直接サウンドとして現在出力されているプログラムオーディオの部分(2つ以上のチャンネルをカバーすることができるその部分の少なくとも1つのチャンネル)に残響を付加し、及び(2)判定ロジックは、警告オーディオを、残響なしに、その部分に同相で付加する(例えば、警告オーディオは、このようにして、主ビーム305内で出力されている部分にあるプログラムオーディオの2つ以上のチャネルのすべてに付加される。)上述のように、判定ロジックのコンテンツ分析ルーチンは、入力オーディオチャンネルに対するこの変化を検出するので、したがって、判定ロジックは、信号241(主)内に警告オーディオを保持し(それは複数の入力チャネルにわたって相関化されるので)、一方、ここで非相関化されたプログラムオーディオを抽出し、それを信号242(拡散1)と信号243(拡散2)の1つ又は両方に移動させる。ビームフォーマ250は再構成されておらず(例えば、図3又は図5のようにビーム構成全体は同じままである)、その入力信号241〜243のコンテンツの変化を欠いたままであり、サウンド出力は所望の結果であって、警告オーディオは主パターン305のプログラムオーディオを効果的に置換し、元のプログラムオーディオの直接コンテンツは拡散コンテンツパターン310、315に移動されている。
判定ロジック215は、プログラムオーディオが空間ダッキングされている間に他のオーディオ処理動作を適用することもできる。例えば、判定ロジック215は、ローパスフィルタのセットを介してプログラムオーディオの部分をフィルタリングして、高周波数コンテンツを除去することができる。一実施形態では、判定ロジック215は、特定のオーディオ特性によって、ローパスフィルタのカットオフ周波数を調節することができる。例えば、プログラムオーディオのコンテンツ分析によってカットオフ周波数を調節してもよい。判定ロジック215は、ダッキング値(又はダイナミックレンジ圧縮値)を適用することによって、移動されるプログラムオーディオの部分の音量レベルを低減することもできる。一実施形態では、ダッキング値の適用は、(i)判定ロジック215がローパスフィルタを適用しているかどうか、及び(ii)プログラムオーディオの現在の音量レベル、に依存し得る。例えば、ローパスフィルタの適用中に高周波成分を除去することにより、知覚されるプログラムオーディオの音量を自然に低減することができる。したがって、プログラムオーディオがすでに低い閾値にある場合、判定ロジック215は、(高周波コンテンツのために)音量を下げることが不要であるため、ダッキング値を適用しなくてもよい。一実施形態では、ダッキング値の適用は、プログラムオーディオの音量レベルに比例する。
一実施形態では、判定ロジック215は、出力を突然妨害しないように、プログラムオーディオを徐々に空間ダッキング(例えば、前述の操作を適用する)してもよい。例えば、判定ロジック215がプログラムオーディオの部分を非相関化し始める(例えば、残響を入力オーディオチャネルに付加する)と、これにより、1つのビームパターン(例えば、主コンテンツパターン305)からのプログラムオーディオの部分の徐々の除去、及び1つ以上の他のビームパターン(例えば、拡散コンテンツパターン315及び/又は310)へのその徐々の付加がもたらされる。判定ロジックは、プログラムオーディオの部分のすべて(又は大部分)が非相関化されて他のビームパターンに移動されるまで、残響を付加することができる。プログラムオーディオが完全に空間ダッキングされるためには、短時間(例えば、2秒)かかり得る。別の実施形態では、プログラムオーディオは、瞬間的に空間ダッキングされてもよい。オーディオシステム200が、もはやプログラムオーディオを空間ダッキングする必要がなくなると、プログラムオーディオの空間ダッキングされた部分は、元のビームパターン(例えば、主コンテンツパターン305)に逆の方法で戻され得る。例えば、プログラムオーディオの部分の非相関コンテンツは相関化されるようになる(例えば、入力オーディオチャネルからの付加された残響の除去に基づいて)ので、それはその元のビームパターンに戻され得る。
図2Aに戻って、警告オーディオトリガイベントによる空間ダッキングの起動は、スピーチベースのサービス230によるものであってもよい。スピーチベースのサービス230は、聴取者が、オーディオシステム200で動作し、ラウドスピーカキャビネット110のローカルメモリに記憶された、仮想携帯端末(「VPA」)として動作するコンピュータプログラムとの会話を聴取者が開始して行うことを可能にするためのものである。VPAと通信することにより、聴取者は質問を(例えば、コマンドを言語化することによって)することができ、それに応答して、ラウドスピーカアレイ120によって出力される可聴応答を受信することができる。具体的には、聴取者は、オーディオシステム200のマイクロフォン201によって感知される「トリガフレーズ」を発声することによって、VPAとの会話を開始しようと試みることができる。マイクロフォン201は、感知されたスピーチをオーディオ信号に変換し、次いでスピーチベースのサービス230内のトリガフレーズ検出器(自動スピーチレコグナイザ)に送信して、そこでトリガフレーズを識別する(例えば、認識する)ために信号を分析することができる。一実施形態では、トリガフレーズ検出器は、認識されたスピーチを、ローカルメモリ内に(例えば、ルックアップテーブル内に)記憶されている予め記憶されたトリガフレーズと比較して、一致が見つかったとき、それは、聴取者がトリガフレーズを発声したと判定することができる。トリガフレーズが検出されると、スピーチベースのサービス230は、トリガフレーズ(記憶装置から形成されたか、又はアクセスされた)に対する適切な口頭応答を取得することができる。
別の実施形態では、警告オーディオトリガイベントは、聴取者によるボタン押圧であってもよく、それはラウドスピーカキャビネット内で動作する別のソフトウェアプロセスによってスピーチベースのサービス230に報告され得る。これに応答して、スピーチベースのサービス230は、いくつかの要因の少なくとも1つに基づいて適切なテキスト応答を取得することができる。例えば、イベントが発声されたトリガフレーズであった場合、その応答は、誰がトリガフレーズを話したかを識別するために、スピーチ信号に対して実行される聴取者識別プロセスに基づくことができる。聴取者が識別されると、スピーチベースのサービス230は、聴取者に対する応答を調整することができ、例えば、「どのように私はあなたを助けることができますか デーブ?」、ここでデーブは聴取者である。一実施形態では、応答は、ラウドスピーカキャビネット110の所有者に基づいてもよい。別の実施形態では、応答は単に一般的な応答であってもよく、例えば、「どのように私はあなたを助けることができますか?」取得された適切な応答は、テキスト対スピーチ(「TTS」)システムに提供され、その合成されたスピーチバージョンを生成することができる。あるいは、オーディオ応答は、以前に記録された人間が発声したフレーズ(トリガフレーズに対する適切な応答であると思われる)として取得され得る。両方の場合において、VPAによる適切なスピーチ応答を含む、本明細書で警告オーディオと呼ばれるオーディオ信号が、レンダリングプロセッサ210に提供され、特定の警告オーディオトリガイベントに応答して、ラウドスピーカキャビネット110のラウドスピーカアレイ120を介して出力されるように意図され得る。
一実施形態では、警告オーディオトリガイベントは、オーディオシステム200において現在実行中の他のアプリケーションプログラムからの信号であってもよく、アプリケーションプログラムはオーディオコンテンツを出力する必要がある。例えば、プログラムオーディオが出力されている間、リマインダアプリケーションは、聴取者に特定の時間に予定された会議を思い出させる必要があり得る。その時刻が来ると、リマインダアプリケーションは、スピーチベースのサービス230に信号を送ることができ、それは、ラウドスピーカアレイ120を介して出力されるリマインダアプリケーションによって所望される警告オーディオ(例えば、「ティータイムは30分以内です」)を示すか、又は含む警告メッセージを判定ロジック215に送信する。別の実施形態では、ナビゲーションアプリケーションは、プログラムオーディオが出力されている間に、聴取者にナビゲーション命令を提供する必要があり得る。操作が差し迫っている場合、ナビゲーションアプリケーションは、その所望の警告オーディオ(例えば、「1.5マイルで左に曲がる」という合成された又は人間が発声したバージョン)とともに警告メッセージを判定ロジック215に直接提供することができ、判定ロジック215は、上述のようにこれに応答して、プログラムオーディオを空間ダッキングして警告オーディオと置換させる。警告オーディオの出力が完了すると、この場合に聴取者との口頭対話が必要とされないので、判定ロジック215は直ちに(又は2秒以下のような短い時間期間内に)空間ダッキングを除去することができる。他の実施形態では、(オーディオ警告が出力されることを要求する)要求アプリケーションは、プログラムオーディオを空間ダッキングするために、スピーチベースのサービス230と通信することができる。例えば、ナビゲーション命令は、スピーチベースのサービス230に、警告メッセージ及び警告オーディオを判定ロジック215に提供するように命令することができる。
プログラムオーディオが出力されている間にイベントが発生した場合、スピーチベースのサービス230は、そのイベントに応答して出力されるように意図されたVPAによる適切なスピーチ(例えば、口頭)応答を含む警告オーディオを示すか又は含む警告メッセージ235を、判定ロジック215に提供することができる。警告メッセージ235の受信に応答して、判定ロジック215は、プログラムオーディオを空間ダッキングし、警告オーディオを聴取者に出力することができる。例えば、プログラムオーディオが出力されている間、スピーチベースのサービス230は、ラウドスピーカアレイ120が放出しているビームパターンを介して、警告オーディオを聴取者に出力するために、判定ロジック215にプログラムオーディオを空間ダッキングすることを要求する(警告メッセージの送信を介して)ことができる。判定ロジック215は、警告オーディオをいくつかの方法で受信(又は取得)することができる。例えば、判定ロジック215は、スピーチベースのサービス(例えば、その中のTTSシステム)から警告オーディオを受信することができ、警告メッセージ235自体から警告オーディオを取得してもよく、又は警告メッセージ235内に含まれるデータ(例えば、メモリから警告オーディオをどこに取得すべきかを判定ロジック215に伝えるポインタ情報)に基づいて警告オーディオを取得してもよい。一実施形態では、判定ロジック215は、警告メッセージ235の受信に応答して、警告オーディオを受信(又は取得)する。別の実施形態では、判定ロジック215は、(例えば、スピーチベースのサービス230からの)警告メッセージ235と同時に警告オーディオを受信することができる。
警告メッセージ235は、(i)出力されるプログラムオーディオが空間ダッキングされること及び(ii)同時に警告オーディオがレンダリングされて少なくとも1つのビームパターンに付加されること、を判定ロジック215に通知する。具体的には、警告オーディオは、プログラムオーディオが空間ダッキングされたときに、他のビーム(例えば、拡散コンテンツパターン310及び315、又は指向性パターン510)に移動されたプログラムオーディオの部分の非相関コンテンツを置換することによって、少なくとも1つのビームパターン(例えば、主コンテンツパターン305又は全方向性パターン505)に付加され得る。警告オーディオが聴取者に出力されている間、プログラムオーディオを空間ダッキングすることにより、これにより、聴取者は、警告オーディオを前景で聴取することができ、プログラムオーディオは背景で出力し続ける。ある意味では、レンダリングされた警告オーディオはラウドスピーカアレイ120を駆動して、(例えば主コンテンツパターン305又は全方向性パターン505)のプログラムオーディオの(前に相関化された)部分を警告オーディオと置換する。このようにして、オーディオシステム200内で動作するVPAを開始するためにトリガフレーズを発声した後の聴取者は、プログラムオーディオによって消音されることなく、オーディオシステム200から即時かつ分かりやすい可聴応答を受信し、後者は背景で出力され続ける。
警告オーディオが、プログラムオーディオの部分の新たに非相関化されたコンテンツを置換することを確実にするために、それはプロセス全体にわたって異なるポイントで付加されてもよい。警告オーディオは適切なオーディオ応答を含み、TTSシステムによって合成されるか、以前に記録された人間が発声したフレーズのいずれかであるので、警告オーディオは単一(又はモノラル)のオーディオチャネルであることができる。したがって、一実施形態では、例えば、左右の入力オーディオチャネルに均等に警告オーディオを付加する(例えば、判定ロジック215によって)ことができる。一実施形態では、上述のように、警告オーディオは均等に付加されて、警告オーディオは左右の入力オーディオチャネルに同相で付加される。このようにして、警告オーディオは、2つの入力チャネルに相関コンテンツとして現れ、コンテンツ分析ルーチンによってそのように認識され、それは順に、(現在のレンダリングモードに応じて)レンダリングプロセッサ210にそれに応じてレンダリングするように命令する。警告オーディオを均等に付加することにより、警告オーディオが入力警告オーディオはチャネル(例えば、L及びR)内の相関コンテンツとして認識され、レンダリングプロセッサ210がどのようなレンダリングモードを使用していても、それによって警告オーディオが相関コンテンツを正常に含むビームパターン内に配置される。例えば、プログラムオーディオが主拡散レンダリングモードでレンダリングされている場合、図4を参照して、警告オーディオは、聴取者から離れるように向いている拡散コンテンツパターン310、315ではなく、主コンテンツパターン305でレンダリングされる。それは、判定ロジック215が、ここで警告オーディオも含むプログラムオーディオの入力オーディオチャネルの調節されたバージョンを分析するとき、判定ロジック215は、警告オーディオを相関コンテンツとして見出す一方、それが見出す非相関コンテンツは元のプログラムオーディオからのものである、という理由であり得る。
別の実施形態では、レンダリングプロセッサ210が中央側モードにある間に−図6参照−、警告オーディオはL及びR入力オーディオチャネルの両方に均等に(判定ロジックによって)付加されてもよく、それは全方向性パターン505(L+Rとして)では相関コンテンツとして現れるが、本質的にローブ515a、515b、520a、520bは(L−R及びR−Lとして)存在しない。同時に、Lに(又はRに)含まれるプログラムオーディオは非相関化されており、それはローブ(レンダリングプロセッサ210がL−R及びR−Lコンテンツを生成している場所である)内で非相関化されたままである。
警告オーディオの全体が聴取者に出力されるか、又は警告オーディオの出力が完了されると、判定ロジック215は、次いで、プログラムオーディオの出力をその以前の動作状態に戻すために、空間ダッキングを非アクティブ化することができる。前述のように、プログラムオーディオの部分の非相関コンテンツは、それが最初に除去された元のビームパターンに、逆の方法で、戻され得る。例えば、判定ロジック215はプログラムオーディオの部分の非相関コンテンツを相関コンテンツに徐々に戻し(例えば、入力オーディオチャネルから付加された残響を徐々に除去することによって)、同時にそれを徐々に付加して元のビームパターンに戻すことができる。一実施形態では、他のオーディオ処理動作(例えば、ローパスフィルタ及びダッキング値)が、プログラムオーディオの部分で実行された場合、それが空間ダッキングされている間に、それらの動作も同様に逆の方法で除去又はオフ(非アクティブ化)されてもよい。オーディオシステム200を以前の動作状態に戻すことは、短い時間(例えば、2秒)を要するか、又はそれは実質的に即時であり得る。
一実施形態では、オーディオシステム200は、聴取者にいくらかの付加の時間を許容してオーディオシステム200に追従コマンド(例えば、「今何時ですか?」)を与えるために、警告オーディオが終了した後のより長い期間(例えば、5秒)、空間ダッキングされたままであり得る。例えば、マイクロフォン201は、コマンドを感知してそれをオーディオ信号に変換することができる。マイクロフォン201は、そこでスピーチを認識するために、変換されたオーディオ信号を自動スピーチレコグナイザに送信することができる。認識されたスピーチから、スピーチベースのサービス230は、聴取者が発声した言葉がコマンド(又は質問)であることを識別することができる。次いで、スピーチベースのサービス230は、インターネットを介して認識されたスピーチを携帯端末サーバに送信し、コマンドに対する適切なテキスト応答を分析し生成することができる。一実施形態では、スピーチベースのサービス230は、トリガフレーズの後に発声された単語がコマンドであると仮定することができるので、認識された単語がコマンド又は質問を含むかどうかを最初に識別することなく、コマンドをサーバに送信することができる。スピーチベースのサービス230がサーバからのコマンドに対する適切なテキスト応答を受信すると、それは、TTSシステムに、コマンドに対するテキスト応答をビームパターンに付加される警告オーディオに合成させることができ、それは、警告オーディオ(例えば、主コンテンツパターン305又は全方向性パターン505)を、前述の警告オーディオが付加された同様の方法で、発射した。
一実施形態では、スピーチベースのサービス230は、適切なテキスト応答を受信するのではなく、以前に記録された人間が発声したフレーズを、ビームパターンに付加されるオーディオとして受信することができる。しかし、コマンドを受信しなければ、オーディオシステム200は、以前の動作条件に戻ることができる。一実施形態では、判定ロジック215は、空間ダッキングを除去する前に、警告オーディオの出力を完了した後、少なくとも所定の遅延時間間隔待機する。別の実施形態では、判定ロジック215は、空間ダッキングを除去する前に、VPAと聴取者の間の会話が終了したことを示すスピーチベースのサービス230からの別の警告メッセージ235を受信するまで待機する。したがって、一実施形態では、空間ダッキングされた(例えば、中央側レンダリングモードで指向性パターンに移動された)プログラムオーディオの部分は、楽曲又は動画フィルムサウンドトラックの連続する区間であり、その持続時間は、聴取者と仮想携帯端末の間の会話の持続時間と一致する。
一実施形態では、判定ロジック215は、コンテンツコンテキストルーチン(図2Aに示す)によって決定されるように、ラウドスピーカキャビネット110によって現在出力されているサウンドプログラムコンテンツのコンテキストに基づいてプログラムオーディオを空間ダッキングするかどうかを判定することができる。例えば、サウンドプログラムコンテンツが動画フィルム又は映画の楽曲若しくはオーディオサウンドトラック(例えば、5.1サラウンドフォーマット)である場合、判定ロジック215は、警告メッセージ235の受信に応答してプログラムオーディオを空間ダッキングすることを判定することができる。しかしながら、サウンドプログラムコンテンツのコンテキストが主に対話(例えば、ポッドキャスト又はオーディオブック)が存在することを示す場合、判定ロジック215は、警告オーディオが出力されている間に、単にプログラムオーディオの音量を大きく低下させることができる。この判定は、VPAのスピーチである警告オーディオを出力し、主に対話を含むサウンドプログラムコンテンツを出力し続けることは、2つの異なるトピックについて同時に話す、2つの同時の話し手(例えば、対話及びVPAのスピーチ)が存在するので、聴取者にとって非常に混乱を招き得るという事実に基づくことができる。
図4及び図6、図7は、ラウドスピーカキャビネット110が異なるモードでプログラムオーディオをレンダリングしている間に実行される空間ダッキングの効果を示す例を示す。これらの各図は、図2Aのシステムブロック図を参照して記載されている。図4は、主拡散レンダリングモードでレンダリングされているプログラムオーディオが空間ダッキングされている間に、この例では聴取者の位置に向いているビームを介して警告オーディオを出力する効果を示す。図4は2つの段階を示している。左の段階では部屋400が示されていて、その中でスピーカキャビネット110が部屋の一方の側でプログラムオーディオを出力しているが、聴取者415が部屋400の別の側で聴取している。プログラムオーディオを出力するために、ラウドスピーカキャビネット110は、図3に示す主拡散レンダリングモードを使用している。主コンテンツパターン305は、聴取者415に向けられた、プログラムオーディオの部分の相関(又は直接)オーディオコンテンツ(それは主コンテンツパターン305内に中実黒円として示されている)を含む。同時に、聴取者415から離れるように向けられたプログラムオーディオの別の部分の非相関(又は拡散)オーディオコンテンツを含む2つの拡散コンテンツパターン310及び315が存在する。例えば、主コンテンツパターン305におけるプログラムオーディオの部分は、映画シーンにおける対話であってもよく、一方、拡散コンテンツパターン310、315におけるプログラムオーディオの部分は、映画シーンにおける周囲サウンド(鳥の鳴き声など)であってもよい。
聴取者415が部屋400内のラウドスピーカキャビネット110によって出力されているサウンドプログラムコンテンツを聴取している間、聴取者415は、トリガフレーズ420「ヘイ、ハル!」を発声してラウドスピーカキャビネット110のVPAとの会話(又はセッション)を開始する。ラウドスピーカキャビネット110は、プログラムオーディオを空間ダッキングすることによってそのトリガフレーズに応答し、一方聴取者の発声トリガフレーズに対する適切な応答を含む警告オーディオを出力するーこれは図4の右の段階に示されている。具体的には、ラウドスピーカキャビネット110は、主コンテンツパターン305内のプログラムオーディオの部分の相関オーディオコンテンツを非相関化することによって(例えば、プログラムオーディオの1つ以上の入力オーディオチャネルに残響を付加することによって)、プログラムオーディオを空間ダッキングし、それを拡散コンテンツパターン310及び/又は315の少なくとも1つに移動させる。新たに非相関化されたコンテンツは、拡散コンテンツパターン310及び315内に含まれる、中空円として図示される。プログラムオーディオは、ここで、部屋400内で拡散の方法で出力されており、それは、聴取者がプログラムオーディオが背景で出力されていると知覚することをもたらす。同時に、図4の右の段階に示すように、警告オーディオが主コンテンツパターン305にレンダリングおり、それは、聴取者415が口頭応答425「私はあなたをどのように助けることができますか デーブ?」を聴取することをもたらす。この例では、暗い太い線は、主コンテンツパターン305への警告オーディオの付加及び出力を示す。
前述のように、ラウドスピーカキャビネット110は、聴取者415が追従コマンドを発声することを可能にするために、最初にプログラムオーディオを空間ダッキングさせ、特定の時間量(例えば、1秒)待機し、警告オーディオを出力し、空間ダッキングを除去する前に延長された時間量(例えば、3秒)待機する。別の実施形態では、オーディオシステムは、プログラムオーディオを空間ダッキングさせ、同時に警告オーディオを付加することができる。
室内インパルス応答(RIR)の概念は、空間ダッキングの影響を示すのに使用され得る。図4に示すように、左の段階は、RIRが、直接サウンド401、初期反射402、及び遅延反射403に対応するピークを有するプログラムオーディオ404をどのように「含む」かを示す。左の段階では、これらのピークは、様々なビーム、例えば主コンテンツパターン305、左拡散パターン310、及び右拡散パターン315のオーディオコンテンツにマッピングされる。右の段階では、プログラムオーディオ404の初期反射の直接及び少なくとも一部が抑制され、代わりに、主コンテンツパターン305によって放出された警告オーディオに関連付けられたサウンド426(例えば、直接及び初期反射)が付加される。聴取者415は、プログラムオーディオ404の直接及び初期反射(の少なくとも一部)を抑制することによって、ラウドスピーカキャビネット110からの鮮明で分かりやすい口頭応答425を聴取することができる。右の段階に見られるように、プログラムオーディオ404は、直接サウンド及び初期反射において抑制されているが、拡散された(又は空間ダッキングされた)プログラムオーディオ404は、遅延反射403(又は残響)に依然として存在する。非相関オーディオコンテンツ435(拡散コンテンツパターン310及び315内の中空の円として示される)が付加されると、残響403の密度は、右の段階に見られるように増加されている。
上記のように導入されたRIR概念は、聴取者415に対する空間ダッキングの効果、特に、サウンド出力の見かけの発生源(例えば、ラウドスピーカキャビネット110)がどのように「ぼかされて」いるか、又はむしろ聴取者415に容易には識別できないか、を示す助けとなる。例えば、残響403内に含まれるプログラムオーディオ404を残存させながら、プログラムオーディオ404に関連付けられた直接サウンド及び初期反射(の少なくとも一部)を抑制することは、聴取者415を拡散環境に置いて、プログラムオーディオが発生した場所の任意の表示を除去するか又はぼかす。言い換えると、この拡散環境は、聴取者415に、プログラムオーディオが「背景」で出力されているという知覚を与え、それは、例えば、非常に大きな部屋、大ホール、又は大聖堂でオーディオを聴取するのと同じ効果を与える。次いで、相関(及びモノラル)警告オーディオを主コンテンツパターン305に付加することは、警告オーディオが「前景」にあるという印象を聴取者415に与える。更に、初期反射402から少なくともプログラムオーディオ404の部分を除去することによって、初期反射402においてラウドスピーカキャビネット110によって生成される任意の他のサウンドの干渉なしに、聴取者415が、警告オーディオ426に関連付けられた鮮明で理解しやすい口頭応答を聴取することが可能になる。したがって、プログラムオーディオを空間ダッキングすることは、聴取者415が、VPAを明確に聴取することができる一方で、サウンドプログラムコンテンツのプログラムオーディオの出力を停止する必要なく、VPAとの会話を開始して実行することを可能にする。
図6は警告オーディオを出力する効果を示すが、中央側レンダリングモードでレンダリングされているプログラムオーディオが空間ダッキングされている。具体的には、図6は2つの段階を示し、そこでは、聴取者からコマンド(トリガフレーズを含んでもよい)を受信することに応答して、高次の中央側レンダリングモードで出力されているプログラムオーディオを、スピーカキャビネット110が空間ダッキングする。
第1の(又は上部の)段階は部屋400を示しており、そこではラウドスピーカキャビネット110が部屋の中央でサウンドプログラムコンテンツのプログラムオーディオを出力しており、聴取者415が部屋400の右側で聴取している。プログラムオーディオを出力するために、ラウドスピーカキャビネット110は、図5に示す高次の中央側レンダリングモードを使用している。具体的には、ラウドスピーカキャビネット110は、少なくともプログラムオーディオの1つの部分の相関オーディオコンテンツ(全方向性パターン505内に中実黒円として示されている)を含む全方向性パターン505、並びにそれぞれが少なくともプログラムオーディオの1つの部分の非相関オーディオコンテンツを含む、4つのローブ515a、b及び520a、bを有する指向性パターン525、を生成している。前述のように、これらのビームパターンは、プログラムオーディオの2つ以上の入力オーディオチャンネルの結合及び/又は差分のいずれかで構成され得る。図4のラウドスピーカキャビネットと同様に、判定ロジック215は、その判定(又は選択)に基づいて、前述と同じ要因に基づいて高次の中央側レンダリングモードを使用してプログラムオーディオをレンダリングしてもよい。例えば、一実施形態では、判定ロジック215は、それは部屋400の中央に(又は任意の壁からの閾値距離を超えて)あると判定した(例えば、センサデータを介して)ので、高次中央側レンダリングモードを選択した。
図6の上部の段階では、聴取者415は、ラウドスピーカキャビネット110(特に、ラウドスピーカキャビネット110のオーディオシステム200内で動作するVPA)にコマンド(例えば、質問)を尋ねて、トリガフレーズで先行される回答を促す。具体的には、聴取者415は、トリガフレーズ615「ヘイ ハル、何の曲を再生していますか?」と発声することができる。前述のように、ラウドスピーカキャビネット(マイクロフォンを介して)は、発声された質問のサウンドを、それをオーディオ信号に変換することによって感知し、それは、次いで、スピーチベースのサービス230のトリガフレーズ検出器(自動スピーチレコグナイザ)に供給され得る−図2A参照。トリガフレーズ「ヘイ ハル」が検出され得る。しかし、前述の例とは異なり、聴取者415は、トリガフレーズ(例えば、「何の曲を再生しています?)による追従コマンドも含ませている。スピーチベースのサービス230は、トリガフレーズに続く追加のスピーチ信号があることを認識し、追加のスピーチ信号をインターネットを介して携帯端末サーバに送信することができる。サーバは、追加のスピーチ信号を分析してその中のスピーチを認識し、スピーチベースのサービス230に送り返される適切なテキスト応答を形成することができる。スピーチベースのサービス230が適切なテキスト応答を受信すると、TTSシステムはテキスト応答をオーディオ信号に合成し、それはビームパターンに付加される警告オーディオとなる。別の実施形態では、テキストベースの応答の代わりに、スピーチベースのサービス230は、サーバから以前に記録された人間が発声した応答を受信することができる(これは警告オーディオとなる)。警告オーディオがビームパターンに付加されるためには、スピーチベースのサービスは警告メッセージ235を判定ロジック215に提供し、それを通知してプログラムオーディオを空間ダッキングさせ、取得された警告オーディオ(フレーズ615に応答する)を出力する。
図6の次の(又は下部の)段階は、プログラムオーディオを空間ダッキングするスピーカキャビネット110を示すとともに、VPAによるコマンド応答を含む警告オーディオを出力する。具体的には、ラウドスピーカキャビネット110は、(i)相関オーディオコンテンツ(第1の段階で全方向性パターン505内に中実黒円として示されている)を非相関化し、それによって(ii)非相関コンテンツを全方向性パターン505から指向性パターン525に移動させること、によってプログラムオーディオを空間ダッキングした。付加された非相関オーディオコンテンツは、指向性ビーム525のローブ内に含まれる中空の円として示されている。一実施形態では、非相関オーディオコンテンツは、上部の段階に示され、それから導出される全方向性パターン505内の相関化オーディオコンテンツ(中実黒円)の位置に基づいて指向性パターン525のローブに付加される。例えば、ラウドスピーカキャビネット110は、相関コンテンツの特定のセクションを指向性パターン525の隣接するローブに指定することができる。各ローブは、スピーカキャビネット110に対して各隣接ローブから90度だけ離れているので、各ローブの両側の周り45度以内の相関オーディオコンテンツから導出された非相関コンテンツがそのローブに付加される。例えば、前方指向ローブ520aはラウドスピーカキャビネットから0度で放出されると仮定する。45度と−45度の間及び全方向性パターン505内にある相関オーディオコンテンツから導出された非相関オーディオコンテンツは、次いで、プログラムオーディオが空間ダッキングされたときに、前方指向性ローブ520aに続いて移動される。プログラムオーディオが空間ダッキングされると、オーディオシステム200は、全方向性パターン505に警告オーディオを付加して、「’I’d rather go blind’by Chicken Shack」630によってコマンド応答を出力する。警告オーディオが出力され、スピーチベースのサービス230が聴取者415から追従質問/コマンドを感知しないと、ラウドスピーカキャビネット110は空間ダッキングを除去し、相関オーディオコンテンツを全方向性パターン505に戻す。
一実施形態では、中央側レンダリングモード中にラウドスピーカキャビネット110によって測定されたインパルス応答は、主拡散レンダリングモードに対して測定されたインパルス応答と同様であってもよく、それは図4に示される。特に、プログラムオーディオサウンドの相関オーディオコンテンツは非相関化されて指向性パターン525に移動されるので、これはプログラムオーディオの直接かつ初期の反射の抑制をもたらすことができ、警告オーディオからの口頭応答のサウンドがとって代わることができる。これは、口頭応答のサウンドが、聴取者415によって前景にあると知覚され得るが、非相関プログラムオーディオは背景にあるという点で、主拡散レンダリングモードと同様の結果を有することができる。
一実施形態では、ラウドスピーカキャビネット110は、図6に記載のプロセスの変形を実行することができる。例えば、図2Aを参照して、警告メッセージ235は、トリガフレーズ検出器がトリガフレーズ「ヘイ ハル」(図4と同様に)を検出した後に、スピーチベースのサービス230から判定ロジック215に供給され得る。この例では、判定ロジック215は、携帯端末サーバから受信される聴取者コマンドに応答するための警告オーディオを付加することを想定して、プログラムオーディオを空間ダッキングすることができる。応答を受信する前にプログラムオーディオを空間ダッキングすることにより、聴取者は、VPAが聴取者のコマンドを聴取して、適切な応答を形成/取得していることを認識させられる。そうでない場合には、聴取者は、VPAがトリガフレーズ及び/又はコマンドをそもそも聴取したかどうかを、疑うままであり得る。
前述の例は、警告オーディオを出力する効果を示しているが、単一のラウドスピーカキャビネットによって出力されているプログラムオーディオは空間ダッキングされている。図7は、ラウドスピーカキャビネットの少なくとも1つで警告オーディオを出力させるために、2つのラウドスピーカキャビネットで出力されているプログラムオーディオを空間ダッキングする例を示す。具体的には、図7は、聴取者からのコマンド(例えば、トリガフレーズ)の受信に応答して、2つのラウドスピーカキャビネット110及び715が、高次中央側レンダリングモードで出力されているプログラムオーディオを、空間ダッキングする2つの段階を示す。
第1(又は上部)の段階は、サウンドプログラムコンテンツのプログラムオーディオを出力するいくつかのラウドスピーカキャビネット110及び715を、高次の中央側レンダリングモードで示す。具体的には、ラウドスピーカキャビネット110は、部屋400の上左部分でプログラムオーディオを出力しており、ラウドスピーカキャビネット715は、部屋400の上右部分でプログラムオーディオを出力しており、聴取者415は、部屋400の左のより低い側に向かう位置で聴取している。一実施形態では、両方のラウドスピーカキャビネットが同じプログラムオーディオを出力するために、(例えば、BLUETOOTHプロトコル又は無線ローカルエリアネットワークリンクを使用して)通信リンクをそれらの間に確立することができる。確立された通信リンクによって、両方のデバイスは、任意の従来の手段(例えば、各キャビネットの内部クロックを同期させるための同期メッセージの交換)を介して、そのオーディオ出力を同期させることができる。一実施形態では、ラウドスピーカキャビネット110及び715の両方は、各々、オーディオソース(例えば、スマートフォン、ラップトップ、又はタブレット)との確立された通信リンクを有し、出力のためにキャビネットにプログラムオーディオを送信することができる。
一実施形態では、両方のラウドスピーカキャビネット110、715は、サウンドプログラムコンテンツの同じプログラムオーディオを出力してもよい。例えば、各ラウドスピーカキャビネットによって放射されるビームパターンは、プログラムオーディオの同じ部分を含むことができる。このようにして、聴取者415は、ラウドスピーカキャビネットによって生成されたサウンドに完全に没入され得る。別の実施形態では、ラウドスピーカキャビネットは、プログラムオーディオの異なる部分を出力することができる。例えば、ラウドスピーカキャビネット110は部屋400の左側にあるので、それは、それ自体がバイアスされてプログラムオーディオの右チャネルのより大きな部分を出力するラウドスピーカキャビネット715よりも、バイアスされてプログラムオーディオの左側のチャンネルのより大きな部分を出力することができる。
上部の段階では、聴取者415は、(例えばVPAの)質問を尋ね、それはラウドスピーカキャビネット110及び715の両方(例えば、そのマイクロフォン)によって感知される。具体的には、聴取者415は、「ヘイ ハル、今何時ですか?」720と、発声する。この時点で、どのラウドスピーカキャビネットが警告オーディオ(VPAの応答を含む)を出力する責任を負うべきかに関して決定がなされ得る。この決定は、いくつかの要因に基づき得る。例えば、センサデータとユーザインターフェース選択の任意の適切な組み合わせを使用して、ラウドスピーカキャビネットの1つで動作するコンピューティングプロセスは、この責任を、聴取者415に最も近いラウドスピーカキャビネットに割り当てることができる。ラウドスピーカキャビネットは、各ラウドスピーカキャビネットに対する聴取者までの距離を自動的に決定することができ、したがってこの場合の責任はラウドスピーカキャビネット110に割り当てられ得るが、それは聴取者415からのその距離「r1」が、聴取者415からのラウドスピーカキャビネット715の距離「r2」より短いためである。2つのキャビネットのうちの1つだけに警告オーディオを出力させる判定は、混乱させるか又は混乱をもたらして複数のラウドスピーカキャビネットにVPAの同じ口頭応答を出力させ得るという要因により得る。例えば、聴取者415はラウドスピーカキャビネット110により近いので、両方のラウドスピーカキャビネットが、相関コンテンツとして全方向性パターン505に付加された同じ警告オーディオを出力することになると、聴取者415は不快なエコーを経験し得る。
図7の次の(又は下部の)段階は、ラウドスピーカキャビネット110が警告オーディオを出力する責任を担っているが、ラウドスピーカキャビネット110及び715の両方はプログラムオーディオを空間ダッキングする(警告オーディオ出力中)ことを示す。具体的には、各ラウドスピーカキャビネットは、図4及び図6に関連して上述のものと同様の方法で、プログラムオーディオのその部分を空間ダッキングすることができる。例えば、ラウドスピーカキャビネット110は、その全方向性パターンに警告オーディオを付加して、「昼食の時間です!」という口頭応答725を出力することができる。一方、他のラウドスピーカキャビネット715は警告オーディオを出力しないが、そのプログラムオーディオを空間ダッキングするので、それは全方向性パターン(点線の全方向性パターン730として示される)で可聴コンテンツを単に生成することはできない。後者は、キャビネット715が依然として全方向性のコンテンツをその指向性パターンで放射しているので、拡散サウンド環境に効果的に付加される。警告オーディオの出力が完了すると、両方のラウドスピーカキャビネットが通常のレンダリングモードに戻ることができる(それらは警告オーディオをトリガするイベントに先立っていたので)。
本発明の実施形態は、非一時的機械可読媒体(マイクロ電子メモリなど)であることができ、1つ以上のデータ処理構成要素(総称して、本明細書では「プロセッサ」と呼ぶ)をプログラムする命令をそこに記憶して、受信、レンダリング、移動、トリガ、開始、シグナリング、生成、分析、比較、フィルタリング、適用、結合及び減算を含む上述のデジタル信号処理動作を実行する。他の実施形態では、これらの動作の一部は、特定の機能(例えば、専用デジタルフィルタブロック)を実行する配線された又はプログラム可能なロジックコンポーネントによって実行されてもよい。あるいは、これらの動作は、プログラム可能なプロセッサと、配線された又はプログラム可能なロジックコンポーネントの任意の組み合わせによって実行されてもよい。
いくつかの実施形態を記述し添付の図面に図示してきたが、このような実施形態は、大まかな発明を例示するものにすぎず、限定するものではないこと、また、他の様々な更が当業者によって想起され得るので、本発明は、図示及び記載した特定の構成及び配置には限定されないことが理解されるべきである。よって、説明は、限定的ではなく例示的であるとみなされるべきである。

Claims (20)

  1. ビーム形成ラウドスピーカアレイを介して出力されるオーディオを調節する方法であって、
    前記ラウドスピーカアレイによってサウンドに変換されるサウンドプログラムコンテンツのプログラムオーディオを受信することと、
    前記ラウドスピーカアレイを駆動して、ii)複数の拡散コンテンツパターンと重ね合わされたi)主コンテンツパターンであって、前記主コンテンツパターン及び前記拡散コンテンツパターンは、前記プログラムオーディオの部分を含んで異なる方向に向けられる、主コンテンツパターンを有するサウンドビームを生成することと、
    警告オーディオに関連付けられた警告メッセージを受信することと、
    前記警告メッセージの受信に応答して
    前記主コンテンツパターン内の前記プログラムオーディオの前記部分を前記複数の拡散コンテンツパターンに移動させることと、
    前記ラウドスピーカアレイを前記警告オーディオで駆動して前記主コンテンツパターン内の前記プログラムオーディオの前記部分を置換することと、
    を含む方法。
  2. 前記主コンテンツパターンから前記複数の拡散コンテンツパターンに移動される前記プログラムオーディオの前記部分を非相関化することを更に含む、請求項1に記載の方法。
  3. 前記プログラムオーディオは複数の入力オーディオチャネルを含み、前記非相関化することは
    前記プログラムオーディオの前記部分に残響を付加することを含む、請求項2に記載の方法。
  4. 前記主コンテンツパターンから前記複数の拡散コンテンツパターンへ移動される前記プログラムオーディオの前記部分の音量レベルを低減することを更に含む、請求項2に記載の方法。
  5. 前記警告オーディオの出力が完了されたことに応答して、前記拡散コンテンツパターン内にある前記プログラムオーディオの前記部分を前記主コンテンツパターンに移動させて戻すことを更に含む、請求項1に記載の方法。
  6. 聴取者が話すトリガフレーズを認識するトリガフレーズ検出器に応答して前記警告メッセージを提供することを更に含む、請求項1に記載の方法。
  7. 前記警告オーディオは
    仮想携帯端末から口頭応答を含む、請求項1に記載の方法。
  8. 聴取者の位置に基づいて前記主コンテンツパターンが前記聴取者の前記位置に向けられ、前記拡散コンテンツパターンが前記聴取者の前記位置から離れるように向けられる、前記聴取者の前記位置を決定することを更に含む、請求項1に記載の方法。
  9. ビーム形成ラウドスピーカアレイを介して出力されるオーディオを調節する方法であって、
    前記ラウドスピーカアレイによってサウンドに変換されるサウンドプログラムコンテンツのプログラムオーディオを受信することと、
    前記プログラムオーディオをレンダリングして、前記ラウドスピーカアレイを駆動して、ii)複数のローブを有する指向性パターンと重ね合わされたi)全方向性パターンであって、前記全方向性パターン及び前記複数のローブは前記プログラムオーディオの部分を含む、全方向性パターンを有するサウンドビームを生成することと、
    警告オーディオを参照する警告メッセージを受信することと、
    前記警告メッセージの受信に応答して
    前記全方向性パターン内の前記プログラムオーディオの前記部分を前記複数のローブに移動させることと、
    前記警告オーディオをレンダリングして前記ラウドスピーカアレイを駆動して、前記全方向性パターンの前記プログラムオーディオの前記部分を前記警告オーディオと置換することと、
    を含む方法。
  10. 前記プログラムオーディオは複数の入力オーディオチャネルを含み、前記方法は、前記複数の入力オーディオチャネルの1つに残響を付加して、前記全方向性パターンから前記複数のローブに移動された前記プログラムオーディオの前記部分を非相関化することを更に含む、請求項9に記載の方法。
  11. 前記サウンドプログラムコンテンツはi)楽曲又はii)動画フィルムのサウンドトラックのいずれかであり、前記指向性パターンに移動される前記プログラムオーディオの前記部分は、聴取者と仮想携帯端末の間の会話と持続時間が一致する前記楽曲又はサウンドトラックの連続間隔をカバーする、請求項9に記載の方法。
  12. 命令が記憶された機械可読媒体を備えた製造物品であって、プロセッサによって実行される場合、前記命令は、
    ラウドスピーカアレイによってサウンドに変換されるサウンドプログラムコンテンツのプログラムオーディオを受信し、
    前記プログラムオーディオをレンダリングして前記ラウドスピーカアレイを駆動し、ii)複数の拡散コンテンツパターンと重ね合わされたi)主コンテンツパターンであって、前記主コンテンツパターン及び前記拡散コンテンツパターンは、前記プログラムオーディオの部分を含んで異なる方向に向けられる、主コンテンツパターンを有するサウンドビームを生成し、
    警告オーディオを参照する警告メッセージを受信し、
    前記警告メッセージの受信に応答して
    前記主コンテンツパターン内の前記プログラムオーディオの前記部分を前記複数の前記拡散コンテンツパターンに移動させ、
    前記警告オーディオをレンダリングして前記ラウドスピーカアレイを駆動して、前記主コンテンツパターンの前記プログラムオーディオの前記部分を前記警告オーディオと置換する、製造物品。
  13. 前記機械可読媒体は、更なる命令を記憶し、前記プロセッサによって実行される場合、前記主コンテンツパターンから前記複数の前記拡散コンテンツパターンに移動される前記プログラムオーディオの前記部分を非相関化する、請求項12に記載の製造物品。
  14. 前記プログラムオーディオは、複数の入力オーディオチャネルを含み、前記プロセッサによって実行される場合、非相関化させる前記命令は、前記プロセッサによって実行される場合、
    前記複数の入力オーディオチャネルの1つに残響を付加して前記主コンテンツパターンから前記複数の拡散コンテンツパターンに移動される前記プログラムオーディオの前記部分を非相関化させる命令を含む、請求項13に記載の製造物品。
  15. 前記機械可読媒体は更なる命令を記憶し、前記プロセッサによって実行される場合、
    前記主コンテンツパターンから前記複数の拡散コンテンツパターンに移動された前記プログラムオーディオの前記部分をローパスフィルタを介してフィルタリングし、前記プログラムオーディオの前記部分から高周波数コンテンツを除去する、請求項13に記載の製造物品。
  16. 前記機械可読媒体は、更なる命令を記憶し、前記プロセッサによって実行される場合、前記主コンテンツパターンから前記複数の拡散コンテンツパターンに移動される前記プログラムオーディオの前記部分の音量レベルを低減する、請求項15に記載の製造物品。
  17. ラウドスピーカアレイを介して出力されたオーディオを調節する方法であって、
    複数の入力オーディオチャネルを備えたプログラムオーディオを受信することと、
    前記プログラムオーディオの相関コンテンツを含む第1のビームフォーマ入力信号、及び前記プログラムオーディオの非相関コンテンツを含む第2のビームフォーマ入力信号を生成することと、
    前記第1及び第2のビームフォーマ入力信号からドライバ信号を生成して前記ラウドスピーカアレイの複数のラウドスピーカドライバを駆動し、主コンテンツビーム及び拡散ビームであって、前記主コンテンツビームは、前記プログラムオーディオの前記相関コンテンツを含み、前記拡散ビームは前記プログラムオーディオの前記非相関コンテンツを含む、主コンテンツビーム及び拡散ビームを生成することと、
    警告オーディオに関連付けられた警告メッセージを受信することと、
    前記警告メッセージの受信に応答して
    (1)前記プログラムオーディオの1つ以上の前記複数の入力オーディオチャネルへの残響、及び(2)前記複数の入力オーディオチャネルのすべてへの前記警告オーディオを付加することと、
    前記残響及び前記警告オーディオの付加に応答して、前記第1及び第2ビームフォーマ入力信号を調節することと、
    を含み、前記調節された第1及び第2のビームフォーマ入力信号から前記生成されたドライバ信号は、i)前記主コンテンツビーム内で、前記警告オーディオの相関コンテンツ、及びii)前記拡散ビーム内で、前記プログラムオーディオの非相関コンテンツを生成する、方法。
  18. 前記複数の入力オーディオチャネルをローパスフィルタを介してフィルタリングして、前記プログラムオーディオから高周波数コンテンツを除去することを更に含む、請求項17に記載の方法。
  19. 前記第1及び第2のビームフォーマ入力信号を生成することは、
    前記残響及び前記警告オーディオが付加された前記複数の入力オーディオチャネルを分析して、相関コンテンツ及び非相関コンテンツを見出すことを含む、請求項17に記載の方法。
  20. 前記ドライバ信号を生成することは、前記残響及び前記警告オーディオが付加されていても変わらないままである前記主コンテンツビーム及び前記拡散ビームのビームパターンを使用することを含む、請求項19に記載の方法。
JP2018092298A 2017-06-02 2018-05-11 ビーム形成ラウドスピーカアレイを介して生成される空間ダッキングオーディオ Active JP6595039B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201762514712P 2017-06-02 2017-06-02
US62/514,712 2017-06-02
US15/967,089 US10531196B2 (en) 2017-06-02 2018-04-30 Spatially ducking audio produced through a beamforming loudspeaker array
US15/967,089 2018-04-30

Publications (2)

Publication Number Publication Date
JP2018207482A JP2018207482A (ja) 2018-12-27
JP6595039B2 true JP6595039B2 (ja) 2019-10-23

Family

ID=62599430

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018092298A Active JP6595039B2 (ja) 2017-06-02 2018-05-11 ビーム形成ラウドスピーカアレイを介して生成される空間ダッキングオーディオ

Country Status (6)

Country Link
US (2) US10531196B2 (ja)
EP (1) EP3410740B1 (ja)
JP (1) JP6595039B2 (ja)
KR (2) KR102074878B1 (ja)
CN (2) CN112584273B (ja)
AU (2) AU2018203165B2 (ja)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USD775185S1 (en) * 2015-03-06 2016-12-27 Apple Inc. Display screen or portion thereof with graphical user interface
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10531196B2 (en) * 2017-06-02 2020-01-07 Apple Inc. Spatially ducking audio produced through a beamforming loudspeaker array
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10674303B2 (en) * 2017-09-29 2020-06-02 Apple Inc. System and method for maintaining accuracy of voice recognition
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
EP3610480B1 (en) * 2017-12-06 2022-02-16 Google LLC Ducking and erasing audio signals from nearby devices
US20190327559A1 (en) * 2018-04-19 2019-10-24 Robert E. Smith Multi-listener bluetooth (bt) audio system
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10237675B1 (en) * 2018-05-22 2019-03-19 Microsoft Technology Licensing, Llc Spatial delivery of multi-source audio content
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) * 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
KR20210148238A (ko) 2019-04-02 2021-12-07 에스와이엔지, 인크. 공간적 오디오 렌더링을 위한 시스템들 및 방법들
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
USD910068S1 (en) 2019-05-28 2021-02-09 Apple Inc. Display screen or portion thereof with graphical user interface
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11363357B2 (en) * 2019-11-21 2022-06-14 Yoshea Daniels PydePyper ultimate mobility system
US11317206B2 (en) * 2019-11-27 2022-04-26 Roku, Inc. Sound generation with adaptive directivity
WO2021118770A1 (en) * 2019-12-12 2021-06-17 Qualcomm Incorporated Selective adjustment of sound playback
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US10945090B1 (en) * 2020-03-24 2021-03-09 Apple Inc. Surround sound rendering based on room acoustics
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
WO2022234871A1 (ko) * 2021-05-04 2022-11-10 엘지전자 주식회사 음장 제어 장치 및 방법
EP4156181A1 (en) * 2021-09-24 2023-03-29 Elektrobit Automotive GmbH Controlling playback of audio data
US20220236360A1 (en) * 2022-04-19 2022-07-28 Intel Corporation Method and system of detection of acoustic source aiming direction

Family Cites Families (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3590430T1 (de) * 1984-08-28 1986-09-18 Matsushita Electric Industrial Co., Ltd., Kadoma, Osaka Lautsprechersystem mit ausgeprägter Richtwirkung
US6389145B2 (en) * 1998-07-24 2002-05-14 Agere Systems Guardian Corp. Methods and apparatus for controlling the output of moving armature transducers
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US7454022B2 (en) * 2001-09-04 2008-11-18 Harman International Industries, Incorporated Multi-mode ambient soundstage system
US6882971B2 (en) * 2002-07-18 2005-04-19 General Instrument Corporation Method and apparatus for improving listener differentiation of talkers during a conference call
JP3821229B2 (ja) * 2002-12-09 2006-09-13 ソニー株式会社 オーディオ信号の再生方法および再生装置
JP4214834B2 (ja) * 2003-05-09 2009-01-28 ヤマハ株式会社 アレースピーカーシステム
JP4127156B2 (ja) * 2003-08-08 2008-07-30 ヤマハ株式会社 オーディオ再生装置、ラインアレイスピーカユニットおよびオーディオ再生方法
US20050136848A1 (en) * 2003-12-22 2005-06-23 Matt Murray Multi-mode audio processors and methods of operating the same
US7079026B2 (en) * 2003-12-31 2006-07-18 Sony Ericsson Mobile Communications Ab Method and apparatus of karaoke storage on a wireless communications device
JP4127248B2 (ja) * 2004-06-23 2008-07-30 ヤマハ株式会社 スピーカアレイ装置及びスピーカアレイ装置の音声ビーム設定方法
US20070269071A1 (en) * 2004-08-10 2007-11-22 1...Limited Non-Planar Transducer Arrays
JP3915804B2 (ja) * 2004-08-26 2007-05-16 ヤマハ株式会社 オーディオ再生装置
JP4625671B2 (ja) * 2004-10-12 2011-02-02 ソニー株式会社 オーディオ信号の再生方法およびその再生装置
US8300841B2 (en) * 2005-06-03 2012-10-30 Apple Inc. Techniques for presenting sound effects on a portable media player
JP4103903B2 (ja) * 2005-06-06 2008-06-18 ヤマハ株式会社 オーディオ装置およびオーディオ装置によるビーム制御方法
WO2007113718A1 (en) 2006-03-31 2007-10-11 Koninklijke Philips Electronics N.V. A device for and a method of processing data
EP1850640B1 (en) * 2006-04-25 2009-06-17 Harman/Becker Automotive Systems GmbH Vehicle communication system
US7606380B2 (en) * 2006-04-28 2009-10-20 Cirrus Logic, Inc. Method and system for sound beam-forming using internal device speakers in conjunction with external speakers
US20070283395A1 (en) * 2006-06-01 2007-12-06 Sony Ericsson Mobile Communications Ab Communication terminal with sender-specific alert signals
US8005238B2 (en) * 2007-03-22 2011-08-23 Microsoft Corporation Robust adaptive beamforming with enhanced noise suppression
JP4561785B2 (ja) * 2007-07-03 2010-10-13 ヤマハ株式会社 スピーカアレイ装置
US9031267B2 (en) * 2007-08-29 2015-05-12 Microsoft Technology Licensing, Llc Loudspeaker array providing direct and indirect radiation from same set of drivers
US8009838B2 (en) * 2008-02-22 2011-08-30 National Taiwan University Electrostatic loudspeaker array
US8848951B2 (en) * 2008-03-13 2014-09-30 Koninklijke Philips N.V. Speaker array and driver arrangement therefor
JP5316189B2 (ja) * 2008-05-23 2013-10-16 ヤマハ株式会社 Avシステム
US8379891B2 (en) * 2008-06-04 2013-02-19 Microsoft Corporation Loudspeaker array design
JP5212023B2 (ja) * 2008-11-04 2013-06-19 ヤマハ株式会社 遅延時間算出装置およびプログラム
US20100201530A1 (en) * 2009-02-12 2010-08-12 James David Wende System And Method For Carbon Monoxide Detection And Warning
US8428758B2 (en) * 2009-02-16 2013-04-23 Apple Inc. Dynamic audio ducking
JP5293291B2 (ja) * 2009-03-11 2013-09-18 ヤマハ株式会社 スピーカアレイ装置
US8396233B2 (en) * 2009-09-02 2013-03-12 Texas Instruments Incorporated Beam forming in spatialized audio sound systems using distributed array filters
US8190438B1 (en) * 2009-10-14 2012-05-29 Google Inc. Targeted audio in multi-dimensional space
US20110096941A1 (en) * 2009-10-28 2011-04-28 Alcatel-Lucent Usa, Incorporated Self-steering directional loudspeakers and a method of operation thereof
EP2375779A3 (en) * 2010-03-31 2012-01-18 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for measuring a plurality of loudspeakers and microphone array
EP2426949A3 (en) * 2010-08-31 2013-09-11 Samsung Electronics Co., Ltd. Method and apparatus for reproducing front surround sound
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
JP5821172B2 (ja) * 2010-09-14 2015-11-24 ヤマハ株式会社 スピーカ装置
US8625774B2 (en) * 2010-12-14 2014-01-07 Blackberry Limited Method and apparatus for generating a subliminal alert
KR101785379B1 (ko) * 2010-12-31 2017-10-16 삼성전자주식회사 공간 음향에너지 분포 제어장치 및 방법
US9432237B2 (en) * 2011-02-16 2016-08-30 Clearone, Inc. VOIP device, VOIP conferencing system, and related method
EP2829048B1 (en) 2012-03-23 2017-12-27 Dolby Laboratories Licensing Corporation Placement of sound signals in a 2d or 3d audio conference
US10448161B2 (en) * 2012-04-02 2019-10-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for gestural manipulation of a sound field
US9119012B2 (en) * 2012-06-28 2015-08-25 Broadcom Corporation Loudspeaker beamforming for personal audio focal points
US9384737B2 (en) 2012-06-29 2016-07-05 Microsoft Technology Licensing, Llc Method and device for adjusting sound levels of sources based on sound source priority
US20140006017A1 (en) * 2012-06-29 2014-01-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for generating obfuscated speech signal
JP5731074B2 (ja) 2012-12-27 2015-06-10 パイオニア株式会社 音出力部制御装置及び音出力部制御方法
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
CN103152483B (zh) * 2013-03-04 2015-07-08 广东欧珀移动通信有限公司 一种利用移动设备监测靠近物体的方法和装置
AU2014225904B2 (en) * 2013-03-05 2017-03-16 Apple Inc. Adjusting the beam pattern of a speaker array based on the location of one or more listeners
WO2014151857A1 (en) * 2013-03-14 2014-09-25 Tiskerling Dynamics Llc Acoustic beacon for broadcasting the orientation of a device
JP6193468B2 (ja) * 2013-03-14 2017-09-06 アップル インコーポレイテッド スピーカアレイを用いた堅牢なクロストークキャンセル
US9118767B1 (en) * 2013-03-28 2015-08-25 Sprint Communications Company L.P. Communication device audio control to combine incoming audio and select outgoing audio destinations
US9462115B2 (en) 2013-04-04 2016-10-04 James S. Rand Unified communications system and method
DE102013217367A1 (de) * 2013-05-31 2014-12-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren zur raumselektiven audiowiedergabe
CN105264914B (zh) * 2013-06-10 2017-03-22 株式会社索思未来 音频再生装置以及方法
US9426598B2 (en) * 2013-07-15 2016-08-23 Dts, Inc. Spatial calibration of surround sound systems including listener position estimation
AU2014353473C1 (en) * 2013-11-22 2018-04-05 Apple Inc. Handsfree beam pattern configuration
GB201321325D0 (en) * 2013-12-03 2014-01-15 Ecole Polytechnique F D Rale De Lausanne A sound diffusion system for directional sound enhancement
KR101739716B1 (ko) * 2014-02-06 2017-05-24 방 앤드 오루프센 에이/에스 지향성 제어용 스피커 트랜스듀서 장치
US9578436B2 (en) * 2014-02-20 2017-02-21 Bose Corporation Content-aware audio modes
WO2015178950A1 (en) * 2014-05-19 2015-11-26 Tiskerling Dynamics Llc Directivity optimized sound reproduction
CN111010635B (zh) * 2014-08-18 2022-08-30 苹果公司 旋转对称的扬声器阵列
WO2016028263A1 (en) * 2014-08-18 2016-02-25 Nunntawi Dynamics Llc Optimizing the performance of an audio playback system with a linked audio/video feed
US10275138B2 (en) * 2014-09-02 2019-04-30 Sonos, Inc. Zone recognition
KR101926013B1 (ko) * 2014-09-26 2018-12-07 애플 인크. 구성가능한 구역을 구비한 오디오 시스템
CN107113527A (zh) * 2014-09-30 2017-08-29 苹果公司 确定扬声器位置变化的方法
US10063984B2 (en) * 2014-09-30 2018-08-28 Apple Inc. Method for creating a virtual acoustic stereo system with an undistorted acoustic center
EP3202159B1 (en) * 2014-09-30 2020-08-05 Apple Inc. Loudspeaker with reduced audio coloration caused by reflections from a surface
CN111479205B (zh) * 2014-09-30 2022-02-18 苹果公司 用于水平波束控制的多驱动器声号筒
WO2016074734A1 (en) * 2014-11-13 2016-05-19 Huawei Technologies Co., Ltd. Audio signal processing device and method for reproducing a binaural signal
JP6543957B2 (ja) * 2015-02-26 2019-07-17 ヤマハ株式会社 スピーカアレイ装置
US9880735B2 (en) 2015-08-10 2018-01-30 Apple Inc. Devices, methods, and graphical user interfaces for manipulating user interface objects with visual and/or haptic feedback
WO2017039633A1 (en) * 2015-08-31 2017-03-09 Nunntawi Dynamics Llc Spatial compressor for beamforming speakers
US10244317B2 (en) * 2015-09-22 2019-03-26 Samsung Electronics Co., Ltd. Beamforming array utilizing ring radiator loudspeakers and digital signal processing (DSP) optimization of a beamforming array
CN106572418A (zh) * 2015-10-09 2017-04-19 芋头科技(杭州)有限公司 一种语音助手的扩展设备及其工作方法
US9955235B2 (en) * 2015-12-15 2018-04-24 Sony Corporation System and method to communicate an emergency alert message
US9774979B1 (en) * 2016-03-03 2017-09-26 Google Inc. Systems and methods for spatial audio adjustment
US9955260B2 (en) * 2016-05-25 2018-04-24 Harman International Industries, Incorporated Asymmetrical passive group delay beamforming
US10405125B2 (en) * 2016-09-30 2019-09-03 Apple Inc. Spatial audio rendering for beamforming loudspeaker array
CN106531165A (zh) * 2016-12-15 2017-03-22 北京塞宾科技有限公司 一种便携式智能家居语音控制系统及控制方法
US10469973B2 (en) * 2017-04-28 2019-11-05 Bose Corporation Speaker array systems
US10349199B2 (en) * 2017-04-28 2019-07-09 Bose Corporation Acoustic array systems
US20180341455A1 (en) * 2017-05-25 2018-11-29 Motorola Mobility Llc Method and Device for Processing Audio in a Captured Scene Including an Image and Spatially Localizable Audio
US10019981B1 (en) 2017-06-02 2018-07-10 Apple Inc. Active reverberation augmentation
US10531196B2 (en) * 2017-06-02 2020-01-07 Apple Inc. Spatially ducking audio produced through a beamforming loudspeaker array
US10264351B2 (en) * 2017-06-02 2019-04-16 Apple Inc. Loudspeaker orientation systems

Also Published As

Publication number Publication date
EP3410740A1 (en) 2018-12-05
US20200107122A1 (en) 2020-04-02
US10531196B2 (en) 2020-01-07
CN108989953A (zh) 2018-12-11
EP3410740B1 (en) 2021-09-08
CN112584273A (zh) 2021-03-30
AU2018203165A1 (en) 2018-12-20
AU2020201425A1 (en) 2020-03-19
US10856081B2 (en) 2020-12-01
KR20180132521A (ko) 2018-12-12
CN112584273B (zh) 2023-05-09
KR102222866B1 (ko) 2021-03-03
KR20200015662A (ko) 2020-02-12
US20180352334A1 (en) 2018-12-06
AU2018203165B2 (en) 2019-12-12
JP2018207482A (ja) 2018-12-27
KR102074878B1 (ko) 2020-02-07
CN108989953B (zh) 2020-12-29
AU2020201425B2 (en) 2021-02-25

Similar Documents

Publication Publication Date Title
JP6595039B2 (ja) ビーム形成ラウドスピーカアレイを介して生成される空間ダッキングオーディオ
US10440492B2 (en) Calibration of virtual height speakers using programmable portable devices
JP6186436B2 (ja) 個々に指定可能なドライバへの上方混合されたコンテンツの反射されたおよび直接的なレンダリング
US7864631B2 (en) Method of and system for determining distances between loudspeakers
JP6085029B2 (ja) 種々の聴取環境におけるオブジェクトに基づくオーディオのレンダリング及び再生のためのシステム
JP6078556B2 (ja) オーディオ・レンダリング・システムおよびそのための方法
US20130315402A1 (en) Three-dimensional sound compression and over-the-air transmission during a call
JP7271695B2 (ja) ハイブリッドスピーカ及びコンバータ
JP2016509429A (ja) オーディオ装置及びそのための方法
US10438580B2 (en) Active reverberation augmentation
US10945090B1 (en) Surround sound rendering based on room acoustics
WO2022054900A1 (ja) 情報処理装置、情報処理端末、情報処理方法、およびプログラム
CN111919455B (zh) 分配环境信号到多个环境信号通道的音频信号处理器、系统和方法
Gan et al. Assisted Listening for Headphones and Hearing Aids

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180528

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190416

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190603

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190729

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190925

R150 Certificate of patent or registration of utility model

Ref document number: 6595039

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250