JP6947936B2 - カンファレンスのためのサブバンド空間処理およびクロストークキャンセルシステム - Google Patents

カンファレンスのためのサブバンド空間処理およびクロストークキャンセルシステム Download PDF

Info

Publication number
JP6947936B2
JP6947936B2 JP2020532786A JP2020532786A JP6947936B2 JP 6947936 B2 JP6947936 B2 JP 6947936B2 JP 2020532786 A JP2020532786 A JP 2020532786A JP 2020532786 A JP2020532786 A JP 2020532786A JP 6947936 B2 JP6947936 B2 JP 6947936B2
Authority
JP
Japan
Prior art keywords
channel
client device
stream
mixed
spatial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020532786A
Other languages
English (en)
Other versions
JP2021507284A (ja
Inventor
セルデス ザッカリー
セルデス ザッカリー
Original Assignee
ブームクラウド 360 インコーポレイテッド
ブームクラウド 360 インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ブームクラウド 360 インコーポレイテッド, ブームクラウド 360 インコーポレイテッド filed Critical ブームクラウド 360 インコーポレイテッド
Publication of JP2021507284A publication Critical patent/JP2021507284A/ja
Application granted granted Critical
Publication of JP6947936B2 publication Critical patent/JP6947936B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/152Multipoint control units therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/01Input selection or mixing for amplifiers or loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Stereophonic System (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)

Description

本明細書で説明される主題は、オーディオ処理、特にカンファレンスクライアントデバイスの空間的オーディオ処理に関する。
電子デバイスは、複数のユーザー間のリモートカンファレンスを提供するために使用される。通常、ユーザーのオーディオストリームはユーザーのオーディオをキャプチャするために生成され、他のユーザーのオーディオストリームはユーザーが聞くためのオーディオを提供するために組み合わされる。例えば、合成されたストリームは、スピーカーのモノラルストリームであり得る。ステレオスピーカーの場合、モノラルストリームは左右のスピーカーで再生される。対面カンファレンスとは異なり、モノラルストリームの参加者ごとにサウンドフィールド(音場)の空間的な感覚がないため、オーディオの区別と明瞭性が低下する。
実施形態は、空間的オーディオを使用してクライアントデバイスにカンファレンスを提供することに関連する。いくつかの実施形態では、入力オーディオストリームはクライアントデバイスから受信される。クライアントデバイスの場合、サウンドフィールド内の他のクライアントデバイスの空間的な位置を定義する配置データが決定される。クライアントデバイスの左混合チャネルと右混合チャネルを含む混合ストリームは、配置データに従って他のクライアントデバイスの入力オーディオストリームを混合およびパンすることによって生成される。左強調チャネルと右強調チャネルを含む空間強調ストリームは、サブバンド空間処理とクロストーク処理を混合ストリームの左混合チャネルと右混合チャネルに適用することによって生成される。空間的に強調されたストリームがクライアントデバイスに提供される。
いくつかの実施形態では、プロセッサによって実行されると命令を格納する非一時的なコンピュータ可読媒体はクライアントデバイスから入力オーディオストリームを受信するように構成される、クライアントデバイスの場合、サウンドフィールド内の他のクライアントデバイスの空間位置を定義する配置データを決定する。そして、配置データに従って他のクライアントデバイスの入力オーディオストリームを混合およびパンすることにより、左混合チャネルおよび右混合チャネルを含むクライアントデバイス用の混合ストリームを生成する。
いくつかの実施形態では、システムはクライアントデバイスのためのカンファレンスを提供する。システムは、以下のように構成された処理回路を含む。クライアントデバイスから入力オーディオストリームを受信する。クライアントデバイスの場合、サウンドフィールド内の他のクライアントデバイスの空間位置を定義する配置データを決定する。そして、配置データに従って他のクライアントデバイスの入力オーディオストリームを混合およびパンすることにより、左混合チャネルおよび右混合チャネルを含むクライアントデバイス用の混合ストリームを生成する。
その他の側面として、要素、デバイス、システム、改善、方法、プロセス、アプリケーション、コンピュータ可読媒体、および上記のいずれかに関連するその他の技術が含まれる。
いくつかの実施形態による、オーディオ処理システムの概略ブロック図である。 いくつかの実施形態による、空間混合プロセッサの概略ブロック図である。 いくつかの実施形態による、クロストークキャンセルを備えた空間強調プロセッサの概略ブロック図である いくつかの実施形態によるサブバンド空間プロセッサの概略ブロック図である。 いくつかの実施形態によるクロストーク補正プロセッサの概略ブロック図である。 いくつかの実施形態によるクロストークキャンセルプロセッサのブロック図である。 いくつかの実施形態による、クロストークシミュレーションによる空間強調プロセッサのブロック図である。 いくつかの実施形態によるクロストークシミュレーションプロセッサのブロック図である。 いくつかの実施形態によるクライアントデバイス間のカンファレンスのための処理のフローチャートである。 いくつかの実施形態によるオーディオ処理システムの図である。 いくつかの実施形態によるオーディオ処理システムの図である。 いくつかの実施形態によるオーディオ処理システムの図である。 いくつかの実施形態によるコンピュータシステムの概略ブロック図である。
図面は、および詳細な説明は、例示のみの目的のための様々な非限定的な実施形態を描写する。
ここで、実施形態を詳細に参照し、その例を添付図面に示す。以下の説明は、ある特定の具体的詳細を、様々な実施形態の徹底した理解を提供するために示す。ただし、これらの具体的な詳細なしに、記載されている実施形態を実施することができる。その他の事例では、明確な方法、手順、構成要素、回路、およびネットワークについては、実施形態の態様を不必要に曖昧にしないように詳細に説明されていない。
実施形態は、クライアントデバイスごとに空間的オーディオ出力を使用して、クライアントデバイスにカンファレンスを提供することに関連している。例えば、オーディオ処理システムは、リアルタイム空間混合と空間強調の組み合わせを使用して、各クライアントデバイスのレンダリングデバイスタイプに適応的に最適化して、各クライアントデバイスに空間化されたオーディオを配信する。クライアントデバイスの出力ストリームを生成するために、他のクライアントデバイスからのオーディオストリームはそれぞれ、クライアントデバイスのサウンドフィールド内の空間的な位置に関連付けられる。空間的な場所に応じてオーディオストリームが混合およびパンされて、空間化されたオーディオを含む混合ストリームが生成される。次に、空間強調を空間的なオーディオ混合ストリームに適用して、サウンドフィールドの空間感覚を強調する。空間強調には、サブバンド空間処理やクロストーク処理が含まれる場合がある。クロストーク処理には、クロストークキャンセル(スピーカーなど)やクロストークシミュレーション(ヘッドフォンなど)が含まれる。特に、リモート参加者の声が異なるサウンドフィールドの空間的な感覚によって、リモートカンファレンスの声の区別と明瞭さが向上する。
カンファレンスパイプラインには、サーバー(または「ブリッジ」)とおよび2台以上のクライアントデバイスが含まれ得る。クライアントデバイスには、さまざまなサウンドレンダリングハードウェアが搭載されている場合がある。サーバーは、さまざまなタイプのハードウェアに対応し、デバイスに最適化された空間強調オーディオを提供する。
いくつかの実施形態では、着信オーディオストリームの1つまたは複数のチャネルがステレオオーディオストリームにミックスダウンされる。次に、各クライアントデバイスのレンダリングシステム(内蔵のラップトップスピーカー、Bluetoothスピーカー、ヘッドフォンなど)に基づいて、デバイス固有の空間オーディオ強調機能が適応的に適用される。いくつかの実施形態では、各クライアントデバイスはサーバーから混合ストリームを受信し、適切な空間拡張を適用される。いくつかの実施形態では、クライアントデバイスは、空間強調のためのパラメータをサーバーに提供することができ、サーバーは、空間強調を実行して、クライアントデバイスのための空間強調ストリームを生成する。いくつかの実施形態では、クライアントデバイスは、1つまたは複数のクライアントオーディオストリームを受信し、ミックスダウンとそれに続く適切な空間強調の両方を混合ステレオストリームに適用することができる。
(オーディオ処理システムの例)
図1は、いくつかの実施形態による、オーディオ処理システム100の概略ブロック図である。オーディオ処理システム100は、サーバー102およびクライアントデバイス130を含む。単一のクライアントデバイス130が示されているが、サーバー102は、複数のクライアントデバイス130間のカンファレンスを提供する。サーバー102は、インターネットを含むネットワークを介してクライアントデバイスに接続されてもよい。各クライアントデバイス130は、オーディオキャプチャデバイス156(例えば、マイクロフォン)と、左スピーカー152および右スピーカー154とを含み得る。
サーバー102は、空間混合プロセッサ110および空間強調プロセッサ120を含む。複数のクライアントデバイス130間のカンファレンスを容易にするために、空間混合プロセッサ110は、それぞれクライアントデバイス130から複数の入力オーディオストリーム140を受け取り、入力オーディオストリーム140のパンおよびミックスダウンをステレオオーディオストリームに適用する。ステレオオーディオストリームは、左混合チャネル142および右混合チャネル144を含む。入力オーディオストリーム140のそれぞれは、クライアントデバイス130のオーディオキャプチャデバイス156によって生成された、1つまたは複数のチャネルを有するオーディオストリームであり得る。いくつかの実施形態では、オーディオストリーム140は、モノラルオーディオストリームを含み得る。
カンファレンスの各参加者は、クライアントデバイス130に関連付けられる。各クライアントデバイス130は、空間混合プロセッサ110に送信されるオーディオストリーム140を生成することができる。オーディオストリーム140に関連して、各クライアントデバイス130は、デバイス識別データまたは配置データを含む様々なタイプのメタデータを空間混合プロセッサ110に提供することができる。デバイス識別データは、クライアントデバイス130を識別する一意の識別子である。配置データは、クライアントデバイス130のための他のクライアントデバイス130の他のオーディオストリーム140の空間位置を定義する。空間混合プロセッサ110は、他のクライアントデバイス130からのオーディオ信号140が配置データに従ってステレオサウンドフィールドにわたって分散される(例えば、パンされる)各クライアントデバイス130のための固有のステレオオーディオストリームを生成する。
いくつかの実施形態では、オーディオストリーム140のパンニングは、オーディオストリーム140の空間分布を定義する所定の配置データに基づく。配置技術は、リモートクライアントデバイス130の等しい空間分布、または参加者メタデータ(例えば、ユーザーの役割、エンティティ/会社名、グループメンバーシップ、部屋の場所、地理的な場所、IPアドレスなど)に基づくソースのグループ化およびパンニングを含み得る。いくつかの実施形態では、各クライアントデバイス130のパンニングは、クライアントデバイス130からの制御に基づいてもよい。例えば、クライアントデバイス130のユーザーは、各遠隔参加者の所望のパン位置を指定する配置データを定義することができる。
空間混合プロセッサ110は、各クライアントデバイス130について、左混合チャネル142および右混合チャネル144を含む固有のステレオオーディオストリームを生成する。オーディオ信号140の空間分布を定義する配置データがプログラムで定義されるか、またはユーザー定義であるかにかかわらず、他のクライアントデバイス130のオーディオ信号140は、ステレオミックスダウンにパンされる。パンニングは、振幅パンニング、遅延パンニング、バイノーラルパンニングなどのパンニング技法を含み、クライアントデバイス130のステレオストリームを生成することができる。いくつかの実施形態では、パンニングは、ゲインに応じて、最終的な混合における各要素の存在を調整することを含むことができる。距離手がかりのために空気吸収シミュレーションや室内音響シミュレーションなど、知覚的に動機づけられるその他のキューも適用され得る。
いくつかの実施形態では、クライアントデバイス130の空間混合プロセッサ110の出力は、クライアントデバイス130またはリスニングコンテキストが1チャネル再生を使用するときなどに、単一チャネルへのモノラル低減を含み得る。
空間強調プロセッサ120は、左混合チャネル142および右混合チャネル144に空間処理を適用して、左強調チャネル146および右強調チャネル148を生成する。空間強調は、サブバンド空間処理およびクロストーク処理を含み得る。クロストーク処理には、クロストークキャンセルやクロストークシミュレーションが含まれ得る。クライアントデバイス130のスピーカー152、154がラウドスピーカーであり、ラウドスピーカーが原因のクロストークを除去する場合に、クロストークキャンセレーションが使用され得る。スピーカー152、154がヘッドフォンでスピーカーの効果をシミュレートする場合、クロストークシミュレーションを使用することができる。左混合チャネル142および右混合チャネル144に適用されるクロストーク処理がある場合、空間強調処理は、クロストーク処理の適用によって引き起こされるスペクトル欠陥を補正するクロストーク補正をさらに含み得る。空間強調プロセッサ120は、クライアントデバイス130の左スピーカー152に左強調チャネル146を提供し、クライアントデバイス130の右スピーカー154に右強調チャネル148を提供する。スピーカー152、154は、それぞれの出力チャネルOLおよびORをサウンドに変換する。
いくつかの実施形態では、空間強調プロセッサ120は、サーバー102に配置される。サーバー102は、各クライアントデバイス130に対して空間強調処理の別個の過程を実行することができる。他の実施形態では、空間強調プロセッサ120は、各クライアントデバイス130に配置される。クライアントデバイス130ごとに、サーバー102は、左混合チャネル142および右混合チャネル144を含む混合ストリームをクライアントデバイス130の空間強調プロセッサ120に提供する。各クライアントデバイス130の空間強調プロセッサ120は、サーバー102から受信された混合チャネルを処理して、左出力チャネル146および右出力チャネル148を生成する。いくつかの実施形態では、空間混合プロセッサ110は、システム100のピアツーピアカンファレンス構成などのクライアントデバイス130内に、またはサーバーがミックスダウンを実行しない場合にも配置される。
システム100は、いくつかのまたは追加の構成要素を含み得る。例えば、オーディオストリームを使用したカンファレンスをビデオストリームと統合することができる。いくつかの実施形態では、システム100は人工現実システムであり、各クライアントデバイス130はヘッドマウントディスプレイを含み得る。ヘッドマウントディスプレイは、他のユーザーまたはユーザーのアバターをビデオでレンダリングすることができ、ユーザーは、サウンドフィールド内の混合ストリームのクライアントデバイス130の空間位置に対応するように配置される。これにより、人工現実環境のイマーシブ品質が向上する。
(空間混合プロセッサの例)
図2はいくつかの実施形態による空間混合プロセッサ110の概略ブロック図である。空間混合プロセッサ110は、空間ミキサー205、バイノーラルフィルタ210および215、左チャネル結合器220、右チャネル結合器225、および知覚シミュレータ230を含む。空間ミキサー205は、入ってくるオーディオストリーム内のエネルギーが最終的なステレオミックスダウン全体にどのように分配されるか、また関連して、最終的なミックスダウン内の要素がサウンドステージのコンテキスト内でどのように知覚されるかに関して制御を適用する。例えば、モノラルオーディオストリームの空間混合は、定出力またはリニアステレオパンニング技術を使用して実現することができる。いくつかの実施形態では、空間ミキサー205は、各混合信号140に空間混合を適用して左および右チャネルを生成し、左チャネルを結合して左チャネル220を生成し、右チャネルを結合して右チャネル222を生成する。
オーディオストリームは、バイノーラルフィルタリングを使用して実現できるように、リスナーの頭部の周囲の3D空間にオーディオを知覚的に配置するように処理することもできる。バイノーラルフィルタ210と215のそれぞれは、リスナーが入力チャネルの音を知覚する必要があるターゲットソースの場所を記述する頭部伝達関数(HRTF)を適用する。バイノーラルフィルタ210は、左チャネル220を受信し、右チャネル250に関連付けられた角度位置を調整するHRTFを適用することにより、左および右の出力チャネルを生成する。バイノーラルフィルタ215は、右チャネル252を受信し、右チャネル252に関連付けられた角度位置を調整するHRTFを適用することにより、左および右の出力チャネルを生成する。左チャネル結合器220は、バイノーラルフィルタ210および215から左チャネルを受け取り、これらのチャネルを結合して左チャネル254を生成する。右チャネル結合器225は、バイノーラルフィルタ210および215から右チャネルを受け取り、これらのチャネルを結合して、右チャネル256を生成する。
また、処理を適用して、他の現実世界の知覚的手がかりをシミュレートすることもできる。知覚シミュレータ230は、左チャネル254および右チャネル256を受け取り、知覚的手がかりを1つまたは複数のチャネルに適用して、左混合チャネル142および右混合チャネル144を生成する。チャネルチャネルは、例えば自由野逆距離法則(the free-field inverse distance law)を使用して、混合内の可変距離と空気吸収の知覚を提供するようにスケーリングおよびフィルタリングできる。この場合、音圧レベルは、基準距離と比較して距離の2倍ごとに6デシベル減少する(例えば、リスナーの仮想位置からの定義された距離)。高周波エネルギーが基準距離に対する距離の増加に反比例して減衰する場合、空気吸収をシミュレートすることができる。残響は、距離の認識をさらに高め、室内の音響と環境の感覚を作り出すために使用できる。
いくつかの実施形態では、オーディオ信号140は、複数(例えば、左および右)のチャネルを含む。空間ミキサー205は、オーディオ信号のチャネルをモノラルチャネルに結合することによりミックスダウンを適用し、モノラルチャネルに定電力またはリニアステレオパンニングを適用する。別の例では、モノラル信号への組み合わせはなく、ミックスダウンはオーディオ信号140の各チャネルを使用して適用される。例えば、空間ミキサー205は、リスナーの周りの空間におけるその理想的な位置に基づいて、各チャネルに異なるバイノーラルフィルタリングを適用し、結果をステレオ左および右チャネルに混合してもよい。
空間混合プロセッサ110には、いくつかのまたは追加の構成要素を含み得る。例えば、知覚シミュレータ230またはバイノーラルフィルタ210および215は省略できる。空間混合プロセッサ110は、振幅パンニング、遅延パンニング、バイノーラルパンニングなどを含む、オーディオ信号140の様々なタイプのミックスダウンを実行することができる。
(空間強調プロセッサの例)
図3は、一実施形態による空間強調プロセッサ300の概略ブロック図である。空間強調プロセッサ300は、クロストーク処理が、スピーカー152、154がラウドスピーカーであるクライアントデバイス130のクロストークキャンセルである空間強調プロセッサ120の例である。空間強調プロセッサ300は、左入力チャネルXLおよび右入力チャネルXRを含む入力オーディオ信号Xを受信する。左入力チャネルXLは、空間混合プロセッサ110からの左出力チャネル142であり得、右入力チャネルXRは、空間混合プロセッサ110からの右出力チャネル144であり得る。
空間強調プロセッサ300は、入力チャネルXLおよびXRを処理することにより、左強調チャネルLおよび右強調チャネルORを含む出力オーディオ信号Oを生成する。左強調チャネルOLは左強調チャネル146に対応し、右強調チャネルORは右強調チャネル148に対応する。オーディオ出力信号Oは、クロストーク補正およびクロストークキャンセルを備えた入力オーディオ信号Xの空間的に強調されたオーディオ信号である。
空間強調プロセッサ300は、サブバンド空間プロセッサ310、クロストーク補正プロセッサ320、結合器結合器360、およびクロストークキャンセルプロセッサ370を含む。空間強調プロセッサ300は、入力オーディオ入力チャネルXL、XRのクロストーク補正およびサブバンド空間処理を実行し、サブバンド空間処理の結果をクロストーク補正の結果と結合し、その後、結合された信号に対してクロストークキャンセルを実行する。
サブバンド空間プロセッサ310は空間周波数帯域ディバイダ340、空間周波数帯域プロセッサ345、および空間周波数帯域結合器350を含む。空間周波数帯域ディバインダ340は、入力チャネルXLおよびXRならびに空間周波数帯域プロセッサ345に結合される。空間周波数帯域ディバインダ340は、左入力チャネルXLおよび右入力チャネルXRを受け取り、入力チャネルを空間(または「サイド」)成分YSおよび非空間(または「ミッド」)成分Ymに処理する。例えば、左入力チャネルXLと右入力チャネルXRの差に基づいて空間成分YSを生成できる。非空間成分Ymは、左入力チャネルXLと右入力チャネルXRの合計に基づいて生成できる。空間周波数帯域ディバイダ340は、空間成分YSと非空間成分Ymを空間周波数帯域プロセッサ345に提供する。
空間周波数帯域プロセッサ345は、空間周波数帯域ディバイダ340および空間周波数帯域結合器350に結合される。空間周波数帯域プロセッサ345は、空間周波数帯域ディバイダ340から空間成分YSと非空間成分Ymを受信し、受信信号を強調する。特に、空間周波数帯域プロセッサ345は、空間成分YSから空間強調成分ESを生成し、非空間成分Ymから非空間強調成分Emを生成する。
例えば、空間周波数帯域プロセッサ345は、空間成分YSにサブバンドゲインを適用して、空間強調成分ESを生成する。また、非空間成分Ymにサブバンドゲインを適用して、非空間強調成分Emを生成する。いくつかの実施形態では、空間周波数帯域プロセッサ345は、空間成分YSにサブバンド遅延を追加のまたは代替として提供して、空間強調成分ESを生成しまた、非空間成分Ymへのサブバンド遅延を提供して、非空間強調成分Emを生成する。サブバンドのゲインおよび/または遅延は、空間成分YSと非空間成分Ymのサブバンド(nなど)によって異なる場合がある。また、同じ場合もある(2つ以上のサブバンドの場合など)。空間周波数帯域プロセッサ345は、空間成分YSと非空間成分Ymの異なるサブバンドのゲインおよび/または遅延を相互に調整して、空間強調成分ESと非空間強調成分Emを生成する。次に、空間周波数帯域プロセッサ345は、空間強調成分ESと非空間強調成分Emを空間周波数帯域結合器350に提供する。
空間周波数帯域ディバインダ350は、空間周波数帯域プロセッサ345に結合され、さらに結合器360に結合される。空間周波数帯域結合器350は、空間周波数帯域プロセッサ345から空間強調成分ESおよび非空間強調成分Emを受け取り、空間強調成分ESおよび非空間強調成分Emを左空間強調チャネルELおよび右空間強調チャネルにER結合する。例えば、左空間強調チャネルELは、空間強調成分ESと非空間強調成分Emの合計に基づいて生成できる。また、非空間強調成分Emと拡張強調成分ESの差に基づいて、右空間強調チャネルERを生成できる。空間周波数帯域結合器350は、左空間強調チャネルELまたは右空間強調チャネルERを結合器360に提供する。サブバンド空間プロセッサ310の追加の詳細は図4に関連して以下で説明される。
クロストーク補正プロセッサ320は、クロストーク補正を実行して、クロストークキャンセルのスペクトル欠陥やアーチファクトを補正する。クロストーク補正プロセッサ320は、入力チャネルXLおよびXRを受け取り、クロストークキャンセルプロセッサ370によって実行される非空間強調成分Emおよび空間強調成分ESの後続のクロストークキャンセルにおけるアーチファクトを補正する処理を実行する。いくつかの実施形態では、クロストーク補正プロセッサ320は、フィルタを適用して、左クロストーク補正チャネルZLおよび右クロストーク補正チャネルZRを含むクロストーク補正信号Zを生成することにより、非空間成分Xmおよび空間成分XSに対して強調を実行し得る。他の実施形態では、クロストーク補正プロセッサ320は、非空間成分Xmのみに対して強調を実行することができる。クロストーク補正プロセッサ320に関する追加の詳細は図に関連して以下で説明される。
結合器360は、左空間強調チャネルELを左クロストーク補正チャネルZLと結合して左強調補正チャネルTLを生成し、右空間強調チャネルERを右クロストーク補正チャネルZRと結合して右補正チャネルTRを生成する。結合器360はクロストークキャンセルプロセッサ370に結合され、クロストークキャンセルプロセッサ370に左強調補正チャネルTLと右強調補正チャネルTRを提供する。
クロストークキャンセルプロセッサ370は、左強調補正チャネルTLおよび右強調補正チャネルTRを受け取り、チャネルTL、TRに対してクロストークキャンセルを実行して、左出力チャネルOLおよび右出力チャネルORを含む出力オーディオ信号Oを生成する。クロストークキャンセルプロセッサ370に関する追加の詳細は、図5に関連して以下で説明される。
図4は、いくつかの実施形態による、サブバンド空間プロセッサの概略ブロック図である。空間周波数帯域ディバイダ340には、左入力チャネルXLおよび右入力チャネルXRを受信するL/R/M/Sコンバータ402を含み、これらの入力を空間成分YmおよびYS変換する。
空間周波数帯域プロセッサ345は、非空間成分Ymを受信し、サブバンドフィルタのセットを適用して、非空間強調サブバンド成分Emを生成する。空間周波数帯域プロセッサ345は空間サブバンド成分YSも受信し、サブバンドフィルタのセットを適用して非空間強調サブバンド成分Emを生成する。サブバンドフィルタには、ピークフィルタ、ノッチフィルタ、ローパスフィルタ、ハイパスフィルタ、ローシェルフフィルタ、ハイシェルフフィルタ、バンドパスフィルタ、バンドストップフィルタ、およびすべてのパスフィルタのさまざまな結合を含み得る。
より具体的には、空間周波数帯域プロセッサ345は、非空間成分Ymのn個の周波数サブバンドのそれぞれに対するサブバンドフィルタと、空間成分YSのn個のサブバンドのそれぞれに対するサブバンドフィルタとを含む。n=4サブバンドの場合、例えば、空間周波数帯域プロセッサ345には、非空間成分Ym用の一連のサブバンドフィルタが含まれている。これには、サブバンド(1)用のミッドイコライゼーション(EQ)フィルタ404(1)、サブバンド(2)用のミッドEQフィルタ404(2)、サブバンド(3)用のミッドEQフィルタ404(3)、サブバンド(4)用のミッドEQフィルタ404(4)が含まれている。各ミッドEQフィルタ404は、非空間成分Ymの周波数サブバンド部分にフィルタを適用して、非空間強調成分Emを生成する。
空間周波数帯域プロセッサ345には、空間成分YSの周波数サブバンド用の一連のサブバンドフィルタが含まれている。これには、サブバンド(1)用のサイドイコライゼーション(EQ)フィルタ406(1)、サブバンド(2)用のサイドEQフィルタ406(2)、サブバンド(3)用のサイドEQフィルタ406(3)、サブバンド(4)用のサイドEQフィルタ406(4)が含まれている。各サイドEQフィルタ406は、空間成分YSの周波数サブバンド部分にフィルタを適用して、空間強調成分ESを生成する。
非空間成分Ymおよび空間成分YSのn個の周波数サブバンドは、それぞれ周波数の範囲に対応し得る。例えば、周波数サブバンド(1)は0〜300Hzに対応し、周波数サブバンド(2)は300〜510Hzに対応し、周波数サブバンド(3)は510〜2700Hzに対応し、周波数サブバンド(4)は2700Hz〜ナイキスト周波数に対応する。いくつかの実施形態では、n周波数サブバンドは重要なバンドの統合セットである。重要なバンドは色々な音楽的なジャンルからの可聴周波サンプルのコーパスを使用して定められ得る。24バーク尺度の臨界帯域におけるミッド成分とサイド成分の長期平均エネルギー比は、サンプルから決定される。次に、同様の長期平均比を持つ連続周波数帯域をグループ化して、重要な帯域のセットを形成する。周波数サブバンドの範囲と周波数サブバンドの数は調整することができる。
空間周波数帯域結合器350は、ミッドとサイドの成分を受け取り、各成分にゲインを適用し、ミッドとサイドの成分を左右のチャネルに変換する。例えば、空間周波数帯域結合器350は、非空間強調成分Emおよび空間強調成分ESを受信する。また空間周波数帯域結合器350は非空間強調成分Emおよび空間強調成分ESを左空間強調チャネルELおよび右空間強調チャネルERに変換する前に、全体的なミッドおよびサイドゲインを実行する。
具体的には、空間周波数帯域結合器350には、グローバルミッドゲイン408、グローバルサイドゲイン410、およびグローバルミッドゲイン408およびグローバルサイドゲイン410に結合されたM/S/L/Rコンバータ412が含まれる。グローバルミッドゲイン408は非空間強調成分Emを受信してゲインを適用し、グローバルサイドゲイン410は非空間強調成分ESを受信してゲインを適用する。M/S/L/Rコンバータ412はグローバルミッドゲイン408から非空間強調成分Em、グローバルサイドゲイン410から空間強調成分ESを受信する。そして、これらの入力を左空間強調チャネルELおよび右空間強調チャネルERに変換する。
(クロストークキャンセルプロセッサの例)
図5はいくつかの実施形態によるクロストーク補正プロセッサ320の概略ブロック図である。クロストーク補正プロセッサ320には、L/R/M/Sコンバータ502ミッド成分プロセッサ520、サイド成分プロセッサ530、M/S/L/Rコンバータ514が含まれる。
クロストーク補正プロセッサ320は、左右の入力チャネルXL、XRを受信し、クロストーク補正処理を実行して、左クロストーク補正チャネルZLおよび右クロストーク補正チャネルZRを生成する。チャネルZL、ZRは、クロストークキャンセルやクロストークシミュレーションなど、クロストーク処理におけるアーチファクトやスペクトル障害を補正するために使用できる。L/R/M/Sコンバータ502は、左入力チャネルXLと右入力チャネルXRを受信するし、入力チャネルXL、XRの非空間成分Xmと空間成分XSを生成する。左右のチャネルを合計して左右のチャネルの非空間成分を生成し、サブトラクションして左右のチャネルの空間成分を生成することができる。
ミッド成分プロセッサ520には、mミッドフィルタ540(a)、540(b)〜540(m)などの複数のフィルタ540が搭載されている。ここでは、各mミッドフィルタ540は、非空間成分Xmのm周波数バンドの1つを処理する。ミッド成分プロセッサ520は、非空間成分Xmを処理することによって、ミッドクロストーク補正チャネルZmを生成する。いくつかの実施形態によると、ミッドフィルタ540は、シミュレーションによるクロストーク処理を使用した非空間Xmの周波数応答プロットを使用して構成されている。また、周波数応答プロットを解析することにより、クロストーク処理のアーチファクトとして発生する周波数応答プロットのピークやトラフなどのスペクトル障害を、あらかじめ設定されたしきい値(10dBなど)を超えて推定することができる。これらのアーチファクトは、主にクロストーク処理における遅延し、おそらく反転した逆測信号と、対応する同側信号との和に起因し、最終的なレンダリング結果にくし形フィルタのような周波数応答を効果的にもたらす。ミッドクロストーク補正チャネルZmは、ミッド成分プロセッサ520によって生成され、各m周波数帯域がピークまたはトラフに対応する推定ピークまたはトラフを補正できる。具体的には、クロストーク処理で適用される特定の遅延、フィルタリング周波数、およびゲインに基づいて、周波数応答でピークとトラフが上下に移動し、スペクトルの特定の領域におけるエネルギーの増幅および/または減衰を引き起こす。各ミッドフィルタ540は、1つまたは複数のピークとトラフに合わせて調整するように設定できる。
サイド成分プロセッサ530には、mサイドフィルタ550(a)、550(b)〜550(m)などの複数のフィルタ550が含まれる。サイド成分プロセッサ530は、空間成分XSを処理することにより、サイドクロストーク補正チャネルZSを生成する。いくつかの実施形態によると、シミュレーションによって空間Xの周波数応答プロットとクロストーク処理を得ることができる。周波数応答プロットを解析することにより、クロストーク処理のアーチファクトとして発生する周波数応答プロットのピークやトラフなどのスペクトル障害を、あらかじめ設定されたしきい値(10dBなど)を超えて推定できる。サイドクロストーク補正チャネルZSは、サイド成分プロセッサ530によって生成され、推定ピークまたはトラフを補正することができる。具体的には、クロストーク処理で適用される特定の遅延、フィルタリング周波数、およびゲインに基づいて、周波数応答でピークとトラフが上下に移動し、スペクトルの特定の領域におけるエネルギーの増幅および/または減衰を引き起こす。各サイドフィルタ550は、1つまたは複数のピークおよびトラフに合わせて調整するように設定できる。いくつかの実施形態では、ミッド成分プロセッサ520とサイド成分プロセッサ530に異なる数のフィルタが含まれている場合がある。
いくつかの実施形態では、ミッドフィルタ540とサイドフィルタ550には、式1で定義された転送機能を持つ複二次フィルタが含むことができる。
Figure 0006947936
zは複素変数で、a0、a1、a2、b0、b1、およびb2はデジタルフィルタ係数である。このようなフィルタを実装する1つの方法は、式2で定義されたダイレクトフォームIトポロジーである。
Figure 0006947936
ここで、Xは入力ベクトル、Yは出力である。ほかのトポロジーは最大ワード長および飽和動作に応じて、使用される。
その後、複二次を使用して、実値の入出力を持つ2次フィルタが実装できる。離散時間フィルタを設計するために、連続時間フィルタが設計され、双一次変換によって離散時間に変換される。さらに、中心周波数と帯域幅のシフトは、周波数歪みを使用して補正できる。
例えば、ピークフィルタは、式3で定義され複素平面転送機能がある。
Figure 0006947936
ここで、Sは複素変数、Aはピークの振幅、Qはフィルタ「品質」、そしてデジタルフィルタ係数は次のように定義される。
Figure 0006947936
ここで、ω0は、フィルタの中心周波数をラジアンおよび
Figure 0006947936
で表したものである。
さらに、フィルタ品質Qは式4で定義できる。
Figure 0006947936
ここで
Figure 0006947936
、は帯域幅、fcは中心周波数である。
ミッドフィルタ540は連続にあるものとして示され、そしてサイドフィルタ550も連続にあるものとして示されているいくつかの実施形態では、ミッドフィルタ540がミッド成分Xmと平行に適用され、サイドフィルタがサイド成分XSと平行に適用される。
M/S/L/Rコンバータ514は、ミッドクロストーク補正チャネルZmとサイドクロストーク補正チャネルZSを受信し、左クロストーク補正チャネルZLと右クロストーク補正チャネルZRを生成する。ミッドとサイドの成分を合計して、ミッドとサイドの成分の左チャネルを生成できる。ミッドとサイドの成分を減算して、ミッドとサイドの成分の右チャネルを生成できる。
(クロストークキャンセルプロセッサの例)
図6は、いくつかの実施形態によるクロストークキャンセルプロセッサ370の概略ブロック図である。クロストークキャンセレーションプロセッサ370は、左強調補正チャネルTLと右強調補正チャネルTRを受信する。また、チャネルTL、TRでクロストークキャンセルを実行して、左出力チャネルOL、右出力チャネルORを生成する。
クロストークキャンセルプロセッサ370には、インアウトバンドディバイダ610、インバーター620および622逆測推定器630および640、結合器650および652、インアウトバンド結合器660が含まれる。これらの構成要素は、入力チャネルTL、TRをインバンド成分およびアウトオブバンド成分に分割し、インバンド成分でクロストークキャンセレーションを実行して出力チャネルOL、ORを生成する。
入力オーディオ信号Tを異なる周波数帯域成分に分割し、選択的成分(インバンド成分など)でクロストークキャンセルを実行することで、他の周波数帯域での劣化をなくしながら、特定の周波数帯域でクロストークキャンセルを実行できる。入力オーディオ信号Tを異なる周波数帯域に分割せずにクロストークキャンセルを実行すると、クロストークキャンセル後のオーディオ信号は、低周波数(350Hz未満など)、高周波数(12000Hz以上など)、または両方での非空間成分および空間成分で大きな減衰または増幅を示す場合がある。影響の大きい空間的手がかりの大部分が存在するインバンド(250Hz〜14000Hzなど)のクロストークキャンセルを選択的に実行することで、混合内のスペクトル全体にわたって、特に非空間的な成分でバランスのとれた全体的なエネルギーを維持できる。
インアウトバンドディバイダ610は、入力チャネルTL、TRをインバンドチャネルTL,In、TR,INおよびアウトバンドチャネルTL,OUT、TR,OUTにそれぞれ分離する。特に、インアウトバンドディバイダ610は、左強調補正チャネルTLを左インバンドチャネルTL,In、左アウトオブバンドチャネルTL,OUTに分割する。同様に、インアウトバンドディバイダ610は、右強調補正チャネルTRを右インバンドチャネルTR,IN、および右アウトオブバンドチャネルTR,OUTに分離する。各インバンドチャネルは、例えば250Hz〜14kHzなど、周波数範囲に対応する各入力チャネルの一部を包含し得る。周波数帯域の範囲は、スピーカーのパラメータなどに応じて調整することができる。
インバーター620と逆測推定器630は、左インバンドチャネルTL,Inによる逆測サウンド成分を補正するために、左逆測キャンセル成分SLを生成するように一緒に動作する。同様に、インバーター622と逆測推定器640は、右インバンドチャネルTRのために逆測サウンド成分を補正するために、右逆測キャンセル成分SRを生成するように一緒に動作する。
1つの手法では、インバーター620は、インバンドチャネルTL,Inを受け取り、受け取ったインバンドチャネルTL,Inの極性を反転して、反転されたインバンドチャネルTL,In’を生成する。逆測推定器630は、反転されたインバンドチャネルTL,In’を受け取り、フィルタリングを通じて、逆測音成分に対応する反転されたインバンドチャネルTL,In’の一部を抽出する。フィルタリングは、反転されたインバンドチャネルTL,In’で実行されるので反逆測推定器630によって抽出された部分は、逆測のサウンド成分に起因するインバンドチャネルTLの一部の逆になる。したがって、反逆測の推定器630によって抽出された部分は、左の反逆測のキャンセル成分SLとなり、これを対応するインバンドチャネルTR,INに追加することができ、インバンドチャネルTL,Inによる反逆測の音成分を低減する。いくつかの実施形態では、インバーター620と逆測推定器630は、異なる順序で実装される。
インバーター622と逆測推定器640は、インバンドチャネルTRに関して同様の操作を行い、右側逆測キャンセル成分SRを生成する。従って、その詳細な説明は、本明細書では簡潔さのために省略される。
1つの例示的実装形態では、逆測推定器825Aは、フィルタ852A、アンプ854A、及び遅延ユニット856Aを含む。フィルタ632は反転入力チャネルTL,In’を受け取り、フィルタリング機能を介して反逆測のサウンド成分に対応する反転インバンドチャネルTL,In’の一部を抽出する。フィルタ実装の例としては、中心周波数が5000〜10000Hzで選択され、Qが0.5〜1.0の範囲で選択されたNotchまたはハイシェルフフィルタがある。デシベル(GdB)単位のゲインは、式5から算出できる。
dB=−3.0−log1.333(D) 式(5)
ここで、Dは、サンプル中の遅延ユニット636および646による遅延量である。例えば、サンプリングレートは48KHzである。別の実装方法としては、ローパスフィルタがあり、コーナー周波数は5000〜10000Hzの範囲で選択され、Qは0.5〜1.0の範囲で選択される。さらに、アンプ634は、対応するゲイン係数GL,INによって抽出部分を増幅し、遅延ユニット636は遅延機能Dに従ってアンプ634からの増幅出力を遅延させ、左側逆測キャンセル成分SLを生成する。逆測推定器640には、フィルタ642、アンプ644、および遅延ユニット646が含まれている。このユニットは、反転されたインバンドチャネルTR,IN’で同様の操作を実行して、右側逆測キャンセル成分SRを生成する。一例として、反逆測の推定630、640では、次の式に従って、左右の逆測キャンセル成分SL、SRが生成される。
L=D[GL、IN*F[TL,IN’]] 式(6)
R=D[GR、IN*F[TR,IN’]] 式(7)
ここで、F[]はフィルタ関数、D[]は遅延関数である。
クロストークキャンセルの設定は、スピーカーのパラメータによって決定できる。例えば、2つのスピーカー280間のリスナーに対する角度に応じて、フィルタの中心周波数、遅延量、アンプゲイン、およびフィルタゲインを決定できる。いくつかの実施形態では、スピーカー角度間の値を使用して他の値を補間する。
結合器650は、右側逆測キャンセル成分SRと左側インバンドチャネルTL,INを結合して、左側インバンドクロストークチャネルULを生成する。また、結合器652は、左側逆測キャンセル成分SLを右側インバンドチャネルTR,INに結合して、右側インバンドクロストークチャネルURを生成する。インアウトバンド結合器660は、左インバンドクロストークチャネルULとアウトバンドチャネルTL,OUTを結合して、左出力チャネルOLを生成する。また、右インバンドクロストークチャネルURとアウトバンドチャネルTR,OUTを結合して、右出力チャネルORを生成する。
したがって、左の出力チャネルOLには逆測の音に関連してインバンドチャネルTR,INの一部の反転に対応する逆測キャンセル成分SRが含まれる。また、右出力チャネルORには、逆測の音に関連して、インバンドチャネルTR,INの一部の逆に対応する左逆測キャンセ成分SLが含まれる。この構成では、右耳に到達した右出力チャネルORに応じて右スピーカーから出力した同側サウンド成分の波面は、左出力チャネルOLに応じて左スピーカーから出力された逆測サウンド成分の波面をキャンセルすることができる。同様に、左耳に到達した左出力チャネルOLに応じて左スピーカーから出力された同側サウンド成分の波面は、右出力チャネルORに応じて、右スピーカーから出力された逆測サウンド成分の波面をキャンセルすることができる。これにより、空間的検出性を高めるために逆測音を低減することができる。
(空間強調プロセッサの例)
図7は、いくつかの実施形態による空間強調プロセッサ700の概略ブロック図である。空間強調プロセッサ700は、クロストーク処理がヘッドフォンを使用するクライアントデバイス130のクロストークシミュレーションである空間強調プロセッサ120の一例である。空間強調プロセッサ700は、入力オーディオ信号Xのクロストークシミュレーションを実行して、左ヘッドフォンの左出力チャネルOLと右ヘッドフォンの右出力チャネルORを含む出力オーディオ信号Oを生成する。左の入力チャネルXLは空間混合プロセッサ110からの左の出力チャネル142、右の入力チャネルXRは空間混合プロセッサ110からの右の出力チャネル144となることがある。左強調チャネルのOLは左強調チャネル146に対応し、右強調チャネルのORは右強調チャネル148に対応する。
空間強調プロセッサ700には、サブバンド空間プロセッサ310、クロストーク補正プロセッサ720、クロストークシミュレーションプロセッサ780、および結合器760が含まれる。クロストーク補正プロセッサ720はチャネルXLおよびXRを受け取り、クロストークシミュレーションプロセッサ780により生成された左クロストークシミュレーション信号WLと右クロストークシミュレーション信号WRを含むクロストークシミュレーション信号Wと、サブバンド空間プロセッサ310により生成された左強調チャネルELと右強調チャネルERを含む強調信号Eの結合におけるアーチファクト補正処理を実行する。クロストーク補正プロセッサ720は、左クロストーク補正チャネルZLおよび右クロストーク補正チャネルZRを含むクロストーク補正信号Zを生成する。クロストークシミュレーションプロセッサ780は、左クロストークシミュレーションチャネルWLおよび右クロストークシミュレーションチャネルWRを生成する。サブバンド空間プロセッサ310は、左強調チャネルELと右強調チャネルERを生成する。クロストークシミュレーションプロセッサ780の詳細については、以下の図8で説明される。
結合器760は、左強調チャネルEL、右強調チャネルER、左クロストークシミュレーションチャネルWL、右クロストークシミュレーションチャネルWR、左クロストーク補正チャネルZL、および右クロストーク補正チャネルZRを受信する。結合器760は、左強調チャネルEL、右クロストークシミュレーションチャネルWR、および左クロストーク補正チャネルZLを結合し、左出力チャネルOLを生成する。結合器760は、左強調チャネルEL、右クロストークシミュレーションチャネルWR、および左クロストーク補正チャネルZLを結合することで、右出力チャネルORを生成する。
(クロストークシミュレーションプロセッサの例)
図8はいくつかの実施形態におけるクロストークシミュレーションプロセッサ780の概略ブロック図である。クロストークシミュレーションプロセッサ780は、ステレオヘッドフォンに出力する逆測サウンド成分を生成し、ヘッドフォンでスピーカーのようなリスニング体験を提供する。左入力チャネルXLは、空間混合プロセッサ110からの左出力チャネル142であり得、右入力チャネルXRは、空間混合プロセッサ110からの右出力チャネル144であり得る。
クロストークシミュレーションプロセッサ780には、左入力チャネルXLを処理するために左ヘッドシャドウローパスフィルタ802、左ヘッドシャドウハイパスフィルタ824、左クロストーク遅延804、左ヘッドシャドウゲイン810が含まれている。クロストークシミュレーションプロセッサ780には、右入力チャネルXRを処理するために右ヘッドシャドウローパスフィルタ806、右ヘッドシャドウハイパスフィルタ826、右クロストーク遅延808、右ヘッドシャドウゲイン812が含まれている。左ヘッドシャドウローパスフィルタ802および左ヘッドシャドウハイパスフィルタ824は、リスナーのヘッドを通過した後の信号の周波数応答をモデル化する左入力チャネルXLに変調を適用する。左ヘッドシャドウハイパスフィルタ824の出力は、時間遅延を適用する左クロストーク遅延804に提供される。遅延時間は、同側サウンド成分に対して逆測サウンド成分によって横断される耳の距離を表す。左ヘッドシャドウゲイン810は、左クロストーク遅延804の出力にゲインを適用して、右左シミュレーションチャネルWLを生成する。
同様に、右入力チャネルXRの場合、右ヘッドシャドウローパスフィルタ806および右ヘッドシャドウハイパスフィルタ826は、リスナーのヘッドの周波数応答をモデル化する右入力チャネルXRに変調を適する。右ヘッドシャドウハイパスフィルタ826の出力は、時間遅延を適用する右クロストーク遅延808に提供される。右ヘッドシャドウゲイン812は、右クロストーク遅延808の出力にゲインを適用して、右クロストークシミュレーションチャネルWRを生成する。
左右の各チャネルのヘッドシャドウローパスフィルタ、ヘッドシャドウハイパスフィルタ、クロストーク遅延、およびヘッドシャドウゲインの適用は、異なる順序で実行できる。
(カンファレンス処理の例)
図9は、いくつかの実施形態におけるクライアントデバイス間でカンファレンスを行うためのプロセス900のフローチャートである。プロセス900は、クライアントデバイス130からの入力オーディオストリームを含む、空間強調ステレオフォニックオーディオストリームをクライアントデバイス130に提供するために実行される。プロセス900は、いくつかのステップまたは追加のステップを含むことができ、ステップは異なる順序で実行することができる。プロセス900は、いくつかの実施形態による、オーディオ処理システム100の図をそれぞれが含む図9および10を参照して説明される。
サーバー102(例えば、空間混合プロセッサ110を有する)は、複数のクライアントデバイス130から905の入力オーディオストリームを受信する。例えば、オーディオストリームには、モノラルオーディオストリームが含まれ得る。別の例では、1つまたは複数の入力オーディオストリームに複数のオーディオチャネル(ステレオ、5.1チャネルサラウンドサウンド、1次オーダーのアビソニックなど)が含まれる場合がある。入力オーディオストリームは、ネットワーク経由で複数のクライアントデバイス130から送信できる。いくつかの実施形態では、各クライアントデバイス130は、入力オーディオストリームに関連してメタデータを送信する。メタデータには、クライアントデバイスを識別するデバイス識別データ、他のクライアントデバイスの他のオーディオストリームの必要な空間的位置を定義する配置データが含まれる場合がある。
サーバー102(例えば空間混合プロセッサ110を有する)は、クライアントデバイス130では、サウンドフィールド内の他のクライアントデバイス130の空間的な位置を定義する配置データ910を決定する。配置データはさまざまな方法で定義できる。例えば、配置データは、クライアントデバイスからメタデータとして受信するか、サーバー102によって事前定義されている場合がある。いくつかの実施形態では、ユーザーパンコントロールがない場合、クライアントデバイス130が自動的にパンされる。ユーザーは、好みに応じてオーディオをパンすることもできる。
サーバー102(例えば、空間混合プロセッサ110を有する)は、入力オーディオストリームを配置データに従って混合およびパンすることで、915A混合ストリームを生成する。混合ストリームは、左混合チャネルと右混合チャネルを含むステレオオーディオ信号であり得る。例えば、空間混合プロセッサ110は、サウンドフィールド内のオーディオストリーム140の空間位置を決定することができ、オーディオストリーム140に関連付けられた空間位置に応じて、オーディオストリーム140から左チャネルと右チャネルを生成し得る。左右のチャネルは、他のクライアントデバイス130のオーディオストリーム140ごとに生成さる。複数のオーディオストリーム140の左側のチャネルは左混合チャネル142に結合され、右側のチャネル140は右混合チャネル144に結合さる。
図10を参照すると、複数のクライアントデバイス130A、130b、130C、および140Dがカンファレンスに参加し、サーバー110に接続されている。クライアントデバイス130Aの場合、クライアントデバイス130Aの周囲にサウンドフィールド1002が定義される。配置データに従って、他のクライアントデバイス130b、130C、および130dがサウンドフィールド1002に配置される。サウンドフィールド1002には、間隔をおいたクライアントデバイス130の均一な空間分布が示されているが、空間分布は必ずしも均一ではない。例えば、クライアントデバイス130は、ユーザーロール、エンティティ/会社名、グループメンバーシップ、カンファレンス室の場所、地理的な場所、IPアドレスなどを定義する配置データに基づいて、サウンドフィールド1002内に分散され得る。
サーバー102(空間強調プロセッサ120を搭載)は、サブバンド空間処理とクロストーク処理を混合ストリームに適用することで、空間的に強調されたストリーム920を生成する。空間的に強調されたストリームは、左強調チャネルと右強調チャネルを含むステレオオーディオ信号の場合がある。空間強調プロセッサ120は、さまざまなタイプの空間強調を実行できる。サブバンド空間処理の場合、空間強調プロセッサ120は、左混合チャネルのミッドおよびサイドサブバンド成分と混合ストリームの右混合チャネルをゲイン調整することによって、左チャネルと右チャネルを生成する。クロストーク処理には、クライアントデバイス130がスピーカーとヘッドフォンのどちらを使用しているかによって、クロストークキャンセルやクロストークのシミュレーションが含まれる場合がある。いくつかの実施形態では、クライアントデバイス130ごとに異なるタイプの空間強調が実行されることがある。
いくつかの実施形態では、クライアントデバイス130の混合ストリームに適用される空間強調処理は、クライアントデバイス130からのデバイス情報に基づく。デバイス情報には、スピーカーパラメータ(サイズ、周波数応答、位置、方向など)や、フィルタ値、ゲイン値、時間遅延値、空間強調効果の強度などの空間強調プロセッサの動作パラメータなど、空間強調プロセッサ120の成分のパラメータが含まれる場合がある。いくつかの実施形態では空間強調プロセッサ120の動作パラメータは、スピーカーパラメータから導出される。クライアントデバイス130のタイプごとに、異なるタイプの空間強調処理を使用できる。例えば、クライアントデバイス130は、スピーカーのタイプ(スピーカーやヘッドフォンなど)やスピーカーのパラメータ(周波数特性、相対サイズ、相対的な向きなど)によって異なる場合がある。
いくつかの実施形態では、サーバー102は、各クライアントデバイスからデバイスの説明を受信し、デバイスの説明に基づいて空間強調プロセッサ120のパラメータを決定する。デバイスの説明には、ラップトップ、サウンドバー、ヘッドフォン、スピーカー、デスクトップスピーカーなどのクライアントデバイスのタイプが表示される場合がある。さまざまなタイプのクライアントデバイスが異なるパラメータに関連付けられ、パラメータはデバイスのタイプに基づいて選択される。
サーバー102は、クライアントデバイス130に空間強調ストリーム925を提供する。例えば、サーバー102は、左強調チャネルと右強調チャネルを含む空間強調ストリームをネットワーク経由でクライアントデバイス130に送信する。左強調チャネルは左スピーカー152に、右強調チャネルは右スピーカー154に提供され、空間強調ストリームに応じてサウンドを再現する。
いくつかの実施形態では、サーバー102(空間混合プロセッサ110など)は、空間強調ストリーム(または混合ストリーム)に関連して、各クライアントデバイス130にパニングメタデータを提供する。パニングメタデータには、オーディオストリームの参加者を識別する情報が含まれ得る。参加者は、ユーザーロール、エンティティ/会社名、グループメンバーシップ、部屋の場所、地理的な場所、IPアドレスによって識別できる。
いくつかの実施形態では、サーバー102は、クライアントデバイス130ごとに空間強調処理を行うために、クライアントデバイス130に混合ストリームを提供する。クライアントデバイス130には、混合ストリームを使用して左右の強調チャネルを生成する空間強調プロセッサ120を含む。図11を参照すると、各クライアントデバイス130A〜130dには、空間強調プロセッサ120が含まれており、空間混合プロセッサ110からの混合ストリームを処理する。クライアントデバイス120の空間強調プロセッサ120で使用される空間拡張プロセッサ120の成分のパラメータやデバイス情報はサーバー102に送信する必要はない。前述したように、さまざまなタイプの空間強調処理が、さまざまなタイプのクライアントデバイス130およびスピーカー構成に使用され得る。
いくつかの実施形態では、サーバー102はオーディオ信号140の混合されていないストリームをクライアントデバイス130に提供し、クライアントデバイス130は空間強調によりステレオミックスダウンされる。図12を参照すると、各クライアントデバイス130A〜130dには、ミックスダウンを実行して混合ストリームを生成する空間混合プロセッサ110と、空間混合プロセッサ110からの混合ストリームを処理する空間強調プロセッサ120が含まれている。サーバー102は、クライアントデバイス130Aから130dへの接続と、他のクライアントデバイス130から各クライアントデバイス130への入力信号140の提供を仲介する。いくつかの実施形態では、ピアツーピア構成など、各クライアントデバイス130はサーバー102を使用せずに相互に接続される。ここでは、各クライアントデバイス130が他のクライアントデバイス130にオーディオストリーム140を提供する。
ステップ910−925は、カンファレンスに参加しているクライアントデバイス130ごとに並行して実行することができる。クライアントデバイス130ごとに、1つまたは複数の他のクライアントデバイス130の入力オーディオストリームから異なる混合ストリームを生成できる。サーバー102には、クライアントデバイスごとに空間強調プロセッサ120の複数のインスタンスが含まれ、それぞれ異なる混合ストリームを処理する。さらに、ステップ910−925を繰り返して、カンファレンスに参加している各クライアントデバイス130にオーディオストリームの入出力を提供できる。
(コンピュータの例)
図13は、一実施形態によるコンピュータ1300の概略ブロック図である。コンピュータ1300は、オーディオシステムを実装する回路の一例である。図は、チップセット1304に1つ以上のプロセッサ1302を結合したものである。チップセット1304は、メモリコントローラハブ1320とI/Oコントローラハブ1322を搭載している。メモリ1306とグラフィックスアダプタ1312はメモリコントローラハブ1320に接続され、ディスプレイデバイス1318はグラフィックスアダプタ1312に接続されている。ストレージデバイス1308、キーボード1310、ポインティングデバイス1314、およびネットワークアダプタ1316は、I/Oコントローラハブ1322に接続されている。コンピュータ1300には、さまざまなタイプの入出力デバイスが含まれ得る。コンピュータ1300の他の実施形態には、異なるアーキテクチャがある。例えば、いくつかの実施形態によると、メモリ1306はプロセッサ1302に直接結合されている。
ストレージデバイス1308には、ハードドライブ、コンパクトディスク読み取り専用メモリ(CD−ROM)、DVD、ソリッドステートメモリデバイスなど、一時的にコンピュータで読み取り可能な1つ以上のストレージメディアが含まれている。メモリ1306は、プログラムコード(1つ以上の命令で構成される)とプロセッサ1302が使用するデータを保持する。プログラムコードは、図1から図11で説明されている処理面に対応し得る。
ポインティングデバイス1314をキーボード1310と組み合わせて使用し、コンピュータシステム1300にデータを入力する。グラフィックスアダプタ1312は、ディスプレイデバイス1318に画像やその他の情報を表示する。いくつかの実施形態によると、ディスプレイ装置1318には、ユーザーの入力と選択を受信するためのタッチスクリーン機能が組み込まれている。ネットワークアダプタ1316は、コンピュータシステム1300をネットワークに接続する。コンピュータ1300のいくつかの実施形態は、図13に示すものとは異なるものや、その他の成分を備えているものもある。
本明細書で説明された範囲から逸脱することなく、当業者には明らかなはずの様々な修正形態、変更形態及び変形形態が、本明細書で開示された方法及び装置の配置、動作及び詳細において作製され得る。

Claims (17)

  1. 複数のクライアントデバイスのうちの一つのクライアントデバイスにカンファレンスを提供するための方法であって、
    前記複数のクライアントデバイスから入力オーディオストリームを受信することと、
    前記複数のクライアントデバイスのうちの前記クライアントデバイスに対して、サウンドフィールド内の前記複数のクライアントデバイスのうちの他のクライアントデバイスの空間位置を定義する配置データを決定することと、
    前記配置データに従って前記他のクライアントデバイスの入力オーディオストリームを混合およびパンすることによって、左混合チャネルおよび右混合チャネルを含む前記クライアントデバイスのための混合ストリームを生成することと、
    前記クライアントデバイスに関連付けられたスピーカのタイプを決定することであって、スピーカの第1のタイプは、ヘッドフォンに対応し、スピーカの第2のタイプは、ラウドスピーカに対応する、ことと、
    前記混合ストリームの前記左混合チャネルおよび前記右混合チャネルにサブバンド空間処理を適用することによって、左強調チャネルおよび右強調チャネルを含む空間強調ストリームを生成することであって、前記サブバンド空間処理は
    前記左混合チャネルおよび前記右混合チャネルのミッド成分のミッドサブバンド成分に第1のゲインを適用して、強調ミッド成分を生成すること、
    前記左混合チャネルおよび前記右混合チャネルのサイド成分のサイドサブバンド成分に第2のゲインを適用して、強調サイド成分を生成すること、ならびに
    前記強調ミッド成分および前記強調サイド成分を使用して、前記左強調チャネルおよび前記右強調チャネルを生成すること
    を含む、ことと、
    前記空間強調ストリームの前記左強調チャネルを前記クライアントデバイスの左スピーカに提供し、前記空間強調ストリームの前記右強調チャネルを前記クライアントデバイスの右スピーカに提供することであって、前記空間強調ストリームを生成することは、
    スピーカの前記第1のタイプが前記クライアントデバイスと関連付けられると決定することに応答して、
    前記混合ストリームに基づいてクロストークシミュレーションを適用すること、および
    前記混合ストリームに基づいて前記クロストークシミュレーションを適用することによって引き起こされるスペクトル障害を調整する、前記混合ストリームにクロストーク補正を適用すること、ならびに
    スピーカの前記第2のタイプが前記クライアントデバイスと関連付けられると決定することに応答して、
    前記混合ストリームに基づいてクロストークキャンセレーションを適用すること、および
    前記混合ストリームに基づいて前記クロストークキャンセレーションを適用することによって引き起こされるスペクトル障害を調整する、前記混合ストリームにクロストーク補正を適用すること
    含む、ことと
    を備える方法。
  2. 前記配置データを決定することは、ネットワークを介して前記クライアントデバイスから前記配置データを受信することを含む、請求項1に記載の方法。
  3. 前記クライアントデバイスからの前記入力オーディオストリームの各々は、一つまたは複数のオーディオチャネルを含む、請求項1に記載の方法。
  4. 前記配置データに従って前記他のクライアントデバイスの前記入力オーディオストリームを混合およびパンすることによって、前記左混合チャネルおよび前記右混合チャネルを含む、前記クライアントデバイスのための前記混合ストリームを生成することは、
    前記サウンドフィールド内の前記他のクライアントデバイスの前記空間位置に従って、前記他のクライアントデバイスの前記入力オーディオストリームの各々から左チャネルおよび右チャネルを生成すること、
    前記左混合チャネルを生成するために前記他のクライアントデバイスの前記入力オーディオストリームから左チャネルを結合すること、および
    前記右混合チャネルを生成するために前記他のクライアントデバイスの前記入力オーディオストリームから前記右チャネルを結合すること
    を含む、請求項1に記載の方法。
  5. 前記複数のクライアントデバイスに接続されたサーバーは、前記混合ストリームを生成し、前記混合ストリームを前記クライアントデバイスに提供し、
    前記クライアントデバイスは、前記混合ストリームから前記空間強調ストリームを生成する、請求項1に記載の方法。
  6. 前記複数のクライアントデバイスに接続されたサーバーは、前記混合ストリームおよび前記空間強調ストリームを生成し、前記空間強調ストリームを前記クライアントデバイスに提供する、請求項1に記載の方法。
  7. 前記クライアントデバイスに関連付けられたスピーカの前記タイプを決定することは、
    前記サーバーにおいて、前記クライアントデバイスからデバイスの説明を受信することと
    前記デバイスの説明に基づいてスピーカの前記タイプを決定することであって、スピーカの前記タイプは、前記サブバンド空間処理を適用するための複数のパラメータに対応する、ことと
    含む、請求項6に記載の方法。
  8. 前記クライアントデバイスは、前記混合ストリームおよび前記空間強調ストリームを生成する、請求項1に記載の方法。
  9. プロセッサによって実行されると、
    複数のクライアントデバイスから入力オーディオストリームを受信し、
    前記複数のクライアントデバイスのうちの一つのクライアントデバイスに対して、サウンドフィールド内の前記複数のクライアントデバイスのうちの他のクライアントデバイスの空間位置を定義する配置データを決定し、
    前記配置データに従って前記他のクライアントデバイスの入力オーディオストリームを混合およびパンすることによって、左混合チャネルおよび右混合チャネルを含む前記クライアントデバイスのための混合ストリームを生成し、
    前記クライアントデバイスに関連付けられたスピーカのタイプを決定し、スピーカの第1のタイプがヘッドフォンに対応し、スピーカの第2のタイプがラウドスピーカに対応し、
    前記混合ストリームの前記左混合チャネルおよび前記右混合チャネルにサブバンド空間処理を適用することによって、左強調チャネルおよび右強調チャネルを含む空間強調ストリームを生成し、前記サブバンド空間処理は
    前記左混合チャネルおよび前記右混合チャネルのミッドサブバンド成分に第1のゲインを適用して、強調ミッド成分を生成することと、
    前記左混合チャネルおよび前記右混合チャネルのサイドサブバンド成分に第2のゲインを適用して、強調サイド成分を生成することと、
    前記強調ミッド成分および前記強調サイド成分を使用して、前記左強調チャネルおよび前記右強調チャネルを生成することと
    を含むように前記プロセッサを構成するプログラムコードを格納し、前記空間強調ストリームを生成するように前記プロセッサを構成する前記プログラムコードは、
    スピーカの前記第1のタイプが前記クライアントデバイスと関連付けられると決定することに応答して、
    前記混合ストリームに基づいてクロストークシミュレーションを適用し、
    前記混合ストリームに基づいて前記クロストークシミュレーションを適用することによって引き起こされるスペクトル障害を調整する、前記混合ストリームにクロストーク補正を適用し、
    スピーカの前記第2のタイプが前記クライアントデバイスと関連付けられると決定することに応答して、
    前記混合ストリームに基づいてクロストークキャンセレーションを適用し、
    前記混合ストリームに基づいて前記クロストークキャンセレーションを適用することによって引き起こされるスペクトル障害を調整する、前記混合ストリームにクロストーク補正を適用する
    ように前記プロセッサをさらに構成するプログラムコードを含む、非一時的なコンピュータ可読媒体。
  10. 実行されると、前記クライアントデバイスからデバイスの説明を受信し、前記デバイスの説明に基づいて前記サブバンド空間処理を適用するためのパラメータを決定するように前記プロセッサをさらに構成するプログラムコードをさらに備えた、請求項9に記載のコンピュータ可読媒体。
  11. 実行されると、前記左混合チャネルおよび前記右混合チャネルを含む前記混合ストリームを前記クライアントデバイスに提供するように前記プロセッサを構成するプログラムコードをさらに備えた、請求項9に記載のコンピュータ可読媒体。
  12. 実行されると、ネットワークを介して前記クライアントデバイスから前記配置データを受信するように前記プロセッサを構成する命令を含む前記配置データを決定するように前記プロセッサをさらに構成するプログラムコードをさらに備えた、請求項9に記載のコンピュータ可読媒体。
  13. 前記複数のクライアントデバイスからの前記入力オーディオストリームの各々は、一つまたは複数のオーディオチャネルを含む、請求項9に記載のコンピュータ可読媒体。
  14. 前記配置データに従って前記他のクライアントデバイスの前記入力オーディオストリームを混合およびパンすることによって、前記左混合チャネルおよび前記右混合チャネルを含む前記クライアントデバイスのための前記混合ストリームを生成するように前記プロセッサを構成する前記プログラムコードは、
    前記サウンドフィールド内の前記他のクライアントデバイスの前記空間位置に従って、前記他のクライアントデバイスの前記入力オーディオストリームの各々から左チャネルおよび右チャネルを生成し、
    前記左混合チャネルを生成するために前記他のクライアントデバイスの前記入力オーディオストリームから左チャネルを結合し、
    前記右混合チャネルを生成するために前記他のクライアントデバイスの前記入力オーディオストリームから前記右チャネルを結合するように
    前記プロセッサをさらに構成するプログラムコードを含む、請求項10に記載のコンピュータ可読媒体。
  15. 複数のクライアントデバイスのうちの一つのクライアントデバイスにカンファレンスを提供するためのシステムであって、
    前記複数のクライアントデバイスから入力オーディオストリームを受信し、
    前記複数のクライアントデバイスのうちの前記クライアントデバイスに対して、サウンドフィールド内の前記複数のクライアントデバイスのうちの他のクライアントデバイスの空間位置を定義する配置データを決定し、
    前記配置データに従って前記複数のクライアントデバイスのうちの前記他のクライアントデバイスの入力オーディオストリームを混合およびパンすることによって、左混合チャネルおよび右混合チャネルを含む、前記複数のクライアントデバイスのうちの前記クライアントデバイスのための混合ストリームを生成し
    前記クライアントデバイスに関連付けられたスピーカのタイプを決定し、スピーカの第1のタイプがヘッドフォンに対応し、スピーカの第2のタイプがラウドスピーカに対応し、
    前記混合ストリームの前記左混合チャネルおよび前記右混合チャネルにサブバンド空間処理を適用することによって、左強調チャネルおよび右強調チャネルを含む空間強調ストリームを生成し、前記サブバンド空間処理は
    前記左混合チャネルおよび前記右混合チャネルのミッドサブバンド成分に第1のゲインを適用して、強調ミッド成分を生成することと、
    前記左混合チャネルおよび前記右混合チャネルのサイドサブバンド成分に第2のゲインを適用して、強調サイド成分を生成することと、
    前記強調ミッド成分および前記強調サイド成分を使用して、前記左強調チャネルおよび前記右強調チャネルを生成することと
    を含むように構成された処理回路を備え、前記空間強調ストリームを生成することは、
    スピーカの前記第1のタイプが前記クライアントデバイスと関連付けられると決定することに応答して、
    前記混合ストリームに基づいてクロストークシミュレーションを適用すること、および
    前記混合ストリームに基づいて前記クロストークシミュレーションを適用することによって引き起こされるスペクトル障害を調整する、前記混合ストリームにクロストーク補正を適用すること、ならびに
    スピーカの前記第2のタイプが前記クライアントデバイスと関連付けられると決定することに応答して、
    前記混合ストリームに基づいてクロストークキャンセレーションを適用すること、および
    前記混合ストリームに基づいて前記クロストークキャンセレーションを適用することによって引き起こされるスペクトル障害を調整する、前記混合ストリームにクロストーク補正を適用すること
    含む、システム。
  16. 前記複数のクライアントデバイスからの前記入力オーディオストリームの各々は、一つまたは複数のオーディオチャネルを含む、請求項15に記載のシステム。
  17. 前記処理回路は、前記左混合チャネルおよび前記右混合チャネルを含む前記混合ストリームを前記複数のクライアントデバイスのうちの前記クライアントデバイスに提供するようにさらに構成された、請求項15に記載のシステム。
JP2020532786A 2017-12-15 2018-11-29 カンファレンスのためのサブバンド空間処理およびクロストークキャンセルシステム Active JP6947936B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762599605P 2017-12-15 2017-12-15
US62/599,605 2017-12-15
US16/151,201 US10674266B2 (en) 2017-12-15 2018-10-03 Subband spatial processing and crosstalk processing system for conferencing
US16/151,201 2018-10-03
PCT/US2018/063153 WO2019118194A1 (en) 2017-12-15 2018-11-29 Subband spatial processing and crosstalk cancellation system for conferencing

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021151299A Division JP7008862B2 (ja) 2017-12-15 2021-09-16 カンファレンスのためのサブバンド空間処理およびクロストークキャンセルシステム

Publications (2)

Publication Number Publication Date
JP2021507284A JP2021507284A (ja) 2021-02-22
JP6947936B2 true JP6947936B2 (ja) 2021-10-13

Family

ID=66814915

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020532786A Active JP6947936B2 (ja) 2017-12-15 2018-11-29 カンファレンスのためのサブバンド空間処理およびクロストークキャンセルシステム
JP2021151299A Active JP7008862B2 (ja) 2017-12-15 2021-09-16 カンファレンスのためのサブバンド空間処理およびクロストークキャンセルシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2021151299A Active JP7008862B2 (ja) 2017-12-15 2021-09-16 カンファレンスのためのサブバンド空間処理およびクロストークキャンセルシステム

Country Status (6)

Country Link
US (4) US10674266B2 (ja)
EP (2) EP4236374A3 (ja)
JP (2) JP6947936B2 (ja)
KR (3) KR102194515B1 (ja)
CN (1) CN111466123B (ja)
WO (1) WO2019118194A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10841728B1 (en) * 2019-10-10 2020-11-17 Boomcloud 360, Inc. Multi-channel crosstalk processing
US11432069B2 (en) * 2019-10-10 2022-08-30 Boomcloud 360, Inc. Spectrally orthogonal audio component processing
US11246001B2 (en) * 2020-04-23 2022-02-08 Thx Ltd. Acoustic crosstalk cancellation and virtual speakers techniques
US11662975B2 (en) 2020-10-06 2023-05-30 Tencent America LLC Method and apparatus for teleconference

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4910779A (en) * 1987-10-15 1990-03-20 Cooper Duane H Head diffraction compensated stereo system with optimal equalization
JP2645731B2 (ja) * 1988-08-24 1997-08-25 日本電信電話株式会社 音像定位再生方式
US5889843A (en) * 1996-03-04 1999-03-30 Interval Research Corporation Methods and systems for creating a spatial auditory environment in an audio conference system
JP3594281B2 (ja) 1997-04-30 2004-11-24 株式会社河合楽器製作所 ステレオ拡大装置及び音場拡大装置
KR20060003444A (ko) 2004-07-06 2006-01-11 삼성전자주식회사 모바일 기기에서 크로스토크 제거 장치 및 방법
US7599498B2 (en) 2004-07-09 2009-10-06 Emersys Co., Ltd Apparatus and method for producing 3D sound
US7974418B1 (en) 2005-02-28 2011-07-05 Texas Instruments Incorporated Virtualizer with cross-talk cancellation and reverb
US8559646B2 (en) * 2006-12-14 2013-10-15 William G. Gardner Spatial audio teleconferencing
US20080260131A1 (en) * 2007-04-20 2008-10-23 Linus Akesson Electronic apparatus and system with conference call spatializer
US8073125B2 (en) * 2007-09-25 2011-12-06 Microsoft Corporation Spatial audio conferencing
WO2010136634A1 (en) 2009-05-27 2010-12-02 Nokia Corporation Spatial audio mixing arrangement
US8351589B2 (en) * 2009-06-16 2013-01-08 Microsoft Corporation Spatial audio for audio conferencing
UA107771C2 (en) * 2011-09-29 2015-02-10 Dolby Int Ab Prediction-based fm stereo radio noise reduction
RU2626037C2 (ru) * 2012-02-24 2017-07-21 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство для обеспечения аудиосигнала для воспроизведения преобразователем звука, система, способ (варианты) и компьютерная программа
EP2829048B1 (en) * 2012-03-23 2017-12-27 Dolby Laboratories Licensing Corporation Placement of sound signals in a 2d or 3d audio conference
US9781507B2 (en) * 2013-04-08 2017-10-03 Nokia Technologies Oy Audio apparatus
EP2809088B1 (en) * 2013-05-30 2017-12-13 Barco N.V. Audio reproduction system and method for reproducing audio data of at least one audio object
CN105657633A (zh) * 2014-09-04 2016-06-08 杜比实验室特许公司 生成针对音频对象的元数据
US9578439B2 (en) * 2015-01-02 2017-02-21 Qualcomm Incorporated Method, system and article of manufacture for processing spatial audio
US10225657B2 (en) 2016-01-18 2019-03-05 Boomcloud 360, Inc. Subband spatial and crosstalk cancellation for audio reproduction
CN108781331B (zh) * 2016-01-19 2020-11-06 云加速360公司 用于头戴式扬声器的音频增强

Also Published As

Publication number Publication date
CN111466123A (zh) 2020-07-28
US20190191247A1 (en) 2019-06-20
JP2021192553A (ja) 2021-12-16
KR20220016283A (ko) 2022-02-08
EP4236374A3 (en) 2023-10-18
EP3725101A1 (en) 2020-10-21
US20220070581A1 (en) 2022-03-03
EP3725101B1 (en) 2023-06-28
US11252508B2 (en) 2022-02-15
EP3725101A4 (en) 2021-09-01
JP7008862B2 (ja) 2022-01-25
KR102425815B1 (ko) 2022-07-27
US10674266B2 (en) 2020-06-02
EP4236374A2 (en) 2023-08-30
JP2021507284A (ja) 2021-02-22
US11736863B2 (en) 2023-08-22
KR102355770B1 (ko) 2022-01-25
US20230353941A1 (en) 2023-11-02
KR20200143516A (ko) 2020-12-23
WO2019118194A1 (en) 2019-06-20
CN111466123B (zh) 2022-02-01
KR102194515B1 (ko) 2020-12-23
US20200275208A1 (en) 2020-08-27
KR20200089339A (ko) 2020-07-24

Similar Documents

Publication Publication Date Title
JP7008862B2 (ja) カンファレンスのためのサブバンド空間処理およびクロストークキャンセルシステム
JP4986857B2 (ja) パンされたステレオオーディオコンテンツについての改善された頭部伝達関数
AU2017210021B2 (en) Synthesis of signals for immersive audio playback
JP5816072B2 (ja) バーチャルサラウンドレンダリングのためのスピーカアレイ
JP2021132408A (ja) クロストークプロセッシングb−チェーン
JP2022101630A (ja) 空間オーディオ信号のクロストーク処理のためのスペクトル欠陥補償
JP5651813B1 (ja) 音声信号処理装置、および音声信号処理方法
TWI246866B (en) Method and device for digital audio signal processing
US11950088B2 (en) System and method for generating spatial audio with uniform reverberation in real-time communication
Kim et al. 3D Sound Techniques for Sound Source Elevation in a Loudspeaker Listening Environment

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200827

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200827

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200827

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20201217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210817

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210916

R150 Certificate of patent or registration of utility model

Ref document number: 6947936

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150