JP2022551873A - スペクトル直交オーディオ成分を用いたサブバンド空間処理およびクロストーク処理 - Google Patents

スペクトル直交オーディオ成分を用いたサブバンド空間処理およびクロストーク処理 Download PDF

Info

Publication number
JP2022551873A
JP2022551873A JP2022521288A JP2022521288A JP2022551873A JP 2022551873 A JP2022551873 A JP 2022551873A JP 2022521288 A JP2022521288 A JP 2022521288A JP 2022521288 A JP2022521288 A JP 2022521288A JP 2022551873 A JP2022551873 A JP 2022551873A
Authority
JP
Japan
Prior art keywords
component
mid
residual
spectral energy
spectral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022521288A
Other languages
English (en)
Other versions
JP7410282B2 (ja
Inventor
セルデス ザッカリー
Original Assignee
ブームクラウド 360 インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ブームクラウド 360 インコーポレイテッド filed Critical ブームクラウド 360 インコーポレイテッド
Publication of JP2022551873A publication Critical patent/JP2022551873A/ja
Priority to JP2023215971A priority Critical patent/JP2024026465A/ja
Application granted granted Critical
Publication of JP7410282B2 publication Critical patent/JP7410282B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • H04R3/14Cross-over networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Discrete Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

システムは、スペクトル直交サウンド成分を使用して、オーディオ信号を処理する。システムは、オーディオ信号の左チャンネルおよび右チャンネルから、ミッド成分と、サイド成分とを生成する回路を含む。回路は、ミッド成分のスペクトルエネルギーから除去された、サイド成分のスペクトルエネルギーを含む、ハイパーミッド成分を生成し、ミッド成分のスペクトルエネルギーから分離したハイパーミッド成分のスペクトルエネルギーを含む残差ミッド成分を生成する。回路は、サブバンド空間処理を適用するように、残差ミッド成分のサブバンドをフィルタリングする。回路は、残差ミッド成分のフィルタリングされたサブバンドを使用して左出力チャネルおよび右出力チャネルを生成する。

Description

本開示は、一般に、オーディオ処理に関し、より詳細には、空間オーディオ処理に関する。
概念的に、左-右ステレオ信号のサイド(または「空間」)成分は、空間情報を含む左チャンネルおよび右チャンネルの部分(すなわち、音場における中央の左または右のどこかに現れる、ステレオ信号におけるサウンド)と考えることができる。反対に、左-右のステレオ信号のミッド(または「非空間」)成分は、非空間情報を含む左チャンネルおよび右チャンネルの部分(すなわち、(音場の中央に現れる、ステレオ信号におけるサウンド)と考えることができる。ミッド成分は、非空間的と知覚される、ステレオ信号におけるエネルギーを含むが、それは、一般に、音場の中央に知覚的に配置されない、ステレオ信号における要素からのエネルギーも有する。同様に、サイド成分は、空間的と知覚される、ステレオ信号におけるエネルギーを含むが、それは、一般に、音場の中央に知覚的に配置された、ステレオ信号における要素からのエネルギーも有する。オーディオを処理する際の可能性の範囲を拡張するために、互いにスペクトル的に「直交」する、ミッド成分およびサイド成分の部分を分離し、操作することが、望ましい。
実施形態は、ステレオオーディオ信号または他のマルチチャンネルオーディオ信号の、ハイパーミッド成分、ハイパーサイド成分、残差ミッド成分、または残差サイド成分など、スペクトル直交オーディオ成分を使用する空間オーディオ処理に関する。空間オーディオ処理は、空間検出性を高めるサブバンド空間処理、またはオーディオ信号に適用されたクロストーク処理に起因するスペクトル不良を補償するクロストーク補償処理を含み得る。クロストーク処理は、クロストークキャンセレーション、またはクロストークシミュレーションを含み得る。
いくつかの実施形態は、オーディオ信号を処理するためのシステムを含む。システムは、オーディオ信号の左チャンネルおよび右チャンネルから、ミッド成分と、サイド成分とを生成する回路を含む。回路は、ミッド成分のスペクトルエネルギーから除去された、サイド成分のスペクトルエネルギーを含むハイパーミッド成分を生成し、ミッド成分のスペクトルエネルギーから除去された、ハイパーミッド成分のスペクトルエネルギーを含む残差ミッド成分を生成する。回路は、サブバンド空間処理を適用するなどのために、残差ミッド成分のサブバンドをフィルタリングする。回路は、残差ミッド成分のフィルタリングされたサブバンドを使用して、左出力チャンネルと、右出力チャンネルとを生成する。
いくつかの実施形態においては、残差ミッド成分のサブバンドの各々は、クリティカルバンドのセットを含む。
いくつかの実施形態において、回路は、サイド成分のスペクトルエネルギーから除去された、ミッド成分のスペクトルエネルギーを含むハイパーサイド成分を生成し、サイド成分のスペクトルエネルギーから除去された、ハイパーサイド成分のスペクトルエネルギーを含む残差サイド成分を生成し、残差サイド成分のサブバンドをフィルタリングし、残差サイド成分のフィルタリングされたサブバンドを使用して、左出力チャンネルと、右出力チャンネルとを生成する。
いくつかの実施形態において、回路は、サイド成分のスペクトルエネルギーから除去された、ミッド成分のスペクトルエネルギーを含むハイパーサイド成分を生成し、ハイパーサイド成分のサブバンドをフィルタリングし、ハイパーサイド成分のフィルタリングされたサブバンドを使用して、左出力チャンネルと、右出力チャンネルとを生成する。
いくつかの実施形態においては、回路は、サイド成分のサブバンドをフィルタリングし、サイド成分のフィルタリングされたサブバンドを使用して、左出力チャンネルと、右出力チャンネルとを生成する。
いくつかの実施形態においては、回路は、ハイパーミッド成分のサブバンドをフィルタリングし、ハイパーミッド成分のフィルタリングされたサブバンドを使用して、左出力チャンネルと、右出力チャンネルとを生成する。
いくつかの実施形態においては、回路は、オーディオ信号にクロストーク処理を適用する。クロストーク処理は、クロストークキャンセレーション、またはクロストークシミュレーションを含む。いくつかの実施形態においては、回路は、クロストーク処理によって引き起こされた、スペクトル不良を補償するためにハイパーミッド成分をフィルタリングする。いくつかの実施形態においては、回路は、クロストーク処理によって引き起こされたスペクトル不良を補償するために、残差ミッド成分をフィルタリングする。いくつかの実施形態においては、回路は、クロストーク処理によって引き起こされたスペクトル不良を補償するためにミッド成分をフィルタリングする。いくつかの実施形態においては、回路は、サイド成分のスペクトルエネルギーから除去された、ミッド成分のスペクトルエネルギーを含むハイパーサイド成分を生成し、クロストーク処理によって引き起こされたスペクトル不良を補償するために、ハイパーサイド成分をフィルタリングする。いくつかの実施形態においては、回路は、サイド成分のスペクトルエネルギーから除去された、ハイパーサイド成分のスペクトルエネルギーを含む、残差サイド成分を生成し、クロストーク処理によって引き起こされたスペクトル不良を補償するために残差サイド成分をフィルタリングする。いくつかの実施形態においては、回路は、クロストーク処理によって引き起こされたスペクトル不良を補償するためにサイド成分をフィルタリングする。
いくつかの実施形態は、記憶されたプログラムコードを含む、非一時的なコンピュータ可読媒体を含む。プログラムコードは、少なくとも1つのプロセッサによって実行されたとき、オーディオ信号の左チャンネルおよび右チャンネルから、ミッド成分と、サイド成分とを生成し、ミッド成分のスペクトルエネルギーから除去された、サイド成分のスペクトルエネルギーを含む、ハイパーミッド成分を生成し、ミッド成分のスペクトルエネルギーから除去された、ハイパーミッド成分のスペクトルエネルギーを含む、残差ミッド成分を生成し、残差ミッド成分のサブバンドをフィルタリングし、残差ミッド成分のフィルタリングされたサブバンドを使用して、左出力チャンネルと、右出力チャンネルとを生成するように、少なくとも1つのプロセッサを構成する。
いくつかの実施形態は、回路によって実行される方法を含む。方法は、オーディオ信号の左チャンネルおよび右チャンネルから、ミッド成分と、サイド成分とを生成するステップと、ミッド成分のスペクトルエネルギーから除去された、サイド成分のスペクトルエネルギーを含むハイパーミッド成分を生成するステップと、ミッド成分のスペクトルエネルギーから除去された、ハイパーミッド成分のスペクトルエネルギーを含む残差ミッド成分を生成するステップと、残差ミッド成分のサブバンドをフィルタリングするステップと、残差ミッド成分のフィルタリングされたサブバンドを使用して、左出力チャンネルと、右出力チャンネルとを生成するステップとを含む。
開示された実施形態は、詳細な説明、添付の特許請求の範囲、および添付の図(または図面)からより容易に明らかとなる、他の利点および特徴を有する。図の簡単な紹介は、以下の通りである。
図1は、1つまたは複数の実施形態による、オーディオ処理システムのブロック図である。 図2Aは、1つまたは複数の実施形態による、直交成分ジェネレータのブロック図である。 図2Bは、1つまたは複数の実施形態による、直交成分ジェネレータのブロック図である。 図2Cは、1つまたは複数の実施形態による、直交成分ジェネレータのブロック図である。 図3は、1つまたは複数の実施形態による、直交成分プロセッサのブロック図である。 図4は、1つまたは複数の実施形態による、サブバンド空間プロセッサのブロック図である。 図5は、1つまたは複数の実施形態による、クロストーク補償プロセッサのブロック図である。 図6は、1つまたは複数の実施形態による、クロストークシミュレーションプロセッサのブロック図である。 図7は、1つまたは複数の実施形態による、クロストークキャンセレーションプロセッサのブロック図である。 図8は、1つまたは複数の実施形態による、ハイパーミッド成分、残差ミッド成分、ハイパーサイド成分、または残差サイド成分のうちの少なくとも1つを使用する、空間処理のためのプロセスのフローチャートである。 図9は、1つまたは複数の実施形態による、ハイパーミッド成分、残差ミッド成分、ハイパーサイド成分、または残差サイド成分のうちの少なくとも1つを使用する、サブバンド空間処理およびクロストークに対する補償処理のためのプロセスのフローチャートである。 図10は、1つまたは複数の実施形態による、例示的なホワイトノイズ信号のミッド成分およびサイド成分のスペクトルエネルギーを示すプロットである。 図11は、1つまたは複数の実施形態による、例示的なホワイトノイズ信号のミッド成分およびサイド成分のスペクトルエネルギーを示すプロットである。 図12は、1つまたは複数の実施形態による、例示的なホワイトノイズ信号のミッド成分およびサイド成分のスペクトルエネルギーを示すプロットである。 図13は、1つまたは複数の実施形態による、例示的なホワイトノイズ信号のミッド成分およびサイド成分のスペクトルエネルギーを示すプロットである。 図14は、1つまたは複数の実施形態による、例示的なホワイトノイズ信号のミッド成分およびサイド成分のスペクトルエネルギーを示すプロットである。 図15は、1つまたは複数の実施形態による、例示的なホワイトノイズ信号のミッド成分およびサイド成分のスペクトルエネルギーを示すプロットである。 図16は、1つまたは複数の実施形態による、例示的なホワイトノイズ信号のミッド成分およびサイド成分のスペクトルエネルギーを示すプロットである。 図17は、1つまたは複数の実施形態による、例示的なホワイトノイズ信号のミッド成分およびサイド成分のスペクトルエネルギーを示すプロットである。 図18は、1つまたは複数の実施形態による、例示的なホワイトノイズ信号のミッド成分およびサイド成分のスペクトルエネルギーを示すプロットである。 図19は、1つまたは複数の実施形態による、例示的なホワイトノイズ信号のミッド成分およびサイド成分のスペクトルエネルギーを示すプロットである。 図20は、1つまたは複数の実施形態による、コンピュータシステムのブロック図である。
図および以下の説明は、例示としてのみ、好ましい実施形態に関する。以下の説明から、本明細書において開示される構造および方法の代替的な実施形態は、特許請求されるものの原理から逸脱することなく利用され得る、実行可能な代案として容易に認識されることが、留意されるべきである。
今から、その例が添付の図に例示された、いくつかの実施形態に対する言及が、詳細に行われる。実行可能なときは常に、類似または同様の参照番号が、図において使用され得、類似または同様の機能性を示し得ることが、留意される。図は、例示の目的でのみ、開示されるシステム(または方法)の実施形態を示している。当業者は、以下の説明から、本明細書に例示された構造および方法の代替的な実施形態が、本明細書において説明される原理から逸脱することなく、利用され得ることを容易に認識するであろう。
実施形態は、互いにスペクトル的に直交する、ミッド成分およびサイド成分を使用する、空間オーディオ処理に関する。例えば、オーディオ処理システムは、音場の中央に存在するスペクトルエネルギーだけに対応する、ミッド成分の部分を分離した、ハイパーミッド成分、または音場の中央に存在しないスペクトルエネルギーだけに対応する、サイド成分の部分を分離した、ハイパーサイド成分を生成する。ハイパーミッド成分は、ミッド成分のスペクトルエネルギーから除去された、サイド成分のスペクトルエネルギーを含み、ハイパーサイド成分は、サイド成分のスペクトルエネルギーから除去された、ミッド成分のスペクトルエネルギーを含む。オーディオ処理システムは、(例えば、ミッド成分のスペクトルエネルギーから、ハイパーミッド成分のスペクトルエネルギーを減算することによって)ハイパーミッド成分が除去された、ミッド成分のスペクトルエネルギーに対応する、残差ミッド成分、または(例えば、サイド成分のスペクトルエネルギーから、ハイパーサイド成分のスペクトルエネルギーを減算することによって)ハイパーミッド成分が除去された、サイド成分のスペクトルエネルギーに対応する、残差サイド成分も生成し得る。これらの直交成分を分離し、これらの成分を使用して、様々なタイプのオーディオ処理を実行することによって、オーディオ処理システムは、オーディオコンテンツの目標とされるエンハンスメントを提供することができる。ハイパーミッド成分は、音場の中央における非空間的(すなわち、ミッド)スペクトルエネルギーを表す。例えば、音場の中央における非空間的スペクトルエネルギーは、映画のダイアログ、または音楽における主要ボーカルコンテンツを含み得る。ハイパーミッドに対して信号処理操作を適用することは、音場内の他のどこかに存在するスペクトルエネルギーを変化させることなく、そのようなオーディオコンテンツの調整を可能にする。例えば、いくつかの実施形態においては、ボーカルコンテンツは、典型的な人間の声域におけるスペクトルエネルギーを減少させる、ハイパーミッド成分にフィルタを適用することによって、部分的および/または完全に除去され得る。他の実施形態においては、ボーカルコンテンツに対する目標とされるエンハンスメントまたはエフェクトが、(例えば、圧縮、リバーブ、および/または他のオーディオ処理技法を介して)典型的な人間の声域におけるエネルギーを増加させるフィルタによって、適用され得る。残差ミッド成分は、音場の真ん中にない非空間的スペクトルエネルギーを表す。残差ミッドに対して信号処理技法を適用することは、類似の変換が、他の成分と直交して行われることを可能にする。例えば、いくつかの実施形態においては、全体的な知覚されるゲインの最小限の変化と、ボーカルプレゼンスの最小限の損失で、オーディオコンテンツに対して空間的広がりエフェクトを提供するために、残差サイド成分におけるスペクトルエネルギーは、増加させながら、残差ミッド成分における目標とされるスペクトルエネルギーは、部分的および/または完全に除去され得る。
例示的なオーディオ処理システム
図1は、1つまたは複数の実施形態による、オーディオ処理システム100のブロック図である。オーディオ処理システム100は、空間的に増強された出力オーディオ信号を生成するために、入力オーディオ信号を処理する回路である。入力オーディオ信号は、左入力チャンネル103と、右入力チャンネル105とを含み、出力オーディオ信号は、左出力チャンネル121と、右出力チャンネル123とを含む。オーディオ処理システム100は、L/RからM/Sへの変換器モジュール107と、直交成分ジェネレータモジュール113と、直交成分プロセッサモジュール117と、M/SからL/Rへの変換器モジュール119と、クロストークプロセッサモジュール141とを含む。いくつかの実施形態においては、オーディオ処理システム100は、上で述べられたコンポーネントのサブセット、および/または上で述べられたそれらに対する追加コンポーネントを含む。いくつかの実施形態においては、オーディオ処理システム100は、図1に示されるものとは異なる順序で、入力オーディオ信号を処理する。例えば、オーディオ処理システム100は、直交成分ジェネレータモジュール113および直交成分プロセッサモジュール117を使用する処理の前に、クロストーク処理を用いて、入力オーディオを処理し得る。
L/RからM/Sへの変換器モジュール107は、左入力チャンネル103と、右入力チャンネル105とを受信し、入力チャンネル103および105から、ミッド成分109(例えば、非空間成分)と、サイド成分111(例えば、空間成分)とを生成する。いくつかの実施形態においては、ミッド成分109は、左入力チャンネル103と右入力チャンネル105との和に基づいて生成され、サイド成分111は、左入力チャンネル103と右入力チャンネル105との間の差に基づいて生成される。いくつかの実施形態においては、いくつかのミッド成分およびサイド成分が、マルチチャンネル入力オーディオ信号(例えば、サラウンドサウンド)から生成される。他のL/RからM/Sタイプの変換は、ミッド成分109と、サイド成分111とを生成するために使用され得る。
直交成分ジェネレータモジュール113は、ハイパーミッド成分M1、ハイパーサイド成分S1、残差ミッド成分M2、および残差サイド成分S2のうちの少なくとも1つを生成するために、ミッド成分109と、サイド成分111とを処理する。ハイパーミッド成分M1は、サイド成分111が除去された、ミッド成分109である。ハイパーサイド成分S1は、ミッド成分109のスペクトルエネルギーが除去された、サイド成分111のスペクトルエネルギーである。残差ミッド成分M2は、ハイパーミッド成分M1のスペクトルエネルギーが除去された、ミッド成分109のスペクトルエネルギーである。残差サイド成分S2は、ハイパーサイド成分S1のスペクトルエネルギーが除去された、サイド成分111のスペクトルエネルギーである。いくつかの実施形態においては、オーディオ処理システム100は、ハイパーミッド成分M1、ハイパーサイド成分S1、残差ミッド成分M2、および残差サイド成分S2のうちの少なくとも1つを処理することによって、左出力チャンネル121と、右出力チャンネル123とを生成する。直交成分ジェネレータモジュール113は、図2A~図2Cに関して、さらに説明される。
直交成分プロセッサモジュール117は、ハイパーミッド成分M1、ハイパーサイド成分S1、残差ミッド成分M2、および/または残差サイド成分S2のうちの1つまたは複数を処理する。成分M1、M2、S1、S2に対する処理は、空間キュー処理(例えば、振幅もしくは遅延ベースのパニング、バイノーラル処理など)、ダイナミックレンジ処理、機械学習ベースの処理、ゲイン適用、リバーブレーション、オーディオエフェクト追加、または他のタイプの処理など、様々なタイプのフィルタリングを含み得る。いくつかの実施形態においては、直交成分プロセッサモジュール117は、処理されたミッド成分131と、処理されたサイド成分139とを生成するために、ハイパーミッド成分M1、ハイパーサイド成分S1、残差ミッド成分M2、および/または残差サイド成分S2を使用して、サブバンド空間処理、および/またはクロストーク補償処理を実行する。サブバンド空間処理は、オーディオ信号を空間的に増強するために、オーディオ信号のミッド成分およびサイド成分の周波数サブバンドに対して実行される処理である。クロストーク補償処理は、ラウドスピーカのためのクロストーク補償、またはヘッドホンのためのクロストークシミュレーションなど、クロストーク処理によって引き起こされるスペクトルアーチファクトを調整するオーディオ信号に対して実行される処理である。直交成分プロセッサモジュール117は、図3に関して、さらに説明される。
M/SからL/Rへの変換器モジュール119は、処理されたミッド成分131と、処理されたサイド成分139とを受信し、処理された左成分151と、処理された右成分159とを生成する。いくつかの実施形態においては、処理された左成分151は、処理されたミッド成分131と処理されたサイド成分139との和に基づいて生成され、処理された右成分159は、処理されたミッド成分131と処理されたサイド成分139との間の差に基づいて生成される。他のM/SからL/Rタイプの変換は、処理された左成分151と、処理された右成分159とを生成するために使用され得る。
クロストークプロセッサモジュール141は、処理された左成分151と、処理された右成分159とを受信し、それらに対してクロストーク処理を実行する。クロストーク処理は、例えば、クロストークシミュレーション、またはクロストークキャンセレーションを含む。クロストークシミュレーションは、ラウドスピーカのエフェクトをシミュレートするために(例えば、ヘッドホンを介して出力される)オーディオ信号に対して実行される処理である。クロストークキャンセレーションは、ラウドスピーカによって引き起こされるクロストークを除去するために、ラウドスピーカを介して出力されるように構成されたオーディオ信号に対して実行される処理である。クロストークプロセッサモジュール141は、左出力チャンネル121と、右出力チャンネル123とを出力する。
例示的な直交成分ジェネレータ
図2A~図2Cは、それぞれ、1つまたは複数の実施形態による直交成分ジェネレータモジュール213、223、243のブロック図である。直交成分ジェネレータモジュール213、223、243は、直交成分ジェネレータモジュール113の例である。
図2Aを参照すると、直交成分ジェネレータモジュール213は、減算ユニット205と、減算ユニット209と、減算ユニット215と、減算ユニット219とを含む。上で説明されたように、直交成分ジェネレータモジュール113は、ミッド成分109と、サイド成分111とを受信し、ハイパーミッド成分M1、ハイパーサイド成分S1、残差ミッド成分M2および残差サイド成分S2のうちの1つまたは複数を出力する。
減算ユニット205は、ハイパーミッド成分M1を生成するためにミッド成分109のスペクトルエネルギーからサイド成分111のスペクトルエネルギーを除去する。例えば、減算ユニット205は、ハイパーミッド成分M1を生成するために位相だけを残しながら周波数領域におけるミッド成分109の大きさから周波数領域におけるサイド成分111の大きさを減算する。周波数領域における減算は、周波数領域における信号を生成するための時間領域信号に対するフーリエ変換と、その後の周波数領域における信号の減算とを使用して実行され得る。他の例においては、周波数領域における減算はフーリエ変換の代わりにウェーブレット変換を使用するなど、他の方法で実行されることができる。減算ユニット209は、ミッド成分109のスペクトルエネルギーからハイパーミッド成分M1のスペクトルエネルギーを除去することによって残差ミッド成分M2を生成する。例えば、減算ユニット209は、残差ミッド成分M2を生成するために位相だけを残しながら周波数領域におけるミッド成分109の大きさから周波数領域におけるハイパーミッド成分M1の大きさを減算する。時間領域においてミッドからサイドを減算することは、信号の元の右チャンネルをもたらすのに対し、周波数領域における上述の操作は、(M1、またはハイパーミッドと呼ばれる)サイド成分のスペクトルエネルギーと異なるミッド成分のスペクトルエネルギーの部分と、(M2、または残差ミッドと呼ばれる)サイド成分のスペクトルエネルギーと同じミッド成分のスペクトルエネルギーの部分とを分離し、区別する。
いくつかの実施形態においては、ミッド成分109のスペクトルエネルギーからのサイド成分111のスペクトルエネルギーの減算が(例えば、周波数領域におけるビンのうちの1つまたは複数について)ハイパーミッド成分M1についての負の値をもたらすとき、追加処理が使用され得る。いくつかの実施形態においては、ミッド成分109のスペクトルエネルギーからのサイド成分111のスペクトルエネルギーの減算が負の値をもたらすとき、ハイパーミッド成分M1は、0値に固定される。いくつかの実施形態においては、ハイパーミッド成分M1は、負の値の絶対値をハイパーミッド成分M1の値として取ることによって、ラップアラウンドされる。ミッド成分109のスペクトルエネルギーからのサイド成分111のスペクトルエネルギーの減算がM1についての負の値をもたらすとき、他のタイプの処理が、使用されてよい。ハイパーサイド成分S1、残差サイド成分S2、または残差ミッド成分M2を生成する減算が負をもたらすとき、0に固定、ラップアラウンド、または他の処理など、類似の追加処理が使用され得る。ハイパーミッド成分M1を0に固定することは、減算が負の値をもたらしたときに、M1と両サイド成分との間のスペクトル直交性を保証する。同様に、ハイパーサイド成分S1を0に固定することは、減算が負の値をもたらしたときに、S1と両ミッド成分との間のスペクトル直交性を保証する。ハイパーミッド成分およびハイパーサイド成分と、それらの適切なミッド/サイド対応成分(すなわち、ハイパーミッドに対するサイド成分、ハイパーサイドに対するミッド成分)との間に直交性を生み出すことによって導出された残差ミッドM2成分および残差サイドS2成分は、それらの適切なミッド/サイド対応成分と直交しない(すなわち、共通する)スペクトルエネルギーを含む。すなわち、残差ミッドを導出するために、ハイパーミッドに対して0への固定を適用し、そのM1成分を使用するときサイド成分と共通するスペクトルエネルギーを有さないハイパーミッド成分、およびサイド成分と十分に共通するスペクトルエネルギーを有する残差ミッド成分が生成される。ハイパーサイドを0に固定したとき、同じ関係がハイパーサイドと残差サイドとに当てはまる。周波数領域処理を適用するとき、一般に、周波数とタイミング情報との間に分解能のトレードオフが存在する。周波数分解能が増加するにつれて(すなわち、FFTウィンドウサイズ、および周波数ビンの数が、増えるにつれて)、時間分解能は低下し、その逆も同様である。上で説明されたスペクトル減算は、周波数ビンごとに行われ、したがって、大きなFFTウィンドウサイズ(例えば、実数値入力信号を仮定すると、4096個の周波数ビンをもたらす8192サンプル)を有することは、ハイパーミッド成分からボーカルエネルギーを除去するときなど、ある状況において好ましいことがある。他の状況は、より大きい時間分解能を必要とし、したがって、より低い全体的なレイテンシ、およびより低い周波数分解能(例えば、実数値入力信号を仮定すると256個の周波数ビンをもたらす512サンプルのFFTウィンドウサイズ)を必要とし得る。後者のケースにおいて、ミッドおよびサイドの低い周波数分解能は、ハイパーミッドM1成分およびハイパーサイドS1成分を導出するために相手から減算されるとき、各周波数ビンのスペクトルエネルギーがあまりにも大きい周波数範囲にわたるエネルギーの平均表現であるために、可聴スペクトルアーチファクトを生成することがある。このケースにおいて、ハイパーミッドM1またはハイパーサイドS1を導出するときにミッドとサイドとの間の差の絶対値を取ることは、成分における真の直交性からの周波数ビンごとの逸脱を許容することによって、知覚的アーチファクトを軽減する助けとなることができる。0にラップアラウンドすることに加えて、またはそれの代わりに減数値に係数を適用して、その値を0と1との間にスケーリングし、したがって、一方の極(すなわち、1の値)における完全な直交性があるハイパーおよび残差ミッド/サイド成分と、他方の極(すなわち、0の値)における対応する元のミッド成分およびサイド成分と同一であるハイパーミッドM1およびハイパーサイドS1との間における補間方法を提供し得る。
減算ユニット215は、ハイパーサイド成分S1を生成するために、位相だけを残しながら周波数領域におけるサイド成分111のスペクトルエネルギーから周波数領域におけるミッド成分109のスペクトルエネルギーを除去する。例えば、減算ユニット215は、ハイパーサイド成分S1を生成するために、位相だけを残しながら周波数領域におけるサイド成分111の大きさから周波数領域におけるミッド成分109の大きさを減算する。減算ユニット219は、残差サイド成分S2を生成するために、サイド成分111のスペクトルエネルギーからハイパーサイド成分S1のスペクトルエネルギーを除去する。例えば、減算ユニット219は、残差サイド成分S2を生成するために、位相だけを残しながら、周波数領域におけるサイド成分111の大きさから周波数領域におけるハイパーサイド成分S1の大きさを減算する。
図2Bにおいて、直交成分ジェネレータモジュール223は、それがミッド成分109とサイド成分111とを受信し、ハイパーミッド成分M1と、残差ミッド成分M2と、ハイパーサイド成分S1と、残差サイド成分S2とを生成する点において、直交成分ジェネレータモジュール213に類似している。直交成分ジェネレータモジュール223は、周波数領域において、ハイパーミッド成分M1とハイパーサイド成分S1とを生成し、その後、これらの成分を、残差ミッド成分M2と残差サイド成分S2とを生成するために、時間領域に変換し戻すことによって直交ジェネレータモジュール213と異なる。直交成分ジェネレータモジュール223は、順方向FFTユニット220と、バンドパスユニット222と、減算ユニット224と、ハイパーミッドプロセッサ225と、逆FFTユニット226と、時間遅延ユニット228と、減算ユニット230と、順方向FFTユニット232と、バンドパスユニット234と、減算ユニット236と、ハイパーサイドプロセッサ237と、逆FFTユニット240と、時間遅延ユニット242と、減算ユニット244とを含む。
順方向高速フーリエ変換(FFT)ユニット220は、ミッド成分109に順方向FFTを適用し、ミッド成分109を周波数領域に変換する。周波数領域における変換されたミッド成分109は、大きさと、位相とを含む。バンドパスユニット222は、周波数領域ミッド成分109にバンドパスフィルタを適用し、バンドパスフィルタは、ハイパーミッド成分M1における周波数を指定する。例えば、典型的な人間の声域を分離するために、バンドパスフィルタは、300Hzから8000Hzの間の周波数を指定し得る。別の例においては、典型的な人間の声域と関連付けられたオーディオコンテンツを除去するために、バンドパスフィルタは、ハイパーミッド成分M1において、(例えば、ベースギターまたはドラムによって発生される)より低い周波数と、(例えば、シンバルによって発生される)より高い周波数とを維持し得る。他の実施形態においては、直交成分ジェネレータモジュール223は、バンドパスユニット222によって適用されるバンドパスフィルタに加えて、および/またはそれの代わりに、様々な他のフィルタを周波数領域ミッド成分109に適用する。いくつかの実施形態においては、直交成分ジェネレータモジュール223は、バンドパスユニット222を含まず、周波数領域ミッド成分109にいかなるフィルタも適用しない。周波数領域において、減算ユニット224は、ハイパーミッド成分M1を生成するために、フィルタリングされたミッド成分からサイド成分111を減算する。他の実施形態においては、直交成分プロセッサモジュール(例えば、図3の直交成分プロセッサモジュール)によって実行されるような、ハイパーミッド成分M1に適用される後の処理に加えて、および/またはそれの代わりに、直交成分ジェネレータモジュール223は、周波数領域ハイパーミッド成分M1に様々なオーディオエンハンスメントを適用する。ハイパーミッドプロセッサ225は、周波数領域におけるハイパーミッド成分M1に対する処理を、時間領域へのそれの変換の前に実行する。処理は、サブバンド空間処理、および/またはクロストーク補償処理を含み得る。いくつかの実施形態においては、ハイパーミッドプロセッサ225は、直交成分プロセッサモジュール117によって実行され得る処理の代わりに、および/またはそれに加えて、ハイパーミッド成分M1に対する処理を実行する。逆FFTユニット226は、ハイパーミッド成分M1に逆FFTを適用し、ハイパーミッド成分M1を時間領域に変換し戻す。周波数領域におけるハイパーミッド成分M1は、M1の大きさと、ミッド成分109の位相とを含み、逆FFTユニット226は、それを時間領域に変換する。時間遅延ユニット228は、ミッド成分109およびハイパーミッド成分M1が、同時に減算ユニット230に到達するように、ミッド成分109に時間遅延を適用する。減算ユニット230は、時間領域における時間遅延させたミッド成分109から、時間領域におけるハイパーミッド成分M1を減算し、残差ミッド成分M2を生成する。この例においては、時間領域における処理を使用して、ハイパーミッド成分M1のスペクトルエネルギーがミッド成分109のスペクトルエネルギーから除去される。
順方向FFTユニット232は、サイド成分111に順方向FFTを適用し、サイド成分111を周波数領域に変換する。周波数領域における変換されたサイド成分111は、大きさと、位相とを含む。バンドパスユニット234は、周波数領域サイド成分111にバンドパスフィルタを適用する。バンドパスフィルタは、ハイパーサイド成分S1における周波数を指定する。他の実施形態においては、直交成分ジェネレータモジュール223は、バンドパスフィルタに加えて、および/またはそれの代わりに、様々な他のフィルタを周波数領域サイド成分111に適用する。周波数領域において、減算ユニット236は、ハイパーサイド成分S1を生成するために、フィルタリングされたサイド成分111からミッド成分109を減算する。他の実施形態においては、直交成分プロセッサ(例えば、図3の直交成分プロセッサモジュール)によって実行されるような、ハイパーサイド成分S1に適用される後の処理に加えて、および/またはそれの代わりに、直交成分ジェネレータモジュール223は、周波数領域におけるハイパーサイド成分S1に様々なオーディオエンハンスメントを適用する。ハイパーサイドプロセッサ237は、周波数領域におけるハイパーサイド成分S1に対する処理を、時間領域へのそれの変換の前に実行する。処理は、サブバンド空間処理、および/またはクロストーク補償処理を含み得る。いくつかの実施形態においては、ハイパーサイドプロセッサ237は、直交成分プロセッサモジュール117によって実行され得る処理の代わりに、および/またはそれに加えて、ハイパーサイド成分S1に対する処理を実行する。逆FFTユニット240は、周波数領域におけるハイパーサイド成分S1に逆FFTを適用し、時間領域におけるハイパーサイド成分S1を生成する。周波数領域におけるハイパーサイド成分S1は、S1の大きさと、サイド成分111の位相とを含み、逆FFTユニット226は、それを時間領域に変換する。時間遅延ユニット242は、サイド成分111が、ハイパーサイド成分S1と同時に、減算ユニット244に到達するように、サイド成分111を時間遅延させる。その後、減算ユニット244は、時間領域における時間遅延させたサイド成分111から、時間領域におけるハイパーサイド成分S1を減算し、残差サイド成分S2を生成する。この例においては、時間領域における処理を使用して、ハイパーサイド成分S1のスペクトルエネルギーがサイド成分111のスペクトルエネルギーから除去される。
いくつかの実施形態においては、ハイパーミッドプロセッサ225、およびハイパーサイドプロセッサ237は、これらのコンポーネントによって実行される処理が、直交成分プロセッサモジュール117によって実行される場合に省かれ得る。
図2Cにおいて、直交成分ジェネレータモジュール245は、直交成分ジェネレータモジュール245が、周波数領域において、成分M1、M2、S1、S2の各々を生成し、その後、これらの成分を時間領域に変換することを除いて、それが、ミッド成分109と、サイド成分111とを受信し、ハイパーミッド成分M1と、残差ミッド成分M2と、ハイパーサイド成分S1と、残差サイド成分S2とを生成する点において、直交成分ジェネレータモジュール223に類似している。直交成分ジェネレータモジュール245は、順方向FFTユニット247と、バンドパスユニット249と、減算ユニット251と、ハイパーミッドプロセッサ252と、減算ユニット253と、残差ミッドプロセッサ254と、逆FFTユニット255と、逆FFTユニット257と、順方向FFTユニット261と、バンドパスユニット263と、減算ユニット265と、ハイパーサイドプロセッサ266と、減算ユニット267と、残差サイドプロセッサ268と、逆FFTユニット269と、逆FFTユニット271とを含む。
順方向FFTユニット247は、ミッド成分109に順方向FFTを適用し、ミッド成分109を周波数領域に変換する。周波数領域における変換されたミッド成分109は、大きさと、位相とを含む。順方向FFTユニット261は、サイド成分111に順方向FFTを適用し、サイド成分111を周波数領域に変換する。周波数領域における変換されたサイド成分111は、大きさと、位相とを含む。バンドパスユニット249は、周波数領域のミッド成分109にバンドパスフィルタを適用し、バンドパスフィルタは、ハイパーミッド成分M1の周波数を指定する。いくつかの実施形態においては、直交成分ジェネレータモジュール245は、バンドパスフィルタに加えて、および/またはそれの代わりに、様々な他のフィルタを周波数領域ミッド成分109に適用する。減算ユニット251は、周波数領域ミッド成分109から周波数領域サイド成分111を減算し、周波数領域におけるハイパーミッド成分M1を生成する。ハイパーミッドプロセッサ252は、周波数領域におけるハイパーミッド成分M1に対する処理を、時間領域へのそれの変換の前に実行する。いくつかの実施形態においては、ハイパーミッドプロセッサ252は、サブバンド空間処理、および/またはクロストーク補償処理を実行する。いくつかの実施形態においては、ハイパーミッドプロセッサ252は、直交成分プロセッサモジュール117によって実行され得る処理の代わりに、および/またはそれに加えて、ハイパーミッド成分M1に対する処理を実行する。逆FFTユニット257は、ハイパーミッド成分M1に逆FFTを適用し、それを時間領域に変換し戻す。周波数領域におけるハイパーミッド成分M1は、M1の大きさと、ミッド成分109の位相とを含み、逆FFTユニット257は、それを時間領域に変換する。減算ユニット253は、残差ミッド成分M2を生成するために、周波数領域において、ミッド成分109からハイパーミッド成分M1を減算する。残差ミッドプロセッサ254は、周波数領域における残差ミッド成分M2に対する処理を、時間領域へのそれの変換の前に実行する。いくつかの実施形態においては、残差ミッドプロセッサ254は、残差ミッド成分M2に対して、サブバンド空間処理、および/またはクロストーク補償処理を実行する。いくつかの実施形態においては、残差ミッドプロセッサ254は、直交成分プロセッサモジュール117によって実行され得る処理の代わりに、および/またはそれに加えて、残差ミッド成分M2に対する処理を実行する。逆FFTユニット255は、逆FFTを適用し、残差ミッド成分M2を時間領域に変換する。周波数領域における残差ミッド成分M2は、M2の大きさと、ミッド成分109の位相とを含み、逆FFTユニット255は、それを時間領域に変換する。
バンドパスユニット263は、周波数領域サイド成分111にバンドパスフィルタを適用する。バンドパスフィルタは、ハイパーサイド成分S1における周波数を指定する。他の実施形態においては、直交成分ジェネレータモジュール245は、バンドパスフィルタに加えて、および/またはそれの代わりに、様々な他のフィルタを周波数領域サイド成分111に適用する。周波数領域において、減算ユニット265は、ハイパーサイド成分S1を生成するために、フィルタリングされたサイド成分111からミッド成分109を減算する。ハイパーサイドプロセッサ266は、周波数領域におけるハイパーサイド成分S1に対する処理を、時間領域へのそれの変換の前に実行する。いくつかの実施形態においては、ハイパーサイドプロセッサ266は、ハイパーサイド成分S1に対して、サブバンド空間処理、および/またはクロストーク補償処理を実行する。いくつかの実施形態においては、ハイパーサイドプロセッサ266は、直交成分プロセッサモジュール117によって実行され得る処理の代わりに、および/またはそれに加えて、ハイパーサイド成分S1に対する処理を実行する。逆FFTユニット271は、ハイパーサイド成分S1を時間領域に変換し戻すために、逆FFTを適用する。周波数領域におけるハイパーサイド成分S1は、S1の大きさと、サイド成分111の位相とを含み、逆FFTユニット271は、それを時間領域に変換する。減算ユニット267は、周波数領域において、サイド成分111からハイパーサイド成分S1を減算し、残差サイド成分S2を生成する。残差サイドプロセッサ268は、周波数領域における残差サイド成分S2に対する処理を、時間領域へのそれの変換の前に実行する。いくつかの実施形態においては、残差サイドプロセッサ268は、残差サイド成分S2に対して、サブバンド空間処理、および/またはクロストーク補償処理を実行する。いくつかの実施形態においては、残差サイドプロセッサ268は、直交成分プロセッサモジュール117によって実行され得る処理の代わりに、および/またはそれに加えて、残差サイド成分S2に対する処理を実行する。逆FFTユニット269は、残差サイド成分S2に逆FFTを適用し、それを時間領域に変換する。周波数領域における残差サイド成分S2は、S2の大きさと、サイド成分111の位相とを含み、逆FFTユニット269は、それを時間領域に変換する。
いくつかの実施形態においては、ハイパーミッドプロセッサ252、ハイパーサイドプロセッサ266、残差ミッドプロセッサ254、または残差サイドプロセッサ268は、これらのコンポーネントによって実行される処理が、直交成分プロセッサモジュール117によって実行される場合に省かれ得る。
例示的な直交成分プロセッサ
図3は、1つまたは複数の実施形態による、直交成分プロセッサモジュール317のブロック図である。直交成分プロセッサモジュール317は、直交成分プロセッサモジュール117の例である。直交成分プロセッサモジュール317は、サブバンド空間処理および/またはクロストーク補償処理ユニット320と、加算ユニット325と、加算ユニット330とを含み得る。直交成分プロセッサモジュール317は、ハイパーミッド成分M1、残差ミッド成分M2、ハイパーサイド成分S1、および残差サイド成分S2のうちの少なくとも1つに対して、サブバンド空間処理および/またはクロストーク補償処理を実行する。サブバンド空間処理および/またはクロストーク補償処理320の結果として、直交成分プロセッサモジュール317は、処理されたM1、処理されたM2、処理されたS1、および処理されたS2のうちの少なくとも1つを出力する。加算ユニット325は、処理されたミッド成分131を生成するために、処理されたM1と処理されたM2とを加算し、加算ユニット330は、処理されたサイド成分139を生成するために、処理されたS1と処理されたS2とを加算する。
いくつかの実施形態においては、直交成分プロセッサモジュール317は、周波数領域において、ハイパーミッド成分M1、残差ミッド成分M2、ハイパーサイド成分S1、および残差サイド成分S2のうちの少なくとも1つに対して、サブバンド空間処理および/またはクロストーク補償処理320を実行し、周波数領域において、処理されたミッド成分131と、処理されたサイド成分139とを生成する。直交成分ジェネレータモジュール113は、周波数領域における成分M1、M2、S1、またはS2を、逆FFTを実行する、直交成分プロセッサに提供し得る。処理されたミッド成分131と、処理されたサイド成分139とを生成した後、直交成分プロセッサモジュール317は、処理されたミッド成分131と、処理されたサイド成分139とに対して、これらの成分を時間領域に変換し戻すために、逆FFTを実行し得る。いくつかの実施形態においては、直交成分プロセッサモジュール317は、処理されたM1、処理されたM2、処理されたS1、および処理されたS1に対して、逆FFTを実行し、時間領域において、処理されたミッド成分131と、処理されたサイド成分139とを生成する。
直交成分プロセッサモジュール317の例が、図4および図5に示されている。いくつかの実施形態においては、直交成分プロセッサモジュール317は、サブバンド空間処理およびクロストーク補償処理の両方を実行する。直交成分プロセッサモジュール317によって実行される処理は、サブバンド空間処理、またはクロストーク補償処理に限定されない。ミッド成分の代わりにハイパーミッド成分を、またはサイド成分の代わりにハイパーサイド成分を使用することなどによる、ミッド/サイド空間を使用する任意のタイプの空間処理が直交成分プロセッサモジュール317によって実行され得る。いくつかの他のタイプの処理は、ゲイン適用、振幅または遅延ベースのパニング、バイノーラル処理、リバーブレーション、圧縮および制限などのダイナミックレンジ処理、ならびにコーラスまたはフランジングから、ボーカルまたはインストルメンタルスタイル転送、変換、または再合成に対する機械学習ベースの手法にわたる、他の線形または非線形オーディオ処理技法およびエフェクトなどを含み得る。
例示的なサブバンド空間プロセッサ
図4は、1つまたは複数の実施形態による、サブバンド空間プロセッサモジュール410のブロック図である。サブバンド空間プロセッサモジュール410は、直交成分プロセッサモジュール317の例である。サブバンド空間プロセッサモジュール410は、ミッドEQフィルタ404(1)と、ミッドEQフィルタ404(2)と、ミッドEQフィルタ404(3)と、ミッドEQフィルタ404(4)と、サイドEQフィルタ406(1)と、サイドEQフィルタ406(2)と、サイドEQフィルタ406(3)と、サイドEQフィルタ406(4)とを含む。いくつかの実施形態においては、サブバンド空間プロセッサモジュール410は、本明細書において説明されるものに加えて、および/またはそれの代わりに、コンポーネントを含む。
サブバンド空間プロセッサモジュール410は、非空間成分Ymと、空間成分Ysとを受信し、空間エンハンスメントを提供するために、これらの成分のうちの1つまたは複数のサブバンドをゲイン調整する。非空間成分Ymは、ハイパーミッド成分M1、または残差ミッド成分M2であり得る。空間成分Ysは、ハイパーサイド成分S1、または残差サイド成分S2であり得る。
サブバンド空間プロセッサモジュール410は、非空間成分Ymを受信し、増強された非空間成分Emを生成するために、Ymの異なるサブバンドに、ミッドEQフィルタ404(1)から404(4)を適用する。サブバンド空間プロセッサモジュール410は、また、空間成分Ysを受信し、増強された空間成分Esを生成するために、Ysの異なるサブバンドに、サイドEQフィルタ406(1)から406(4)を適用する。サブバンドフィルタは、ピークフィルタ、ノッチフィルタ、ローパスフィルタ、ハイパスフィルタ、ローシェルフフィルタ、ハイシェルフフィルタ、バンドパスフィルタ、バンドストップフィルタ、および/またはオールパスフィルタの様々な組み合わせを含むことができる。サブバンドフィルタは、また、それぞれのサブバンドにゲインを適用し得る。より具体的には、サブバンド空間プロセッサモジュール410は、非空間成分Ymのn個の周波数サブバンドの各々のためのサブバンドフィルタと、空間成分Ysのn個のサブバンドの各々のためのサブバンドフィルタとを含む。例えば、n=4個のサブバンドの場合、サブバンド空間プロセッサモジュール410は、サブバンド(1)のためのミッドイコライゼーション(EQ)フィルタ404(1)と、サブバンド(2)のためのミッドEQフィルタ404(2)と、サブバンド(3)のためのミッドEQフィルタ404(3)と、サブバンド(4)のためのミッドEQフィルタ404(4)とを含む、非空間成分Ymのための一連のサブバンドフィルタを含む。各ミッドEQフィルタ404は、増強された非空間成分Emを生成するために、非空間成分Ymの周波数サブバンド部分にフィルタを適用する。
サブバンド空間プロセッサモジュール410は、サブバンド(1)のためのサイドイコライゼーション(EQ)フィルタ406(1)と、サブバンド(2)のためのサイドEQフィルタ406(2)と、サブバンド(3)のためのサイドEQフィルタ406(3)と、サブバンド(4)のためのサイドEQフィルタ406(4)とを含む、空間成分Ysの周波数サブバンドのための一連のサブバンドフィルタをさらに含む。各サイドEQフィルタ406は、増強された空間成分Esを生成するために、空間成分Ysの周波数サブバンド部分にフィルタを適用する。
非空間成分Ymおよび空間成分Ysのn個の周波数サブバンドの各々は、周波数の範囲と対応し得る。例えば、周波数サブバンド(1)は、0Hzから300Hzに対応し得て、周波数サブバンド(2)は、300Hzから510Hzに対応し得て、周波数サブバンド(3)は、510Hzから2700Hzに対応し得て、周波数サブバンド(4)は、2700Hzからナイキスト周波数に対応し得る。いくつかの実施形態においては、n個の周波数サブバンドは、クリティカルバンドの連結セットである。クリティカルバンドは、多種多様な音楽ジャンルからのオーディオサンプルのコーパスを使用して決定され得る。24個のバーク尺度クリティカルバンドにわたる、サイド成分に対するミッド成分の長期平均エネルギー比がサンプルから決定される。その後、類似した長期平均比を有する連続した周波数バンドが、クリティカルバンドのセットを形成するために、一緒にグループ化される。周波数サブバンドの範囲、および周波数サブバンドの数は、調整可能であり得る。
いくつかの実施形態においては、サブバンド空間プロセッサモジュール410は、残差ミッド成分M2を非空間成分Ymとして処理し、サイド成分、ハイパーサイド成分S1、または残差サイド成分S2のうちの1つを空間成分Ysとして使用する。
いくつかの実施形態においては、サブバンド空間プロセッサモジュール410は、ハイパーミッド成分M1、ハイパーサイド成分S1、残差ミッド成分M2、および残差サイド成分S2のうちの1つまたは複数を処理する。これらの成分の各々のサブバンドに適用されるフィルタは異なり得る。ハイパーミッド成分M1および残差ミッド成分M2は、各々、非空間成分Ymについて説明されたように処理され得る。ハイパーサイド成分S1および残差サイド成分S2は、各々、空間成分Ysについて説明されたように処理され得る。
例示的なクロストーク補償プロセッサ
図5は、1つまたは複数の実施形態による、クロストーク補償プロセッサモジュール510のブロック図である。クロストーク補償プロセッサモジュール510は、直交成分プロセッサモジュール317の例である。クロストーク補償プロセッサモジュール510は、ミッド成分プロセッサ520と、サイド成分プロセッサ530とを含む。クロストーク補償プロセッサモジュール510は、非空間成分Ymと、空間成分Ysとを受信し、(例えば、後続または先行する)クロストーク処理によって引き起こされるスペクトル不良を補償するために、これらの成分のうちの1つまたは複数にフィルタを適用する。非空間成分Ymは、ハイパーミッド成分M1、または残差ミッド成分M2であり得る。空間成分Ysは、ハイパーサイド成分S1、または残差サイド成分S2であり得る。
クロストーク補償プロセッサモジュール510は、非空間成分Ymを受信し、ミッド成分プロセッサ520は、増強された非空間クロストーク補償成分Zmを生成するためにフィルタのセットを適用する。クロストーク補償プロセッサモジュール510は、また、空間サブバンド成分Ysを受信し、増強された空間サブバンド成分Esを生成するために、サイド成分プロセッサ530において、フィルタのセットを適用する。ミッド成分プロセッサ520は、m個のミッドフィルタ540(a)、540(b)、乃至540(m)など、複数のフィルタ540を含む。ここで、m個のミッドフィルタ540の各々は、非空間成分Xmのm個の周波数バンドのうちの1つを処理する。ミッド成分プロセッサ520は、非空間成分Xmを処理することによって、ミッドクロストーク補償チャンネルZmをしかるべく生成する。いくつかの実施形態においては、ミッドフィルタ540は、シミュレーションを通した、クロストーク処理を用いた、非空間Xmの周波数応答プロットを使用して構成される。加えて、周波数応答プロットを分析することによって、クロストーク処理のアーチファクトとして発生する、事前決定されたしきい値(例えば、10dB)を超える、周波数応答プロットにおけるピークまたはトラフなどの、いかなるスペクトル不良も推定されることができる。これらのアーチファクトは、クロストーク処理における、遅延させられ、場合によっては、反転させられた対側信号の、それらの対応する同側信号との和から主にもたらされ、それによって、効果的に、最終的なレンダリングされた結果に、コムフィルタに似た周波数応答を導入する。推定されたピークまたはトラフを補償するために、ミッドクロストーク補償チャンネルZmが、ミッド成分プロセッサ520によって、生成されることができ、m個の周波数バンドの各々は、ピークまたはトラフと対応する。具体的には、クロストーク処理において適用される、特定の遅延、フィルタリング周波数、およびゲインに基づいて、ピークおよびトラフは、周波数応答において、上下にシフトし、スペクトルの特定の領域における、エネルギーの可変増幅および/または減衰を引き起こす。ミッドフィルタ540の各々は、ピークおよびトラフのうちの1つまたは複数を調整するように構成され得る。
サイド成分プロセッサ530は、m個のサイドフィルタ550(a)、550(b)、乃至550(m)など、複数のフィルタ550を含む。サイド成分プロセッサ530は、空間成分Xsを処理することによって、サイドクロストーク補償チャンネルZsを生成する。いくつかの実施形態においては、クロストーク処理を用いた、空間Xsの周波数応答プロットが、シミュレーションを通して、獲得されることができる。周波数応答プロットを分析することによって、クロストーク処理のアーチファクトとして発生する、事前決定されたしきい値(例えば、10dB)を超える、周波数応答プロットにおけるピークまたはトラフなどの、いかなるスペクトル不良も、推定されることができる。推定されたピークまたはトラフを補償するために、サイドクロストーク補償チャンネルZsが、サイド成分プロセッサ530によって生成されることができる。具体的には、クロストーク処理において適用される、特定の遅延、フィルタリング周波数、およびゲインに基づいて、ピークおよびトラフは、周波数応答において、上下にシフトし、スペクトルの特定の領域における、エネルギーの可変増幅および/または減衰を引き起こす。サイドフィルタ550の各々は、ピークおよびトラフのうちの1つまたは複数を調整するように構成され得る。いくつかの実施形態においては、ミッド成分プロセッサ520およびサイド成分プロセッサ530は、異なる数のフィルタを含み得る。
いくつかの実施形態においては、ミッドフィルタ540およびサイドフィルタ550は、式1によって定義される伝達関数を有する、双2次フィルタを含み得る。
Figure 2022551873000002
ここで、zは、複素変数であり、a0、a1、a2、b0、b1、およびb2は、デジタルフィルタ係数である。そのようなフィルタを実施する1つの方法は、式2で定義されるような、直接形Iトポロジである。
Figure 2022551873000003
ここで、Xは、入力ベクトルであり、Yは、出力である。他のトポロジが、それらの最大ワード長、および飽和挙動に応じて、使用され得る。その後、双2次が、実数値入力および出力を有する、2次フィルタを実施するために、使用されることができる。離散時間フィルタを設計するために、連続時間フィルタが、設計され、その後、双1次変換を介して、離散時間に変換される。さらに、中心周波数および帯域幅における、結果として生じるシフトは、周波数ワーピングを使用して、補償され得る。
例えば、ピーキングフィルタは、式3によって定義される、S平面伝達関数を有し得る。
Figure 2022551873000004
ここで、sは、複素変数であり、Aは、ピークの振幅であり、Qは、フィルタ「品質」であり、デジタルフィルタ係数は、
Figure 2022551873000005
によって定義される。
ここで、ω0は、ラジアン単位のフィルタの中心周波数であり、
Figure 2022551873000006
である。さらに、フィルタ品質Qは、式4によって定義され得る。
Figure 2022551873000007
ここで、△fは帯域幅であり、fcは中心周波数である。ミッドフィルタ540は、直列であるとして示されており、サイドフィルタ550は、直列であるとして示されている。いくつかの実施形態においては、ミッドフィルタ540はミッド成分Xmに対して並列に適用され、サイドフィルタはサイド成分Xsに対して並列に適用される。
いくつかの実施形態においては、クロストーク補償プロセッサモジュール510は、ハイパーミッド成分M1、ハイパーサイド成分S1、残差ミッド成分M2、および残差サイド成分S2の各々を処理する。これらの成分の各々に適用されるフィルタは、異なり得る。
例示的なクロストークプロセッサ
図6は、1つまたは複数の実施形態による、クロストークシミュレーションプロセッサモジュール600のブロック図である。図1に関して述べられたように、いくつかの実施形態においては、オーディオ処理システム100は、処理された左成分151と、処理された右成分159とにクロストーク処理を適用するクロストークプロセッサモジュール141を含む。クロストーク処理は、例えば、クロストークシミュレーション、およびクロストークキャンセレーションを含む。いくつかの実施形態においては、クロストークプロセッサモジュール141は、クロストークシミュレーションプロセッサモジュール600を含む。クロストークシミュレーションプロセッサモジュール600は、ステレオヘッドホンに出力するための対側サウンド成分を生成し、それによって、ヘッドホンにおいてラウドスピーカに似たリスニング体験を提供する。左入力チャンネルXLは、処理された左成分151であり得て、右入力チャンネルXRは、処理された右成分159であり得る。いくつかの実施形態においては、クロストークシミュレーションは、直交成分処理の前に実行され得る。
クロストークシミュレーションプロセッサモジュール600は、左入力チャンネルXLを処理するために、左ヘッドシャドウローパスフィルタ602と、左ヘッドシャドウハイパスフィルタ624と、左クロストーク遅延604と、左ヘッドシャドウゲイン610とを含む。クロストークシミュレーションプロセッサモジュール600は、右入力チャンネルXRを処理するために、右ヘッドシャドウローパスフィルタ606、右ヘッドシャドウハイパスフィルタ626、右クロストーク遅延608、右ヘッドシャドウゲイン612をさらに含む。左ヘッドシャドウローパスフィルタ602および左ヘッドシャドウハイパスフィルタ624は、リスナの頭部を通過した後の信号の周波数応答をモデル化した変調を、左入力チャンネルXLに対して適用する。左ヘッドシャドウハイパスフィルタ624の出力は、時間遅延を適用する左クロストーク遅延604に提供される。時間遅延は、同側サウンド成分に対する、対側サウンド成分によって横断されるトランスオーラル距離を表す。左ヘッドシャドウゲイン610は、右左シミュレーションチャンネルWLを生成するために、左クロストーク遅延604の出力にゲインを適用する。
右入力チャンネルXRについても同様に、右ヘッドシャドウローパスフィルタ606および右ヘッドシャドウハイパスフィルタ626は、リスナの頭部の周波数応答をモデル化した変調を、右入力チャンネルXRに適用する。右ヘッドシャドウハイパスフィルタ626の出力は、時間遅延を適用する、右クロストーク遅延608に提供される。右ヘッドシャドウゲイン612は、右クロストークシミュレーションチャンネルWRを生成するために、右クロストーク遅延608の出力にゲインを適用する。
左チャンネルおよび右チャンネルの各々に対する、ヘッドシャドウローパスフィルタ、ヘッドシャドウハイパスフィルタ、クロストーク遅延、およびヘッドシャドウゲインの適用は、異なる順序で実行され得る。
図7は、1つまたは複数の実施形態による、クロストークキャンセレーションプロセッサモジュール700のブロック図である。クロストークプロセッサモジュール141は、クロストークキャンセレーションプロセッサモジュール700を含み得る。クロストークキャンセレーションプロセッサモジュール700は、左入力チャンネルXLと、右入力チャンネルXRとを受信し、左出力チャンネルOLと、右出力チャンネルORとを生成するために、チャンネルXL、XRに対して、クロストークキャンセレーションを実行する。左入力チャンネルXLは、処理された左成分151であり得て、右入力チャンネルXRは、処理された右成分159であり得る。いくつかの実施形態においては、クロストークキャンセレーションは、直交成分処理の前に実行され得る。
クロストークキャンセレーションプロセッサモジュール700は、イン-アウトバンド分割器710と、インバータ720および722と、対側推定器730および740と、結合器750、752と、イン-アウトバンド結合器760とを含む。これらのコンポーネントは、入力チャンネルTL、TRを、インバンド成分と、アウトオブバンド成分とに分割し、出力チャンネルOL、ORを生成するために、インバンド成分に対して、クロストークキャンセレーションを実行するために一緒に動作する。
入力オーディオ信号Tを、異なる周波数バンド成分に分割することによって、および選択成分(例えば、インバンド成分)に対して、クロストークキャンセレーションを実行することによって、他の周波数バンドにおける劣化を回避しながら、特定の周波数バンドに対して、クロストークキャンセレーションが実行されることができる。入力オーディオ信号Tを異なる周波数バンドに分割せずに、クロストークキャンセレーションが実行された場合、そのようなクロストークキャンセレーション後のオーディオ信号は、(例えば、350Hzよりも下の)低い周波、(例えば、12000Hzよりも上の)より高い周波、または両方において、非空間成分および空間成分における著しい減衰または増幅を呈し得る。影響の強い空間キューの大部分が存在する、(例えば、250Hzから14000Hzの間の)インバンドに対して、選択的にクロストークキャンセレーションを実行することによって、混合におけるスペクトルにわたる、特に非空間的成分における、バランスのとれた全体的エネルギーが保持されることができる。
イン-アウトバンド分割器710は、入力チャンネルTL、TRを、それぞれ、インバンドチャンネルTL,In,TR,Inと、アウトオブバンドチャンネルTL,Out,TR,Outとに分離する。特に、イン-アウトバンド分割器710は、増強された左補償チャンネルTLを、左インバンドチャンネルTL,Inと、左アウトオブバンドチャンネルTL,Outとに分割する。同様に、イン-アウトバンド分割器710は、増強された右補償チャンネルTRを、右インバンドチャンネルTR,Inと、右アウトオブバンドチャンネルTR,Outとに分離する。各インバンドチャンネルは、例えば、250Hzから14kHzを含む、周波数範囲に対応する、それぞれの入力チャンネルの部分を包含し得る。周波数バンドの範囲は、例えば、スピーカのパラメータに従って、調整可能であり得る。
インバータ720および対側推定器730は、左インバンドチャンネルTL,Inに起因する対側サウンド成分を補償するために、左対側キャンセレーション成分SLを生成するように一緒に動作する。同様に、インバータ722および対側推定器740は、右インバンドチャンネルTR,Inに起因する、対側サウンド成分を補償するために、右対側キャンセレーション成分SRを生成するように一緒に動作する。
1つの手法においては、インバータ720は、インバンドチャンネルTL,Inを受信し、反転されたインバンドチャンネルTL,In’を生成するために、受信されたインバンドチャンネルTL,Inの極性を反転する。対側推定器730は、反転されたインバンドチャンネルTL,In’を受信し、フィルタリングを通して、対側サウンド成分に対応する、反転されたインバンドチャンネルTL,In’の部分を抽出する。フィルタリングは、反転されたインバンドチャンネルTL,In’に対して実行されるので、対側推定器730によって抽出される部分は、対側サウンド成分に帰せられる、インバンドチャンネルTL,Inの部分の反転になる。したがって、対側推定器730によって抽出される部分は、左対側キャンセレーション成分SLになり、それは、インバンドチャンネルTL,Inに起因する対側サウンド成分を低減させるために、対応インバンドチャンネルTR,Inに加算されることができる。いくつかの実施形態においては、インバータ720および対側推定器730は、異なる順序で実施される。
インバータ722および対側推定器740は、右対側キャンセレーション成分SRを生成するために、インバンドチャンネルTR,Inに関して類似の動作を実行する。したがって、それの詳細な説明は、簡潔にするために、本明細書においては省略される。
1つの例示的な実施においては、対側推定器730は、フィルタ732と、増幅器734と、遅延ユニット736とを含む。フィルタ732は、反転された入力チャンネルTL,In’を受信し、フィルタリング機能を通して、対側サウンド成分に対応する、反転されたインバンドチャンネルTL,In’の部分を抽出する。例示的なフィルタ実施は、5000Hzから10000Hzの間で選択された中心周波数と、0.5から1.0の間で選択されたQとを有するノッチフィルタまたはハイシェルフフィルタである。デシベル単位のゲイン(GdB)は、式5から導出され得る。
dB=-3.0-log1.333(D) 式(5)
ここで、Dは、例えば、48KHzのサンプリングレートにおける、サンプル単位の遅延ユニット736および646による遅延量である。代替的な実施は、5000Hzから10000Hzの間で選択されたコーナ周波数と、0.5から1.0の間で選択されたQとを有するローパスフィルタである。さらに、増幅器734は、抽出された部分を、対応するゲイン係数GL,Inによって増幅し、遅延ユニット736は、左対側キャンセレーション成分SLを生成するために、増幅器734からの増幅された出力を遅延関数Dに従って遅延させる。対側推定器740は、右対側キャンセレーション成分SRを生成するために、反転されたインバンドチャンネルTR,In’に対して同様の操作を実行するフィルタ742と、増幅器744と、遅延ユニット746とを含む。1つの例においては、対側推定器730,740は、以下の式に従って、左対側キャンセレーション成分SLと、右対側キャンセレーション成分SRとを生成する。
L=D[GL,In*F[TL,In’]] 式(6)
R=D[GR,In*F[TR,In’]] 式(7)
ここで、F[]は、フィルタ関数であり、D[]は、遅延関数である。
クロストークキャンセレーションの構成は、スピーカパラメータによって決定されることができる。1つの例においては、フィルタ中心周波数、遅延量、増幅器ゲイン、およびフィルタゲインは、リスナに関して、2つのスピーカの間に形成される角度に従って決定されることができる。いくつかの実施形態においては、スピーカ角度の間の値は、他の値を補間するために使用される。
結合器750は、左インバンドクロストークチャンネルULを生成するために、右対側キャンセレーション成分SRを左インバンドチャンネルTL,Inに結合し、結合器752は、右インバンドクロストークチャンネルURを生成するために、左対側キャンセレーション成分SLを右インバンドチャンネルTR,Inに結合する。イン-アウトバンド結合器760は、左出力チャンネルOLを生成するために、左インバンドクロストークチャンネルULをアウトオブバンドチャンネルTL,Outと結合し、右出力チャンネルORを生成するために、右インバンドクロストークチャンネルURをアウトオブバンドチャンネルTR,Outと結合する。
したがって、左出力チャンネルOLは、対側サウンドに帰せられる、インバンドチャンネルTR,Inの部分の反転に対応する右対側キャンセレーション成分SRを含み、右出力チャンネルORは、対側サウンドに帰せられる、インバンドチャンネルTL,Inの部分の反転に対応する左対側キャンセレーション成分SLを含む。この構成においては、右耳に到達される、右出力チャンネルORに従って、右ラウドスピーカによって出力された同側サウンド成分の波面は、左出力チャンネルOLに従って、左ラウドスピーカによって出力された対側サウンド成分の波面を打ち消すことができる。同様に、左耳に到達される左出力チャンネルOLに従って、左ラウドスピーカによって出力された同側サウンド成分の波面は、右出力チャンネルORに従って、右ラウドスピーカによって出力された対側サウンド成分の波面を打ち消すことができる。したがって、対側サウンド成分は、空間検出性を高めるために低減させることができる。
直交成分空間処理
図8は、1つまたは複数の実施形態による、ハイパーミッド成分、残差ミッド成分、ハイパーサイド成分、または残差サイド成分の少なくとも1つを使用する、空間処理のためのプロセスのフローチャートである。空間処理は、とりわけ、ゲイン適用、振幅または遅延ベースのパニング、バイノーラル処理、リバーブレーション、圧縮および制限などのダイナミックレンジ処理、線形または非線形オーディオ処理技法およびエフェクト、コーラスエフェクト、フランジングエフェクト、ボーカルまたはインストルメンタルスタイル転送、変換、または再合成に対する機械学習ベースの手法を含み得る。プロセスは、空間的に増強されたオーディオを、ユーザのデバイスに提供するために実行され得る。プロセスは、より少ないステップまたは追加のステップを含み得て、ステップは、異なる順序で実行され得る。
オーディオ処理システム(例えば、オーディオ処理システム100)は、入力オーディオ信号(例えば、左入力チャンネル103と、右入力チャンネル105と)を受信する810。いくつかの実施形態においては、入力オーディオ信号は、複数の左-右チャンネルペアを含むマルチチャンネルオーディオ信号であり得る。各左-右チャンネルペアは、左入力チャンネルおよび右入力チャンネルについて本明細書において説明されるように処理され得る。
オーディオ処理システムは、入力オーディオ信号から、非空間的ミッド成分(例えば、ミッド成分109)と、空間的サイド成分(例えば、サイド成分111)とを生成する820。いくつかの実施形態においては、L/RからM/Sへの変換器(例えば、L/RからM/Sへの変換器モジュール107)が、入力オーディオ信号のミッド成分およびサイド成分への変換を実行する。
オーディオ処理システムは、ハイパーミッド成分(例えば、ハイパーミッド成分M1)、ハイパーサイド成分(例えば、ハイパーサイド成分S1)、残差ミッド成分(例えば、残差ミッド成分M2)、および残差サイド成分(例えば、残差サイド成分S2)のうちの少なくとも1つを生成する830。オーディオ処理システムは、上で列挙された成分のうち少なくとも1つおよび/またはすべてを生成し得る。ハイパーミッド成分は、ミッド成分のスペクトルエネルギーから除去されたサイド成分のスペクトルエネルギーを含む。残差ミッド成分は、ミッド成分のスペクトルエネルギーから除去されたハイパーミッド成分のスペクトルエネルギーを含む。ハイパーサイド成分は、サイド成分のスペクトルエネルギーから除去されたミッド成分のスペクトルエネルギーを含む。残差サイド成分は、サイド成分のスペクトルエネルギーから除去されたハイパーサイド成分のスペクトルエネルギーを含む。M1、M2、S1、またはS2を生成するために使用される処理は、周波数領域または時間領域において実行され得る。
オーディオ処理システムは、オーディオ信号を増強するために、ハイパーミッド成分、残差ミッド成分、ハイパーサイド成分、および残差サイド成分のうちの少なくとも1つをフィルタリングする840。フィルタリングは、ハイパーミッド成分、残差ミッド成分、ハイパーサイド成分、または残差サイド成分の周波数依存振幅または周波数依存遅延を調整することなどによる空間キュー処理を含み得る。空間キュー処理のいくつかの例は、振幅または遅延ベースのパニングまたはバイノーラル処理を含む。
フィルタリングは、圧縮または制限などの、ダイナミックレンジ処理を含み得る。例えば、ハイパーミッド成分、残差ミッド成分、ハイパーサイド成分、または残差サイド成分は、圧縮のためのしきい値レベルが超えられたとき、圧縮率に従って圧縮され得る。別の例においては、ハイパーミッド成分、残差ミッド成分、ハイパーサイド成分、または残差サイド成分は、制限のためのしきい値レベルが超えられたとき、最大レベルに制限され得る。
フィルタリングは、ハイパーミッド成分、残差ミッド成分、ハイパーサイド成分、または残差サイド成分に対する機械学習ベースの改変を含み得る。いくつかの例は、機械学習ベースのボーカルまたはインストルメンタルスタイル転送、変換、または再合成を含む。
ハイパーミッド成分、残差ミッド成分、ハイパーサイド成分、または残差サイド成分のフィルタリングは、ゲイン適用、リバーブレーション、ならびにコーラスおよび/もしくはフランジングにわたる他の線形もしくは非線形オーディオ処理技法およびエフェクト、または他のタイプの処理を含み得る。いくつかの実施形態においては、フィルタリングは、図9との関連において以下でより詳細に説明されるように、サブバンド空間処理およびクロストーク補償のためのフィルタリングを含み得る。
フィルタリングは、周波数領域または時間領域において実行され得る。いくつかの実施形態においては、ミッド成分およびサイド成分が時間領域から周波数領域に変換され、ハイパー成分および/または残差成分が周波数領域において生成され、フィルタリングが周波数領域において実行され、フィルタリングされた成分は時間領域に変換される。他の実施形態においては、ハイパー成分および/または残差成分は、時間領域に変換され、フィルタリングは、時間領域において、これらの成分に対して実行される。
オーディオ処理システムは、フィルタリングされたハイパー/残差成分のうちの1つまたは複数を使用して、左出力チャンネル(例えば、左出力チャンネル121)と、右出力チャンネル(例えば、右出力チャンネル123)とを生成する850。例えば、M/SからL/Rへの変換は、フィルタリングされたハイパーミッド成分、フィルタリングされた残差ミッド成分、フィルタリングされたハイパーサイド成分、またはフィルタリングされた残差サイド成分のうちの少なくとも1つから生成されたミッド成分(例えば、処理されたミッド成分131)またはサイド成分(例えば、処理されたサイド成分139)を使用して実行され得る。別の例においては、フィルタリングされたハイパーミッド成分、もしくはフィルタリングされた残差ミッド成分が、M/SからL/Rへの変換のためのミッド成分として使用され得て、またはフィルタリングされたハイパーサイド成分もしくは残差サイド成分がM/SからL/Rへの変換のためのサイド成分として使用され得る。
直交成分サブバンド空間およびクロストーク処理
図9は、1つまたは複数の実施形態による、ハイパーミッド成分、残差ミッド成分、ハイパーサイド成分、または残差サイド成分のうちの少なくとも1つを使用する、サブバンド空間処理およびクロストークに対する補償処理のためのプロセスのフローチャートである。クロストーク処理は、クロストークキャンセレーション、またはクロストークシミュレーションを含み得る。サブバンド空間処理は、ラウドスピーカのロケーションに対応する空間内の特定の地点ではなく、広いエリアからサウンドがリスナに向けられている知覚を生み出すこと(例えば、音場エンハンスメント)などによる、増強された空間検出性をオーディオコンテンツに提供し、それによって、より没入感のあるリスニング体験をリスナに生み出す。クロストークシミュレーションは、対側クロストークを伴ったラウドスピーカ体験をシミュレートするために、ヘッドホンに出力されるオーディオに対して使用され得る。クロストークキャンセレーションは、クロストーク干渉の影響を除去するために、ラウドスピーカに出力されるオーディオに対して使用され得る。クロストーク補償は、クロストークキャンセレーションまたはクロストークシミュレーションによって引き起こされるスペクトル不良を補償する。プロセスは、より少ないステップまたは追加のステップを含み得て、ステップは、異なる順序で実行され得る。ハイパーおよび残差ミッド/サイド成分は、異なる目的のためには異なる方法で操作されることができる。例えば、クロストーク補償のケースにおいては、クロストーク処理からもたらされるスペクトルアーチファクトを、その成分だけにおいて除去するように努める際に、(多くの映画コンテンツにおけるボーカルダイアログエネルギーの大部分が発生する)ハイパーミッド成分M1だけに、目標とされるサブバンドフィルタリングが適用される。クロストーク処理を伴うまたは伴わない音場エンハンスメントのケースにおいては、目標とされるサブバンドゲインが、残差ミッド成分M2と、残差サイド成分S2とに適用され得る。例えば、残差ミッド成分M2は、減衰させられ得て、残差サイド成分S2は、反対に増幅させられ得て、最終的なL/R信号における知覚的ラウドネスの劇的な全体的変化を生じさせず、一方で、(例えば、ボーカルエネルギーの大部分をしばしば含む、信号のその部分である)ハイパーミッドM1成分における減衰も回避しながら、ゲインの観点から、これらの成分間の距離を増加させる(それは、上手に行われた場合、空間検出性を増加させることができる)。
オーディオ処理システムは、入力オーディオ信号を受信し910、入力オーディオ信号は、左チャンネルと、右チャンネルとを含む。いくつかの実施形態においては、入力オーディオ信号は、複数の左-右チャンネルペアを含むマルチチャンネルオーディオ信号であり得る。各左-右チャンネルペアは、左入力チャンネルおよび右入力チャンネルについて本明細書において説明されるように処理され得る。
オーディオ処理システムは、受信された入力オーディオ信号にクロストーク処理を適用する920。クロストーク処理は、クロストークシミュレーションおよびクロストークキャンセレーションのうちの少なくとも1つを含む。
ステップ930乃至ステップ960において、オーディオ処理システムは、ハイパーミッド成分、ハイパーサイド成分、残差ミッド成分、または残差サイド成分のうちの1つまたは複数を使用してクロストーク処理のためのサブバンド空間処理およびクロストーク補償を実行する。いくつかの実施形態においては、クロストーク処理は、ステップ930乃至ステップ960における処理の後に実行され得る。
オーディオ処理システムは、(例えば、クロストーク処理された)オーディオ信号から、ミッド成分と、サイド成分とを生成する930。
オーディオ処理システムは、ハイパーミッド成分、残差ミッド成分、ハイパーサイド成分、および残差サイド成分のうちの少なくとも1つを生成する940。オーディオ処理システムは、上で列挙された成分のうち少なくとも1つおよび/またはすべてを生成し得る。
オーディオ処理システムは、サブバンド空間処理をオーディオ信号に適用するために、ハイパーミッド成分、残差ミッド成分、ハイパーサイド成分、および残差サイド成分のうちの少なくとも1つのサブバンドをフィルタリングする950。各サブバンドは、クリティカルバンドのセットによって定義され得るなど、周波数の範囲を含み得る。いくつかの実施形態においては、サブバンド空間処理は、ハイパーミッド成分、残差ミッド成分、ハイパーサイド成分、および残差サイド成分のうちの少なくとも1つのサブバンドを時間遅延させることをさらに含む。
オーディオ処理システムは、入力オーディオ信号のクロストーク処理からのスペクトル不良を補償するために、ハイパーミッド成分、残差ミッド成分、ハイパーサイド成分、および残差サイド成分のうちの少なくとも1つをフィルタリングする960。スペクトル不良は、クロストーク処理のアーチファクトとして発生する、事前決定されたしきい値(例えば、10dB)を超える、ハイパーミッド成分、残差ミッド成分、ハイパーサイド成分、または残差サイド成分の周波数応答プロットにおけるピークまたはトラフを含み得る。スペクトル不良は、推定されるスペクトル不良であり得る。
いくつかの実施形態においては、ステップ950におけるサブバンド空間処理のためのスペクトル直交成分のフィルタリングおよびステップ960におけるクロストーク補償は、フィルタリングのために選択された各スペクトル直交成分ごとに、単一のフィルタリング動作に統合され得る。
いくつかの実施形態においては、サブバンド空間処理またはクロストーク補償のためのハイパー/残差ミッド/サイド成分のフィルタは、ゲイン適用、振幅もしくは遅延ベースのパニング、バイノーラル処理、リバーブレーション、圧縮および制限などのダイナミックレンジ処理、コーラスおよび/もしくはフランジングにわたる線形もしくは非線形オーディオ処理技法およびエフェクト、ボーカルもしくはインストルメンタルスタイル転送、変換、もしくは再合成に対する機械学習ベースの手法、またはハイパーミッド成分、残差ミッド成分、ハイパーサイド成分、および残差サイド成分のうちのいずれかを使用する、他のタイプの処理など、他の目的のためのフィルタリングとの関連において実行され得る。
フィルタリングは、周波数領域または時間領域において実行され得る。いくつかの実施形態においては、ミッド成分およびサイド成分が、時間領域から周波数領域に変換され、ハイパー成分および/または残差成分が、周波数領域において生成され、フィルタリングが周波数領域において実行され、フィルタリングされた成分が時間領域に変換される。他の実施形態においては、ハイパー成分および/または残差成分は、時間領域に変換され、フィルタリングは、時間領域において、これらの成分に対して実行される。
オーディオ処理システムは、フィルタリングされたハイパーミッド成分から、左出力チャンネルと、右出力チャンネルとを生成する970。いくつかの実施形態においては、左出力チャンネルおよび右出力チャンネルは、フィルタリングされた残差ミッド成分、フィルタリングされたハイパーサイド成分、およびフィルタリングされた残差サイド成分のうちの少なくとも1つに追加的に基づく。
例示的な直交成分オーディオ処理
図10~図19は、1つまたは複数の実施形態による、例示的なホワイトノイズ信号のミッド成分およびサイド成分のスペクトルエネルギーを示すプロットである。
図10は、左に激しくパニングされたホワイトノイズ信号(white noise signal panned hard left)1000のプロットを例示している。左-右ホワイトノイズ信号は、ミッド成分1005と、サイド成分1010とに変換され、定電力サイン/コサインパンロウを使用して、左に激しくパニングされる。ホワイトノイズ信号が、左への激しいパニング1000を施されたとき、一対の左ラウドスピーカと右ラウドスピーカとの間に位置付けられたユーザは、サウンドを、左ラウドスピーカに、および/またはその周囲に現れたように知覚する。ホワイトノイズ信号の左入力チャンネルと右入力チャンネルとに分割されたホワイトノイズ信号は、L/RからM/Sへの変換器モジュール107を使用して、ミッド成分1005と、サイド成分1010とに変換され得る。図10に示されるように、ホワイトノイズ信号が、左への激しいパニング1000を施されたとき、ミッド成分1005およびサイド成分1010の両方は、近似的に等しい量のエネルギーを有する。同様に、ホワイトノイズ信号が、右への激しいパニングを施されたとき(図10には示されず)、ミッド成分およびサイド成分は、近似的に等しい量のエネルギーを有する。
図11は、中央左にパニングされたホワイトノイズ信号(white noise signal panned center left)1100のプロットを例示している。ホワイトノイズ信号が、一般的な定電力サイン/コサインパンロウを使用した、中央左へのパニング1100を施されたとき、一対の左ラウドスピーカと右ラウドスピーカとの間に位置付けられたユーザは、サウンドを、ユーザの正面と左ラウドスピーカとの間の中途に現れたように知覚する。図11は、中央左にパニングされたホワイトノイズ信号1100のミッド成分1105およびサイド成分1110、ならびに左に激しくパニングされたホワイトノイズ信号1000を示している。左に激しくパニングされたホワイトノイズ信号1000と比較すると、ミッド成分1105は、近似的に3dB増加し、一方、サイド成分1110は、近似的に6dB減少する。ホワイトノイズ信号が中央右にパニングされたとき、ミッド成分1105およびサイド成分1110は、図11に示されるものと類似したエネルギーを有する。
図12は、中央にパニングされたホワイトノイズ信号(white noise signal panned center)1200のプロットを例示している。ホワイトノイズ信号が、一般的な定電力サイン/コサインパンロウを使用した、中央へのパニング1200を施されたとき、一対の左ラウドスピーカと右ラウドスピーカとの間に位置付けられたユーザは、サウンドを、ユーザの正面(例えば、左ラウドスピーカと右ラウドスピーカとの間)に現れたように知覚する。図12に示されるように、中央にパニングされたホワイトノイズ信号1200は、ミッド成分1205だけを有する。
図10、図11、および図12における上の例から、ミッド成分は、図12に示されるように、中央にパニングされたサウンドについてのエネルギーだけを信号に含む(すなわち、左チャンネルおよび右チャンネルは、同一である)が、元のL/Rストリームにおけるサウンドが、図10および図11に示されるように、一般に、中央からずれているように(すなわち、中央の左または右にパニングされたサウンドとして)知覚されるシナリオにおいては、ミッド成分エネルギーも存在することが分かる。
特に、L/Rオーディオ使用事例の大部分を代表する、上の3つのシナリオは、サイドが唯一のエネルギーを構成するシナリオを包含しない。これは、左チャンネルおよび右チャンネルが180度位相がずれている(すなわち、符号反転している)ケースだけであり、音楽および娯楽用の2チャンネルオーディオにおいては、まれなことである。そのため、ミッド成分は、実質的にすべての2チャンネル左/右オーディオストリームに遍在し、また、中央にパニングされたコンテンツにおける唯一のエネルギーを構成し、一方、サイド成分は、中央にパニングされたコンテンツ以外のすべてに存在し、信号における唯一のエネルギーとして働くことは、あるとしても、ほとんどない。
直交成分処理は、スペクトル的に互いに「直交」する、ミッド成分およびサイド成分の部分を分離して操作する。すなわち、直交成分処理を使用すると、音場の中央に存在するエネルギーだけに対応するミッド成分の部分(すなわち、ハイパーミッド成分)が、分離されることができ、同様に、音場の中央に存在しないエネルギーだけに対応するサイド成分の部分(すなわち、ハイパーサイド成分)が、分離されることができる。概念的には、ハイパーミッド成分は、ラウドスピーカでもヘッドホンでも同様に、音場の中央で知覚されるサウンドの細い柱に対応するエネルギーである。さらに、単純なスカラーを使用すると、この柱がどれだけ「細い」かを制御して、ハイパーミッドからミッドへの、およびハイパーサイドからサイドへの、補間空間を提供することが可能である。さらに、我々のハイパーミッド/サイド成分信号を導出することの副産物として、元の完全なミッド成分およびサイド成分を形成するために、ハイパーミッド成分またはハイパーサイド成分と一緒に結合する、残差信号(例えば、残差ミッド成分および残差サイド成分)を操作することも可能である。ミッドおよびサイドのこれら4つのサブ成分の各々は、単純なゲインステージングから、マルチバンドEQ、カスタムおよび特異エフェクトにわたる、操作のすべての方式を用いて、独立して処理されることができる。
図13乃至図19は、ホワイトノイズ信号の直交成分処理を例示している。図13は、中央にパニングされ、(例えば、8次バターワースフィルタを使用して)20Hzから100Hzの間においてバンドパスされた、ホワイトノイズ信号1305と、左に激しくパニングされ、(例えば、8次バターワースフィルタを使用して)5000Hzから10000Hzの間においてバンドパスされた、ホワイトノイズ信号1310の、直交成分処理なしの、プロットを例示している。プロットは、パニングされたホワイトノイズ信号1305および1310の各々についての、ミッド成分1315と、サイド成分1320とを示している。中央にパニングされたホワイトノイズ信号1305は、それのミッド成分1315だけに、エネルギーを有し、一方、左に激しくパニングされたホワイトノイズ信号は、それのミッド成分1315と、それのサイド成分1320とに、等しい量のエネルギーを有する。これは、図10および図12に示された結果と同様である。
図14は、サイド成分1320のエネルギーが除去された、図13のパニングされたホワイトノイズ信号1305および1310を例示している。信号1305のホワイトノイズの中央にパニングされたローバンドは、変化しない。信号1310のホワイトノイズの左に激しくパニングされたハイバンドは、今や、ゼロのサイドエネルギーを有するが、ミッド成分1315によって表されるエネルギーの部分は、まだ存在する。サイドエネルギーが、除去されたとしても、信号1310によって示されるような、ミッド信号に存在する、中央にパニングされていないエネルギーが、まだ存在する。
図15は、直交成分処理を使用した、図13のパニングされたホワイトノイズ信号1500を例示している。特に、ハイパーミッド成分1510を分離し、オーディオ信号の他のエネルギーを除去するために、直交成分処理が、使用される。ここでは、左に激しくパニングされた信号が、除去され、中央にパニングされた信号1500だけが、残っている。これは、ハイパーミッド成分1510が、音場の真ん中を占める信号におけるエネルギーだけの分離であり、他のものの分離ではないことを示す。
オーディオ信号のハイパーミッド成分を分離することが、可能であるので、オーディオ信号は、元の信号のどの要素が、様々なM1/M2/S1/S2成分になるかを制御するために、操作されることができる。この前処理操作は、単純な振幅および遅延調整から、より複雑なフィルタリング技法にわたることができる。それらの前処理操作は、その後、元の音場を復元するために、逆転され得る。
図16は、直交成分処理を使用した、図13のパニングされたホワイトノイズ信号1600の別の実施形態を例示している。L/Rオーディオ信号は、(例えば、図13における信号1310によって示されるような)左に激しくパニングされたハイバンドホワイトノイズを音場の中央に配置し、(例えば、図13における信号1305によって示されるような)中央にパニングされたローバンドノイズを中央から遠くにシフトさせるような方法で、回転される。元は左に激しくパニングされ、5000Hzから10000Hz1600の間においてバンドパスされたホワイトノイズ信号は、その後、抽出され、回転されたL/R信号のハイパーミッド成分1610を分離することによって、さらに処理されることができる。
図17は、脱相関されたホワイトノイズ信号1700を示す。入力ホワイトノイズ信号1700は、右チャンネル成分1710と、左チャンネル成分1720とを含む、2チャンネル直交ホワイトノイズ信号であり得る。プロットは、また、ホワイトノイズ信号から生成された、ミッド成分1730と、サイド成分1740とを示す。左チャンネル成分1720のスペクトルエネルギーは、右チャンネル成分1710のそれと一致し、ミッド成分1730のスペクトルエネルギーは、サイド成分1740のそれと一致する。ミッド成分1730およびサイド成分1740は、右チャンネル成分1710および左チャンネル成分1720よりも信号レベルが約3dB低い。
図18は、ハイパーミッド成分1810と、残差ミッド成分1820とに分解された、ミッド成分1730を例示している。ミッド成分1730は、音場における入力オーディオ信号の非空間的情報を表す。ハイパーミッド成分1810は、音場の中央において直接的に見出される、非空間情報のサブ成分を含み、残差ミッド成分1820は、残りの非空間情報である。典型的なステレオオーディオ信号においては、ハイパーミッド成分1810は、ダイアログまたはボーカルなど、オーディオ信号の主要な特徴を含み得る。図18においては、残差ミッド成分1820は、ミッド成分1730よりも近似的に3dB低く、ハイパーミッド成分1810は、ミッド成分1730よりも近似的に8~9dB低い。
図19は、ハイパーサイド成分1910と、残差サイド成分1920とに分解された、サイド成分1740を例示している。サイド成分1740は、音場における入力オーディオ信号における空間情報を表す。ハイパーサイド成分1910は、音場のエッジにおいて見出される、空間情報のサブ成分を含み、残差サイド成分1920は、残りの空間情報である。典型的なステレオオーディオ信号においては、残差サイド成分1920は、バイノーラル処理、パニング技法、リバーブレーション、および/または脱相関プロセスのエフェクトなど、処理からもたらされる主要な特徴を含む。図19に示されるように、サイド成分1740と、ハイパーサイド成分1910と、残差サイド成分1920との間の関係は、ミッド成分1730と、ハイパーミッド成分1810と、残差サイド成分1820のそれと類似している。
コンピューティングマシンアーキテクチャ
図20は、1つまたは複数の実施形態による、コンピュータシステム2000のブロック図である。コンピュータシステム2000は、オーディオ処理システムを実施する回路の例である。チップセット2004に結合された、少なくとも1つのプロセッサ2002が、例示されている。チップセット2004は、メモリコントローラハブ2020と、入出力(I/O)コントローラハブ2022とを含む。メモリ2006、およびグラフィックスアダプタ2012が、メモリコントローラハブ2020に結合され、ディスプレイデバイス2018が、グラフィックスアダプタ2012に結合される。ストレージデバイス1008、キーボード2010、ポインティングデバイス2014、およびネットワークアダプタ2016が、I/Oコントローラハブ2022に結合される。コンピュータシステム2000は、様々なタイプの入力デバイスまたは出力デバイスを含み得る。コンピュータシステム2000の他の実施形態は、異なるアーキテクチャを有する。例えば、メモリ2006は、いくつかの実施形態においては、プロセッサ2002に直接的に結合される。
ストレージデバイス2008は、ハードドライブ、コンパクトディスクリードオンリメモリ(CD-ROM)、DVD、またはソリッドステートメモリデバイスなど、1つまたは複数の非一時的なコンピュータ可読記憶媒体を含む。メモリ2006は、プロセッサ2002によって使用される、(1つまたは複数の命令から構成される)プログラムコード、およびデータを保持する。プログラムコードは、図1~図19を用いて説明された、処理態様に対応し得る。
ポインティングデバイス2014は、コンピュータシステム2000にデータを入力するために、キーボード2010と組み合わせて、使用される。グラフィックスアダプタ2012は、ディスプレイデバイス2018上に、画像および他の情報を表示する。いくつかの実施形態においては、ディスプレイデバイス2018は、ユーザ入力および選択を受け取るための、タッチスクリーン能力を含む。ネットワークアダプタ2016は、コンピュータシステム2000をネットワークに結合する。コンピュータシステム2000のいくつかの実施形態は、図20に示されるそれらとは異なるコンポーネント、および/または他のコンポーネントを有する。
回路は、非一時的なコンピュータ可読に記憶されたプログラムコードを実行する、1つまたは複数のプロセッサを含み得、プログラムコードは、1つまたは複数のプロセッサによって実行されたとき、オーディオ処理システムまたはオーディオ処理システムのモジュールを実施するように、1つまたは複数のプロセッサを構成する。オーディオ処理システムまたはオーディオ処理システムのモジュールを実施する回路の他の例は、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、または他のタイプのコンピュータ回路などの、集積回路を含み得る。
追加的な考察
開示された構成の例示的な利益および利点は、デバイスおよび関連付けられたオーディオレンダリングシステムに適応した、増強されたオーディオシステム、ならびに(例えば、オーディオ信号が、ゲーム用ではなく、音楽再生用に使用されることを示す)使用事例情報など、デバイスOSによって利用可能にされる他の関連情報に起因する、動的オーディオエンハンスメントを含む。増強されたオーディオシステムは、(例えば、ソフトウェア開発キットを使用して)デバイスに統合され得、またはオンデマンドでアクセス可能なように、リモートサーバ上に記憶され得る。このように、デバイスは、それのオーディオレンダリングシステムまたはオーディオレンダリング構成に固有の、オーディオエンハンスメントシステムのメンテナンスのために、ストレージまたは処理リソースを割く必要がない。いくつかの実施形態においては、増強されたオーディオシステムは、様々なレベルの利用可能なデバイス固有のレンダリング情報にわたって、効果的なオーディオエンハンスメントが、適用されることができるように、レンダリングシステム情報についての様々なレベルの問い合わせを可能にする。
本明細書の全体にわたって、単一のインスタンスとして説明された、コンポーネント、動作、または構造を、複数のインスタンスが、実施し得る。1つまたは複数の方法の個々の動作は、別々の動作として、例示および説明されているが、個々の動作のうちの1つまたは複数は、同時に実行され得、何も、動作が例示された順序で実行されることを必要としない。例示的な構成において別々のコンポーネントとして提示された、構造および機能性は、組み合わされた構造またはコンポーネントとして、実施され得る。同様に、単一のコンポーネントとして提示された、構造および機能性は、別々のコンポーネントとして、実施され得る。これらおよび他の変形、変更、追加、および改善は、本明細書における主題の範囲内に含まれる。
ロジック、または数々のコンポーネント、モジュール、もしくはメカニズムを含むものとして、ある実施形態が、本明細書で説明された。モジュールは、ソフトウェアモジュール(例えば、マシン可読媒体上または伝送信号内に具現化されたコード)、またはハードウェアモジュールのどちらかを構成し得る。ハードウェアモジュールは、ある動作を実行することが可能な有形のユニットであり、ある方式で構成または配置され得る。例示的な実施形態においては、1つもしくは複数のコンピュータシステム(例えば、スタンドアロン、クライアント、またはサーバコンピュータシステム)、またはコンピュータシステムの1つもしくは複数のハードウェアモジュール(例えば、プロセッサ、またはプロセッサのグループ)は、本明細書において説明されるような、ある動作を実行するように動作するハードウェアモジュールとして、ソフトウェア(例えば、アプリケーションまたはアプリケーション部分)によって、構成され得る。
本明細書において説明される例示的な方法の様々な動作は、関連動作を実行するように、(例えば、ソフトウェアによって)一時的に構成される、または永続的に構成される、1つまたは複数のプロセッサによって、少なくとも部分的に実行され得る。一時的に構成されるか、または永続的に構成されるかにかかわらず、そのようなプロセッサは、1つまたは複数の動作または機能を実行するように動作する、プロセッサ実施されるモジュールを構成し得る。本明細書において言及されるモジュールは、いくつかの例示的な実施形態においては、プロセッサ実施されるモジュールを構成し得る。
同様に、本明細書において説明される方法は、少なくとも部分的に、プロセッサ実施され得る。例えば、方法の動作のうちの少なくともいくつかは、1つまたは複数のプロセッサまたはプロセッサ実施されるハードウェアモジュールによって、実行され得る。動作のあるものの実行は、単一のマシン内に存在するばかりでなく、数々のマシンにわたって配備された、1つまたは複数のプロセッサの間に分散され得る。いくつかの例示的な実施形態においては、1つまたは複数のプロセッサは、単一のロケーションに(例えば、家庭環境、オフィス環境内に、またはサーバファームとして)配置され得、一方、他の実施形態においては、プロセッサは、数々のロケーションにわたって、分散され得る。
特段の指摘がない限り、「処理する」、「計算する」、「算出する」、「決定する」、「提示する」、または「表示する」などの語を使用する、本明細書における説明は、1つもしくは複数のメモリ(例えば、揮発性メモリ、不揮発性メモリ、またはそれらの組み合わせ)、レジスタ、または情報を受信し、記憶し、送信し、もしくは表示する、他のマシンコンポーネント内において、物理的な(例えば、電子的、磁気的、または光学的な)量として表されるデータを操作または変換する、マシン(例えば、コンピュータ)のアクションまたはプロセスに言及することがある。
本明細書において使用される場合、「一実施形態」または「実施形態」に対するいずれの言及も、実施形態との関連において説明される、特定の要素、特徴、構造、または特性が、少なくとも1つの実施形態に含まれることを意味する。本明細書内の様々な場所における「一実施形態において」という語句の出現は、必ずしもすべてが同じ実施形態に言及しているわけではない。
いくつかの実施形態は、「結合された」および「接続された」という表現、ならびにそれらの派生語を使用して、説明されることがある。これらの用語は、互いの同義語として意図されていないことが、理解されるべきである。例えば、いくつかの実施形態は、2つ以上の要素が、物理的または電気的に直接的な接触を互いに行っていることを示す、「接続された」という用語を使用して、説明されることがある。別の例においては、いくつかの実施形態は、2つ以上の要素が、物理的または電気的に直接的な接触を行っていることを示す、「結合された」という用語を使用して、説明されることがある。しかしながら、「結合された」という用語は、2つ以上の要素が、直接的な接触を互いに行っていないが、それでも依然として、互いに協力または相互作用していることを意味してもよい。実施形態は、この文脈において、限定されない。
本明細書において使用される場合、「含む(comprise)」、「含む(comprising)」、「含む(includes)」、「含む(including)」、「有する(has)」、「有する(having)」という用語、またはそれらの他の任意の変形は、非排他的な包含を含むことを意図している。例えば、要素のリストを含む、プロセス、方法、物品、または装置は、必ずしもそれらの要素だけに限定されるわけではなく、明示的に列挙されていない、またはそのようなプロセス、方法、物品、もしくは装置に固有の、他の要素を含んでよい。さらに、明示的にそれを否定する指摘がない限り、「または」は、包含的な「または」のことであり、排他的な「または」のことではない。例えば、AまたはBという条件は、以下のいずれか1つによって、すなわち、Aが真であり(または存在し)、Bが偽である(または存在しない)、Aが偽であり(または存在せず)、Bが真である(または存在する)、ならびにAおよびBの両方が、真である(または存在する)によって、満たされる。
加えて、「a」または「an」の使用は、本明細書における実施形態の要素およびコンポーネントを説明するために、利用される。これは、単に便宜的に、および本発明の一般的な意味を与えるために、行われる。この説明は、1つまたは少なくとも1つを含むように、読まれるべきであり、そうではないことが意味されていることが明らかでない限り、単数形は、複数形も含む。
この説明のいくつかの部分は、情報に対する操作のアルゴリズムおよびシンボリック表現の観点から、実施形態を説明する。これらのアルゴリズム的な説明および表現は、自分の仕事の内容を他の当業者に効果的に伝えるために、データ処理技術分野における当業者によって、一般的に使用されている。これらの操作は、機能的、計算的、または論理的に説明されるが、コンピュータプログラム、または等価的な電気回路、もしくはマイクロコードなどによって実施されると理解される。さらに、一般性を失うことなく、動作のこれらの配置をモジュールと呼ぶことが、時には便利であることも分かっている。説明された動作およびそれらと関連付けられたモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組み合わせで、具現化され得る。
本明細書において説明された、ステップ、動作、またはプロセスのいずれも、1つまたは複数のハードウェアまたはソフトウェアモジュールを用いて、それだけで、または他のデバイスと組み合わせて、実行または実施され得る。一実施形態においては、ソフトウェアモジュールは、説明されたありとあらゆるステップ、操作、またはプロセスを実行するための、コンピュータプロセッサによって実行されることができる、コンピュータプログラムコードを含む、コンピュータ可読媒体を含む、コンピュータプログラム製品で実施される。
実施形態は、本明細書における動作を実行するための装置にも関し得る。この装置は、必要とされる目的のために、特別に構築され得、および/またはそれは、コンピュータ内に記憶されたコンピュータプログラムによって、選択的に起動または再構成される、汎用コンピューティングデバイスを含み得る。そのようなコンピュータプログラムは、コンピュータシステムバスに結合され得る、非一時的な有形のコンピュータ可読記憶媒体、または電子的命令を記憶するのに適した任意のタイプの媒体に記憶され得る。さらに、本明細書において言及される、任意のコンピューティングシステムは、単一のプロセッサを含み得、またはコンピューティング能力を高めるための複数プロセッサ設計を利用した、アーキテクチャであり得る。
実施形態は、本明細書において説明されるコンピューティングプロセスによって生成される製品にも関し得る。そのような製品は、コンピューティングプロセスからもたらされる情報を含み得、情報は、非一時的な有形のコンピュータ可読記憶媒体上に記憶され、本明細書において説明される、コンピュータプログラム製品または他のデータ組み合わせの任意の実施形態を含み得る。
本開示を読んだとき、当業者は、本明細書において開示された原理を通した、デバイス固有のメタデータを使用する、オーディオエンハンスメントのためのシステムおよびプロセスのための、さらなる追加の代替的な構造設計および機能設計を理解するであろう。したがって、特定の実施形態および適用が、例示および説明されたが、開示された実施形態は、本明細書に開示された通りの構造およびコンポーネントに限定されないことが、理解されるべきである。添付の特許請求の範囲において定義される主旨および範囲から逸脱することなく、本明細書において開示された方法および装置の配置、動作、および詳細において、当業者に明らかな、様々な変更、変化、および変形が、施されてよい。
最後に、本明細書において使用される言葉は、主として、読みやすさおよび教示的な目的のために、選択されたものであり、特許権を詳述または画定するために、選択されなかったことがある。したがって、特許権の範囲は、この詳細な説明によっては限定されず、むしろ、本明細書に基づいた出願において出された、いずれかの請求項によって限定されることが、意図されている。したがって、実施形態の開示は、以下の特許請求の範囲において規定される、特許権の範囲について、例示はするが、限定しないことが、意図されている。
実施形態は、互いにスペクトル的に直交する、ミッド成分およびサイド成分を使用する、空間オーディオ処理に関する。例えば、オーディオ処理システムは、音場の中央に存在するスペクトルエネルギーだけに対応する、ミッド成分の部分を分離した、ハイパーミッド成分、または音場の中央に存在しないスペクトルエネルギーだけに対応する、サイド成分の部分を分離した、ハイパーサイド成分を生成する。ハイパーミッド成分は、ミッド成分のスペクトルエネルギーから除去された、サイド成分のスペクトルエネルギーを含み、ハイパーサイド成分は、サイド成分のスペクトルエネルギーから除去された、ミッド成分のスペクトルエネルギーを含む。オーディオ処理システムは、(例えば、ミッド成分のスペクトルエネルギーから、ハイパーミッド成分のスペクトルエネルギーを減算することによって)ハイパーミッド成分が除去された、ミッド成分のスペクトルエネルギーに対応する、残差ミッド成分、または(例えば、サイド成分のスペクトルエネルギーから、ハイパーサイド成分のスペクトルエネルギーを減算することによって)ハイパーサイド成分が除去された、サイド成分のスペクトルエネルギーに対応する、残差サイド成分も生成し得る。これらの直交成分を分離し、これらの成分を使用して、様々なタイプのオーディオ処理を実行することによって、オーディオ処理システムは、オーディオコンテンツの目標とされるエンハンスメントを提供することができる。ハイパーミッド成分は、音場の中央における非空間的(すなわち、ミッド)スペクトルエネルギーを表す。例えば、音場の中央における非空間的スペクトルエネルギーは、映画のダイアログ、または音楽における主要ボーカルコンテンツを含み得る。ハイパーミッドに対して信号処理操作を適用することは、音場内の他のどこかに存在するスペクトルエネルギーを変化させることなく、そのようなオーディオコンテンツの調整を可能にする。例えば、いくつかの実施形態においては、ボーカルコンテンツは、典型的な人間の声域におけるスペクトルエネルギーを減少させる、ハイパーミッド成分にフィルタを適用することによって、部分的および/または完全に除去され得る。他の実施形態においては、ボーカルコンテンツに対する目標とされるエンハンスメントまたはエフェクトが、(例えば、圧縮、リバーブ、および/または他のオーディオ処理技法を介して)典型的な人間の声域におけるエネルギーを増加させるフィルタによって、適用され得る。残差ミッド成分は、音場の真ん中にない非空間的スペクトルエネルギーを表す。残差ミッドに対して信号処理技法を適用することは、類似の変換が、他の成分と直交して行われることを可能にする。例えば、いくつかの実施形態においては、全体的な知覚されるゲインの最小限の変化と、ボーカルプレゼンスの最小限の損失で、オーディオコンテンツに対して空間的広がりエフェクトを提供するために、残差サイド成分におけるスペクトルエネルギーは、増加させながら、残差ミッド成分における目標とされるスペクトルエネルギーは、部分的および/または完全に除去され得る。
例示的な直交成分ジェネレータ
図2A~図2Cは、それぞれ、1つまたは複数の実施形態による直交成分ジェネレータモジュール213、223、24のブロック図である。直交成分ジェネレータモジュール213、223、24は、直交成分ジェネレータモジュール113の例である。
いくつかの実施形態においては、直交成分プロセッサモジュール317は、周波数領域において、ハイパーミッド成分M1、残差ミッド成分M2、ハイパーサイド成分S1、および残差サイド成分S2のうちの少なくとも1つに対して、サブバンド空間処理および/またはクロストーク補償処理320を実行し、周波数領域において、処理されたミッド成分131と、処理されたサイド成分139とを生成する。直交成分ジェネレータモジュール113は、周波数領域における成分M1、M2、S1、またはS2を、逆FFTを実行する、直交成分プロセッサに提供し得る。処理されたミッド成分131と、処理されたサイド成分139とを生成した後、直交成分プロセッサモジュール317は、処理されたミッド成分131と、処理されたサイド成分139とに対して、これらの成分を時間領域に変換し戻すために、逆FFTを実行し得る。いくつかの実施形態においては、直交成分プロセッサモジュール317は、処理されたM1、処理されたM2、処理されたS1、および処理されたS2に対して、逆FFTを実行し、時間領域において、処理されたミッド成分131と、処理されたサイド成分139とを生成する。
クロストーク補償プロセッサモジュール510は、非空間成分Ymを受信し、ミッド成分プロセッサ520は、増強された非空間クロストーク補償成分Zmを生成するためにフィルタのセットを適用する。クロストーク補償プロセッサモジュール510は、また、空間サブバンド成分Ysを受信し、増強された空間サブバンド成分Esを生成するために、サイド成分プロセッサ530において、フィルタのセットを適用する。ミッド成分プロセッサ520は、m個のミッドフィルタ540(a)、540(b)、乃至540(m)など、複数のフィルタ540を含む。ここで、m個のミッドフィルタ540の各々は、非空間成分 mのm個の周波数バンドのうちの1つを処理する。ミッド成分プロセッサ520は、非空間成分 mを処理することによって、ミッドクロストーク補償チャンネルZmをしかるべく生成する。いくつかの実施形態においては、ミッドフィルタ540は、シミュレーションを通した、クロストーク処理を用いた、非空間 mの周波数応答プロットを使用して構成される。加えて、周波数応答プロットを分析することによって、クロストーク処理のアーチファクトとして発生する、事前決定されたしきい値(例えば、10dB)を超える、周波数応答プロットにおけるピークまたはトラフなどの、いかなるスペクトル不良も推定されることができる。これらのアーチファクトは、クロストーク処理における、遅延させられ、場合によっては、反転させられた対側信号の、それらの対応する同側信号との和から主にもたらされ、それによって、効果的に、最終的なレンダリングされた結果に、コムフィルタに似た周波数応答を導入する。推定されたピークまたはトラフを補償するために、ミッドクロストーク補償チャンネルZmが、ミッド成分プロセッサ520によって、生成されることができ、m個の周波数バンドの各々は、ピークまたはトラフと対応する。具体的には、クロストーク処理において適用される、特定の遅延、フィルタリング周波数、およびゲインに基づいて、ピークおよびトラフは、周波数応答において、上下にシフトし、スペクトルの特定の領域における、エネルギーの可変増幅および/または減衰を引き起こす。ミッドフィルタ540の各々は、ピークおよびトラフのうちの1つまたは複数を調整するように構成され得る。
サイド成分プロセッサ530は、m個のサイドフィルタ550(a)、550(b)、乃至550(m)など、複数のフィルタ550を含む。サイド成分プロセッサ530は、空間成分 sを処理することによって、サイドクロストーク補償チャンネルZsを生成する。いくつかの実施形態においては、クロストーク処理を用いた、空間 sの周波数応答プロットが、シミュレーションを通して、獲得されることができる。周波数応答プロットを分析することによって、クロストーク処理のアーチファクトとして発生する、事前決定されたしきい値(例えば、10dB)を超える、周波数応答プロットにおけるピークまたはトラフなどの、いかなるスペクトル不良も、推定されることができる。推定されたピークまたはトラフを補償するために、サイドクロストーク補償チャンネルZsが、サイド成分プロセッサ530によって生成されることができる。具体的には、クロストーク処理において適用される、特定の遅延、フィルタリング周波数、およびゲインに基づいて、ピークおよびトラフは、周波数応答において、上下にシフトし、スペクトルの特定の領域における、エネルギーの可変増幅および/または減衰を引き起こす。サイドフィルタ550の各々は、ピークおよびトラフのうちの1つまたは複数を調整するように構成され得る。いくつかの実施形態においては、ミッド成分プロセッサ520およびサイド成分プロセッサ530は、異なる数のフィルタを含み得る。
ここで、△fは帯域幅であり、fcは中心周波数である。ミッドフィルタ540は、直列であるとして示されており、サイドフィルタ550は、直列であるとして示されている。いくつかの実施形態においては、ミッドフィルタ540はミッド成分 mに対して並列に適用され、サイドフィルタはサイド成分 sに対して並列に適用される。
ここで、Dは、例えば、48KHzのサンプリングレートにおける、サンプル単位の遅延ユニット736および646による遅延量である。代替的な実施は、5000Hzから10000Hzの間で選択されたコーナ周波数と、0.5から1.0の間で選択されたQとを有するローパスフィルタである。さらに、増幅器734は、抽出された部分を、対応するゲイン係数GL,Inによって増幅し、遅延ユニット736は、左対側キャンセレーション成分SLを生成するために、増幅器734からの増幅された出力を遅延関数Dに従って遅延させる。対側推定器740は、右対側キャンセレーション成分SRを生成するために、反転されたインバンドチャンネルTR,In’に対して同様の操作を実行するフィルタ72と、増幅器744と、遅延ユニット76とを含む。1つの例においては、対側推定器730,740は、以下の式に従って、左対側キャンセレーション成分SLと、右対側キャンセレーション成分SRとを生成する。
L=D[GL,In*F[TL,In’]] 式(6)
R=D[GR,In*F[TR,In’]] 式(7)
コンピューティングマシンアーキテクチャ
図20は、1つまたは複数の実施形態による、コンピュータシステム2000のブロック図である。コンピュータシステム2000は、オーディオ処理システムを実施する回路の例である。チップセット2004に結合された、少なくとも1つのプロセッサ2002が、例示されている。チップセット2004は、メモリコントローラハブ2020と、入出力(I/O)コントローラハブ2022とを含む。メモリ2006、およびグラフィックスアダプタ2012が、メモリコントローラハブ2020に結合され、ディスプレイデバイス2018が、グラフィックスアダプタ2012に結合される。ストレージデバイス008、キーボード2010、ポインティングデバイス2014、およびネットワークアダプタ2016が、I/Oコントローラハブ2022に結合される。コンピュータシステム2000は、様々なタイプの入力デバイスまたは出力デバイスを含み得る。コンピュータシステム2000の他の実施形態は、異なるアーキテクチャを有する。例えば、メモリ2006は、いくつかの実施形態においては、プロセッサ2002に直接的に結合される。
回路は、非一時的なコンピュータ可読媒体に記憶されたプログラムコードを実行する、1つまたは複数のプロセッサを含み得、プログラムコードは、1つまたは複数のプロセッサによって実行されたとき、オーディオ処理システムまたはオーディオ処理システムのモジュールを実施するように、1つまたは複数のプロセッサを構成する。オーディオ処理システムまたはオーディオ処理システムのモジュールを実施する回路の他の例は、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、または他のタイプのコンピュータ回路などの、集積回路を含み得る。

Claims (39)

  1. システムであって、
    回路であって、
    オーディオ信号の左チャンネルおよび右チャンネルから、ミッド成分と、サイド成分とを生成し、
    前記ミッド成分のスペクトルエネルギーから除去された、前記サイド成分のスペクトルエネルギーを含む、ハイパーミッド成分を生成し、
    前記ミッド成分の前記スペクトルエネルギーから除去された、前記ハイパーミッド成分のスペクトルエネルギーを含む、残差ミッド成分を生成し、
    前記残差ミッド成分のサブバンドをフィルタリングし、
    前記残差ミッド成分の前記フィルタリングされたサブバンドを使用して、左出力チャンネルと、右出力チャンネルとを生成する
    ように構成された回路
    を備えるシステム。
  2. 前記残差ミッド成分の前記サブバンドの各々は、クリティカルバンドのセットを含む請求項1に記載のシステム。
  3. 前記回路は、
    前記サイド成分の前記スペクトルエネルギーから除去された、前記ミッド成分の前記スペクトルエネルギーを含む、ハイパーサイド成分を生成し、
    前記サイド成分の前記スペクトルエネルギーから除去された、前記ハイパーサイド成分の前記スペクトルエネルギーを含む、残差サイド成分を生成し、
    前記残差サイド成分のサブバンドをフィルタリングし、
    前記残差サイド成分の前記フィルタリングされたサブバンドを使用して、前記左出力チャンネルと、前記右出力チャンネルとを生成する
    ようにさらに構成される請求項1に記載のシステム。
  4. 前記回路は、
    前記サイド成分の前記スペクトルエネルギーから除去された、前記ミッド成分の前記スペクトルエネルギーを含む、ハイパーサイド成分を生成し、
    前記ハイパーサイド成分のサブバンドをフィルタリングし、
    前記ハイパーサイド成分の前記フィルタリングされたサブバンドを使用して、前記左出力チャンネルと、前記右出力チャンネルとを生成する
    ようにさらに構成される請求項1に記載のシステム。
  5. 前記回路は、
    前記サイド成分のサブバンドをフィルタリングし、
    前記サイド成分の前記フィルタリングされたサブバンドを使用して、前記左出力チャンネルと、前記右出力チャンネルとを生成する
    ようにさらに構成される請求項1に記載のシステム。
  6. 前記回路は、
    前記ハイパーミッド成分のサブバンドをフィルタリングし、
    前記ハイパーミッド成分の前記フィルタリングされたサブバンドを使用して、前記左出力チャンネルと、前記右出力チャンネルとを生成する
    ようにさらに構成される請求項1に記載のシステム。
  7. 前記回路は、前記オーディオ信号にクロストーク処理を適用するようにさらに構成され、前記クロストーク処理は、クロストークキャンセレーション、またはクロストークシミュレーションの一方を含む請求項1に記載のシステム。
  8. 前記回路は、前記クロストーク処理によって引き起こされた、スペクトル不良を補償するために、前記ハイパーミッド成分をフィルタリングするようにさらに構成される請求項7に記載のシステム。
  9. 前記回路は、前記クロストーク処理によって引き起こされた、スペクトル不良を補償するために、前記残差ミッド成分をフィルタリングするようにさらに構成される請求項7に記載のシステム。
  10. 前記回路は、前記クロストーク処理によって引き起こされた、スペクトル不良を補償するために、前記ミッド成分をフィルタリングするようにさらに構成される請求項7に記載のシステム。
  11. 前記回路は、
    前記サイド成分の前記スペクトルエネルギーから除去された、前記ミッド成分の前記スペクトルエネルギーを含む、ハイパーサイド成分を生成し、
    前記クロストーク処理によって引き起こされた、スペクトル不良を補償するために、前記ハイパーサイド成分をフィルタリングする
    ようにさらに構成される請求項7に記載のシステム。
  12. 前記回路は、
    前記サイド成分の前記スペクトルエネルギーから除去された、前記ハイパーサイド成分の前記スペクトルエネルギーを含む、残差サイド成分を生成し、
    前記クロストーク処理によって引き起こされた、スペクトル不良を補償するために、前記残差サイド成分をフィルタリングする
    ようにさらに構成される請求項7に記載のシステム。
  13. 前記回路は、前記クロストーク処理によって引き起こされた、スペクトル不良を補償するために、前記サイド成分をフィルタリングするようにさらに構成される請求項7に記載のシステム。
  14. 記憶されたプログラムコードを備える、非一時的なコンピュータ可読媒体であって、前記プログラムコードは、少なくとも1つのプロセッサによって実行されたとき、
    オーディオ信号の左チャンネルおよび右チャンネルから、ミッド成分と、サイド成分とを生成し、
    前記ミッド成分のスペクトルエネルギーから除去された、前記サイド成分のスペクトルエネルギーを含む、ハイパーミッド成分を生成し、
    前記ミッド成分の前記スペクトルエネルギーから除去された、前記ハイパーミッド成分のスペクトルエネルギーを含む、残差ミッド成分を生成し、
    前記残差ミッド成分のサブバンドをフィルタリングし、
    残差ミッド成分の前記フィルタリングされたサブバンドを使用して、左出力チャンネルと、右出力チャンネルとを生成する
    ように、前記少なくとも1つのプロセッサを構成する非一時的なコンピュータ可読媒体。
  15. 前記残差ミッド成分の前記サブバンドの各々は、クリティカルバンドのセットを含む請求項14に記載の非一時的なコンピュータ可読媒体。
  16. 前記プログラムコードは、
    前記サイド成分の前記スペクトルエネルギーから除去された、前記ミッド成分の前記スペクトルエネルギーを含む、ハイパーサイド成分を生成し、
    前記サイド成分の前記スペクトルエネルギーから除去された、前記ハイパーサイド成分の前記スペクトルエネルギーを含む、残差サイド成分を生成し、
    前記残差サイド成分のサブバンドをフィルタリングし、
    前記残差サイド成分の前記フィルタリングされたサブバンドを使用して、前記左出力チャンネルと、前記右出力チャンネルとを生成する
    ように、前記少なくとも1つのプロセッサをさらに構成する請求項14に記載の非一時的なコンピュータ可読媒体。
  17. 前記プログラムコードは、
    前記サイド成分の前記スペクトルエネルギーから除去された、前記ミッド成分の前記スペクトルエネルギーを含む、ハイパーサイド成分を生成し、
    前記ハイパーサイド成分のサブバンドをフィルタリングし、
    前記ハイパーサイド成分の前記フィルタリングされたサブバンドを使用して、前記左出力チャンネルと、前記右出力チャンネルとを生成する
    ように、前記少なくとも1つのプロセッサをさらに構成する請求項14に記載の非一時的なコンピュータ可読媒体。
  18. 前記プログラムコードは、
    前記サイド成分のサブバンドをフィルタリングし、
    前記サイド成分の前記フィルタリングされたサブバンドを使用して、前記左出力チャンネルと、前記右出力チャンネルとを生成する
    ように、前記少なくとも1つのプロセッサをさらに構成する請求項14に記載の非一時的なコンピュータ可読媒体。
  19. 前記プログラムコードは、
    前記ハイパーミッド成分のサブバンドをフィルタリングし、
    前記ハイパーミッド成分の前記フィルタリングされたサブバンドを使用して、前記左出力チャンネルと、前記右出力チャンネルとを生成する
    ように、前記少なくとも1つのプロセッサをさらに構成する請求項14に記載の非一時的なコンピュータ可読媒体。
  20. 前記プログラムコードは、前記オーディオ信号にクロストーク処理を適用するように、前記少なくとも1つのプロセッサをさらに構成し、前記クロストーク処理は、クロストークキャンセレーション、またはクロストークシミュレーションの一方を含む請求項14に記載の非一時的なコンピュータ可読媒体。
  21. 前記プログラムコードは、前記クロストーク処理によって引き起こされた、スペクトル不良を補償するために、前記ハイパーミッド成分をフィルタリングするように、前記少なくとも1つのプロセッサをさらに構成する請求項20に記載の非一時的なコンピュータ可読媒体。
  22. 前記プログラムコードは、前記クロストーク処理によって引き起こされた、スペクトル不良を補償するために、前記残差ミッド成分をフィルタリングするように、前記少なくとも1つのプロセッサをさらに構成する請求項20に記載の非一時的なコンピュータ可読媒体。
  23. 前記プログラムコードは、前記クロストーク処理によって引き起こされた、スペクトル不良を補償するために、前記ミッド成分をフィルタリングするように、前記少なくとも1つのプロセッサをさらに構成する請求項20に記載の非一時的なコンピュータ可読媒体。
  24. 前記プログラムコードは、
    前記サイド成分の前記スペクトルエネルギーから除去された、前記ミッド成分の前記スペクトルエネルギーを含む、ハイパーサイド成分を生成し、
    前記クロストーク処理によって引き起こされた、スペクトル不良を補償するために、前記ハイパーサイド成分をフィルタリングする
    ように、前記少なくとも1つのプロセッサをさらに構成する請求項20に記載の非一時的なコンピュータ可読媒体。
  25. 前記プログラムコードは、
    前記サイド成分の前記スペクトルエネルギーから除去された、前記ハイパーサイド成分の前記スペクトルエネルギーを含む、残差サイド成分を生成し、
    前記クロストーク処理によって引き起こされた、スペクトル不良を補償するために、前記残差サイド成分をフィルタリングする
    ように、前記少なくとも1つのプロセッサをさらに構成する請求項20に記載の非一時的なコンピュータ可読媒体。
  26. 前記プログラムコードは、前記クロストーク処理によって引き起こされた、スペクトル不良を補償するために、前記サイド成分をフィルタリングするように、前記少なくとも1つのプロセッサをさらに構成する請求項20に記載の非一時的なコンピュータ可読媒体。
  27. 回路によって、
    オーディオ信号の左チャンネルおよび右チャンネルから、ミッド成分と、サイド成分とを生成するステップと、
    前記ミッド成分のスペクトルエネルギーから除去された、前記サイド成分のスペクトルエネルギーを含む、ハイパーミッド成分を生成するステップと、
    前記ミッド成分の前記スペクトルエネルギーから除去された、前記ハイパーミッド成分のスペクトルエネルギーを含む、残差ミッド成分を生成するステップと、
    前記残差ミッド成分のサブバンドをフィルタリングするステップと、
    残差ミッド成分の前記フィルタリングされたサブバンドを使用して、左出力チャンネルと、右出力チャンネルとを生成するステップと
    を含む方法。
  28. 前記残差ミッド成分の前記サブバンドの各々は、クリティカルバンドのセットを含む請求項27に記載の方法。
  29. 前記回路によって、
    前記サイド成分の前記スペクトルエネルギーから除去された、前記ミッド成分の前記スペクトルエネルギーを含む、ハイパーサイド成分を生成するステップと、
    前記サイド成分の前記スペクトルエネルギーから除去された、前記ハイパーサイド成分の前記スペクトルエネルギーを含む、残差サイド成分を生成するステップと、
    前記残差サイド成分のサブバンドをフィルタリングするステップと、
    前記残差サイド成分の前記フィルタリングされたサブバンドを使用して、前記左出力チャンネルと、前記右出力チャンネルとを生成するステップと
    をさらに含む請求項27に記載の方法。
  30. 前記回路によって、
    前記サイド成分の前記スペクトルエネルギーから除去された、前記ミッド成分の前記スペクトルエネルギーを含む、ハイパーサイド成分を生成するステップと、
    前記ハイパーサイド成分のサブバンドをフィルタリングするステップと、
    前記ハイパーサイド成分の前記フィルタリングされたサブバンドを使用して、前記左出力チャンネルと、前記右出力チャンネルとを生成するステップと
    をさらに含む請求項27に記載の方法。
  31. 前記回路によって、
    前記サイド成分のサブバンドをフィルタリングするステップと、
    前記サイド成分の前記フィルタリングされたサブバンドを使用して、前記左出力チャンネルと、前記右出力チャンネルとを生成するステップと
    をさらに含む請求項27に記載の方法。
  32. 前記回路によって、
    前記ハイパーミッド成分のサブバンドをフィルタリングするステップと、
    前記ハイパーミッド成分の前記フィルタリングされたサブバンドを使用して、前記左出力チャンネルと、前記右出力チャンネルとを生成するステップと
    をさらに含む請求項27に記載の方法。
  33. 前記回路によって、前記オーディオ信号にクロストーク処理を適用するステップをさらに含み、前記クロストーク処理は、クロストークキャンセレーション、またはクロストークシミュレーションの一方を含む請求項27に記載の方法。
  34. 前記回路によって、前記クロストーク処理によって引き起こされた、スペクトル不良を補償するために、前記ハイパーミッド成分をフィルタリングするステップをさらに含む請求項33に記載の方法。
  35. 前記回路によって、前記クロストーク処理によって引き起こされた、スペクトル不良を補償するために、前記残差ミッド成分をフィルタリングするステップをさらに含む請求項33に記載の方法。
  36. 前記回路によって、前記クロストーク処理によって引き起こされた、スペクトル不良を補償するために、前記ミッド成分をフィルタリングするステップをさらに含む請求項33に記載の方法。
  37. 前記回路によって、
    前記サイド成分の前記スペクトルエネルギーから除去された、前記ミッド成分の前記スペクトルエネルギーを含む、ハイパーサイド成分を生成するステップと、
    前記クロストーク処理によって引き起こされた、スペクトル不良を補償するために、前記ハイパーサイド成分をフィルタリングするステップと
    をさらに含む請求項33に記載の方法。
  38. 前記回路によって、
    前記サイド成分の前記スペクトルエネルギーから除去された、前記ハイパーサイド成分の前記スペクトルエネルギーを含む、残差サイド成分を生成するステップと、
    前記クロストーク処理によって引き起こされた、スペクトル不良を補償するために、前記残差サイド成分をフィルタリングするステップと
    をさらに含む請求項33に記載の方法。
  39. 前記回路によって、前記クロストーク処理によって引き起こされた、スペクトル不良を補償するために、前記サイド成分をフィルタリングするステップをさらに含む請求項33に記載の方法。
JP2022521288A 2019-10-10 2020-08-10 スペクトル直交オーディオ成分を用いたサブバンド空間処理およびクロストーク処理 Active JP7410282B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023215971A JP2024026465A (ja) 2019-10-10 2023-12-21 スペクトル直交オーディオ成分を用いたサブバンド空間処理およびクロストーク処理

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201962913661P 2019-10-10 2019-10-10
US62/913,661 2019-10-10
US201962939364P 2019-11-22 2019-11-22
US62/939,364 2019-11-22
US16/983,817 2020-08-03
US16/983,817 US11432069B2 (en) 2019-10-10 2020-08-03 Spectrally orthogonal audio component processing
US16/983,827 US11032644B2 (en) 2019-10-10 2020-08-03 Subband spatial and crosstalk processing using spectrally orthogonal audio components
US16/983,827 2020-08-03
PCT/US2020/045670 WO2021071577A1 (en) 2019-10-10 2020-08-10 Subband spatial and crosstalk processing using spectrally orthogonal audio components

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023215971A Division JP2024026465A (ja) 2019-10-10 2023-12-21 スペクトル直交オーディオ成分を用いたサブバンド空間処理およびクロストーク処理

Publications (2)

Publication Number Publication Date
JP2022551873A true JP2022551873A (ja) 2022-12-14
JP7410282B2 JP7410282B2 (ja) 2024-01-09

Family

ID=75382323

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2022521286A Active JP7437493B2 (ja) 2019-10-10 2020-08-10 スペクトル直交オーディオ成分処理
JP2022521288A Active JP7410282B2 (ja) 2019-10-10 2020-08-10 スペクトル直交オーディオ成分を用いたサブバンド空間処理およびクロストーク処理
JP2023215971A Pending JP2024026465A (ja) 2019-10-10 2023-12-21 スペクトル直交オーディオ成分を用いたサブバンド空間処理およびクロストーク処理

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2022521286A Active JP7437493B2 (ja) 2019-10-10 2020-08-10 スペクトル直交オーディオ成分処理

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023215971A Pending JP2024026465A (ja) 2019-10-10 2023-12-21 スペクトル直交オーディオ成分を用いたサブバンド空間処理およびクロストーク処理

Country Status (7)

Country Link
US (3) US11032644B2 (ja)
EP (2) EP4042721A4 (ja)
JP (3) JP7437493B2 (ja)
KR (3) KR20220080146A (ja)
CN (2) CN114830693A (ja)
TW (2) TWI765325B (ja)
WO (2) WO2021071577A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11032644B2 (en) * 2019-10-10 2021-06-08 Boomcloud 360, Inc. Subband spatial and crosstalk processing using spectrally orthogonal audio components
US11832079B2 (en) * 2021-03-30 2023-11-28 Harman Becker Automotive Systems Gmbh System and method for providing stereo image enhancement of a multi-channel loudspeaker setup
EP4327324A1 (en) 2021-07-08 2024-02-28 Boomcloud 360, Inc. Colorless generation of elevation perceptual cues using all-pass filter networks
CN117678014A (zh) * 2021-07-08 2024-03-08 博姆云360公司 使用全通滤波器网络的仰角感知线索的无色生成
US12047758B2 (en) 2022-01-20 2024-07-23 Qualcomm Incorporated Audio ground switch channel crosstalk cancellation technique

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012529216A (ja) * 2009-06-05 2012-11-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号のアップミキシング
WO2019118194A1 (en) * 2017-12-15 2019-06-20 Boomcloud 360, Inc. Subband spatial processing and crosstalk cancellation system for conferencing

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6118876A (en) * 1995-09-07 2000-09-12 Rep Investment Limited Liability Company Surround sound speaker system for improved spatial effects
US8619998B2 (en) 2006-08-07 2013-12-31 Creative Technology Ltd Spatial audio enhancement processing method and apparatus
JP4315180B2 (ja) 2006-10-20 2009-08-19 ソニー株式会社 信号処理装置および方法、プログラム、並びに記録媒体
US20080232601A1 (en) 2007-03-21 2008-09-25 Ville Pulkki Method and apparatus for enhancement of audio reconstruction
US8064624B2 (en) * 2007-07-19 2011-11-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for generating a stereo signal with enhanced perceptual quality
EP2144228A1 (en) * 2008-07-08 2010-01-13 Siemens Medical Instruments Pte. Ltd. Method and device for low-delay joint-stereo coding
US8379940B2 (en) * 2009-06-02 2013-02-19 George Mason Intellectual Properties, Inc. Robust human authentication using holistic anthropometric and appearance-based features and boosting
JP5493817B2 (ja) * 2009-12-17 2014-05-14 沖電気工業株式会社 エコーキャンセラ
JP5604275B2 (ja) 2010-12-02 2014-10-08 富士通テン株式会社 相関低減方法、音声信号変換装置および音響再生装置
US9031268B2 (en) 2011-05-09 2015-05-12 Dts, Inc. Room characterization and correction for multi-channel audio
EP2544466A1 (en) 2011-07-05 2013-01-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral subtractor
WO2014164361A1 (en) * 2013-03-13 2014-10-09 Dts Llc System and methods for processing stereo audio content
US9288601B2 (en) * 2013-05-28 2016-03-15 Audio Design Experts, Inc. Broad sound loudspeaker system
US9883318B2 (en) * 2013-06-12 2018-01-30 Bongiovi Acoustics Llc System and method for stereo field enhancement in two-channel audio systems
US9398394B2 (en) * 2013-06-12 2016-07-19 Bongiovi Acoustics Llc System and method for stereo field enhancement in two-channel audio systems
CN105917674B (zh) * 2013-10-30 2019-11-22 华为技术有限公司 用于处理音频信号的方法和移动装置
US9654894B2 (en) * 2013-10-31 2017-05-16 Conexant Systems, Inc. Selective audio source enhancement
CN108462936A (zh) 2013-12-13 2018-08-28 无比的优声音科技公司 用于音场增强的设备及方法
CN106664499B (zh) 2014-08-13 2019-04-23 华为技术有限公司 音频信号处理装置
US10063984B2 (en) * 2014-09-30 2018-08-28 Apple Inc. Method for creating a virtual acoustic stereo system with an undistorted acoustic center
EP3251116A4 (en) 2015-01-30 2018-07-25 DTS, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
EP3067886A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
EP3067889A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for signal-adaptive transform kernel switching in audio coding
EP3369257B1 (en) 2015-10-27 2021-08-18 Ambidio, Inc. Apparatus and method for sound stage enhancement
US10225657B2 (en) 2016-01-18 2019-03-05 Boomcloud 360, Inc. Subband spatial and crosstalk cancellation for audio reproduction
KR101858917B1 (ko) * 2016-01-18 2018-06-28 붐클라우드 360, 인코포레이티드 오디오 재생성을 위한 부대역 공간 및 크로스토크 제거 기법
BR112018014724B1 (pt) 2016-01-19 2020-11-24 Boomcloud 360, Inc Metodo, sistema de processamento de audio e midia legivel por computador nao transitoria configurada para armazenar o metodo
CA2985019C (en) 2016-02-17 2022-05-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing
CN109644315A (zh) * 2017-02-17 2019-04-16 无比的优声音科技公司 用于缩混多声道音频信号的设备和方法
GB2562518A (en) 2017-05-18 2018-11-21 Nokia Technologies Oy Spatial audio processing
US10499153B1 (en) * 2017-11-29 2019-12-03 Boomcloud 360, Inc. Enhanced virtual stereo reproduction for unmatched transaural loudspeaker systems
US10511909B2 (en) 2017-11-29 2019-12-17 Boomcloud 360, Inc. Crosstalk cancellation for opposite-facing transaural loudspeaker systems
US10547927B1 (en) * 2018-07-27 2020-01-28 Mimi Hearing Technologies GmbH Systems and methods for processing an audio signal for replay on stereo and multi-channel audio devices
US10547926B1 (en) 2018-07-27 2020-01-28 Mimi Hearing Technologies GmbH Systems and methods for processing an audio signal for replay on stereo and multi-channel audio devices
EP3693846A1 (en) * 2019-02-06 2020-08-12 Nokia Technologies Oy An apparatus, method or computer program for rendering sound scenes defined by spatial audio content to a user
US11032644B2 (en) * 2019-10-10 2021-06-08 Boomcloud 360, Inc. Subband spatial and crosstalk processing using spectrally orthogonal audio components

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012529216A (ja) * 2009-06-05 2012-11-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号のアップミキシング
WO2019118194A1 (en) * 2017-12-15 2019-06-20 Boomcloud 360, Inc. Subband spatial processing and crosstalk cancellation system for conferencing

Also Published As

Publication number Publication date
JP2022551872A (ja) 2022-12-14
WO2021071576A1 (en) 2021-04-15
US11432069B2 (en) 2022-08-30
EP4042719A4 (en) 2023-10-18
EP4042719A1 (en) 2022-08-17
WO2021071577A1 (en) 2021-04-15
EP4042721A4 (en) 2023-11-29
US20210112339A1 (en) 2021-04-15
KR102660704B1 (ko) 2024-04-24
JP7437493B2 (ja) 2024-02-22
US20220408188A1 (en) 2022-12-22
JP2024026465A (ja) 2024-02-28
US20210112340A1 (en) 2021-04-15
KR20220076518A (ko) 2022-06-08
EP4042721A1 (en) 2022-08-17
TW202116077A (zh) 2021-04-16
US11032644B2 (en) 2021-06-08
TWI750781B (zh) 2021-12-21
TWI765325B (zh) 2022-05-21
TW202115715A (zh) 2021-04-16
CN114846820A (zh) 2022-08-02
KR20220080146A (ko) 2022-06-14
KR20240060678A (ko) 2024-05-08
JP7410282B2 (ja) 2024-01-09
CN114830693A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
JP7437493B2 (ja) スペクトル直交オーディオ成分処理
JP7370415B2 (ja) 空間オーディオ信号のクロストーク処理のためのスペクトル欠陥補償
JP6865885B2 (ja) サブバンド空間オーディオエンハンスメント
JP7562883B2 (ja) 全域通過フィルタネットワークを使用する仰角知覚的示唆のカラーレス生成
US20240357314A1 (en) Colorless generation of elevation perceptual cues using all-pass filter networks
JP2006005414A (ja) 擬似ステレオ信号生成装置および擬似ステレオ信号生成プログラム
CN117678014A (zh) 使用全通滤波器网络的仰角感知线索的无色生成

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220608

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220608

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230627

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231221

R150 Certificate of patent or registration of utility model

Ref document number: 7410282

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150