JP5894347B2 - System and method for reducing latency in a virtual base system based on a transformer - Google Patents

System and method for reducing latency in a virtual base system based on a transformer Download PDF

Info

Publication number
JP5894347B2
JP5894347B2 JP2015536058A JP2015536058A JP5894347B2 JP 5894347 B2 JP5894347 B2 JP 5894347B2 JP 2015536058 A JP2015536058 A JP 2015536058A JP 2015536058 A JP2015536058 A JP 2015536058A JP 5894347 B2 JP5894347 B2 JP 5894347B2
Authority
JP
Japan
Prior art keywords
frequency
cqmf
virtual base
signal
filter bank
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015536058A
Other languages
Japanese (ja)
Other versions
JP2015531575A (en
Inventor
エクストランド,ペール
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US13/652,023 external-priority patent/US8971551B2/en
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2015531575A publication Critical patent/JP2015531575A/en
Application granted granted Critical
Publication of JP5894347B2 publication Critical patent/JP5894347B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Auxiliary Devices For Music (AREA)

Description

〈関連出願への相互参照〉
本願は、ここに参照によってその全体において組み込まれる2012年10月15日に出願された米国仮特許出願第13/652,023号への優先権を主張するものである。
<Cross-reference to related applications>
This application claims priority to US Provisional Patent Application No. 13 / 652,023, filed October 15, 2012, which is hereby incorporated by reference in its entirety.

〈技術分野〉
一つまたは複数の実施形態は、転移器(transposer)に基づくオーディオ信号処理に、より詳細には転移器に基づく仮想ベース合成システムにおけるレイテンシーを低減することに関する。
<Technical field>
One or more embodiments relate to audio signal processing based on a transposer, and more particularly to reducing latency in a virtual-based synthesis system based on a transposer.

ベース合成(bass synthesis)とは、知覚されるベースを向上させるために信号の低周波数範囲に成分を追加する方法をいう。これらの方法のうち、サブ・ベース(sub-bass)合成技法は、対象となるオーディオ・コンテンツに存在する最低周波数範囲を延長し、改善するために、信号の既存の部分より下の低周波数成分を作り出す。もう一つの方法は、聞こえないベース範囲(たとえば小さなスピーカーを通じて再生される低ピッチのベース)から可聴な倍音を生成し、それにより倍音を、最終的にはピッチをも可聴にしてベース応答を改善する仮想ピッチ・アルゴリズムを使う。   Bass synthesis refers to a method of adding components to the low frequency range of a signal to improve the perceived base. Of these methods, sub-bass synthesis techniques are low frequency components below the existing portion of the signal to extend and improve the lowest frequency range present in the audio content of interest. To produce. Another method is to generate audible overtones from an inaudible bass range (for example, a low-pitch bass played through a small speaker), thereby improving the bass response by making the overtones and eventually the pitch audible. Use a virtual pitch algorithm.

仮想ベース合成は、低い端のベース周波数を物理的に再現できない小さなスピーカーで再生されるときに、オーディオにおいてベース内容の知覚されるレベルを増大させる仮想ピッチ方法である。この方法は、たとえ基音および第一高調波自身が欠けているときでも上の倍音から人間の聴覚系が低いピッチを推定できるという、「幻の基音(missing fundamental)」という音響心理学上の観察に基づく。基本的な機能方法は、オーディオに存在するベース周波数を解析し、欠けている低周波数の知覚を助ける可聴の上の倍音を生成するというものである。仮想ベースの主たるフィーチャーは、デバイスの低周波数ロールオフより下(たとえば150Hzより下)の周波数について上の倍音を合成することによって、小さなスピーカーをもつデバイスでの知覚されるベース応答を向上させるというものである。耳に聞こえない信号成分は、複数の転移因子を使ってより高い可聴の周波数に転移され(倍音)、それにエネルギー調整が続く。仮想ベース合成は、ヘッドホン再生またはフルレンジのスピーカーでの再生のために知覚されるベースを増大させもしうる。図1Aは、周波数成分の非可聴範囲10および該非可聴範囲より上の周波数成分の可聴範囲を有するオーディオ信号の周波数‐振幅スペクトルを示している。非可聴範囲10における周波数成分の高調波転移(harmonic transposition)は、可聴範囲の部分11において転移された周波数成分を生成することができ、これが再生中のオーディオ信号のベース内容の知覚されるレベルを向上させることができる。そのような高調波転移は、入力オーディオ信号の各有意な周波数成分に複数の転移因子を適用して、該成分の複数の高調波を生成することを含んでいてもよい。   Virtual base synthesis is a virtual pitch method that increases the perceived level of base content in audio when played on a small speaker that cannot physically reproduce the lower end base frequency. This method is a psychoacoustic observation that the human auditory system can estimate a low pitch from the upper harmonics even when the fundamental and the first harmonic itself are missing. based on. The basic method of function is to analyze the base frequencies present in the audio and generate audible overtones that help perceive the missing low frequencies. The main feature of the virtual base is to improve the perceived base response in devices with small speakers by synthesizing overtones for frequencies below the device's low frequency roll-off (eg below 150Hz). It is. Inaudible signal components are transferred to higher audible frequencies (overtones) using multiple transfer factors, followed by energy adjustment. Virtual base synthesis may also increase the perceived base for headphone playback or playback on a full range speaker. FIG. 1A shows a frequency-amplitude spectrum of an audio signal having a non-audible range 10 of frequency components and an audible range of frequency components above the non-audible range. The harmonic transposition of the frequency component in the non-audible range 10 can produce a frequency component that is transferred in the portion 11 of the audible range, which reduces the perceived level of the base content of the audio signal being played back. Can be improved. Such harmonic transitions may include applying a plurality of transition factors to each significant frequency component of the input audio signal to generate a plurality of harmonics of the component.

レガシー仮想ベース・システムを利用するある種のオーディオ処理システムでは、周波数転移関数に関連する遅延またはレイテンシーがある種の用途のためには過大になることがある。たとえば、1025サンプルのレイテンシーをもつデジタル・オーディオ処理システムは、追加的な3200サンプルの遅延を加えるレガシー仮想ベース・システムを使ってもよい。これは、48kHzのサンプリング周波数(fs)を与えられたとすると、88ミリ秒を超える全遅延を引き起こすことがある。この量のレイテンシーは一般に問題であり、ゲームや遠隔通信用途にとっては禁止的でさえある。そうした用途では、約100ミリ秒のレイテンシーが可聴な信号遅延の点で気づかれうるようになりはじめる。 In certain audio processing systems that utilize legacy virtual base systems, delays or latencies associated with frequency transfer functions may be excessive for certain applications. For example, a digital audio processing system with a 1025 sample latency may use a legacy virtual base system that adds an additional 3200 sample delay. This can cause a total delay in excess of 88 milliseconds given a sampling frequency (f s ) of 48 kHz. This amount of latency is generally a problem and is even prohibitive for gaming and telecommunications applications. In such applications, a latency of about 100 milliseconds begins to become noticeable in terms of audible signal delay.

レガシー仮想ベース・システムにおいて使われる伝統的な転移器システムは、それぞれ時間から周波数への変換および周波数から時間への変換の分解段および合成段のために、対称的な時間領域窓を使う。図1Bは、二次の転移器、すなわち二次高調波を生成する転移器によって課される遅延を図的に示している。時間プロット100に示されるように、様式的な対称的な分解窓の一つの中心が時間ゼロ基準として選ばれ、新たな入力サンプル104が、分解フェーズ102において時刻t0から、分解窓の時間ストライドSAを想定して、加えられることができる。時間プロット110は、転移器の時間伸張二重性(duality)を示している。ここで、t0は合成フェーズ112において2t0に伸張される。 Traditional transformer systems used in legacy virtual base systems use symmetric time-domain windows for the time-to-frequency conversion and frequency-to-time conversion decomposition and synthesis stages, respectively. FIG. 1B graphically illustrates the delay imposed by a second order transformer, i.e., a second order harmonic generator. As shown in time plot 100, one center of the stylistic symmetric decomposition window is chosen as the time zero reference, and a new input sample 104 is generated from time t 0 in decomposition phase 102 from the time stride of the decomposition window. Assuming S A can be added. The time plot 110 shows the time stretch duality of the transformer. Here, t 0 is stretched to 2t 0 in the synthesis phase 112.

図1Bに示した例示的なプロセスについての全分解/合成チェーン遅延Dtsは、Lは転移器窓サイズ、SAは分解時間ストライドもしくはホップ・サイズであるとして、下記の式(1)のように表わせる。 The total decomposition / synthesis chain delay D ts for the exemplary process shown in FIG. 1B is given by Equation (1) below, where L is the transformer window size and S A is the decomposition time stride or hop size: It can be expressed as

Dts=L/2+2(L/2−SA)=3L/2−2SA (1)
HQMF(Hybrid Quadrature Mirror Filter[ハイブリッド直交ミラー・フィルタ])バンクに基づくオーディオ処理システムでは、CQMF(Complex Quadrature Mirror Filter[複素直交ミラー・フィルタ])分解段への入力信号およびCQMF合成段からの出力信号は一般に、いずれも同じサンプリング周波数fsをもつ。ここで、fsは通例44.1または48kHzに設定される。仮想ベース・プロセスへの入力信号サンプリング・レートは、fs/64であってもよい。システムは通例、64チャネルのCQMFバンクからのみの第一のCQMF信号を処理するからである。64チャネル以外のCQMFサイズが使用されることもできることを注意しておく。レガシー仮想ベース処理システムからの転移された出力は、因子2の基本転移因子(base transposition factor)を使う組み合わされた転移関数のため、2fs/64のサンプリング周波数をもつ。その結果、因子2の帯域幅拡張が得られる。組み合わされた転移器では、上記の基本転移因子は、源変換ビン(または周波数帯域)が目標変換ビン(または周波数帯域)に一対一の関係でマッピングされる因子である。すなわち、源から目標へのビンのマッピングにおいて補間や間引きは関わらない。基本転移因子は、分解窓と合成窓の時間ストライドの間の関係をも支配する。より具体的には、合成時間ストライドは、分解時間ストライドに基本転移因子を乗算したものに等しい。64チャネルのCQMFに基づくシステムからの出力サンプルにおける遅延は、L=64およびSA=4の場合、
Dts={3L/2−2SA)・64/2=2816サンプル (2)
となる。
D ts = L / 2 + 2 (L / 2−S A ) = 3L / 2−2S A (1)
In an audio processing system based on an HQMF (Hybrid Quadrature Mirror Filter) bank, the input signal to the CQMF (Complex Quadrature Mirror Filter) decomposition stage and the output signal from the CQMF synthesis stage Generally have the same sampling frequency f s . Here, f s is typically set to 44.1 or 48 kHz. The input signal sampling rate to the virtual base process may be f s / 64. This is because the system typically processes the first CQMF signal only from a 64 channel CQMF bank. Note that CQMF sizes other than 64 channels can also be used. The transferred output from the legacy virtual base processing system has a sampling frequency of 2f s / 64 due to the combined transfer function using a factor 2 base transposition factor. The result is a factor 2 bandwidth extension. In the combined transfer device, the basic transfer factor is a factor in which the source conversion bin (or frequency band) is mapped to the target conversion bin (or frequency band) in a one-to-one relationship. That is, no interpolation or decimation is involved in mapping bins from source to target. The fundamental transfer factor also dominates the relationship between the time stride of the decomposition window and the composition window. More specifically, the synthesis time stride is equal to the decomposition time stride multiplied by the basic transfer factor. The delay in the output samples from a 64 channel CQMF based system is L = 64 and S A = 4
D ts = {3L / 2−2S A ) ・ 64/2 = 2816 samples (2)
It becomes.

この遅延に加えて、二つの仮想ベース出力CQMFサブバンド信号のナイキスト・フィルタバンク分解段処理からの遅延が加えられる。この遅延は、384サンプルのオーダーであってもよく、よって、この例示的な従来技術のレガシー仮想ベース処理システムについての、2816+384=3200サンプルの全遅延を与える。   In addition to this delay, a delay from the Nyquist filter bank decomposition stage processing of the two virtual base output CQMF subband signals is added. This delay may be on the order of 384 samples, thus giving a total delay of 2816 + 384 = 3200 samples for this exemplary prior art legacy virtual-based processing system.

レガシー仮想ベース・システムによって課されるレイテンシーへの一つの解決策は、高調波生成器のような実際の処理回路を、たとえば高調波転移器を代替的なコンポーネントで置き換えることによって、変えることである。しかしながら、これは多大なコストおよび複雑さをシステムに加える可能性があり、オーディオ品質に負の影響を与えることがありうる。   One solution to the latency imposed by legacy virtual base systems is to change the actual processing circuit, such as a harmonic generator, for example by replacing the harmonic transformer with an alternative component . However, this can add significant cost and complexity to the system and can negatively impact audio quality.

背景セクションで論じられた主題は、単に背景セクションにおけるその言及の結果として、従来技術であると想定されるべきではない。同様に、背景セクションにおいて言及されるまたは背景セクションの主題に関連する問題は、従来技術において以前に認識されていたと想定されるべきではない。背景セクションの主題は単に種々のアプローチを表わしているのであって、それ自身も発明であることもありうる。   The subject matter discussed in the background section should not be assumed to be prior art, merely as a result of that reference in the background section. Similarly, problems mentioned in the background section or related to the subject matter of the background section should not be assumed to have been previously recognized in the prior art. The subject matter of the background section is merely representative of various approaches, and may itself be an invention.

諸実施形態は、オーディオ信号の低周波数成分に対して高調波転移を実行して高調波を示す転移されたデータを生成する仮想ベース処理システムにおけるレイテンシー低減システムを含む。高調波転移プロセスは、2より大きい基本転移因子を使い、非対称的な分解および合成窓を使う変換および逆変換段によって決定される周波数領域の値に応答して前記高調波を生成する。仮想ベース信号を、打ち切りされたプロトタイプ・フィルタを有するナイキスト分解フィルタバンクの使用を通じて、遅延されたオーディオ信号と組み合わせることによって、向上されたオーディオ信号が生成される。高調波転移プロセスによって引き起こされるレイテンシーをさらに短縮するために、仮想ベース信号は、前記遅延されたオーディオ信号を、前記オーディオ信号と組み合わせるときに、定義された時間期間だけ遅らせることが許容されてもよい。   Embodiments include a latency reduction system in a virtual base processing system that performs harmonic transitions on low frequency components of an audio signal to produce transferred data indicative of harmonics. The harmonic transition process uses a fundamental transition factor greater than 2 and generates the harmonics in response to frequency domain values determined by transformation and inverse transformation stages using asymmetric decomposition and synthesis windows. An improved audio signal is generated by combining the virtual base signal with the delayed audio signal through the use of a Nyquist decomposition filter bank with a truncated prototype filter. In order to further reduce the latency caused by the harmonic transition process, a virtual base signal may be allowed to delay by a defined time period when combining the delayed audio signal with the audio signal. .

諸実施形態は、入力オーディオ信号の低周波数成分に対して高調波転移を実行して高調波を示す転移されたデータを生成する仮想ベース処理システムにおけるレイテンシーを低減する方法を含む。高調波転移は、2より大きい整数値の基本転移因子を使う。該プロセスは、時間から周波数領域への変換および逆の周波数から時間領域への変換のために非対称的な分解および合成窓の使用を通じた時間から周波数領域への変換段およびその後の逆の周波数から時間領域への変換段によって決定される周波数領域の値に応答して前記高調波を生成する。入力オーディオ信号はサブバンド化されたCQMF(複素数値の直交ミラー・フィルタ)信号であり、入力オーディオ信号のサンプルは、低周波数成分を示す臨界サンプリングされたオーディオを生成するために前処理されてもよい。   Embodiments include a method for reducing latency in a virtual base processing system that performs harmonic transitions on low frequency components of an input audio signal to generate transferred data indicative of harmonics. Harmonic transitions use fundamental transition factors with integer values greater than 2. The process consists of a time-to-frequency domain transformation stage and subsequent inverse frequencies through the use of asymmetric decomposition and synthesis windows for time-to-frequency domain transformation and inverse frequency-to-time domain transformation. The harmonics are generated in response to frequency domain values determined by the time domain conversion stage. The input audio signal is a subbanded CQMF (complex-valued quadrature mirror filter) signal, and samples of the input audio signal may be preprocessed to produce critically sampled audio that exhibits low frequency components. Good.

ある実施形態では、本方法は、分解フィルタバンクまたは変換を通じて入力オーディオ信号を処理して、低周波数成分から一組の分解サブバンド信号または周波数ビンを与え、基本転移因子Bおよび転移因子Tを使って一組の合成サブバンド信号または周波数ビンを計算し、合成フィルタバンクまたは変換を通じて前記分解サブバンド信号または周波数ビンを処理して前記一組の合成サブバンド信号から高周波数成分を生成する。これは、転移を行なう標準的な方法を表わす。すなわち、順FFT変換を実行し、それに変換ビン・マッピングを含む非線形処理が続き、次いで、逆FFT変換を実行する。本方法はさらに、転移されたデータに応答して仮想ベース信号を生成し、前記仮想ベース・オーディオ出力信号に一つまたは複数の分解フィルタバンクを適用することによって前記仮想ベース信号を入力オーディオ信号と組み合わせることによって、向上されたオーディオ信号を生成することを含んでいてもよい。ここで、前記分解フィルタバンクは、定義された数のフィルタ係数が除去されている打ち切りされたプロトタイプ・フィルタを含む。本方法はさらに、前記入力オーディオ信号を、前記仮想ベース・システムの前記処理遅延が含意するはずのものより短いあらかじめ定義された時間期間だけ遅延させたものと組み合わせることによって、前記入力オーディオ信号に対してあらかじめ定義された時間期間だけ前記仮想ベース信号を遅らせて、遅延された入力サブバンド・サンプルと組み合わされた、時間的に遅らされた仮想ベース処理されたサブバンド・サンプルを含む向上されたオーディオ信号を生成することを含んでいてもよい。   In one embodiment, the method processes the input audio signal through a decomposition filter bank or transform to provide a set of decomposition subband signals or frequency bins from the low frequency components, and uses a basic transfer factor B and a transfer factor T. A set of synthesized subband signals or frequency bins and processing the decomposed subband signals or frequency bins through a synthesis filter bank or transform to generate high frequency components from the set of synthesized subband signals. This represents a standard way of performing the transition. That is, forward FFT transformation is performed, followed by non-linear processing including transformation bin mapping, and then inverse FFT transformation. The method further generates a virtual base signal in response to the transferred data and applies the virtual base signal to the input audio signal by applying one or more decomposition filter banks to the virtual base audio output signal. Combining may include generating an enhanced audio signal. Here, the decomposition filter bank includes a truncated prototype filter from which a defined number of filter coefficients have been removed. The method further includes combining the input audio signal with the input audio signal by delaying the input audio signal by a predefined time period shorter than what the processing delay of the virtual base system would imply. Improved including a time-delayed virtual base processed subband sample combined with a delayed input subband sample, delaying the virtual base signal by a predefined time period It may include generating an audio signal.

いくつかの実施形態のもとでの基本転移因子は、入力オーディオ信号を、周波数領域において、基本転移因子の値に比例する度合いだけ延長して、転移されたオーディオ信号を生成し、この基本転移因子は4から16までの間の偶数の整数値であってもよい。ある実施形態では、転移器CQMF出力サブバンドに対して作用する分解フィルタバンクは、8チャネル・ナイキスト・フィルタバンクおよび4チャネル・ナイキスト・フィルタバンクを有しており、定義された数の除去されるプロトタイプ・フィルタ係数は、6個の係数である。あるさらなる実施形態では、入力CQMF信号は、先行するCQMF分解バンク・チャネル0出力から直接ルーティングされ、よってその後のナイキスト・フィルタバンク段をバイパスし、よって関係する遅延を回避する。   A basic transfer factor under some embodiments extends the input audio signal in the frequency domain by a degree proportional to the value of the basic transfer factor to produce a transferred audio signal, which is the basic transfer factor. The factor may be an even integer value between 4 and 16. In one embodiment, the decomposition filter bank acting on the transformer CQMF output subband comprises an 8-channel Nyquist filter bank and a 4-channel Nyquist filter bank, with a defined number of rejects. The prototype filter coefficients are 6 coefficients. In certain further embodiments, the input CQMF signal is routed directly from the preceding CQMF decomposition bank channel 0 output, thus bypassing subsequent Nyquist filter bank stages and thus avoiding the associated delay.

本方法の諸実施形態はさらに、(分解時間ストライドを使って)定義されたサンプル周波数で窓掛けされ、0パディングされたサンプルを生成することによって、入力オーディオ信号に対して周波数領域の過剰サンプリングされた変換を実行することによって、低周波数成分を生成することを含んでいてもよい。仮想ベース信号を遅延された入力オーディオ信号と組み合わせるときのあらかじめ定義された時間期間は、0サンプルないし1000サンプルの範囲から選択される値であってもよい。仮想ベース信号は、向上されたオーディオ信号の知覚可能な劣化なしに、広帯域入力オーディオ信号を20msまで遅らせることを許容されうるからである。ある実施形態では、非対称な分解および合成窓は、分解窓のより長い部分が過去の入力サンプルのほうに伸張され、合成窓のより長い部分が将来の出力サンプルのほうに伸張されるよう構成される。   Embodiments of the method are further oversampled in the frequency domain relative to the input audio signal by generating samples that are windowed and zero-padded at a defined sample frequency (using a decomposition time stride). Generating a low frequency component by performing the conversion. The predefined time period when combining the virtual base signal with the delayed input audio signal may be a value selected from the range of 0 samples to 1000 samples. This is because the virtual base signal can be allowed to delay the wideband input audio signal to 20 ms without perceptible degradation of the improved audio signal. In some embodiments, the asymmetric decomposition and synthesis window is configured such that a longer portion of the decomposition window is stretched toward past input samples and a longer portion of the synthesis window is stretched toward future output samples. The

以下の図面では、同様の参照符号が同様の要素を指すために使用される。以下の図面はさまざまな例を描いているが、一つまたは複数の実装は、図面に描かれる例に限定されるものではない。
既知の仮想ベース処理システムにおける、非可聴周波数範囲から可聴周波数範囲への周波数成分の転移を示す図である。 従来技術において既知のレガシー仮想ベース・システムにおいて使用される対称的な窓に関連する遅延を示す図である。 ある実施形態のもとでレイテンシー低減プロセスを実装する仮想ベース処理システムの一般化されたブロック図である。 ある実施形態のもとでのHQMFに基づくシステムにおける前処理ハイブリッド・フィルタバンク段を示す図である。 ある実施形態のもとでの仮想ベース処理システムの先行するナイキスト合成フィルタバンク段を示す図である。 ある実施形態のもとでの図2に示される仮想ベース処理システムのより詳細な図である。 ある実施形態のもとでの仮想ベース・レイテンシー低減プロセスおよびシステムによって利用される主たる機能コンポーネントのブロック図である。 ある実施形態のもとでの、基本転移因子の種々の次数(orders)を使う仮想ベース・レイテンシー低減システムのための第一のホップ・サイズに関連する遅延を示す表である。 ある実施形態のもとでの、基本転移因子の種々の次数(orders)を使う仮想ベース・レイテンシー低減システムのための第二のホップ・サイズに関連する遅延を示す表である。 ある種のレガシーの対称的な窓に比べた、非対称的な窓の時間応答の例示的なプロットである。 ある種のレガシーの対称的な窓に比べた、非対称的な窓の周波数応答の例示的なプロットである。 ある実施形態のもとでの、B次の基本転移器によって課される非対称的な窓の使用および関連する遅延を示す図である。 Aは、ある実施形態のもとでの、非対称的な変換窓および基本転移因子の種々の次数(orders)を使う仮想ベース・レイテンシー低減システムのための第一のホップ・サイズについての全レイテンシー値を示す表である。Bは、ある実施形態のもとでの、非対称的な変換窓および基本転移因子の種々の次数(orders)を使う仮想ベース・レイテンシー低減システムのための第二のホップ・サイズについての全レイテンシー値を示す表である。 ある実施形態のもとでの、仮想ベース生成システムおよびレイテンシー低減システムを含むオーディオ処理システムを示すブロック図である。
In the drawings, like reference numerals are used to refer to like elements. The following drawings depict various examples, but one or more implementations are not limited to the examples depicted in the drawings.
FIG. 6 is a diagram illustrating frequency component transition from a non-audible frequency range to an audible frequency range in a known virtual base processing system. FIG. 3 illustrates the delay associated with a symmetric window used in a legacy virtual base system known in the prior art. 1 is a generalized block diagram of a virtual based processing system that implements a latency reduction process under an embodiment. FIG. FIG. 3 illustrates a pre-processing hybrid filter bank stage in a system based on HQMF under an embodiment. FIG. 6 illustrates a preceding Nyquist synthesis filter bank stage of a virtual base processing system under an embodiment. FIG. 3 is a more detailed view of the virtual base processing system shown in FIG. 2 under an embodiment. FIG. 3 is a block diagram of the main functional components utilized by the virtual base latency reduction process and system under an embodiment. FIG. 7 is a table illustrating first hop size related delays for a virtual base latency reduction system using various orders of basic transposable elements, under an embodiment. FIG. 7 is a table illustrating second hop size related delays for a virtual base latency reduction system using various orders of basic transposable elements, under an embodiment. FIG. 5 is an exemplary plot of the time response of an asymmetric window compared to some legacy symmetric window. FIG. 4 is an exemplary plot of the frequency response of an asymmetric window compared to some legacy symmetric window. FIG. 6 illustrates the use of asymmetric windows and associated delays imposed by a Bth order fundamental transition, under an embodiment. A is the total latency value for the first hop size for a virtual base latency reduction system using an asymmetric transformation window and various orders of the fundamental transfer factor, under an embodiment It is a table | surface which shows. B is the total latency value for the second hop size for a virtual base latency reduction system using an asymmetric transformation window and various orders of the fundamental transfer factor under certain embodiments It is a table | surface which shows. 1 is a block diagram illustrating an audio processing system that includes a virtual base generation system and a latency reduction system, under an embodiment. FIG.

転移器に基づく仮想ベース・システムにおけるレイテンシー(latency)およびアルゴリズム遅延(algorithmic delays)を低減させるためのシステムおよび方法の実施形態が記述される。そのようなシステムおよび方法は、より高次の基本転移因子、低レイテンシーの非対称的な変換窓、打ち切りされたナイキスト・プロトタイプ・フィルタ、もとのオーディオ信号に対する時間的に遅らされた(time lagged)仮想ベース信号および先行するハイブリッド・フィルタバンク段におけるバイパスされたナイキスト分解フィルタバンクを利用する。   Embodiments of systems and methods are described for reducing latency and algorithmic delays in a virtual-based system based on a transformer. Such systems and methods are time delayed with respect to higher order fundamental transfer factors, low latency asymmetric transformation windows, truncated Nyquist prototype filters, and original audio signals. ) Utilize the virtual base signal and the bypassed Nyquist decomposition filter bank in the preceding hybrid filter bank stage.

請求項を含む本開示を通じて、信号またはデータ「に対して」動作を実行する(たとえば該信号またはデータをフィルタリングする、スケーリングする、変換するまたはそれに利得を適用すること)という表現は、広義に、該信号またはデータに対して直接、あるいは該信号またはデータの処理されたバージョンに対して(たとえば、該動作の実行に先立って予備的なフィルタリングまたは前処理を受けた該信号のバージョンに対して)該動作を実行することを表すために使われる。「転移器(transposer)」という表現は、広義に、利用可能な入力信号スペクトルの一部または全体について、実数または複素数値の入力信号のピッチ・シフトまたは時間伸張を実行するアルゴリズム・ユニットまたは装置を表わすために使われる。「転移器」「高調波転移器」「位相ボコーダー」「高周波数生成器」または「高調波生成器」という表現は交換可能に使われることがある。「システム」という表現は、広義で、デバイス、システムまたはサブシステムを表すために使われる。たとえば、デコーダを実装するサブシステムがデコーダ・システムと称されることがあり、そのようなサブシステムを含むシステム(たとえば、複数入力に応答してX個の出力信号を生成するシステム。ここでは、該サブシステムが入力のうちのM個を生成し、残りのX−M個の入力は外部ソースから受け取られる)もデコーダ・システムと称されることがある。「プロセッサ」という用語は、広義で、データ(たとえばオーディオまたはビデオまたは他の画像データ)に対して動作を実行するよう(たとえばソフトウェアまたはファームウェアを用いて)プログラム可能または他の仕方で構成可能であるシステムまたは装置を表わすために使用される。プロセッサの例は、フィールド・プログラム可能なゲート・アレイ(または他の構成可能な集積回路またはチップセット)、オーディオまたは他のサウンド・データに対してパイプライン化された処理を実行するようプログラムされたおよび/または他の仕方で構成されたデジタル信号プロセッサ、プログラム可能な汎用プロセッサもしくはコンピュータおよびプログラム可能なマイクロプロセッサ・チップまたはチップセットを含む。「オーディオ・プロセッサ」および「オーディオ処理ユニット」という表現は交換可能に、広義で、オーディオ・データを処理するよう構成されたシステムを表わすために使用される。オーディオ処理ユニットの例は、エンコーダ(たとえばトランスコーダ)、デコーダ、ボコーダー、コーデック、前処理システム、後処理システムおよびビットストリーム処理システム(時にビットストリーム処理ツールと称される)を含むがこれに限られない。   Throughout this disclosure, including the claims, the expression performing an operation on a signal or data (eg, filtering, scaling, transforming or applying gain to the signal or data) is broadly defined as: Directly on the signal or data or on a processed version of the signal or data (eg, on a version of the signal that has undergone preliminary filtering or preprocessing prior to performing the operation) Used to represent performing the operation. The term “transposer” broadly refers to an algorithm unit or device that performs pitch shifting or time stretching of a real or complex valued input signal over part or all of the available input signal spectrum. Used to represent. The expressions "translator", "harmonic transformer", "phase vocoder", "high frequency generator" or "harmonic generator" may be used interchangeably. The expression “system” is used in a broad sense to denote a device, system, or subsystem. For example, a subsystem that implements a decoder may be referred to as a decoder system and includes such a subsystem (eg, a system that generates X output signals in response to multiple inputs, where: The subsystem generates M of the inputs and the remaining X-M inputs are received from an external source) may also be referred to as a decoder system. The term “processor” is broadly programmable or otherwise configurable (eg, using software or firmware) to perform operations on data (eg, audio or video or other image data). Used to represent a system or device. An example processor is programmed to perform pipelined processing on a field programmable gate array (or other configurable integrated circuit or chipset), audio or other sound data. And / or other configured digital signal processors, programmable general purpose processors or computers and programmable microprocessor chips or chipsets. The expressions “audio processor” and “audio processing unit” are used interchangeably and in a broad sense to refer to a system configured to process audio data. Examples of audio processing units include, but are not limited to, encoders (eg, transcoders), decoders, vocoders, codecs, pre-processing systems, post-processing systems, and bitstream processing systems (sometimes referred to as bitstream processing tools). Absent.

諸実施形態は、仮想ベース処理システムにおいて使われる高調波転移器のような既存の仮想ベース処理コンポーネントに実質的な変化を要求することなく仮想ベース遅延を減少させるシステムおよび方法に向けられる。仮想ベース・レイテンシー低減システムおよび方法の諸側面は、オーディオ・コーデックにおける(たとえばデコーダにおける)高調波生成器(転移器)との関連で使用されてもよい。仮想ベース・レイテンシー低減システムおよび方法の諸側面は、他の転移器または位相ボコーダー・システム、たとえばオーディオ信号の一般的な時間伸張またはピッチ・シフトのために使われる伝統的な位相ボコーダーとの関連で使用されてもよい。   Embodiments are directed to systems and methods that reduce virtual base delay without requiring substantial changes to existing virtual base processing components, such as harmonic transformers used in virtual base processing systems. Aspects of the virtual base latency reduction system and method may be used in the context of a harmonic generator (transformer) in an audio codec (eg, in a decoder). Aspects of the virtual base latency reduction system and method are in the context of other transformers or phase vocoder systems, such as traditional phase vocoders used for general time stretching or pitch shifting of audio signals. May be used.

図1Aに概括的に示されるように、高調波転移を使う仮想ベース生成方法は、欠けている低周波数を物理的に再現することができない小型スピーカーを通じてなど限られた再生設備におけるベース・コンテンツの再生を改善するために、非可聴周波数範囲から可聴周波数範囲への周波数成分の転移に関わる。仮想ベース・レイテンシー低減システムおよび方法の諸実施形態は、オーディオ信号の低周波数成分に対して高調波転移を実行して再生時に可聴であると期待される高調波を示す転移されたデータを生成する仮想ベース生成方法に対して改良するものであり、転移されたデータに応答して仮想ベース信号を生成し、仮想ベース信号を(遅延させられた)入力オーディオ信号と組み合わせることによって向上されたオーディオ信号を生成する。典型的には、向上されたオーディオ信号は、低周波数成分を物理的に再現することができない一つまたは複数のスピーカーによって、前記向上されたオーディオ信号の再生中にベース・コンテンツの増大した知覚されるレベルを与える。   As shown generally in FIG. 1A, the virtual base generation method using harmonic transitions is based on the bass content in limited playback facilities, such as through small speakers that cannot physically reproduce the missing low frequencies. In order to improve reproduction, it involves the transfer of frequency components from the non-audible frequency range to the audible frequency range. Embodiments of a virtual base latency reduction system and method perform harmonic transitions on low frequency components of an audio signal to produce transferred data that indicates harmonics that are expected to be audible during playback An improved audio signal that improves upon the virtual base generation method, generates a virtual base signal in response to the transferred data, and combines the virtual base signal with the (delayed) input audio signal. Is generated. Typically, the enhanced audio signal is perceived by the one or more speakers that cannot physically reproduce the low frequency components during the playback of the enhanced audio signal. Give a level.

仮想ベース生成方法によって実行される高調波転移は、各低周波数成分の、二次転移器および少なくとも一つのより高次の転移器(典型的には三次および四次で、任意的には少なくとも一つの追加的なより高次の転移器)を使って高調波を生成するよう、組み合わされた転移を用い、それにより、高調波のすべてが、共通の、時間から周波数領域への変換段(たとえば、時間から周波数領域への単一の変換から帰結する周波数係数に対して位相乗算または他の位相操作を実行することによる)およびそれに続く共通の、周波数から時間領域への変換(実際上は、前記共通の周波数から時間領域への変換は、CQMFフレームワークのサブバンドの帯域幅およびサンプリング周波数に適応するために、二つのより小さな変換に分割される)によって決定される周波数領域の値に応答して生成される。   The harmonic transitions performed by the virtual base generation method include a second order transformer and at least one higher order transformer (typically third and fourth order, optionally at least one) for each low frequency component. Combined transitions are used to generate harmonics using two additional higher order transformers, so that all of the harmonics are common, time to frequency domain conversion stages (eg, , By performing phase multiplication or other phase operations on the frequency coefficients resulting from a single time-to-frequency domain transformation, followed by a common frequency-to-time domain transformation (in practice, The common frequency to time domain transform is divided into two smaller transforms to accommodate the subband bandwidth and sampling frequency of the CQMF framework). Generated in response to a defined frequency domain value.

図2は、ある実施形態のもとでのある種のレイテンシー低減プロセスを実装するまたは該プロセスとの関連で使用される仮想ベース処理システムのブロック図である。ある実施形態では、仮想ベース処理システム200は、入力201(入力A)として、いわゆるハイブリッド(Hybrid)フィルタバンクからの複数の複素数値のサブバンド・サンプル(HQMFサンプル)を取る。ある実施形態では、仮想ベース・プロセスに先行するハイブリッド・フィルタバンクが、もとの時間領域のオーディオ入力信号を、そのような複数のハイブリッド・サブバンド201(これは下記でより詳しく述べる)に分割しており、それらのサブバンドが入力バッファ206によってバッファリングされてもよい。バッファリングされた入力は、次いで、低周波数オーディオ・コンテンツ(たとえば0から375Hzまでの間)を示す単一の複素数値のQMF(CQMF)領域信号202(信号C)を再構築するために、合成機能を実行するナイキスト合成フィルタバンク208によって処理される。もう一つの実施形態では、仮想ベース・システムは、先行するハイブリッド・フィルタバンクにおけるナイキスト分解フィルタバンク段をバイパスすることによるレイテンシー節約機構を含む。これは、システムが、CQMFチャネル0信号を入力203(入力B)として仮想ベース・モジュールに直接フィードすることによって、ナイキスト分解バンクに付随する遅延(たとえば384サンプル)を節約することを許容する。図2に示されるように、二つの入力202または203の一方が選択器204のようなスイッチによって選ばれ、選択された信号は、転移器209によってさらに処理される仮想ベース入力信号205(信号D)を含む。   FIG. 2 is a block diagram of a virtual-based processing system that implements or is used in connection with certain latency reduction processes under certain embodiments. In one embodiment, the virtual base processing system 200 takes as input 201 (input A) a plurality of complex-valued subband samples (HQMF samples) from a so-called hybrid filter bank. In one embodiment, a hybrid filter bank preceding the virtual base process splits the original time domain audio input signal into such multiple hybrid subbands 201 (which will be described in more detail below). Those subbands may be buffered by the input buffer 206. The buffered input is then synthesized to reconstruct a single complex-valued QMF (CQMF) domain signal 202 (signal C) that represents low frequency audio content (eg, between 0 and 375 Hz). Processed by the Nyquist synthesis filter bank 208 that performs the function. In another embodiment, the virtual base system includes a latency saving mechanism by bypassing the Nyquist decomposition filter bank stage in the preceding hybrid filter bank. This allows the system to save the delay (eg, 384 samples) associated with the Nyquist decomposition bank by feeding the CQMF channel 0 signal directly to the virtual base module as input 203 (input B). As shown in FIG. 2, one of the two inputs 202 or 203 is selected by a switch, such as a selector 204, and the selected signal is a virtual base input signal 205 (signal D) that is further processed by a transition 209. )including.

転移器(または位相ボコーダー)は一般に、時間から周波数への変換またはフィルタバンクと、それに続く非線形段(位相乗算または位相シフトを実行する)と、それに続く周波数から時間への変換またはフィルタバンクとの組み合わせである。このように、図2に示されるように、転移器209は、時間から周波数への変換コンポーネント210、非線形段212および周波数から時間への変換214を含む。転移器209内の非線形段212は、位相を修正し、信号のサブバンドまたは変換成分に対してある種の利得(振幅)制御信号を適用する処理ブロックである。転移された信号は次いで、出力バッファ216によってバッファリングされ、その後、ナイキスト分解フィルタバンク218によって処理される。ナイキスト分解フィルタバンク218は、仮想ベース出力CQMF信号を入力信号201のハイブリッド・サブバンド・サンプル(HQMF)に対応するサブバンドに分解する分解機能を実行する。入力A信号220の遅延された、未処理のバージョンが、ナイキスト・フィルタバンク218出力と混合され、仮想ベース出力信号に遅延された入力信号を加えたものを含む向上されたオーディオ出力信号222を生成する。   A transition (or phase vocoder) generally consists of a time-to-frequency conversion or filter bank followed by a non-linear stage (performing phase multiplication or phase shifting) followed by a frequency-to-time conversion or filter bank. It is a combination. Thus, as shown in FIG. 2, the transition 209 includes a time to frequency conversion component 210, a non-linear stage 212 and a frequency to time conversion 214. Non-linear stage 212 in transition 209 is a processing block that modifies the phase and applies some gain (amplitude) control signal to the subbands or transform components of the signal. The transferred signal is then buffered by output buffer 216 and then processed by Nyquist decomposition filter bank 218. The Nyquist decomposition filter bank 218 performs a decomposition function that decomposes the virtual base output CQMF signal into subbands corresponding to the hybrid subband samples (HQMF) of the input signal 201. A delayed, unprocessed version of input A signal 220 is mixed with the Nyquist filter bank 218 output to produce an enhanced audio output signal 222 that includes the virtual base output signal plus the delayed input signal. To do.

諸実施形態は、合成208および分解218段処理のようなある種の機能についてのナイキスト・フィルタバンクの使用に向けられることがあるが、他の型のフィルタバンクまたは周波数スプリットまたはパーティション回路および技法が使用されてもよい。他の実施形態では、上述したフィルタバンクまたは周波数スプリットまたはパーティション回路および技法は、全く存在しなくてもよい。   Embodiments may be directed to the use of Nyquist filter banks for certain functions, such as synthesis 208 and decomposition 218 stage processing, although other types of filter banks or frequency split or partition circuits and techniques may be used. May be used. In other embodiments, the filter bank or frequency split or partition circuit and technique described above may not be present at all.

図3A〜3Cは、図2に示した仮想ベース処理システムのより詳細な図である。図3Aは、前処理ハイブリッド・フィルタバンク段300、すなわち典型的には仮想ベース・システムの一部ではなくそれに先行する段を示している。ハイブリッド・フィルタバンクは、低周波数範囲の周波数分解能を高めるために、ある数の最も低いCQMF帯域があらかじめ決定された諸サイズの諸ナイキスト・フィルタバンクによって処理される、CQMFバンクの組み合わせであってもよい。諸ナイキスト分解段および残りの諸CQMFチャネルからの低周波数サブバンド・サンプルの組み合わせは、ハイブリッド・サブバンド・サンプルまたはHQMF(ハイブリッドQMF)信号と称される。図3Aに示されるように、時間領域入力信号302が64チャネルCQMF分解フィルタバンク304に入力される。ある実施形態では、このフィルタバンクの一つの出力、CQMFチャネル0(信号Bと表わされる)306が、図3Cの仮想ベース・モジュール330に直接フィードされる(この信号は図2の入力B 203に対応する)。信号B 306はナイキスト分解フィルタバンク307をバイパスし、よって付随する遅延を回避することを注意しておくべきである。また、CQMFチャネル0,1,2はいくつかのナイキスト分解フィルタバンク307〜309に入力される。ナイキスト分解フィルタバンクからの出力および残りのCQMFサブバンド(3ないし63)がハイブリッド・サブバンド・サンプル0〜76(信号Aと表わされる)310を生成する。   3A-3C are more detailed views of the virtual base processing system shown in FIG. FIG. 3A shows a pre-processing hybrid filter bank stage 300, i.e., a stage preceding it, typically not part of a virtual base system. A hybrid filter bank is a combination of CQMF banks where a certain number of the lowest CQMF bands are processed by various Nyquist filter banks of a predetermined size to increase the frequency resolution in the low frequency range. Good. The combination of low frequency subband samples from the Nyquist decomposition stages and the remaining CQMF channels is referred to as a hybrid subband sample or HQMF (hybrid QMF) signal. As shown in FIG. 3A, a time domain input signal 302 is input to a 64-channel CQMF decomposition filter bank 304. In one embodiment, one output of this filter bank, CQMF channel 0 (denoted as signal B) 306 is fed directly to the virtual base module 330 of FIG. 3C (this signal is input to input B 203 of FIG. 2). Corresponding). It should be noted that signal B 306 bypasses Nyquist decomposition filter bank 307, thus avoiding the associated delay. Also, CQMF channels 0, 1, 2 are input to several Nyquist decomposition filter banks 307-309. The output from the Nyquist decomposition filter bank and the remaining CQMF subbands (3 to 63) produce hybrid subband samples 0-76 (denoted as signal A) 310.

図3Bのシステム320に示されるように、複数の複素数値のハイブリッド・サブバンド・サンプル(サンプルA)322がナイキスト合成フィルタバンク段324に入力される。図3Cの仮想ベース・モジュール330は、ハイブリッド・サブバンド・サンプル(HQMFサンプル)に対して作用するシステムにおける他のモジュールのうちの一つのモジュールであると想定される。よって、図3Aの信号A 310は、図3Bの入力A 322になる前に、前処理フィルタバンク段300のあとの他のモジュールによる処理を受けてもよい。ある例示的な実施形態では、最初の8個のハイブリッド・サブバンド、すなわち低周波数の8チャネル(8-ch)のナイキスト・フィルタバンク307からのサブバンド(これはサンプリング・レートに依存して、ほぼ344〜375Hzの信号帯域幅を生成する)が処理される。ナイキスト・フィルタバンクは、CQMFバンクとは対照的にダウンサンプリングされないので、ナイキスト・フィルタバンク合成ステップは、各CQMF(またはHQMF)時間スロットについてのサブバンド・サンプルの単なる総和なので、特に素直である。段324における8個の最も低いハイブリッド・サブバンド・サンプルの総和後、システムは、CQMFチャネル0信号C 326を再構築したことになり、これが図3Cの仮想ベース・モジュール330への入力332になる。   A plurality of complex-valued hybrid subband samples (sample A) 322 are input to Nyquist synthesis filter bank stage 324, as shown in system 320 of FIG. 3B. The virtual base module 330 of FIG. 3C is assumed to be one of the other modules in the system that operates on hybrid subband samples (HQMF samples). Thus, signal A 310 in FIG. 3A may be processed by other modules after pre-processing filter bank stage 300 before becoming input A 322 in FIG. 3B. In one exemplary embodiment, the first eight hybrid subbands, ie, subbands from the low frequency 8-channel Nyquist filter bank 307 (which depends on the sampling rate, Which produces a signal bandwidth of approximately 344-375 Hz). Since the Nyquist filter bank is not downsampled in contrast to the CQMF bank, the Nyquist filter bank synthesis step is particularly straightforward because it is simply the sum of the subband samples for each CQMF (or HQMF) time slot. After summing the eight lowest hybrid subband samples in stage 324, the system has reconstructed the CQMF channel 0 signal C 326, which becomes the input 332 to the virtual base module 330 of FIG. 3C. .

図3Cは、ある実施形態のもとでの、ある種のレイテンシー低減プロセスを実装するまたは該プロセスとの関連で使われる仮想ベース・システムを示している。図3Cの仮想ベース・モジュール330は、信号D 332を入力としてもつ。先行するナイキスト分解フィルタバンク307がバイパスされるある実施形態では、信号D 332は、図3Aの信号B 306からルーティングされてもよい。もう一つの実施形態では、信号D 332は、図3Bのナイキスト合成段320の信号C 326からフィードされてもよい。いずれの実施形態でも、信号D 332、すなわち仮想ベース・モジュールへの入力信号は、単一の複素数値のCQMF信号(たとえば、一組のCQMFサブバンド信号からの第一のチャネル(チャネル0))である。   FIG. 3C illustrates a virtual base system that implements or is used in connection with some kind of latency reduction process under an embodiment. The virtual base module 330 of FIG. 3C has the signal D 332 as an input. In certain embodiments where the preceding Nyquist decomposition filter bank 307 is bypassed, signal D 332 may be routed from signal B 306 of FIG. 3A. In another embodiment, signal D 332 may be fed from signal C 326 of Nyquist synthesis stage 320 of FIG. 3B. In either embodiment, signal D 332, ie, the input signal to the virtual base module, is a single complex-valued CQMF signal (eg, the first channel (channel 0) from a set of CQMF subband signals). It is.

仮想ベース用途では、仮想ベース入力信号のダイナミクスを変えるために、任意的なダイナミクス処理機能がダイナミクス・プロセッサ336によって実行されてもよい。プロセッサ336は、弱いベースのレベルを減少させ、強いベースを維持または高めるために使われてもよい。すなわち、伸張器(expander)として使われてもよい。この方式は、ベース・レンジにおける等ラウドネス曲線(ELC: Equal Loudness Contour)の形に一致する。ラウドネス曲線は、よりラウドネスが大きい信号については周波数においてより平坦であり、より弱いラウドネスの信号についてはより急峻である。よって、高調波を生成するとき、基本成分と生成される高調波との間の相対的なラウドネスを維持するために、より弱いベースはより強いベースよりも大きく減衰させられることができる。ダイナミクス・プロセッサ336の利得は、移動平均エネルギー信号、たとえば第一のCQMF帯域信号332のダウンミックスされた(モノ)バージョンの移動平均エネルギーによって制御されてもよい。   For virtual base applications, an optional dynamics processing function may be performed by the dynamics processor 336 to change the dynamics of the virtual base input signal. The processor 336 may be used to reduce the level of the weak base and maintain or increase the strong base. That is, it may be used as an expander. This scheme matches the shape of an Equal Loudness Contour (ELC) at the base range. The loudness curve is flatter in frequency for signals with greater loudness and steeper for signals with weaker loudness. Thus, when generating harmonics, a weaker base can be attenuated more than a stronger base in order to maintain the relative loudness between the fundamental component and the generated harmonics. The gain of the dynamics processor 336 may be controlled by a moving average energy signal, for example a downmixed (mono) version of the moving average energy of the first CQMF band signal 332.

システム330の実施形態について、窓サイズL(長さNまで0パディングを含む)を使う第一の窓掛け関数338、順FFT 340および変調関数342が、非線形処理ブロック344への入力に先立って(可能性としてはダイナミクス処理された)CQMF信号に対して実行される。本発明のある実施形態では、窓形状は非対称的である。もう一つの実施形態では、(コンポーネント338ないし356を有する)転移器は、「組み合わされた転移(combined transposition)」と称される補間技法を使う改善された位相ボコーダーを表わす。これは、基本転移器についてと同じFFT分解/合成チェーンを使って二次、三次、四次および可能性としてはより高次の高調波(転移因子)を生成する。一般に、そのような組み合わされた転移は、基本次数の高調波以外の高調波の品質はいくらか損なわれるかもしれないが、計算量を節約する。組み合わされた転移なしでは、少なくとも順変換または逆変換のいずれかは、異なる転移因子について別個である必要がある。非線形処理ブロック344は、整数転移因子を使う。これは、多くの標準的な位相ボコーダーにおいて使われているところでは一般に不安定で不正確である、ある種の位相推定、位相復元または位相ロック技法を余計なものにする。ある実施形態では、位相乗算器344は2より高い基本転移因子B、たとえば8または他の任意の適切な値を使う。   For an embodiment of system 330, a first windowing function 338, forward FFT 340, and modulation function 342 using window size L (including zero padding to length N) is prior to input to nonlinear processing block 344 ( Performed on CQMF signal (possibly dynamics). In some embodiments of the invention, the window shape is asymmetric. In another embodiment, the transformer (having components 338-356) represents an improved phase vocoder that uses an interpolation technique referred to as "combined transposition". This produces second, third, fourth and possibly higher harmonics (transition factors) using the same FFT decomposition / synthesis chain as for the basic transformer. In general, such a combined transition saves computation, although the quality of harmonics other than the fundamental order harmonics may be somewhat impaired. Without combined transfer, at least either forward or reverse conversion needs to be distinct for different transfer factors. Non-linear processing block 344 uses integer transfer factors. This makes some phase estimation, phase restoration or phase locking techniques extraneous and inaccurate, which is generally unstable and inaccurate as used in many standard phase vocoders. In some embodiments, phase multiplier 344 uses a base transfer factor B higher than 2, such as 8 or any other suitable value.

転移器338〜356は、インパルス(衝撃)音を改善するために周波数領域における過剰サンプリング(すなわち、ブロック338および356における0パディングされた分解および合成窓)を使う。これはベース周波数範囲で使われるときに卓越する。そのような過剰サンプリングなしでは、衝撃性の太鼓音は、少なくともいくらかの前エコーおよび後エコーのアーチファクトを生成する可能性が高く、ベースを、ぼやけて不明瞭なものにする。ある実施形態では、過剰サンプリング因子Fは少なくとも因子F=(B+1)/2であるよう選択される。ここで、Bは基本転移因子(たとえばB=8)である。これは、孤立した過渡音について、前エコーおよび後エコーが抑制されることを保証する助けとなる。   Transformers 338-356 use oversampling in the frequency domain (ie, zero padded decomposition and synthesis windows in blocks 338 and 356) to improve impulse (impact) sound. This is outstanding when used in the base frequency range. Without such oversampling, impulsive drum sounds are likely to generate at least some pre- and post-echo artifacts, making the base blurry and obscure. In some embodiments, the oversampling factor F is selected to be at least the factor F = (B + 1) / 2. Here, B is a basic transposable factor (for example, B = 8). This helps to ensure that the front and back echoes are suppressed for isolated transients.

図3Cに示されるように、転移器は、位相乗算器回路(非線形処理ブロック344)に続いて、増幅器346によって適用されるFFTビン毎の利得および傾き補償を含む。これは、種々の転移因子についての全体的な利得が独立して設定されることを許容する。たとえば、諸利得が、ある種の等ラウドネス曲線(ELC)を近似するよう設定されることができる。近似として、ELCは、400Hzより下の周波数については、対数スケール上の直線によって十分にモデル化されることができる。この場合、奇数次数の高調波はより大きな度合いで減衰させられることができる。奇数次数の高調波(たとえば三次、五次など)は、結果として得られる仮想ベース効果のためには重要であるが、時に、偶数次数の高調波より耳ざわりに感じられることがあるからである。各転移された信号はさらに、傾き利得、すなわちロールオフ減衰因子を有していてもよい。これはたとえば、dB毎オクターブ(dB per octave)で測られる。この減衰は、増幅器346によって変換領域でもビン毎に適用される。   As shown in FIG. 3C, the transition includes a phase multiplier circuit (non-linear processing block 344) followed by gain and slope compensation per FFT bin applied by amplifier 346. This allows the overall gain for the various transposable factors to be set independently. For example, gains can be set to approximate a certain equal loudness curve (ELC). As an approximation, the ELC can be well modeled by a straight line on a logarithmic scale for frequencies below 400 Hz. In this case, the odd order harmonics can be attenuated to a greater degree. Odd-order harmonics (eg, third-order, fifth-order, etc.) are important for the resulting virtual base effect, but can sometimes feel more harsh than even-order harmonics. Each transferred signal may further have a slope gain, ie a roll-off decay factor. This is measured, for example, in dB per octave. This attenuation is also applied by the amplifier 346 for each bin in the transform domain.

非ハイブリッド・フィルタバンクに基づくシステム、たとえば時間領域のシステムでは、図3Aの信号302を入力として取ると、転移器338〜356は、フル・サンプリング・レート(たとえば44.1または48kHz)の時間領域信号に対して直接作用し、次いで、低周波数(ベース)レンジにおいて十分な分解能を与えるために、ほぼ4096ラインのFFTサイズを用いることになる。ある実施形態では、しかしながら、すべての処理はCQMFチャネル0サブバンド・サンプル(システム330の信号D 332)に対して実行される。これは、転移器において関心対象の信号のみを処理することによって、すなわち臨界サンプリングされた(または最大限に間引きされた)低域通過信号を処理することによって計算量を節約するなど、通常の処理事例に対してある種の利点を提供する。たとえば、四次の基本転移器を使うことにより、仮想ベース・システムは、入力信号の帯域幅を四倍拡張する。一般に、仮想ベース・システムは、ほぼ500Hzより上の帯域幅をもつ信号を出力することは要求されない。これは、(fs=48kHzについて)375Hzの帯域幅をもつ第一のCQMFチャネル(チャネル0)が仮想ベース入力のために十分以上であり、最初の二つのCQMFチャネル(チャネル0および1)が仮想ベース出力についての十分な帯域幅(fs=48kHzにおいて750Hz)を有することを意味する。CQMFチャネル0を入力としてもつことで、システムは、4096ではなく64(4096/64)のサイズのFFT変換を使って複素数値のサンプルを処理することができる。ここで、64倍の減少はCQMFバンクのダウンサンプリング因子に由来し、この因子は時間領域入力信号に比べた第一のCQMFサブバンド信号の縮小された帯域幅にも等しい。本来的な帯域幅拡張のため、転移器からの出力は、CQMF帯域0および1に変換される必要がある。これは、64ラインのFFTを四つの16ラインのFFTに分割し、CQMF帯域0および1をなす二つの16ラインのFFTの逆FFTが計算される前に変換領域においてCQMFプロトタイプ・フィルタ応答補償を用いることによって近似的に行なわれてもよい。上記の例では、周波数領域過剰サンプリングは考えられていないことを注意しておく。先述した過剰サンプリング因子だけ順および逆変換のサイズを増すことになるからである。ある用途では、FFTスペクトルは仮想ベース・モジュール330のモジュール348において分割されてもよく、CQMFフィルタ応答補償が乗算器350によってなされてもよい。他の実施形態では、CQMFフィルタ応答補償が、FFT分割モジュール348前に、完全な(たとえば上記の例では64ラインの)FFTスペクトルに対してなされてもよい。 In a non-hybrid filter bank based system, such as a time domain system, taking the signal 302 of FIG. 3A as an input, the transformers 338-356 convert the time domain signal to a full sampling rate (eg, 44.1 or 48 kHz). An FFT size of approximately 4096 lines would then be used to work directly against and then give sufficient resolution in the low frequency (base) range. In some embodiments, however, all processing is performed on CQMF channel 0 subband samples (signal D 332 of system 330). This is a normal process, such as saving computational complexity by processing only the signal of interest at the transformer, that is, by processing the critically sampled (or maximally decimated) low-pass signal. Offers certain advantages over cases. For example, by using a fourth order fundamental transition, the virtual base system expands the bandwidth of the input signal by a factor of four. In general, virtual base systems are not required to output signals with bandwidths above approximately 500 Hz. This is because the first CQMF channel (channel 0) with a bandwidth of 375 Hz (for f s = 48 kHz) is more than enough for the virtual base input, and the first two CQMF channels (channels 0 and 1) It means having sufficient bandwidth for the virtual base output (750 Hz at f s = 48 kHz). Having CQMF channel 0 as input allows the system to process complex-valued samples using an FFT transform of size 64 (4096/64) instead of 4096. Here, the 64-fold reduction comes from the CQMF bank downsampling factor, which is also equal to the reduced bandwidth of the first CQMF subband signal compared to the time domain input signal. Because of the inherent bandwidth expansion, the output from the transformer needs to be converted to CQMF bands 0 and 1. This divides a 64-line FFT into four 16-line FFTs and performs CQMF prototype filter response compensation in the transform domain before the inverse FFT of the two 16-line FFTs that make up CQMF bands 0 and 1 is calculated. It may be performed approximately by using. Note that in the above example, frequency domain oversampling is not considered. This is because the size of the forward and inverse transforms is increased by the excessive sampling factor described above. In some applications, the FFT spectrum may be split in module 348 of virtual base module 330 and CQMF filter response compensation may be performed by multiplier 350. In other embodiments, CQMF filter response compensation may be performed on the full (eg, 64 lines in the above example) FFT spectrum before the FFT splitting module 348.

図3Cにさらに示されるように、CQMFフィルタ応答補償ブロック350からの出力は変調ステップ352に入力され、それにN/B点の変換サイズを使う逆FFT回路354および窓長L/Bを使うその後の窓掛けおよび重複/加算ステップ356が続く。本発明のある実施形態では、窓の形は非対称的である。変調ステップ352は、FFT分割348およびCQMFフィルタ応答補償350ブロックの前に適用されてもよい。窓掛けおよび重複/加算回路356からの出力信号は、遅延されたHQMF信号A 364と混合されるべき仮想ベース信号を含む、二つのCQMF信号である。しかしながら、いずれの信号も、ハイブリッド領域に収まるためには、それぞれ8および4チャネル・ナイキスト分解フィルタバンク360を通じてまずフィルタリングされる必要がある。本発明のある実施形態では、ナイキスト分解フィルタバンク360は打ち切りされたプロトタイプ・フィルタを使う。フィルタバンク360からのHQMF出力は、モジュール362において、帯域通過フィルタリングされ、遅延された入力成分A 364と混合されて、向上されたオーディオ出力HQMF信号366を生成してもよい。ある実施形態では、ハイブリッド帯域混合ブロック362への入力A 364の遅延は、時間的に遅らされた仮想ベース信号をなすための仮想ベース・システム遅延(信号B 306が入力として使われる場合にはこれからナイキスト分解遅延を引いたもの)より少ない。   As further shown in FIG. 3C, the output from the CQMF filter response compensation block 350 is input to a modulation step 352, which uses an inverse FFT circuit 354 that uses the N / B point transform size and subsequent window length L / B. A windowing and duplication / addition step 356 follows. In some embodiments of the invention, the window shape is asymmetric. Modulation step 352 may be applied before FFT division 348 and CQMF filter response compensation 350 block. The output signal from the windowing and overlap / add circuit 356 is two CQMF signals including a virtual base signal to be mixed with the delayed HQMF signal A 364. However, any signal must first be filtered through the 8- and 4-channel Nyquist decomposition filter bank 360, respectively, in order to fit in the hybrid domain. In one embodiment of the invention, Nyquist decomposition filter bank 360 uses a truncated prototype filter. The HQMF output from filter bank 360 may be bandpass filtered and mixed with delayed input component A 364 at module 362 to produce an enhanced audio output HQMF signal 366. In one embodiment, the delay of input A 364 to hybrid band mixing block 362 is the virtual base system delay (if signal B 306 is used as an input) to form a temporally delayed virtual base signal. Less the Nyquist decomposition delay).

CQMF分解バンクに由来するサブバンド信号の間の位相関係は、上記で概説したようなFFT分割を実行するときには維持されない。これを軽減するために、ある実施形態では、システム330は、ナイキスト分解ブロック360の前に、CQMFチャネル1に対するexp(−jπ/2)乗算358による位相補償を用いる。位相補償関数358への具体的な引数は、図3Aの先行するCQMFバンク304によって使用された変調方式に依存し、実施形態の間で変わることがある。また、補償因子358は、他の処理ブロックに移され、吸収されてもよい。   The phase relationship between the subband signals from the CQMF decomposition bank is not maintained when performing the FFT split as outlined above. To alleviate this, in one embodiment, system 330 uses phase compensation by exp (−jπ / 2) multiplication 358 for CQMF channel 1 prior to Nyquist decomposition block 360. The specific argument to the phase compensation function 358 depends on the modulation scheme used by the preceding CQMF bank 304 of FIG. 3A and may vary between embodiments. Also, the compensation factor 358 may be transferred to another processing block and absorbed.

〈仮想ベース・レイテンシー低減〉
背景セクションにおいて述べたように、仮想ベース処理システムは、入力信号を処理するときにある種の遅延を導入する。図1Bを参照するに、レガシー転移器の遅延(転移器出力サンプリング周波数上で測定される)は、D=3L/2−2SAとして表わすことができる。ここで、Lは転移器窓サイズであり、SAは分解ストライドまたはホップ・サイズである。L=64かつSA=4であるシステムでは、転移器およびナイキスト・フィルタバンク分解段の総遅延は、先述したように3200サンプルのオーダーであることができる。
<Virtual base latency reduction>
As mentioned in the background section, the virtual base processing system introduces some delay when processing the input signal. Referring to Figure 1B, the delay of the legacy transition unit (measured on metastatic output sampling frequency) can be expressed as D = 3L / 2-2S A. Where L is the transformer window size and S A is the decomposition stride or hop size. In a system where L = 64 and S A = 4, the total delay of the transformer and Nyquist filterbank decomposition stage can be on the order of 3200 samples as described above.

ある実施形態では、仮想ベース処理システムは、仮想ベース処理されたコンテンツに関連するレイテンシーを軽減するためにある種のステップを実行するコンポーネントを含む。図4は、ある実施形態のもとでの、仮想ベース・レイテンシー軽減プロセスおよびシステムによって利用される主要な機能コンポーネントのブロック図である。図4の描画400に示されるように、レイテンシー軽減プロセスは、より高次の基本転移因子402、低レイテンシーの非対称な変換窓404、打ち切りされたナイキスト・プロトタイプ・フィルタ406および時間的に遅らされた仮想ベース信号408の使用を含む。描画400の機能コンポーネントのそれぞれは、単独で使われてもよいし、あるいは仮想ベース処理されたコンテンツのレイテンシーを軽減するのを助けるために他のコンポーネントの内の一つまたは複数との関連で使われてもよい。描画400は、コンポーネント402〜408のそれぞれが回路、プロセッサなどといったハードウェア・コンポーネントとして具現されるときのシステムを表わしていてもよい。この描画は、コンポーネント402〜408のそれぞれが、一つまたは複数のプロセッサによって実行されるコンピュータ実装されるプロセスのような機能コンポーネントによって実行される工程として実装されるときのようなプロセスをも表わしていてもよい。あるいはまた、描画400は、ある種のコンポーネントがハードウェア回路において実装されてもよく、他のコンポーネントが実行される方法ステップとして実装されてもよいハイブリッドのシステムおよび方法を表わしていてもよい。コンポーネント402〜408は、別個のスタンドアローンのコンポーネントとして実装されてもよいし、あるいは一つまたは複数の統合されたレイテンシー低減機能において組み合わされていてもよい。システム400の各コンポーネントの組成および動作の詳細について以下で述べる。   In some embodiments, the virtual base processing system includes components that perform certain steps to reduce latency associated with virtual base processed content. FIG. 4 is a block diagram of the major functional components utilized by the virtual base latency mitigation process and system, under an embodiment. As shown in the drawing 400 of FIG. 4, the latency mitigation process is delayed in time by a higher order fundamental transfer factor 402, a low latency asymmetric transformation window 404, a truncated Nyquist prototype filter 406, and time. Use of the virtual base signal 408. Each of the functional components of drawing 400 may be used alone or in conjunction with one or more of the other components to help reduce the latency of virtual-based content. It may be broken. Drawing 400 may represent a system when each of components 402-408 is embodied as a hardware component such as a circuit, processor, or the like. The drawing also represents a process such as when each of components 402-408 is implemented as a step performed by a functional component, such as a computer-implemented process executed by one or more processors. May be. Alternatively, drawing 400 may represent a hybrid system and method in which certain components may be implemented in hardware circuitry and as method steps in which other components may be implemented. Components 402-408 may be implemented as separate stand-alone components or may be combined in one or more integrated latency reduction functions. Details of the composition and operation of each component of the system 400 are described below.

〈高次の基本転移因子〉
図4の高次の基本転移因子402に関し、レガシーの転移器遅延の式Dts={3L/2−2SA}・64/2(式(2))は、式(3)に示されるようにして導き出せる。
<Higher order basic transfer factor>
For the higher order fundamental transposable element 402 of FIG. 4, the legacy transposer delay equation D ts = {3L / 2−2S A } · 64/2 (equation (2)) is as shown in equation (3): Can be derived.

Dts={(B+1)L/2−B・SA}・64/B (3)
式(3)では、レガシー・システムの基本転移因子2は、任意の整数の基本転移因子Bによって置き換えられる。式(3)が、64チャネルをもつCQMFに基づくフレームワークの出力サンプルにおける遅延のことを言っていることを注意しておく。一定のLおよびSAについて、Bが増すと遅延が減少することを検証できる。図5Aは、第一のホップ・サイズに関連する遅延を示す表であり、図5Bはある実施形態のもとでの仮想ベース・レイテンシー軽減システムについての第二のホップ・サイズに関連する遅延を示す表である。図5Aの表1は、さまざまな窓サイズ(L=16ないし128)および基本転移因子(B=2ないし16)について、SA=4のホップ・サイズについてのレイテンシーを示している。これに比して、図5Bの表2は、同じさまざまな窓サイズ(L=16ないし128)および基本転移因子(B=2ないし16)について、SA=2のホップ・サイズについてのレイテンシーを示している。図5Aおよび図5Bにおいて見て取れるように、基本転移因子をたとえば2から8に増すことによって、著しいレイテンシー軽減が達成できる(たとえばL=64およびSA=4の公称事例について、2816から2048サンプルに)。
D ts = {(B + 1) L / 2−B ・ S A } ・ 64 / B (3)
In equation (3), the base transition factor 2 of the legacy system is replaced by an arbitrary number of base transition factors B. Note that equation (3) refers to the delay in the output samples of the CQMF based framework with 64 channels. For certain L and S A, B increases the delay can verify that the decrease. FIG. 5A is a table illustrating the delay associated with the first hop size, and FIG. 5B illustrates the delay associated with the second hop size for the virtual base latency mitigation system under an embodiment. It is a table | surface which shows. Table 1 of FIG. 5A shows the latency for a hop size of S A = 4 for various window sizes (L = 16 to 128) and basic transition factors (B = 2 to 16). In contrast, Table 2 of FIG. 5B shows the latency for a hop size of S A = 2 for the same various window sizes (L = 16 to 128) and basic transition factors (B = 2 to 16). Show. As can be seen in FIGS. 5A and 5B, significant latency mitigation can be achieved by increasing the base transposition factor, eg, from 2 to 8, (eg, from 2816 to 2048 samples for the nominal case of L = 64 and S A = 4). .

図3Cを参照するに、組み合わされた転移器338〜356において、TはBより大きい(T>B)として、より高次の転移因子Tを生成するとき、分解変換スペクトルにおいて、転移器源範囲は転移器目標範囲より小さい。目標ビンは、源ビンの補間から帰結する。より高次の基本転移器を使ってより低次の転移因子を生成するとき、すなわちTがBより小さい(T<B)とき、源範囲は目標範囲より大きくなり、目標ビンは源ビンの間引きから帰結する。しかしながら、T<Bの場合についても、Tが奇数であるときは、nが目標ビン・インデックスであるとして、k=nB/Tとして導出される源ビン・インデックスは一般には整数にはならず、よって、目標ビンは二つの連続する源ビンの補間から導出されることになる。   Referring to FIG. 3C, in the combined transformers 338-356, when T is greater than B (T> B), when generating a higher order transposable factor T, the transformer source range in the decomposition transform spectrum Is less than the target range of the transformer. The target bin results from interpolation of the source bin. When using a higher order fundamental transformer to produce a lower order transposable factor, ie when T is less than B (T <B), the source range will be greater than the target range and the target bin will be decimation As a result. However, even for T <B, when T is odd, the source bin index derived as k = nB / T is generally not an integer, assuming that n is the target bin index, Thus, the target bin is derived from the interpolation of two consecutive source bins.

基本転移因子の増大した次数は、仮想ベース・プロセスに対してある種の含みをもつ。第一に、転移器源範囲が分解変換範囲内(すなわち0ないしN−1の範囲内)に留まることを強制するために、制御が確立される必要がある。第二に、基本転移因子2を使うシステムと比べ、二つの合成変換354は今やN/2ではなくN/Bのサイズである。ここで、Nは分解変換サイズである。これは、合成窓が2倍ではなくB倍間引きされ、スペクトル分割348も、フィルタ応答補償350のための利得ベクトルとともに、相応してダウンスケーリングされることを意味する。これは、Bのより大きな値についての増大した帯域幅拡張の結果である;転移器出力は本来的に、(一個のCQMF帯域の入力を想定すると)B個のCQMF帯域の周波数範囲をカバーする。ここで、最初の二つのみが実際に合成され、それにより複雑さを節約する。基本転移因子B=8および周波数領域過剰サンプリング因子F=4については、二つの合成変換サイズはNS=F・L/B=4・64/8=32であり、合成変換窓356はたったL/B=64/8=32個のタップをもつ。 The increased order of the basic transposable element has some implications for the virtual base process. First, control needs to be established to force the transformer source range to remain within the resolved conversion range (ie, within the range of 0 to N−1). Secondly, compared to the system using basic transposable factor 2, the two composite transformations 354 are now N / B in size rather than N / 2. Here, N is a decomposition transformation size. This means that the synthesis window is thinned by B times instead of by 2, and the spectral split 348 is correspondingly downscaled with the gain vector for the filter response compensation 350. This is a result of increased bandwidth expansion for larger values of B; the transformer output inherently covers the frequency range of B CQMF bands (assuming one CQMF band input). . Here, only the first two are actually combined, thereby saving complexity. The basic transposable element B = 8 and the frequency domain oversampling factor F = 4, two synthetic transformation size is N S = F · L / B = 4 · 64/8 = 32, the synthetic transformation window 356 only L / B = 64/8 = 32 taps.

転移された信号の品質は、基本転移因子によって支配され、より高次の転移次数については低減されるが、減少した分解ホップ・サイズ(時間領域での増加した過剰サンプリング)を使うことによって改善できる。さらに、衝撃音(過渡音)についての品質を維持するために、周波数領域過剰サンプリングの次数(order)は、より高い基本転移因子については、増大する必要がある。しかしながら、時間および周波数の両方における増大した過剰サンプリングは、転移器の計算量に上乗せすることになりうる。ある実施形態では、分解ホップ・サイズは、レガシー・システムに比べて因子2だけ減少される。因子B=8の基本転移器は、少なくともF=(B+1)/2=4.5の周波数領域過剰サンプリング因子を必要とする。ある実施形態では、システムは、因子4の過剰サンプリング(F=4)を使い、0.5の欠けている値は一般には実際上取るに足りない。変換窓が端では漸減されるからである。よって、この実施形態では、計算量は、時間における増大した過剰サンプリングに由来して、全部で因子2だけ増大する。増大した時間過剰サンプリングは、わずかに増大した遅延という代償をも伴い、図5Bの表2に示されるように、L=64、B=8およびSA=2について総レイテンシー2176という結果になることを注意しておくべきである。 The quality of the transferred signal is governed by the fundamental transfer factor and is reduced for higher order transfer orders, but can be improved by using a reduced resolution hop size (increased oversampling in the time domain). . In addition, the order of frequency domain oversampling needs to be increased for higher fundamental transfer factors in order to maintain quality for impact sounds (transient sounds). However, increased oversampling in both time and frequency can add to the computational complexity of the transformer. In some embodiments, the decomposition hop size is reduced by a factor 2 compared to the legacy system. A basic transformer with a factor B = 8 requires a frequency domain oversampling factor of at least F = (B + 1) /2=4.5. In one embodiment, the system uses oversampling of factor 4 (F = 4), and a missing value of 0.5 is generally negligible in practice. This is because the conversion window is gradually reduced at the end. Thus, in this embodiment, the computational complexity is increased by a factor 2 in total, resulting from increased oversampling in time. Increased time oversampling also comes at the cost of slightly increased delay, resulting in a total latency of 2176 for L = 64, B = 8 and S A = 2 as shown in Table 2 of FIG. 5B. Should be noted.

〈非対称的な変換窓〉
図5Aおよび図5Bの表1および表2に示されるものを与えられると、転移器遅延を減少させる自明な方法は、より短い変換窓を、よってより小さな分解および合成変換サイズを使うことであると思われるかもしれない。しかしながら、これは一般には、密なトーン様信号(dense tonal signal)についての低下した品質という代償を伴う。より短い変換窓から帰結する減少した周波数分解能のためである。順および逆変換段において非対称的な分解および合成窓を使うことによって、転移器のアルゴリズム遅延のより堅牢な減少が達成できることが見出された。こうして、図4の低レイテンシー非対称変換404に関し、ある実施形態では、レイテンシー低減システムは、順および逆変換段(たとえば、それぞれ図3Cの窓掛け段338および356)において非対称な分解および合成窓を使う。これは、変換遅延に寄与しない履歴中のサンプルに向けて窓の「尾部」を延ばすことによって、限られた長さの対称窓の周波数応答を本質的に改善する。さらに一般的な実施形態では、分解窓の長さおよび順変換のサイズが、合成窓および逆変換のものと異なっていてもよい。
<Asymmetric conversion window>
Given what is shown in Tables 1 and 2 of FIGS. 5A and 5B, an obvious way to reduce the transformer delay is to use a shorter transform window, and thus a smaller decomposition and synthesis transform size. You might think. However, this generally comes at the cost of reduced quality for dense tone-like signals. This is due to the reduced frequency resolution resulting from the shorter conversion window. It has been found that by using asymmetric decomposition and synthesis windows in the forward and inverse transform stages, a more robust reduction in the algorithm delay of the transferer can be achieved. Thus, with respect to the low latency asymmetric transformation 404 of FIG. 4, in one embodiment, the latency reduction system uses asymmetric decomposition and synthesis windows in the forward and inverse transformation stages (eg, windowing stages 338 and 356, respectively, FIG. 3C). . This inherently improves the frequency response of a limited length symmetric window by extending the “tail” of the window toward the historical samples that do not contribute to the conversion delay. In a more general embodiment, the length of the decomposition window and the size of the forward transform may be different from those of the synthesis window and the inverse transform.

図5Cは、レガシーの対称的なハニング窓に比べた非対称窓の時間応答の例示的なプロットである。図5Cは、プロット514として示される長さ64のハニング窓およびプロット516として示される長さ41のハニング窓についての信号振幅(たとえばボルト単位)に対するサンプル(x軸)の関数としての時間応答を、長さ64および遅延40(長さ41のハニング窓に等しい遅延)の非対称窓についての時間応答プロット512に対して示している。図5Dは、レガシーの対称ハニング窓に比べた非対称窓の周波数応答の例示的なプロットである。図5Dは、プロット524として示される長さ64のハニング窓およびプロット526として示される長さ41のハニング窓についての対数スケール上での信号振幅(たとえばdB単位)に対する正規化された周波数(x軸)の関数としての周波数応答を、長さ64および遅延40の非対称窓(長さ41のハニング窓に等しい)についての周波数応答プロット522に対して示している。図5Dにおいて見て取れるように、非対称窓の主ローブは、上記対称的なハニング窓の幅の中間の幅をもつ。これは、上記二つのハニング窓の中間の周波数分解能または選択性を示している。   FIG. 5C is an exemplary plot of the time response of an asymmetric window compared to a legacy symmetric Hanning window. FIG. 5C shows the time response as a function of sample (x axis) versus signal amplitude (eg, in volts) for a length 64 Hanning window shown as plot 514 and a length 41 Hanning window shown as plot 516. A time response plot 512 for an asymmetric window of length 64 and delay 40 (a delay equal to a Hanning window of length 41) is shown. FIG. 5D is an exemplary plot of the frequency response of an asymmetric window compared to a legacy symmetric Hanning window. FIG. 5D shows the normalized frequency (x-axis) for signal amplitude (eg, in dB) on a logarithmic scale for a length 64 Hanning window shown as plot 524 and a length 41 Hanning window shown as plot 526. ) As a function of frequency response plot 522 for a length 64 and delay 40 asymmetric window (equivalent to a length 41 Hanning window). As can be seen in FIG. 5D, the main lobe of the asymmetric window has a width intermediate that of the symmetric Hanning window. This indicates an intermediate frequency resolution or selectivity between the two Hanning windows.

非対称な窓変換処理を受け容れるために、転移器アルゴリズムは、分解/合成チェーンの低下した変換遅延Dを考慮に入れて、レガシー実装に比較して部分的に変更される必要がある。レガシー・システムの順変換のあとで逆変換の前のe-iπkによる周波数変調の代わりに、非対称システムは、分解変換後の周波数変調342を必要とする:
MA(k)=e-i(2π/N)(D/2-L+1)k 0≦k<N (4)
システムはまた、合成FFTスペクトルの分割のまえの変調をも必要とする:
MS(k)=e-i(π/N・D・n) 0≦n<N (5)
上記の式(4)および(5)において、kおよびnはそれぞれ変換周波数係数インデックスであり、Nは分解変換サイズ、すなわちN=FLであり、ここで、Fは周波数領域過剰サンプリング因子であり、Lは分解窓サイズであり、Dは変換遅延である。図3Cに示されるように、式(5)の変調は、FFT分割モジュール348および応答補償ステップ350のあとの変調段352においても適用されてもよい。
In order to accept the asymmetric window transformation process, the transferor algorithm needs to be partially modified compared to the legacy implementation, taking into account the reduced transformation delay D of the decomposition / synthesis chain. Instead of frequency modulation with e- iπk after forward conversion of legacy systems and before inverse conversion, asymmetric systems require frequency modulation 342 after decomposition conversion:
M A (k) = e -i (2π / N) (D / 2-L + 1) k 0 ≦ k <N (4)
The system also requires prior modulation of the composite FFT spectrum:
M S (k) = e -i (π / N ・ D ・ n) 0 ≦ n <N (5)
In equations (4) and (5) above, k and n are the transform frequency coefficient indices, respectively, N is the decomposition transform size, i.e. N = FL, where F is the frequency domain oversampling factor, L is the resolution window size and D is the conversion delay. As shown in FIG. 3C, the modulation of equation (5) may also be applied in the modulation stage 352 after the FFT division module 348 and the response compensation step 350.

図6は、ある実施形態のもとでの、非対称窓およびB次基本転移器によって課される関連する遅延の使用を様式的に示している。レガシーの仮想ベース・システムでは、Bは通例2に設定されるが、非対称窓プロセス404がより高次の基本転移因子プロセス402との関連で使われる場合には、Bは2より大きな整数値になる(たとえばB=4,8または16)。時間プロット600は、分解窓の群遅延(約D/2)としての時間0基準を示している。分解フェーズ602において、時間t0から新しいサンプル604が加えられる。時間プロット610は、転移器の時間伸張二重性(duality)が、合成フェーズ612において、新しい時間伸張されたサンプル614について、t0をB・t0に移すことを示している。図5(512)または図6に示されるような非対称窓が使われる場合、全分解/合成チェーン遅延は、ほぼD/2+B(D/2−SA)になる。 FIG. 6 illustrates in style the use of an asymmetric window and the associated delay imposed by a B order fundamental transition, under an embodiment. In legacy virtual base systems, B is typically set to 2, but if the asymmetric window process 404 is used in the context of a higher order fundamental transfer factor process 402, B will be an integer value greater than 2. (For example, B = 4, 8, or 16). Time plot 600 shows a time zero reference as a group delay (approximately D / 2) of the decomposition window. In the decomposition phase 602, new samples 604 is applied from time t 0. Time plot 610 shows that the time-stretching duplex of the transformer shifts t 0 to B · t 0 for the new time-stretched sample 614 in synthesis phase 612. When an asymmetric window such as that shown in FIG. 5 (512) or FIG. 6 is used, the total resolution / synthesis chain delay is approximately D / 2 + B (D / 2−S A ).

周波数領域変調がN/2サンプルによる巡回的時間シフトによって実装されうる対称窓の場合については、上記の式(4)および(5)の計算は同様に、それぞれ分解変換前のN−(D/2−(L−1))(mod N)サンプルおよび(単一の)合成変換後のN−D/2サンプルの巡回的時間シフトによって実装されてもよい。しかしながら、非対称窓をより高次の基本転移因子、たとえばB=8およびFFT分割段348と組み合わせるとき、合成変換後の時間シフトは(N−D/2)/Bサンプルになる。これは整数値でないこともある。この場合、丸められた値が近似として使われてもよい。さらに、計算量を節約するために、分解変調は、式(6)によって与えられるような併合合成変調として、合成変調と組み合わされてもよい。   For the case of a symmetric window where frequency domain modulation can be implemented by a cyclic time shift with N / 2 samples, the calculations in equations (4) and (5) above are similarly N- (D / 2-(L-1)) (mod N) samples and may be implemented by a cyclic time shift of ND / 2 samples after a (single) composite transformation. However, when combining an asymmetric window with a higher order fundamental transition factor, eg, B = 8 and FFT partition stage 348, the time shift after the combined transform is (N−D / 2) / B samples. This may not be an integer value. In this case, a rounded value may be used as an approximation. Furthermore, in order to save computational complexity, the decomposed modulation may be combined with the combined modulation as a combined combined modulation as given by equation (6).

MASC(k)=e-i(2π/N)(D/2・(B+1)-L+1)・B)・k 0≦k<N (6)
式(6)の組み合わされた変調は、転移因子TがBに等しいときにのみ厳密である。他の転移因子については、式(6)も近似である。
M ASC (k) = e -i (2π / N) (D / 2 ・ (B + 1) -L + 1) ・ B) ・ k 0 ≦ k <N (6)
The combined modulation of equation (6) is exact only when the transfer factor T is equal to B. For other transfer factors, equation (6) is also an approximation.

あるいはまた、式(6)の変調は、式(7)に示されるように、合成変換後の組み合わされた巡回的時間シフトとして実装されてもよい。   Alternatively, the modulation of equation (6) may be implemented as a combined cyclic time shift after composite transformation, as shown in equation (7).

fx(m)=gx(S+m) 0≦m<N/B−S
fx(N/B−S+m)=gx(m) 0≦m<S (7)
上記の式(7)において、gx(m)は合成逆変換のうちの一つからの時間領域出力であり、fx(m)はシフトされた時間シーケンスであり、Sは:

Figure 0005894347
に等しい。 f x (m) = g x (S + m) 0 ≦ m <N / B−S
f x (N / B−S + m) = g x (m) 0 ≦ m <S (7)
In equation (7) above, g x (m) is the time domain output from one of the composite inverses, f x (m) is the shifted time sequence, and S is:
Figure 0005894347
be equivalent to.

ここでもまた、式(7)は、天井関数(最も近い整数に丸める)の引数が厳密な整数でない場合には、式(6)によって実装される周波数変調(これ自身も近似であることがありうる)の近似を与えるだけである。上記の式(5)または(6)が好ましくは、二つの逆フーリエ変換に含まれる係数の限られた部分にのみ適用されることも注意しておくべきである。   Again, equation (7) may be an approximation of the frequency modulation implemented by equation (6) itself, if the ceiling function (round to the nearest integer) argument is not a strict integer. It only gives an approximation of It should also be noted that the above equation (5) or (6) is preferably applied only to a limited part of the coefficients included in the two inverse Fourier transforms.

図6を参照するに、非対称窓転移器フレームワークの総システム遅延についての厳密な表式は式(8)に示されるようになる。   Referring to FIG. 6, the exact expression for the total system delay of the asymmetric window transition framework is as shown in equation (8).

Dta={(B+1)・D/2−B(SA−1)}・64/B (8)
ここでもまた、式(8)は、64チャネルのCQMFに基づくフレームワークを使った出力サンプルにおける遅延を指す。
D ta = {(B + 1) ・ D / 2−B (S A −1)} ・ 64 / B (8)
Again, equation (8) refers to the delay in the output samples using a 64 channel CQMF based framework.

ある実施形態のもとでの、非対称的な変換窓を使う仮想ベース・レイテンシー低減システムについて、図7のAは、第一のホップ・サイズについての全レイテンシー値を示す表であり、図7のBは、第二のホップ・サイズについての全レイテンシー値を示す表である。図7のAの表3は、さまざまな変換遅延値(D=15ないし127)および基本転移因子(B=2ないし16)について、ホップ・サイズSA=4についてのレイテンシーを示す。比較して、図7のBの表4は、同じさまざまな変換遅延値(D=15ないし127)および基本転移因子(B=2ないし16)について、ホップ・サイズSA=2についてのレイテンシーを示す。表4において見て取れるように、対称的な64タップ窓(D=63)から非対称的な窓に移行する際のレイテンシー低減は、828サンプルである(SA=2およびB=8である公称事例について、2204−1376=828)。 For a virtual base latency reduction system using an asymmetric transformation window under an embodiment, FIG. 7A is a table showing the total latency values for the first hop size, FIG. B is a table showing total latency values for the second hop size. Table 3 of FIG. 7A shows the latency for hop size S A = 4 for various conversion delay values (D = 15 to 127) and basic transfer factors (B = 2 to 16). In comparison, Table 4 of FIG. 7B shows the latency for the hop size S A = 2 for the same various conversion delay values (D = 15 to 127) and basic transition factors (B = 2 to 16). Show. As can be seen in Table 4, the latency reduction in transitioning from a symmetric 64-tap window (D = 63) to an asymmetric window is 828 samples (for the nominal case where S A = 2 and B = 8) , 2204-1376 = 828).

式(3)と式(8)を比較すると、Dts=Dtaと置くことで
D=L−(2B/(B+1)) (9)
が得られることを検証できる。上記の式(9)は、B=1のときの対称窓についてD=L−1の期待される変換遅延を表わす。
Comparing Eq. (3) and Eq. (8), D ts = D ta
D = L- (2B / (B + 1)) (9)
Can be verified. Equation (9) above represents the expected conversion delay of D = L−1 for the symmetric window when B = 1.

転移窓の非対称の量は、システムの制約および要求に依存して変わりうる。ある実施形態および個別的な実装では、非対称窓の群遅延は、十分な転移品質を維持するために、変換遅延の半分に近くなるよう選択される。こうして、この場合、

Figure 0005894347
となる。これは、非対称フィルタの設計のための最適化フェーズの間に、群遅延についての制約条件を含めることによって達成されてもよい。 The amount of asymmetry in the transition window can vary depending on system constraints and requirements. In certain embodiments and individual implementations, the group delay of the asymmetric window is selected to be close to half the conversion delay in order to maintain sufficient transition quality. Thus, in this case,
Figure 0005894347
It becomes. This may be achieved by including a constraint on group delay during the optimization phase for the design of the asymmetric filter.

〈打ち切りされたナイキスト・プロトタイプ・フィルタ〉
図4を参照するに、第三のレイテンシー軽減要素は、打ち切りされたナイキスト・プロトタイプ・フィルタ406を使うことを含む。図3Cに示されるように、ハイブリッド領域で仮想ベース信号を混合できるために、8チャネルおよび4チャネルのナイキスト分解フィルタバンク360が仮想ベース出力CQMFチャネルに適用される(これらのフィルタバンクは、図3Aのナイキスト・フィルタバンク307および308に対応する)。ある実施形態では、ナイキスト分解フィルタバンク360は、対称的な13タップのプロトタイプ・フィルタを使う。これは結果として、6個のCQMFサンプルの遅延(たとえば、この場合、6・64=384出力サンプル)を与えることができる。将来のサンプルに作用する当該プロトタイプ・フィルタの六個の係数を除去することによって、この遅延全体(たとえば384サンプル)が解消されうる。一般に、ナイキスト分解/合成チェーンはそれでも完璧な再構成を提供する。しかしながら、打ち切りされたフィルタを使うナイキスト・フィルタバンクの周波数応答は変わることがある。残りのフィルタ係数の最適化が、打ち切りされたフィルタを使うナイキスト・フィルタバンクの潜在的により貧弱な周波数応答を改善しうる。
<Canceled Nyquist prototype filter>
Referring to FIG. 4, a third latency mitigation element involves using a truncated Nyquist prototype filter 406. As shown in FIG. 3C, an 8-channel and 4-channel Nyquist decomposition filter bank 360 is applied to the virtual base output CQMF channel in order to be able to mix the virtual base signal in the hybrid domain (these filter banks are shown in FIG. 3A). Corresponding to Nyquist filter banks 307 and 308). In one embodiment, the Nyquist decomposition filter bank 360 uses a symmetric 13-tap prototype filter. This can result in a delay of 6 CQMF samples (eg, 6 · 64 = 384 output samples in this case). By removing the six coefficients of the prototype filter that affect future samples, this entire delay (eg, 384 samples) can be eliminated. In general, the Nyquist teardown / synthesis chain still provides perfect reconstruction. However, the frequency response of Nyquist filter banks that use truncated filters can vary. Optimization of the remaining filter coefficients may improve the potentially poorer frequency response of the Nyquist filter bank that uses truncated filters.

〈時間的に遅らされた仮想ベース信号〉
図4を参照するに、第四のレイテンシー軽減要素は、仮想ベース信号を、もとの信号408より遅れ(lag)させることを含む。この場合、広帯域信号(すなわち図3Cのハイブリッド信号A 364)が、仮想ベース・システム遅延(delay)が実際に含意するよりも短い時間期間、遅延されるので、全体的なシステムのレイテンシー(latency)が短縮されることができる。略式の聴取試験は、20ms未満の遅れ(lag)が仮想ベース効果を妨げないことを示している。この遅れは、49kHzオーディオ信号について960サンプルに対応する。
<Virtual base signal delayed in time>
Referring to FIG. 4, the fourth latency mitigation element includes lagging the virtual base signal from the original signal 408. In this case, the wideband signal (ie, hybrid signal A 364 in FIG. 3C) is delayed for a shorter period of time than the virtual base system delay actually implies, so the overall system latency. Can be shortened. A short listening test shows that a lag of less than 20 ms does not interfere with the virtual base effect. This delay corresponds to 960 samples for a 49 kHz audio signal.

ある実施形態のある個別的な実装では、仮想ベース信号は、合計352サンプル(48kHzでは7.33ms)だけ広帯域信号を遅らせることを許容される。これら352サンプルのうち、32サンプルは、非対称的な変換窓に由来する。1376がCQMFフィルタバンク・サイズの64で割り切れないからである。よって、非対称窓変換からの遅延は、1344の広帯域レイテンシー+32サンプルの遅れに分割されることができる。これら32サンプルに上乗せされる追加的な遅れは、320サンプルである(5個のCQMFサンプル、48kHzのサンプリング周波数では6.67msに対応)。   In one particular implementation of an embodiment, the virtual base signal is allowed to delay the wideband signal by a total of 352 samples (7.33 ms at 48 kHz). Of these 352 samples, 32 samples are derived from asymmetric conversion windows. This is because 1376 is not divisible by 64 of the CQMF filter bank size. Thus, the delay from the asymmetric window transformation can be divided into 1344 wideband latency +32 sample delay. The additional delay added to these 32 samples is 320 samples (5 CQMF samples, corresponding to 6.67 ms at 48 kHz sampling frequency).

図4の種々のレイテンシー軽減要素402〜408は、仮想ベース・システム・レイテンシーの軽減を達成するために、任意の実際的な数の組み合わせにおいて使用されうる。さらに、各レイテンシー軽減方法の適切な変数は、仮想ベース信号品質における何らかの知覚される低下に関係して、レイテンシーを増すよう変更されてもよい。ある実施形態では、四つのレイテンシー軽減要素は、以下の値を使って実装された:基本転移因子B=8、ホップ・サイズSA=2、変換遅延D=40、打ち切りされたナイキスト・フィルタおよび320サンプルの追加的な仮想ベース遅れ。この例示的な場合には、出力サンプルにおける結果として得られる仮想ベース・システム遅延は、次のようであった。 The various latency mitigation elements 402-408 of FIG. 4 can be used in any practical number combination to achieve virtual base system latency mitigation. Further, the appropriate variable for each latency mitigation method may be modified to increase latency in connection with some perceived decrease in virtual base signal quality. In one embodiment, the four latency mitigation elements were implemented using the following values: basic transfer factor B = 8, hop size S A = 2, conversion delay D = 40, truncated Nyquist filter, and Additional virtual base delay of 320 samples. In this exemplary case, the resulting virtual base system delay in the output samples was:

DVB={(B+1)・D/2−B・(SA−1)}・64/B−32+0−320=1376−352=1024
上記のように前処理段においてナイキスト分解フィルタバンクを回避する(たとえば、図2における入力B 203および図3Aの信号B 306を図3Cの仮想ベース・モジュール330の入力D 332として使う)ことは、遅延のさらに384サンプルを節約することができる。結果として、1024−384=640サンプルの仮想ベース・システム遅延を与える(48kHzのサンプリング周波数では13msに対応)。
D VB = {(B + 1) ・ D / 2−B ・ (S A −1)} ・ 64 / B−32 + 0−320 = 1376−352 = 1024
Avoiding the Nyquist decomposition filter bank in the preprocessing stage as described above (eg, using input B 203 in FIG. 2 and signal B 306 in FIG. 3A as input D 332 of virtual base module 330 in FIG. 3C) An additional 384 samples of delay can be saved. The result is a virtual base system delay of 1024−384 = 640 samples (corresponding to 13 ms at a sampling frequency of 48 kHz).

この例示的な場合における640サンプルの遅延は、先述したレガシー仮想ベース・システムにおける3200サンプルの公称遅延より著しく少ない。この遅延は、さらなる仮想ベース遅れを加えることによって、ホップ・サイズSAを2でなく4に増加させることによって、または40より短い結果的な分解/合成遅延をもつ非対称的な変換窓を設計することによって、さらに短縮することができる。しかしながら、そのようないかなる値の変更も、レイテンシーがさらに短縮されうるものの、わずかにより貧弱な仮想ベース品質につながりうる。 The delay of 640 samples in this exemplary case is significantly less than the nominal delay of 3200 samples in the legacy virtual base system described above. This delay is designed by adding a further virtual base delay, increasing the hop size S A to 4 instead of 2, or designing an asymmetric transformation window with a resulting decomposition / synthesis delay shorter than 40 This can be further shortened. However, any such value change can lead to slightly poorer virtual base quality, although the latency can be further reduced.

本稿に記載される仮想ベース・レイテンシー軽減の実施形態は、図2および図3に示されるような任意の適切な仮想ベース生成システムとの関連で使用されてもよい。図8は、ある実施形態のもとでの、仮想ベース生成システムおよびレイテンシー軽減システムを含むオーディオ処理システムを示すブロック図である。図8に示されるように、システム800は、図3Cに示されるような仮想ベース・システム330を有する。仮想ベース・システム330は、入力オーディオ信号801を受け取って、ある種の周波数転移機能を実行して、限られた周波数応答機能のものでありうるスピーカー806を通じた再生のために、向上されたオーディオ・コンテンツを生成する。ある種のレイテンシーが、仮想ベース・システム330によって実行される転移機能に付随することがある。ある実施形態では、仮想ベース・レイテンシー軽減システム400(図4に示されるようなもの)は、仮想ベース処理に付随するレイテンシーを軽減するための、仮想ベース・システム330への後プロセスとして設けられる。仮想ベース・システム330および400からの軽減されたレイテンシーのオーディオ信号は、次いで、レンダリング・サブシステム802に送られる。該レンダリング・サブシステム802は、左右の(または多チャネルの)スピーカー806のために増幅器804を通じてフィードされうるスピーカー・フィードを生成するよう構成される。   The virtual base latency mitigation embodiments described herein may be used in connection with any suitable virtual base generation system as shown in FIGS. FIG. 8 is a block diagram illustrating an audio processing system including a virtual base generation system and a latency mitigation system, under an embodiment. As shown in FIG. 8, the system 800 has a virtual base system 330 as shown in FIG. 3C. Virtual base system 330 receives an input audio signal 801 and performs some kind of frequency transition function to enhance audio for playback through speaker 806, which may be of a limited frequency response function.・ Generate content. Certain latencies may be associated with the transfer function performed by the virtual base system 330. In some embodiments, the virtual base latency mitigation system 400 (as shown in FIG. 4) is provided as a post-process to the virtual base system 330 to mitigate latency associated with virtual base processing. The reduced latency audio signals from the virtual base systems 330 and 400 are then sent to the rendering subsystem 802. The rendering subsystem 802 is configured to generate a speaker feed that can be fed through an amplifier 804 for left and right (or multi-channel) speakers 806.

仮想ベース・レイテンシー軽減システム400はシステム800における別個の後プロセス要素であるように示されているが、そのようなレイテンシー軽減システムは、(先に示したように)仮想ベース・システム330の一部として実装されてもよく、あるいはレンダリング・サブシステム802内の機能コンポーネントのようなシステム800の他の任意の適切な要素の一部として実装されてもよいことは注意しておくべきである。同様に、仮想ベース・システム330は、背景において概説したレガシーの仮想ベース生成システムであってもよいし、あるいはスピーカー806を通じた再生のためにベース・コンテンツの知覚されるレベルを高めるために入力オーディオ信号801を向上させるために高調波転移を使う他の何らかの仮想ベース生成および処理システムであってもよい。   Although the virtual base latency mitigation system 400 is shown to be a separate post-process element in the system 800, such a latency mitigation system is part of the virtual base system 330 (as previously indicated). It should be noted that it may be implemented as, or as part of any other suitable element of system 800, such as a functional component within rendering subsystem 802. Similarly, virtual base system 330 may be the legacy virtual base generation system outlined in the background, or input audio to increase the perceived level of base content for playback through speaker 806. There may be any other virtual base generation and processing system that uses harmonic transitions to improve signal 801.

仮想ベース・レイテンシー軽減システムの諸実施形態は、多様な異なる再生装置およびオーディオ・スピーカー(トランスデューサ)を通じてデジタル・オーディオをレンダリングおよび再生するいかなるオーディオ処理システムにおいて使用されることもできる。これらのスピーカーは、多様な異なる聴取装置または再生設備品目の任意のもの、たとえばコンピュータ、テレビジョン、ステレオ・システム(家庭または映画館)、携帯電話、タブレットおよび他の携帯再生装置において具現されてもよい。スピーカーは任意の適切なサイズおよびパワー定格のものであってもよく、自立型のドライバ、スピーカー・エンクロージャー、サラウンドサウンド・システム、サウンドバー、ヘッドホン、イヤホンなどの形で提供されてもよい。スピーカーは、いかなる適切なアレイにおいて構成されてもよく、モノフォニック・ドライバ、バイノーラル・スピーカー、サラウンドサウンド・スピーカー・アレイまたはオーディオ・ドライバの他の任意の適切なアレイを含んでいてもよい。   Embodiments of the virtual base latency mitigation system can be used in any audio processing system that renders and plays digital audio through a variety of different playback devices and audio speakers (transducers). These speakers may be embodied in any of a variety of different listening devices or playback equipment items, such as computers, televisions, stereo systems (home or movie theaters), cell phones, tablets and other portable playback devices. Good. The speakers may be of any suitable size and power rating, and may be provided in the form of free-standing drivers, speaker enclosures, surround sound systems, sound bars, headphones, earphones, and so forth. The speakers may be configured in any suitable array and may include monophonic drivers, binaural speakers, surround sound speaker arrays, or any other suitable array of audio drivers.

本稿に記載される一つまたは複数の実施形態の諸側面は、ソフトウェア命令を実行する一つまたは複数のコンピュータまたは処理装置を含むネットワークを通じた送信のためにオーディオ信号を処理するオーディオ・システムにおいて実装されてもよい。記載される実施形態のいずれも、単独でまたは任意の組み合わせで互いと一緒に使用されてもよい。さまざまな実施形態は、本明細書の一つまたは複数の箇所で論じられるか暗に示唆されるかされていることがありうる従来技術のさまざまな欠点によって動機付けられたことがあるが、実施形態は必ずしもこれらの欠点のいずれかに対処するものではない。換言すれば、種々の実施形態は、明細書で論じていることがありうる種々の欠点に対処することがある。いくつかの実施形態は、明細書で論じていることがありうるいくつかの欠点またはたった一つの欠点に部分的に対処するだけであることがあり、いくつかの実施形態はこれらの欠点のいずれにも対処しないことがありうる。   Aspects of one or more embodiments described herein are implemented in an audio system that processes audio signals for transmission over a network that includes one or more computers or processing devices that execute software instructions. May be. Any of the described embodiments may be used with each other alone or in any combination. While the various embodiments have been motivated by various shortcomings of the prior art that may be discussed or implied in one or more places in the specification, The form does not necessarily address any of these drawbacks. In other words, the various embodiments may address various drawbacks that may be discussed in the specification. Some embodiments may only partially address some or only one drawback that may be discussed in the specification, and some embodiments may not address any of these disadvantages. May not be addressed.

本稿に記載されるシステムの諸側面は、デジタルまたはデジタイズされたオーディオ・ファイルを処理するための適切なコンピュータ・ベースの音処理ネットワーク環境において実装されうる。適応オーディオ・システムの諸部分は、コンピュータ間で伝送されるデータをバッファリングおよびルーティングするはたらきをする一つまたは複数のルータ(図示せず)を含む、任意の所望される数の個別の機械を有する一つまたは複数のネットワークを含んでいてもよい。そのようなネットワークは、さまざまな異なるネットワーク・プロトコルの上に構築されてもよく、インターネット、広域ネットワーク(WAN)、ローカル・エリア・ネットワーク(LAN)またはその任意の組み合わせであってもよい。   The system aspects described herein may be implemented in a suitable computer-based sound processing network environment for processing digital or digitized audio files. The parts of the adaptive audio system can include any desired number of individual machines, including one or more routers (not shown) that serve to buffer and route data transmitted between computers. One or more networks may be included. Such a network may be built on a variety of different network protocols and may be the Internet, a wide area network (WAN), a local area network (LAN), or any combination thereof.

上記のコンポーネント、ブロック、プロセスまたは他の機能構成要素の一つまたは複数は、システムのプロセッサ・ベースのコンピューティング装置の実行を制御するコンピュータ・プログラムを通じて実装されてもよい。本稿に開示されるさまざまな機能は、ハードウェア、ファームウェアのいくつもある組み合わせを使っておよび/またはさまざまな機械可読もしくはコンピュータ可読媒体において具現されたデータおよび/または命令として、挙動上の、レジスタ転送、論理コンポーネントおよび/または他の特性を用いて記載されることがあることを注意しておくべきである。そのようなフォーマットされたデータおよび/または命令が具現されうるコンピュータ可読媒体は、光学式、磁気式もしくは半導体記憶媒体のようなさまざまな形の物理的(非一時的)、不揮発性記憶媒体を含むがそれに限定されない。   One or more of the above components, blocks, processes or other functional components may be implemented through a computer program that controls the execution of the processor-based computing device of the system. The various functions disclosed in this article are behavioral, register transfers using any combination of hardware, firmware and / or as data and / or instructions embodied in various machine-readable or computer-readable media. It should be noted that logic components and / or other characteristics may be described. Computer readable media on which such formatted data and / or instructions can be implemented include various forms of physical (non-transitory), non-volatile storage media such as optical, magnetic or semiconductor storage media. Is not limited to this.

文脈がそうでないことを明確に要求するのでないかぎり、本記述および請求項を通じて、単語「有する」「含む」などは、排他的もしくは網羅的な意味ではなく包含的な意味に解釈されるものとする。すなわち、「……を含むがそれに限定されない」の意味である。単数または複数を使った単語は、それぞれ複数または単数をも含む。さらに、「本稿で」「以下で」「上記で」「下記で」および類似の意味の単語は、全体としての本願を指すのであって、本願のいかなる特定の部分を指すものでもない。単語「または」が二つ以上の項目のリストを参照して使われるとき、その単語は該単語の以下の解釈のすべてをカバーする:リスト中の項目の任意のもの、リスト中の項目のすべておよびリスト中の項目の任意の組み合わせ。   Unless the context clearly requires otherwise, the words “comprising”, “including”, and the like are to be interpreted in an inclusive rather than an exclusive or exhaustive sense throughout the description and claims. To do. In other words, it means “including but not limited to”. Words using the singular or plural number also include the plural or singular number respectively. Further, the words “in this article”, “below”, “above”, “below” and similar meanings refer to the present application as a whole, and not to any particular part of the present application. When the word “or” is used with reference to a list of two or more items, the word covers all of the following interpretations of the word: any of the items in the list, all of the items in the list And any combination of items in the list.

一つまたは複数の実装が、例として、個別的な実施形態を用いて記載されているが、一つまたは複数の実装は開示される実施形態に限定されないことは理解されるものとする。逆に、当業者に明白であろうさまざまな修正および類似の構成をカバーすることが意図されている。したがって、付属の請求項の範囲は、そのようなすべての修正および類似の構成を包含するような最も広い解釈を与えられるべきである。   Although one or more implementations are described by way of example with particular embodiments, it is to be understood that one or more implementations are not limited to the disclosed embodiments. On the contrary, it is intended to cover various modifications and similar arrangements that will be apparent to those skilled in the art. Accordingly, the scope of the appended claims should be accorded the broadest interpretation so as to encompass all such modifications and similar arrangements.

Claims (22)

低レイテンシー仮想ベースを生成する方法であって:
入力オーディオ信号を受領する段階と;
前記入力オーディオ信号の低周波数成分に対して高調波転移を実行して前記入力オーディオ信号の高調波を示す転移されたデータを生成する段階と;
前記転移されたデータに応答して仮想ベース信号を生成する段階と;
前記仮想ベース信号を前記入力オーディオ信号の遅延されたバージョンと組み合わせることによって向上されたオーディオ信号を生成する段階とを含み、
前記高調波転移は、2より大きい基本転移次数Bを使う組み合わされた転移を用い、それにより、前記高調波が、前記低周波数成分のそれぞれの二次高調波および少なくとも一つのより高次の高調波を含み、前記高調波のすべてが、非対称な分解窓を使う共通の時間から周波数領域への変換段によって決定される周波数領域の値と、非対称な合成窓を使う共通の周波数から時間領域への変換段によって決定されるその後の逆変換とに応答して生成される、
方法。
A method for generating a low latency virtual base comprising:
Receiving an input audio signal;
Performing a harmonic transition on the low frequency components of the input audio signal to generate the transferred data indicative of the harmonics of the input audio signal;
Generating a virtual base signal in response to the transferred data;
Combining the virtual base signal with a delayed version of the input audio signal to generate an enhanced audio signal;
The harmonic transition uses a combined transition that uses a fundamental transition order B greater than 2, whereby the harmonics are each second harmonic and at least one higher harmonic of the low frequency component. And all of the harmonics are frequency domain values determined by a common time to frequency domain conversion stage using an asymmetric decomposition window and a common frequency to time domain using an asymmetric synthesis window. Generated in response to a subsequent inverse transformation determined by the transformation stage of
Method.
前記基本転移次数Bが、4,8,16または32からなる群から選択される整数値である、請求項1記載の方法。 The method according to claim 1, wherein the basic transition order B is an integer value selected from the group consisting of 4, 8, 16 or 32. 前記入力オーディオ信号が、CQMFサブバンド信号のセットからの、臨界サンプリングされたまたは臨界近いサンプリングをされた低周波数オーディオを示す、サブバンド複素数値直交ミラー・フィルタ(CQMF)信号である、請求項1記載の方法。   The input audio signal is a subband complex valued quadrature mirror filter (CQMF) signal indicative of critically sampled or near critically sampled low frequency audio from a set of CQMF subband signals. The method described. 前記臨界サンプリングされたまたは臨界近いサンプリングをされた低周波数入力オーディオが、CQMFサブバンド信号のセットからの最低周波数帯域を示すCQMFチャネル0信号である、請求項3記載の方法。   4. The method of claim 3, wherein the critically sampled or near critically sampled low frequency input audio is a CQMF channel 0 signal indicating a lowest frequency band from a set of CQMF subband signals. 低周波数成分から転移されたデータを生成することを、非対称に窓掛けされ、0パディングされたサンプルを生成し、非対称に窓掛けされ、0パディングされた該サンプルに対して時間から周波数領域への変換を実行することによって前記入力オーディオ信号に対して周波数領域の過剰サンプリングされた変換を実行し、その後、前記時間から周波数領域への変換からの出力に対して非線形演算を実行して前記低周波数成分から前記転移されたデータを生成することによって行なう、段階と;
前記非線形演算によって処理された周波数成分から、第一の周波数帯域内の周波数成分の第一のセットおよび第二の周波数帯域内の周波数成分の第二のセットに分割することによって、二組の周波数成分を生成する段階と;
さらに、周波数成分の前記第一のセットに対して第一の周波数から時間領域への変換を実行し、周波数成分の前記第二のセットに対して第二の周波数から時間領域への変換を実行する段階であって、前記第一の周波数から時間領域への変換および前記第二の周波数から時間領域への変換のそれぞれは、前記時間から周波数領域への変換よりB倍小さな変換サイズをもつ、段階と;
さらに、前記周波数から時間領域への変換からのサンプルに対して、非対称な0パディングされた窓を適用する段階であって、前記非対称な0パディングされた窓は、前記入力オーディオ信号から生成される前記非対称に窓掛けされ、0パディングされたサンプルよりB倍短く、それにより二セットの転移されたデータを形成する段階とを含む、
請求項4記載の方法。
Generating data transferred from low frequency components produces asymmetrically windowed, zero-padded samples, and asymmetrically windowed, zero-padded samples from time to frequency domain Performing a frequency domain oversampled transform on the input audio signal by performing a transform, and then performing a non-linear operation on the output from the time to frequency domain transform to the low frequency Performing by generating said transferred data from components; and
From frequency components that are processed by said non-linear operation, by dividing the second set of the first set and a second frequency component in the frequency band of the frequency components within the first frequency band, two sets of Generating a frequency component;
In addition, a first frequency to time domain transformation is performed on the first set of frequency components, and a second frequency to time domain transformation is performed on the second set of frequency components. Each of the first frequency to time domain transform and the second frequency to time domain transform has a transform size that is B times smaller than the time to frequency domain transform. Stages;
And applying an asymmetric zero-padded window to the samples from the frequency to time domain transform, wherein the asymmetric zero-padded window is generated from the input audio signal. Comprising B times shorter than the asymmetrically windowed and zero-padded sample, thereby forming two sets of transferred data;
The method of claim 4.
前記第一の周波数帯域がCQMFチャネル0の周波数帯域であり、前記第二の周波数帯域がCQMFサブバンド信号のセットからのCQMFチャネル1の周波数帯域である、請求項5記載の方法。   6. The method of claim 5, wherein the first frequency band is a CQMF channel 0 frequency band and the second frequency band is a CQMF channel 1 frequency band from a set of CQMF subband signals. 前記転移されたデータに応答して仮想ベース信号を生成する段階が、前記二セットの転移されたデータの一方または両方に適用される分解フィルタバンクを含み、該分解フィルタバンクは対称的なフィルタの打ち切りされたバージョンを含む、請求項6記載の方法。   Generating a virtual base signal in response to the transferred data includes a decomposition filter bank applied to one or both of the two sets of transferred data, the decomposition filter bank being a symmetric filter The method of claim 6, comprising a truncated version. 前記分解フィルタバンクはナイキスト・フィルタバンクであり、対称的なフィルタの前記打ち切りされたバージョンは、そのフィルタの対称的な両半分の一方が除去されたフィルタである、請求項7記載の方法。   8. The method of claim 7, wherein the decomposition filter bank is a Nyquist filter bank and the truncated version of a symmetric filter is a filter with one of the symmetric halves of the filter removed. 前記分解フィルタバンクは八チャネル・ナイキスト・フィルタバンクまたは四チャネル・ナイキスト・フィルタバンクの一方を含み、前記フィルタの除去される対称的な両半分の一方は六つの係数を含む、請求項8記載の方法。   9. The decomposition filter bank comprises one of an eight channel Nyquist filter bank or a four channel Nyquist filter bank, and one of the symmetrical halves of the filter to be removed comprises six coefficients. Method. 前記入力オーディオ信号の前記遅延されたバージョンは、前記仮想ベース信号のレイテンシーより短いあらかじめ定義された時間期間だけ遅延されており、前記向上されたオーディオ信号は時間的に遅らされた仮想ベース信号を示す、請求項1記載の方法。   The delayed version of the input audio signal is delayed by a pre-defined time period that is shorter than the latency of the virtual base signal, and the enhanced audio signal is a time delayed virtual base signal. The method of claim 1, wherein: 前記あらかじめ定義された時間期間は、0サンプルないし1000サンプルの範囲から選択された値である、請求項10記載の方法。   The method of claim 10, wherein the predefined time period is a value selected from a range of 0 to 1000 samples. 前記入力オーディオCQMFチャネル0が、前処理ハイブリッド・フィルタバンク段の分解CQMFバンク出力から直接受領され、前記前処理ハイブリッド・フィルタバンク段の前記ナイキストフィルタバンクはバイパスされる、請求項記載の方法。 Wherein the input audio CQMF channel 0, is received directly from the decomposition CQMF bank output of the preprocessing hybrid filter bank stage, the Nyquist filter bank of the pretreatment hybrid filter bank stage is bypassed method of claim 8, . 低レイテンシー仮想ベースを生成する装置であって:
入力オーディオ信号を受領し、前記入力オーディオ信号の低周波数成分に対して高調波転移を実行して前記入力オーディオ信号の高調波を示す転移されたデータを生成する第一のコンポーネントと;
前記転移されたデータに応答して仮想ベース信号を生成し、前記仮想ベース信号を前記入力オーディオ信号の遅延されたバージョンと組み合わせて向上されたオーディオ信号を生成する第二のコンポーネントであって、前記高調波転移は、2より大きい基本転移次数Bを使う組み合わされた転移を用い、それにより、前記高調波が、前記低周波数成分のそれぞれの二次高調波および少なくとも一つのより高次の高調波を含み、前記高調波のすべてが、非対称な分解窓を使う共通の時間から周波数領域への変換段によって決定される周波数領域の値と、非対称な合成窓を使う共通の周波数から時間領域への変換段によって決定されるその後の逆変換とに応答して生成される、
装置。
A device that generates a low-latency virtual base:
A first component that receives an input audio signal and performs a harmonic transition on a low frequency component of the input audio signal to generate transferred data indicative of harmonics of the input audio signal;
A second component for generating a virtual base signal in response to the transferred data and combining the virtual base signal with a delayed version of the input audio signal to generate an enhanced audio signal, Harmonic transitions use a combined transition that uses a fundamental transition order B greater than 2, so that the harmonics are each second harmonic and at least one higher harmonic of the low frequency component. All of the harmonics are frequency domain values determined by a common time to frequency domain conversion stage using an asymmetric decomposition window and a common frequency to time domain using an asymmetric synthesis window. Generated in response to a subsequent inverse transformation determined by the transformation stage,
apparatus.
前記基本転移次数Bが、4,8,16または32からなる群から選択される整数値である、請求項13記載の装置。 The apparatus of claim 13, wherein the basic transition order B is an integer value selected from the group consisting of 4, 8, 16 or 32. 前記入力オーディオ信号が、CQMFサブバンド信号のセットからの、臨界サンプリングされたまたは臨界近いサンプリングをされた低周波数オーディオを示す、サブバンド複素数値直交ミラー・フィルタ(CQMF)信号である、請求項13記載の装置。   14. The input audio signal is a subband complex valued quadrature mirror filter (CQMF) signal indicative of critically sampled or near critically sampled low frequency audio from a set of CQMF subband signals. The device described. 前記臨界サンプリングされたまたは臨界近いサンプリングをされた低周波数オーディオが、CQMFサブバンド信号のセットからの最低周波数帯域を示すCQMFチャネル0信号である、請求項15記載の装置。   16. The apparatus of claim 15, wherein the critically sampled or near critically sampled low frequency audio is a CQMF channel 0 signal indicating a lowest frequency band from a set of CQMF subband signals. 低周波数成分から転移されたデータを生成することを、非対称に窓掛けされ、0パディングされたサンプルを生成し、非対称に窓掛けされ、0パディングされた該サンプルに対して時間から周波数領域への変換を実行することによって前記入力オーディオ信号に対して周波数領域の過剰サンプリングされた変換を実行し、その後、前記時間から周波数領域への変換からの出力に対して非線形演算を実行して前記低周波数成分から前記転移されたデータを生成することによって行なう、第三のコンポーネントと;
前記非線形演算によって処理された周波数成分から、第一の周波数帯域内の周波数成分の第一のセットおよび第二の周波数帯域内の周波数成分の第二のセットに分割することによって、二組の周波数成分を生成する第四のコンポーネントと;
さらに、周波数成分の前記第一のセットに対して第一の周波数から時間領域への変換を実行し、周波数成分の前記第二のセットに対して第二の周波数から時間領域への変換を実行する第五のコンポーネントであって、前記第一の周波数から時間領域への変換および前記第二の周波数から時間領域への変換のそれぞれは、前記時間から周波数領域への変換よりB倍小さな変換サイズをもつ、第五のコンポーネントと;
前記周波数から時間領域への変換からのサンプルに対して、非対称な0パディングされた窓を適用する第六のコンポーネントであって、前記非対称な0パディングされた窓は、前記入力オーディオ信号から生成される前記非対称に窓掛けされ、0パディングされたサンプルよりB倍短く、それにより二セットの転移されたデータを形成する第六のコンポーネントとをさらに有する、
請求項16記載の装置。
Generating data transferred from low frequency components produces asymmetrically windowed, zero-padded samples, and asymmetrically windowed, zero-padded samples from time to frequency domain Performing a frequency domain oversampled transform on the input audio signal by performing a transform, and then performing a non-linear operation on the output from the time to frequency domain transform to the low frequency A third component, by generating the transferred data from the component;
From frequency components that are processed by said non-linear operation, by dividing the second set of the first set and a second frequency component in the frequency band of the frequency components within the first frequency band, two sets of A fourth component that generates frequency components;
In addition, a first frequency to time domain transformation is performed on the first set of frequency components, and a second frequency to time domain transformation is performed on the second set of frequency components. Each of the first frequency to time domain transform and the second frequency to time domain transform has a transform size that is B times smaller than the time to frequency domain transform. And a fifth component;
A sixth component that applies an asymmetric zero-padded window to samples from the frequency to time domain transform, wherein the asymmetric zero-padded window is generated from the input audio signal; A sixth component that is B times shorter than the asymmetrically windowed and zero-padded sample, thereby forming two sets of transferred data;
The apparatus of claim 16.
前記第一の周波数帯域がCQMFチャネル0の周波数帯域であり、前記第二の周波数帯域がCQMFサブバンド信号のセットからのCQMFチャネル1の周波数帯域である、請求項17記載の装置であって、
前記転移されたデータに応答して仮想ベース信号を生成することが、前記二セットの転移されたデータの一方または両方に適用される分解フィルタバンクを含み、該分解フィルタバンクは対称的なフィルタの打ち切りされたバージョンを含む、装置。
18. The apparatus of claim 17, wherein the first frequency band is a frequency band of CQMF channel 0 and the second frequency band is a frequency band of CQMF channel 1 from a set of CQMF subband signals.
Generating a virtual base signal in response to the transferred data includes a decomposition filter bank applied to one or both of the two sets of transferred data, the decomposition filter bank being a symmetrical filter bank. A device that contains a truncated version.
前記分解フィルタバンクはナイキスト・フィルタバンクであり、対称的なフィルタの前記打ち切りされたバージョンは、そのフィルタの対称的な両半分の一方が除去されたフィルタである、請求項18記載の装置。   19. The apparatus of claim 18, wherein the decomposition filter bank is a Nyquist filter bank and the truncated version of a symmetric filter is a filter with one of the symmetric halves of the filter removed. 前記分解フィルタバンクは八チャネル・ナイキスト・フィルタバンクまたは四チャネル・ナイキスト・フィルタバンクの一方を含み、前記フィルタの除去される対称的な両半分の一方は六つの係数を含む、請求項19記載の装置。   20. The decomposition filter bank comprises one of an eight channel Nyquist filter bank or a four channel Nyquist filter bank, and one of the symmetrical halves removed of the filter comprises six coefficients. apparatus. 前記入力オーディオ信号の、前記仮想ベース信号のレイテンシーより短いあらかじめ定義された時間期間だけ遅延されたバージョンを生成するタイミング・コンポーネントと;
前記仮想ベース信号を前記遅延された入力オーディオ信号と組み合わせて、時間的に遅らされた仮想ベース信号を示す向上されたオーディオ信号を生成する混合コンポーネントとをさらに有する、
請求項13記載の装置。
A timing component that generates a version of the input audio signal delayed by a predefined time period shorter than the latency of the virtual base signal;
A mixing component that combines the virtual base signal with the delayed input audio signal to generate an enhanced audio signal indicative of the temporally delayed virtual base signal;
The apparatus of claim 13.
前記CQMFチャネル0を、前処理ハイブリッド・フィルタバンクの分解CQMFバンク出力から直接受領し、前記前処理ハイブリッド・フィルタバンク段の前記ナイキストフィルタバンクをバイパスするインターフェース・コンポーネントをさらに有する、請求項19記載の装置。 The CQMF channel 0, received directly from the decomposition CQMF bank output of the preprocessing hybrid filter bank stage, further comprising an interface component that bypasses the Nyquist filter bank of the pretreatment hybrid filter bank stage, claim 19 The device described.
JP2015536058A 2012-10-15 2013-09-27 System and method for reducing latency in a virtual base system based on a transformer Active JP5894347B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/652,023 2012-10-15
US13/652,023 US8971551B2 (en) 2009-09-18 2012-10-15 Virtual bass synthesis using harmonic transposition
PCT/EP2013/070262 WO2014060204A1 (en) 2012-10-15 2013-09-27 System and method for reducing latency in transposer-based virtual bass systems

Publications (2)

Publication Number Publication Date
JP2015531575A JP2015531575A (en) 2015-11-02
JP5894347B2 true JP5894347B2 (en) 2016-03-30

Family

ID=49293633

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015536058A Active JP5894347B2 (en) 2012-10-15 2013-09-27 System and method for reducing latency in a virtual base system based on a transformer

Country Status (4)

Country Link
EP (2) EP2907324B1 (en)
JP (1) JP5894347B2 (en)
CN (1) CN104704855B (en)
WO (1) WO2014060204A1 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105280189B (en) * 2015-09-16 2019-01-08 深圳广晟信源技术有限公司 The method and apparatus that bandwidth extension encoding and decoding medium-high frequency generate
BR112022002100A2 (en) 2019-08-08 2022-04-12 Boomcloud 360 Inc Adaptable non-linear filter banks for psychoacoustic frequency range extension
US20230217166A1 (en) * 2020-03-20 2023-07-06 Dolby International Ab Bass enhancement for loudspeakers
WO2023280356A1 (en) * 2021-07-09 2023-01-12 Soundfocus Aps Method and transducer array system for directionally reproducing an input audio signal
EP4367906A1 (en) * 2021-07-09 2024-05-15 Soundfocus Aps Method and loudspeaker system for processing an input audio signal
JP2023130644A (en) * 2022-03-08 2023-09-21 アルプスアルパイン株式会社 Acoustic signal processing device, acoustic system, and method for enhancing low-pitched sound feeling

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE0101175D0 (en) 2001-04-02 2001-04-02 Coding Technologies Sweden Ab Aliasing reduction using complex-exponential-modulated filter banks
TWI339991B (en) * 2006-04-27 2011-04-01 Univ Nat Chiao Tung Method for virtual bass synthesis
US8036903B2 (en) * 2006-10-18 2011-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
JP4983694B2 (en) * 2008-03-31 2012-07-25 株式会社Jvcケンウッド Audio playback device
KR101256808B1 (en) * 2009-01-16 2013-04-22 돌비 인터네셔널 에이비 Cross product enhanced harmonic transposition
CN101505443B (en) * 2009-03-13 2013-12-11 无锡中星微电子有限公司 Virtual supper bass enhancing method and system
GB0906594D0 (en) * 2009-04-17 2009-05-27 Sontia Logic Ltd Processing an audio singnal
KR101613684B1 (en) * 2009-12-09 2016-04-19 삼성전자주식회사 Apparatus for enhancing bass band signal and method thereof
US8638953B2 (en) * 2010-07-09 2014-01-28 Conexant Systems, Inc. Systems and methods for generating phantom bass
PL2596497T3 (en) * 2010-07-19 2014-10-31 Dolby Int Ab Processing of audio signals during high frequency reconstruction
JP5375861B2 (en) * 2011-03-18 2013-12-25 ヤマハ株式会社 Audio reproduction effect adding method and apparatus
CN102354500A (en) * 2011-08-03 2012-02-15 华南理工大学 Virtual bass boosting method based on harmonic control
TWI575962B (en) * 2012-02-24 2017-03-21 杜比國際公司 Low delay real-to-complex conversion in overlapping filter banks for partially complex processing

Also Published As

Publication number Publication date
EP2907324B1 (en) 2016-11-09
WO2014060204A1 (en) 2014-04-24
EP2720477A1 (en) 2014-04-16
EP2907324A1 (en) 2015-08-19
JP2015531575A (en) 2015-11-02
CN104704855A (en) 2015-06-10
CN104704855B (en) 2016-08-24
EP2720477B1 (en) 2016-03-02

Similar Documents

Publication Publication Date Title
US9407993B2 (en) Latency reduction in transposer-based virtual bass systems
JP7206318B2 (en) Systems and methods for generating high frequency components of a signal
JP5894347B2 (en) System and method for reducing latency in a virtual base system based on a transformer
RU2402872C2 (en) Efficient filtering with complex modulated filterbank
JP4527716B2 (en) A novel processing and adaptive time signaling method based on complex exponential modulation filter bank
KR101773631B1 (en) Band enhancement method, band enhancement apparatus, program, integrated circuit and audio decoder apparatus
SG183966A1 (en) Improved magnitude response and temporal alignment in phase vocoder based bandwidth extension for audio signals
JP2012500410A (en) Parametric stereo conversion system and method
JP7260101B2 (en) Information processing device, mixing device using the same, and latency reduction method
CN111988726A (en) Method and system for synthesizing single sound channel by stereo
US11488574B2 (en) Method and system for implementing a modal processor
JP2024510177A (en) Audio decorrelator, processing system and method for decorrelating audio signals
CN117157706A (en) Audio decorrelator, processing system and method for decorrelating audio signals

Legal Events

Date Code Title Description
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20151007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151013

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160225

R150 Certificate of patent or registration of utility model

Ref document number: 5894347

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250