JP5894347B2 - System and method for reducing latency in a virtual base system based on a transformer - Google Patents
System and method for reducing latency in a virtual base system based on a transformer Download PDFInfo
- Publication number
- JP5894347B2 JP5894347B2 JP2015536058A JP2015536058A JP5894347B2 JP 5894347 B2 JP5894347 B2 JP 5894347B2 JP 2015536058 A JP2015536058 A JP 2015536058A JP 2015536058 A JP2015536058 A JP 2015536058A JP 5894347 B2 JP5894347 B2 JP 5894347B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- cqmf
- virtual base
- signal
- filter bank
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 65
- 238000000354 decomposition reaction Methods 0.000 claims description 72
- 230000005236 sound signal Effects 0.000 claims description 57
- 230000007704 transition Effects 0.000 claims description 47
- 230000009466 transformation Effects 0.000 claims description 35
- 230000004044 response Effects 0.000 claims description 31
- 238000006243 chemical reaction Methods 0.000 claims description 29
- 230000003111 delayed effect Effects 0.000 claims description 22
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000002156 mixing Methods 0.000 claims description 2
- 238000011914 asymmetric synthesis Methods 0.000 claims 2
- 238000012545 processing Methods 0.000 description 48
- 230000015572 biosynthetic process Effects 0.000 description 33
- 238000003786 synthesis reaction Methods 0.000 description 33
- 230000008569 process Effects 0.000 description 21
- 108010074506 Transfer Factor Proteins 0.000 description 17
- 230000006870 function Effects 0.000 description 17
- 230000000116 mitigating effect Effects 0.000 description 16
- 230000009467 reduction Effects 0.000 description 16
- 238000012546 transfer Methods 0.000 description 15
- 238000005070 sampling Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 6
- 239000002131 composite material Substances 0.000 description 5
- 230000001934 delay Effects 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 102000003712 Complement factor B Human genes 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000011946 reduction process Methods 0.000 description 4
- 230000017105 transposition Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- RVRCFVVLDHTFFA-UHFFFAOYSA-N heptasodium;tungsten;nonatriacontahydrate Chemical compound O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[W].[W].[W].[W].[W].[W].[W].[W].[W].[W].[W] RVRCFVVLDHTFFA-UHFFFAOYSA-N 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 108090000056 Complement factor B Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001394 metastastic effect Effects 0.000 description 1
- 206010061289 metastatic neoplasm Diseases 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000135 prohibitive effect Effects 0.000 description 1
- 238000005316 response function Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/03—Synergistic effects of band splitting and sub-band processing
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
- Auxiliary Devices For Music (AREA)
Description
〈関連出願への相互参照〉
本願は、ここに参照によってその全体において組み込まれる2012年10月15日に出願された米国仮特許出願第13/652,023号への優先権を主張するものである。
<Cross-reference to related applications>
This application claims priority to US Provisional Patent Application No. 13 / 652,023, filed October 15, 2012, which is hereby incorporated by reference in its entirety.
〈技術分野〉
一つまたは複数の実施形態は、転移器(transposer)に基づくオーディオ信号処理に、より詳細には転移器に基づく仮想ベース合成システムにおけるレイテンシーを低減することに関する。
<Technical field>
One or more embodiments relate to audio signal processing based on a transposer, and more particularly to reducing latency in a virtual-based synthesis system based on a transposer.
ベース合成(bass synthesis)とは、知覚されるベースを向上させるために信号の低周波数範囲に成分を追加する方法をいう。これらの方法のうち、サブ・ベース(sub-bass)合成技法は、対象となるオーディオ・コンテンツに存在する最低周波数範囲を延長し、改善するために、信号の既存の部分より下の低周波数成分を作り出す。もう一つの方法は、聞こえないベース範囲(たとえば小さなスピーカーを通じて再生される低ピッチのベース)から可聴な倍音を生成し、それにより倍音を、最終的にはピッチをも可聴にしてベース応答を改善する仮想ピッチ・アルゴリズムを使う。 Bass synthesis refers to a method of adding components to the low frequency range of a signal to improve the perceived base. Of these methods, sub-bass synthesis techniques are low frequency components below the existing portion of the signal to extend and improve the lowest frequency range present in the audio content of interest. To produce. Another method is to generate audible overtones from an inaudible bass range (for example, a low-pitch bass played through a small speaker), thereby improving the bass response by making the overtones and eventually the pitch audible. Use a virtual pitch algorithm.
仮想ベース合成は、低い端のベース周波数を物理的に再現できない小さなスピーカーで再生されるときに、オーディオにおいてベース内容の知覚されるレベルを増大させる仮想ピッチ方法である。この方法は、たとえ基音および第一高調波自身が欠けているときでも上の倍音から人間の聴覚系が低いピッチを推定できるという、「幻の基音(missing fundamental)」という音響心理学上の観察に基づく。基本的な機能方法は、オーディオに存在するベース周波数を解析し、欠けている低周波数の知覚を助ける可聴の上の倍音を生成するというものである。仮想ベースの主たるフィーチャーは、デバイスの低周波数ロールオフより下(たとえば150Hzより下)の周波数について上の倍音を合成することによって、小さなスピーカーをもつデバイスでの知覚されるベース応答を向上させるというものである。耳に聞こえない信号成分は、複数の転移因子を使ってより高い可聴の周波数に転移され(倍音)、それにエネルギー調整が続く。仮想ベース合成は、ヘッドホン再生またはフルレンジのスピーカーでの再生のために知覚されるベースを増大させもしうる。図1Aは、周波数成分の非可聴範囲10および該非可聴範囲より上の周波数成分の可聴範囲を有するオーディオ信号の周波数‐振幅スペクトルを示している。非可聴範囲10における周波数成分の高調波転移(harmonic transposition)は、可聴範囲の部分11において転移された周波数成分を生成することができ、これが再生中のオーディオ信号のベース内容の知覚されるレベルを向上させることができる。そのような高調波転移は、入力オーディオ信号の各有意な周波数成分に複数の転移因子を適用して、該成分の複数の高調波を生成することを含んでいてもよい。
Virtual base synthesis is a virtual pitch method that increases the perceived level of base content in audio when played on a small speaker that cannot physically reproduce the lower end base frequency. This method is a psychoacoustic observation that the human auditory system can estimate a low pitch from the upper harmonics even when the fundamental and the first harmonic itself are missing. based on. The basic method of function is to analyze the base frequencies present in the audio and generate audible overtones that help perceive the missing low frequencies. The main feature of the virtual base is to improve the perceived base response in devices with small speakers by synthesizing overtones for frequencies below the device's low frequency roll-off (eg below 150Hz). It is. Inaudible signal components are transferred to higher audible frequencies (overtones) using multiple transfer factors, followed by energy adjustment. Virtual base synthesis may also increase the perceived base for headphone playback or playback on a full range speaker. FIG. 1A shows a frequency-amplitude spectrum of an audio signal having a
レガシー仮想ベース・システムを利用するある種のオーディオ処理システムでは、周波数転移関数に関連する遅延またはレイテンシーがある種の用途のためには過大になることがある。たとえば、1025サンプルのレイテンシーをもつデジタル・オーディオ処理システムは、追加的な3200サンプルの遅延を加えるレガシー仮想ベース・システムを使ってもよい。これは、48kHzのサンプリング周波数(fs)を与えられたとすると、88ミリ秒を超える全遅延を引き起こすことがある。この量のレイテンシーは一般に問題であり、ゲームや遠隔通信用途にとっては禁止的でさえある。そうした用途では、約100ミリ秒のレイテンシーが可聴な信号遅延の点で気づかれうるようになりはじめる。 In certain audio processing systems that utilize legacy virtual base systems, delays or latencies associated with frequency transfer functions may be excessive for certain applications. For example, a digital audio processing system with a 1025 sample latency may use a legacy virtual base system that adds an additional 3200 sample delay. This can cause a total delay in excess of 88 milliseconds given a sampling frequency (f s ) of 48 kHz. This amount of latency is generally a problem and is even prohibitive for gaming and telecommunications applications. In such applications, a latency of about 100 milliseconds begins to become noticeable in terms of audible signal delay.
レガシー仮想ベース・システムにおいて使われる伝統的な転移器システムは、それぞれ時間から周波数への変換および周波数から時間への変換の分解段および合成段のために、対称的な時間領域窓を使う。図1Bは、二次の転移器、すなわち二次高調波を生成する転移器によって課される遅延を図的に示している。時間プロット100に示されるように、様式的な対称的な分解窓の一つの中心が時間ゼロ基準として選ばれ、新たな入力サンプル104が、分解フェーズ102において時刻t0から、分解窓の時間ストライドSAを想定して、加えられることができる。時間プロット110は、転移器の時間伸張二重性(duality)を示している。ここで、t0は合成フェーズ112において2t0に伸張される。
Traditional transformer systems used in legacy virtual base systems use symmetric time-domain windows for the time-to-frequency conversion and frequency-to-time conversion decomposition and synthesis stages, respectively. FIG. 1B graphically illustrates the delay imposed by a second order transformer, i.e., a second order harmonic generator. As shown in
図1Bに示した例示的なプロセスについての全分解/合成チェーン遅延Dtsは、Lは転移器窓サイズ、SAは分解時間ストライドもしくはホップ・サイズであるとして、下記の式(1)のように表わせる。 The total decomposition / synthesis chain delay D ts for the exemplary process shown in FIG. 1B is given by Equation (1) below, where L is the transformer window size and S A is the decomposition time stride or hop size: It can be expressed as
Dts=L/2+2(L/2−SA)=3L/2−2SA (1)
HQMF(Hybrid Quadrature Mirror Filter[ハイブリッド直交ミラー・フィルタ])バンクに基づくオーディオ処理システムでは、CQMF(Complex Quadrature Mirror Filter[複素直交ミラー・フィルタ])分解段への入力信号およびCQMF合成段からの出力信号は一般に、いずれも同じサンプリング周波数fsをもつ。ここで、fsは通例44.1または48kHzに設定される。仮想ベース・プロセスへの入力信号サンプリング・レートは、fs/64であってもよい。システムは通例、64チャネルのCQMFバンクからのみの第一のCQMF信号を処理するからである。64チャネル以外のCQMFサイズが使用されることもできることを注意しておく。レガシー仮想ベース処理システムからの転移された出力は、因子2の基本転移因子(base transposition factor)を使う組み合わされた転移関数のため、2fs/64のサンプリング周波数をもつ。その結果、因子2の帯域幅拡張が得られる。組み合わされた転移器では、上記の基本転移因子は、源変換ビン(または周波数帯域)が目標変換ビン(または周波数帯域)に一対一の関係でマッピングされる因子である。すなわち、源から目標へのビンのマッピングにおいて補間や間引きは関わらない。基本転移因子は、分解窓と合成窓の時間ストライドの間の関係をも支配する。より具体的には、合成時間ストライドは、分解時間ストライドに基本転移因子を乗算したものに等しい。64チャネルのCQMFに基づくシステムからの出力サンプルにおける遅延は、L=64およびSA=4の場合、
Dts={3L/2−2SA)・64/2=2816サンプル (2)
となる。
D ts = L / 2 + 2 (L / 2−S A ) = 3L / 2−2S A (1)
In an audio processing system based on an HQMF (Hybrid Quadrature Mirror Filter) bank, the input signal to the CQMF (Complex Quadrature Mirror Filter) decomposition stage and the output signal from the CQMF synthesis stage Generally have the same sampling frequency f s . Here, f s is typically set to 44.1 or 48 kHz. The input signal sampling rate to the virtual base process may be f s / 64. This is because the system typically processes the first CQMF signal only from a 64 channel CQMF bank. Note that CQMF sizes other than 64 channels can also be used. The transferred output from the legacy virtual base processing system has a sampling frequency of 2f s / 64 due to the combined transfer function using a
D ts = {3L / 2−2S A ) ・ 64/2 = 2816 samples (2)
It becomes.
この遅延に加えて、二つの仮想ベース出力CQMFサブバンド信号のナイキスト・フィルタバンク分解段処理からの遅延が加えられる。この遅延は、384サンプルのオーダーであってもよく、よって、この例示的な従来技術のレガシー仮想ベース処理システムについての、2816+384=3200サンプルの全遅延を与える。 In addition to this delay, a delay from the Nyquist filter bank decomposition stage processing of the two virtual base output CQMF subband signals is added. This delay may be on the order of 384 samples, thus giving a total delay of 2816 + 384 = 3200 samples for this exemplary prior art legacy virtual-based processing system.
レガシー仮想ベース・システムによって課されるレイテンシーへの一つの解決策は、高調波生成器のような実際の処理回路を、たとえば高調波転移器を代替的なコンポーネントで置き換えることによって、変えることである。しかしながら、これは多大なコストおよび複雑さをシステムに加える可能性があり、オーディオ品質に負の影響を与えることがありうる。 One solution to the latency imposed by legacy virtual base systems is to change the actual processing circuit, such as a harmonic generator, for example by replacing the harmonic transformer with an alternative component . However, this can add significant cost and complexity to the system and can negatively impact audio quality.
背景セクションで論じられた主題は、単に背景セクションにおけるその言及の結果として、従来技術であると想定されるべきではない。同様に、背景セクションにおいて言及されるまたは背景セクションの主題に関連する問題は、従来技術において以前に認識されていたと想定されるべきではない。背景セクションの主題は単に種々のアプローチを表わしているのであって、それ自身も発明であることもありうる。 The subject matter discussed in the background section should not be assumed to be prior art, merely as a result of that reference in the background section. Similarly, problems mentioned in the background section or related to the subject matter of the background section should not be assumed to have been previously recognized in the prior art. The subject matter of the background section is merely representative of various approaches, and may itself be an invention.
諸実施形態は、オーディオ信号の低周波数成分に対して高調波転移を実行して高調波を示す転移されたデータを生成する仮想ベース処理システムにおけるレイテンシー低減システムを含む。高調波転移プロセスは、2より大きい基本転移因子を使い、非対称的な分解および合成窓を使う変換および逆変換段によって決定される周波数領域の値に応答して前記高調波を生成する。仮想ベース信号を、打ち切りされたプロトタイプ・フィルタを有するナイキスト分解フィルタバンクの使用を通じて、遅延されたオーディオ信号と組み合わせることによって、向上されたオーディオ信号が生成される。高調波転移プロセスによって引き起こされるレイテンシーをさらに短縮するために、仮想ベース信号は、前記遅延されたオーディオ信号を、前記オーディオ信号と組み合わせるときに、定義された時間期間だけ遅らせることが許容されてもよい。 Embodiments include a latency reduction system in a virtual base processing system that performs harmonic transitions on low frequency components of an audio signal to produce transferred data indicative of harmonics. The harmonic transition process uses a fundamental transition factor greater than 2 and generates the harmonics in response to frequency domain values determined by transformation and inverse transformation stages using asymmetric decomposition and synthesis windows. An improved audio signal is generated by combining the virtual base signal with the delayed audio signal through the use of a Nyquist decomposition filter bank with a truncated prototype filter. In order to further reduce the latency caused by the harmonic transition process, a virtual base signal may be allowed to delay by a defined time period when combining the delayed audio signal with the audio signal. .
諸実施形態は、入力オーディオ信号の低周波数成分に対して高調波転移を実行して高調波を示す転移されたデータを生成する仮想ベース処理システムにおけるレイテンシーを低減する方法を含む。高調波転移は、2より大きい整数値の基本転移因子を使う。該プロセスは、時間から周波数領域への変換および逆の周波数から時間領域への変換のために非対称的な分解および合成窓の使用を通じた時間から周波数領域への変換段およびその後の逆の周波数から時間領域への変換段によって決定される周波数領域の値に応答して前記高調波を生成する。入力オーディオ信号はサブバンド化されたCQMF(複素数値の直交ミラー・フィルタ)信号であり、入力オーディオ信号のサンプルは、低周波数成分を示す臨界サンプリングされたオーディオを生成するために前処理されてもよい。 Embodiments include a method for reducing latency in a virtual base processing system that performs harmonic transitions on low frequency components of an input audio signal to generate transferred data indicative of harmonics. Harmonic transitions use fundamental transition factors with integer values greater than 2. The process consists of a time-to-frequency domain transformation stage and subsequent inverse frequencies through the use of asymmetric decomposition and synthesis windows for time-to-frequency domain transformation and inverse frequency-to-time domain transformation. The harmonics are generated in response to frequency domain values determined by the time domain conversion stage. The input audio signal is a subbanded CQMF (complex-valued quadrature mirror filter) signal, and samples of the input audio signal may be preprocessed to produce critically sampled audio that exhibits low frequency components. Good.
ある実施形態では、本方法は、分解フィルタバンクまたは変換を通じて入力オーディオ信号を処理して、低周波数成分から一組の分解サブバンド信号または周波数ビンを与え、基本転移因子Bおよび転移因子Tを使って一組の合成サブバンド信号または周波数ビンを計算し、合成フィルタバンクまたは変換を通じて前記分解サブバンド信号または周波数ビンを処理して前記一組の合成サブバンド信号から高周波数成分を生成する。これは、転移を行なう標準的な方法を表わす。すなわち、順FFT変換を実行し、それに変換ビン・マッピングを含む非線形処理が続き、次いで、逆FFT変換を実行する。本方法はさらに、転移されたデータに応答して仮想ベース信号を生成し、前記仮想ベース・オーディオ出力信号に一つまたは複数の分解フィルタバンクを適用することによって前記仮想ベース信号を入力オーディオ信号と組み合わせることによって、向上されたオーディオ信号を生成することを含んでいてもよい。ここで、前記分解フィルタバンクは、定義された数のフィルタ係数が除去されている打ち切りされたプロトタイプ・フィルタを含む。本方法はさらに、前記入力オーディオ信号を、前記仮想ベース・システムの前記処理遅延が含意するはずのものより短いあらかじめ定義された時間期間だけ遅延させたものと組み合わせることによって、前記入力オーディオ信号に対してあらかじめ定義された時間期間だけ前記仮想ベース信号を遅らせて、遅延された入力サブバンド・サンプルと組み合わされた、時間的に遅らされた仮想ベース処理されたサブバンド・サンプルを含む向上されたオーディオ信号を生成することを含んでいてもよい。 In one embodiment, the method processes the input audio signal through a decomposition filter bank or transform to provide a set of decomposition subband signals or frequency bins from the low frequency components, and uses a basic transfer factor B and a transfer factor T. A set of synthesized subband signals or frequency bins and processing the decomposed subband signals or frequency bins through a synthesis filter bank or transform to generate high frequency components from the set of synthesized subband signals. This represents a standard way of performing the transition. That is, forward FFT transformation is performed, followed by non-linear processing including transformation bin mapping, and then inverse FFT transformation. The method further generates a virtual base signal in response to the transferred data and applies the virtual base signal to the input audio signal by applying one or more decomposition filter banks to the virtual base audio output signal. Combining may include generating an enhanced audio signal. Here, the decomposition filter bank includes a truncated prototype filter from which a defined number of filter coefficients have been removed. The method further includes combining the input audio signal with the input audio signal by delaying the input audio signal by a predefined time period shorter than what the processing delay of the virtual base system would imply. Improved including a time-delayed virtual base processed subband sample combined with a delayed input subband sample, delaying the virtual base signal by a predefined time period It may include generating an audio signal.
いくつかの実施形態のもとでの基本転移因子は、入力オーディオ信号を、周波数領域において、基本転移因子の値に比例する度合いだけ延長して、転移されたオーディオ信号を生成し、この基本転移因子は4から16までの間の偶数の整数値であってもよい。ある実施形態では、転移器CQMF出力サブバンドに対して作用する分解フィルタバンクは、8チャネル・ナイキスト・フィルタバンクおよび4チャネル・ナイキスト・フィルタバンクを有しており、定義された数の除去されるプロトタイプ・フィルタ係数は、6個の係数である。あるさらなる実施形態では、入力CQMF信号は、先行するCQMF分解バンク・チャネル0出力から直接ルーティングされ、よってその後のナイキスト・フィルタバンク段をバイパスし、よって関係する遅延を回避する。
A basic transfer factor under some embodiments extends the input audio signal in the frequency domain by a degree proportional to the value of the basic transfer factor to produce a transferred audio signal, which is the basic transfer factor. The factor may be an even integer value between 4 and 16. In one embodiment, the decomposition filter bank acting on the transformer CQMF output subband comprises an 8-channel Nyquist filter bank and a 4-channel Nyquist filter bank, with a defined number of rejects. The prototype filter coefficients are 6 coefficients. In certain further embodiments, the input CQMF signal is routed directly from the preceding CQMF
本方法の諸実施形態はさらに、(分解時間ストライドを使って)定義されたサンプル周波数で窓掛けされ、0パディングされたサンプルを生成することによって、入力オーディオ信号に対して周波数領域の過剰サンプリングされた変換を実行することによって、低周波数成分を生成することを含んでいてもよい。仮想ベース信号を遅延された入力オーディオ信号と組み合わせるときのあらかじめ定義された時間期間は、0サンプルないし1000サンプルの範囲から選択される値であってもよい。仮想ベース信号は、向上されたオーディオ信号の知覚可能な劣化なしに、広帯域入力オーディオ信号を20msまで遅らせることを許容されうるからである。ある実施形態では、非対称な分解および合成窓は、分解窓のより長い部分が過去の入力サンプルのほうに伸張され、合成窓のより長い部分が将来の出力サンプルのほうに伸張されるよう構成される。 Embodiments of the method are further oversampled in the frequency domain relative to the input audio signal by generating samples that are windowed and zero-padded at a defined sample frequency (using a decomposition time stride). Generating a low frequency component by performing the conversion. The predefined time period when combining the virtual base signal with the delayed input audio signal may be a value selected from the range of 0 samples to 1000 samples. This is because the virtual base signal can be allowed to delay the wideband input audio signal to 20 ms without perceptible degradation of the improved audio signal. In some embodiments, the asymmetric decomposition and synthesis window is configured such that a longer portion of the decomposition window is stretched toward past input samples and a longer portion of the synthesis window is stretched toward future output samples. The
以下の図面では、同様の参照符号が同様の要素を指すために使用される。以下の図面はさまざまな例を描いているが、一つまたは複数の実装は、図面に描かれる例に限定されるものではない。
転移器に基づく仮想ベース・システムにおけるレイテンシー(latency)およびアルゴリズム遅延(algorithmic delays)を低減させるためのシステムおよび方法の実施形態が記述される。そのようなシステムおよび方法は、より高次の基本転移因子、低レイテンシーの非対称的な変換窓、打ち切りされたナイキスト・プロトタイプ・フィルタ、もとのオーディオ信号に対する時間的に遅らされた(time lagged)仮想ベース信号および先行するハイブリッド・フィルタバンク段におけるバイパスされたナイキスト分解フィルタバンクを利用する。 Embodiments of systems and methods are described for reducing latency and algorithmic delays in a virtual-based system based on a transformer. Such systems and methods are time delayed with respect to higher order fundamental transfer factors, low latency asymmetric transformation windows, truncated Nyquist prototype filters, and original audio signals. ) Utilize the virtual base signal and the bypassed Nyquist decomposition filter bank in the preceding hybrid filter bank stage.
請求項を含む本開示を通じて、信号またはデータ「に対して」動作を実行する(たとえば該信号またはデータをフィルタリングする、スケーリングする、変換するまたはそれに利得を適用すること)という表現は、広義に、該信号またはデータに対して直接、あるいは該信号またはデータの処理されたバージョンに対して(たとえば、該動作の実行に先立って予備的なフィルタリングまたは前処理を受けた該信号のバージョンに対して)該動作を実行することを表すために使われる。「転移器(transposer)」という表現は、広義に、利用可能な入力信号スペクトルの一部または全体について、実数または複素数値の入力信号のピッチ・シフトまたは時間伸張を実行するアルゴリズム・ユニットまたは装置を表わすために使われる。「転移器」「高調波転移器」「位相ボコーダー」「高周波数生成器」または「高調波生成器」という表現は交換可能に使われることがある。「システム」という表現は、広義で、デバイス、システムまたはサブシステムを表すために使われる。たとえば、デコーダを実装するサブシステムがデコーダ・システムと称されることがあり、そのようなサブシステムを含むシステム(たとえば、複数入力に応答してX個の出力信号を生成するシステム。ここでは、該サブシステムが入力のうちのM個を生成し、残りのX−M個の入力は外部ソースから受け取られる)もデコーダ・システムと称されることがある。「プロセッサ」という用語は、広義で、データ(たとえばオーディオまたはビデオまたは他の画像データ)に対して動作を実行するよう(たとえばソフトウェアまたはファームウェアを用いて)プログラム可能または他の仕方で構成可能であるシステムまたは装置を表わすために使用される。プロセッサの例は、フィールド・プログラム可能なゲート・アレイ(または他の構成可能な集積回路またはチップセット)、オーディオまたは他のサウンド・データに対してパイプライン化された処理を実行するようプログラムされたおよび/または他の仕方で構成されたデジタル信号プロセッサ、プログラム可能な汎用プロセッサもしくはコンピュータおよびプログラム可能なマイクロプロセッサ・チップまたはチップセットを含む。「オーディオ・プロセッサ」および「オーディオ処理ユニット」という表現は交換可能に、広義で、オーディオ・データを処理するよう構成されたシステムを表わすために使用される。オーディオ処理ユニットの例は、エンコーダ(たとえばトランスコーダ)、デコーダ、ボコーダー、コーデック、前処理システム、後処理システムおよびビットストリーム処理システム(時にビットストリーム処理ツールと称される)を含むがこれに限られない。 Throughout this disclosure, including the claims, the expression performing an operation on a signal or data (eg, filtering, scaling, transforming or applying gain to the signal or data) is broadly defined as: Directly on the signal or data or on a processed version of the signal or data (eg, on a version of the signal that has undergone preliminary filtering or preprocessing prior to performing the operation) Used to represent performing the operation. The term “transposer” broadly refers to an algorithm unit or device that performs pitch shifting or time stretching of a real or complex valued input signal over part or all of the available input signal spectrum. Used to represent. The expressions "translator", "harmonic transformer", "phase vocoder", "high frequency generator" or "harmonic generator" may be used interchangeably. The expression “system” is used in a broad sense to denote a device, system, or subsystem. For example, a subsystem that implements a decoder may be referred to as a decoder system and includes such a subsystem (eg, a system that generates X output signals in response to multiple inputs, where: The subsystem generates M of the inputs and the remaining X-M inputs are received from an external source) may also be referred to as a decoder system. The term “processor” is broadly programmable or otherwise configurable (eg, using software or firmware) to perform operations on data (eg, audio or video or other image data). Used to represent a system or device. An example processor is programmed to perform pipelined processing on a field programmable gate array (or other configurable integrated circuit or chipset), audio or other sound data. And / or other configured digital signal processors, programmable general purpose processors or computers and programmable microprocessor chips or chipsets. The expressions “audio processor” and “audio processing unit” are used interchangeably and in a broad sense to refer to a system configured to process audio data. Examples of audio processing units include, but are not limited to, encoders (eg, transcoders), decoders, vocoders, codecs, pre-processing systems, post-processing systems, and bitstream processing systems (sometimes referred to as bitstream processing tools). Absent.
諸実施形態は、仮想ベース処理システムにおいて使われる高調波転移器のような既存の仮想ベース処理コンポーネントに実質的な変化を要求することなく仮想ベース遅延を減少させるシステムおよび方法に向けられる。仮想ベース・レイテンシー低減システムおよび方法の諸側面は、オーディオ・コーデックにおける(たとえばデコーダにおける)高調波生成器(転移器)との関連で使用されてもよい。仮想ベース・レイテンシー低減システムおよび方法の諸側面は、他の転移器または位相ボコーダー・システム、たとえばオーディオ信号の一般的な時間伸張またはピッチ・シフトのために使われる伝統的な位相ボコーダーとの関連で使用されてもよい。 Embodiments are directed to systems and methods that reduce virtual base delay without requiring substantial changes to existing virtual base processing components, such as harmonic transformers used in virtual base processing systems. Aspects of the virtual base latency reduction system and method may be used in the context of a harmonic generator (transformer) in an audio codec (eg, in a decoder). Aspects of the virtual base latency reduction system and method are in the context of other transformers or phase vocoder systems, such as traditional phase vocoders used for general time stretching or pitch shifting of audio signals. May be used.
図1Aに概括的に示されるように、高調波転移を使う仮想ベース生成方法は、欠けている低周波数を物理的に再現することができない小型スピーカーを通じてなど限られた再生設備におけるベース・コンテンツの再生を改善するために、非可聴周波数範囲から可聴周波数範囲への周波数成分の転移に関わる。仮想ベース・レイテンシー低減システムおよび方法の諸実施形態は、オーディオ信号の低周波数成分に対して高調波転移を実行して再生時に可聴であると期待される高調波を示す転移されたデータを生成する仮想ベース生成方法に対して改良するものであり、転移されたデータに応答して仮想ベース信号を生成し、仮想ベース信号を(遅延させられた)入力オーディオ信号と組み合わせることによって向上されたオーディオ信号を生成する。典型的には、向上されたオーディオ信号は、低周波数成分を物理的に再現することができない一つまたは複数のスピーカーによって、前記向上されたオーディオ信号の再生中にベース・コンテンツの増大した知覚されるレベルを与える。 As shown generally in FIG. 1A, the virtual base generation method using harmonic transitions is based on the bass content in limited playback facilities, such as through small speakers that cannot physically reproduce the missing low frequencies. In order to improve reproduction, it involves the transfer of frequency components from the non-audible frequency range to the audible frequency range. Embodiments of a virtual base latency reduction system and method perform harmonic transitions on low frequency components of an audio signal to produce transferred data that indicates harmonics that are expected to be audible during playback An improved audio signal that improves upon the virtual base generation method, generates a virtual base signal in response to the transferred data, and combines the virtual base signal with the (delayed) input audio signal. Is generated. Typically, the enhanced audio signal is perceived by the one or more speakers that cannot physically reproduce the low frequency components during the playback of the enhanced audio signal. Give a level.
仮想ベース生成方法によって実行される高調波転移は、各低周波数成分の、二次転移器および少なくとも一つのより高次の転移器(典型的には三次および四次で、任意的には少なくとも一つの追加的なより高次の転移器)を使って高調波を生成するよう、組み合わされた転移を用い、それにより、高調波のすべてが、共通の、時間から周波数領域への変換段(たとえば、時間から周波数領域への単一の変換から帰結する周波数係数に対して位相乗算または他の位相操作を実行することによる)およびそれに続く共通の、周波数から時間領域への変換(実際上は、前記共通の周波数から時間領域への変換は、CQMFフレームワークのサブバンドの帯域幅およびサンプリング周波数に適応するために、二つのより小さな変換に分割される)によって決定される周波数領域の値に応答して生成される。 The harmonic transitions performed by the virtual base generation method include a second order transformer and at least one higher order transformer (typically third and fourth order, optionally at least one) for each low frequency component. Combined transitions are used to generate harmonics using two additional higher order transformers, so that all of the harmonics are common, time to frequency domain conversion stages (eg, , By performing phase multiplication or other phase operations on the frequency coefficients resulting from a single time-to-frequency domain transformation, followed by a common frequency-to-time domain transformation (in practice, The common frequency to time domain transform is divided into two smaller transforms to accommodate the subband bandwidth and sampling frequency of the CQMF framework). Generated in response to a defined frequency domain value.
図2は、ある実施形態のもとでのある種のレイテンシー低減プロセスを実装するまたは該プロセスとの関連で使用される仮想ベース処理システムのブロック図である。ある実施形態では、仮想ベース処理システム200は、入力201(入力A)として、いわゆるハイブリッド(Hybrid)フィルタバンクからの複数の複素数値のサブバンド・サンプル(HQMFサンプル)を取る。ある実施形態では、仮想ベース・プロセスに先行するハイブリッド・フィルタバンクが、もとの時間領域のオーディオ入力信号を、そのような複数のハイブリッド・サブバンド201(これは下記でより詳しく述べる)に分割しており、それらのサブバンドが入力バッファ206によってバッファリングされてもよい。バッファリングされた入力は、次いで、低周波数オーディオ・コンテンツ(たとえば0から375Hzまでの間)を示す単一の複素数値のQMF(CQMF)領域信号202(信号C)を再構築するために、合成機能を実行するナイキスト合成フィルタバンク208によって処理される。もう一つの実施形態では、仮想ベース・システムは、先行するハイブリッド・フィルタバンクにおけるナイキスト分解フィルタバンク段をバイパスすることによるレイテンシー節約機構を含む。これは、システムが、CQMFチャネル0信号を入力203(入力B)として仮想ベース・モジュールに直接フィードすることによって、ナイキスト分解バンクに付随する遅延(たとえば384サンプル)を節約することを許容する。図2に示されるように、二つの入力202または203の一方が選択器204のようなスイッチによって選ばれ、選択された信号は、転移器209によってさらに処理される仮想ベース入力信号205(信号D)を含む。
FIG. 2 is a block diagram of a virtual-based processing system that implements or is used in connection with certain latency reduction processes under certain embodiments. In one embodiment, the virtual
転移器(または位相ボコーダー)は一般に、時間から周波数への変換またはフィルタバンクと、それに続く非線形段(位相乗算または位相シフトを実行する)と、それに続く周波数から時間への変換またはフィルタバンクとの組み合わせである。このように、図2に示されるように、転移器209は、時間から周波数への変換コンポーネント210、非線形段212および周波数から時間への変換214を含む。転移器209内の非線形段212は、位相を修正し、信号のサブバンドまたは変換成分に対してある種の利得(振幅)制御信号を適用する処理ブロックである。転移された信号は次いで、出力バッファ216によってバッファリングされ、その後、ナイキスト分解フィルタバンク218によって処理される。ナイキスト分解フィルタバンク218は、仮想ベース出力CQMF信号を入力信号201のハイブリッド・サブバンド・サンプル(HQMF)に対応するサブバンドに分解する分解機能を実行する。入力A信号220の遅延された、未処理のバージョンが、ナイキスト・フィルタバンク218出力と混合され、仮想ベース出力信号に遅延された入力信号を加えたものを含む向上されたオーディオ出力信号222を生成する。
A transition (or phase vocoder) generally consists of a time-to-frequency conversion or filter bank followed by a non-linear stage (performing phase multiplication or phase shifting) followed by a frequency-to-time conversion or filter bank. It is a combination. Thus, as shown in FIG. 2, the
諸実施形態は、合成208および分解218段処理のようなある種の機能についてのナイキスト・フィルタバンクの使用に向けられることがあるが、他の型のフィルタバンクまたは周波数スプリットまたはパーティション回路および技法が使用されてもよい。他の実施形態では、上述したフィルタバンクまたは周波数スプリットまたはパーティション回路および技法は、全く存在しなくてもよい。
Embodiments may be directed to the use of Nyquist filter banks for certain functions, such as
図3A〜3Cは、図2に示した仮想ベース処理システムのより詳細な図である。図3Aは、前処理ハイブリッド・フィルタバンク段300、すなわち典型的には仮想ベース・システムの一部ではなくそれに先行する段を示している。ハイブリッド・フィルタバンクは、低周波数範囲の周波数分解能を高めるために、ある数の最も低いCQMF帯域があらかじめ決定された諸サイズの諸ナイキスト・フィルタバンクによって処理される、CQMFバンクの組み合わせであってもよい。諸ナイキスト分解段および残りの諸CQMFチャネルからの低周波数サブバンド・サンプルの組み合わせは、ハイブリッド・サブバンド・サンプルまたはHQMF(ハイブリッドQMF)信号と称される。図3Aに示されるように、時間領域入力信号302が64チャネルCQMF分解フィルタバンク304に入力される。ある実施形態では、このフィルタバンクの一つの出力、CQMFチャネル0(信号Bと表わされる)306が、図3Cの仮想ベース・モジュール330に直接フィードされる(この信号は図2の入力B 203に対応する)。信号B 306はナイキスト分解フィルタバンク307をバイパスし、よって付随する遅延を回避することを注意しておくべきである。また、CQMFチャネル0,1,2はいくつかのナイキスト分解フィルタバンク307〜309に入力される。ナイキスト分解フィルタバンクからの出力および残りのCQMFサブバンド(3ないし63)がハイブリッド・サブバンド・サンプル0〜76(信号Aと表わされる)310を生成する。
3A-3C are more detailed views of the virtual base processing system shown in FIG. FIG. 3A shows a pre-processing hybrid
図3Bのシステム320に示されるように、複数の複素数値のハイブリッド・サブバンド・サンプル(サンプルA)322がナイキスト合成フィルタバンク段324に入力される。図3Cの仮想ベース・モジュール330は、ハイブリッド・サブバンド・サンプル(HQMFサンプル)に対して作用するシステムにおける他のモジュールのうちの一つのモジュールであると想定される。よって、図3Aの信号A 310は、図3Bの入力A 322になる前に、前処理フィルタバンク段300のあとの他のモジュールによる処理を受けてもよい。ある例示的な実施形態では、最初の8個のハイブリッド・サブバンド、すなわち低周波数の8チャネル(8-ch)のナイキスト・フィルタバンク307からのサブバンド(これはサンプリング・レートに依存して、ほぼ344〜375Hzの信号帯域幅を生成する)が処理される。ナイキスト・フィルタバンクは、CQMFバンクとは対照的にダウンサンプリングされないので、ナイキスト・フィルタバンク合成ステップは、各CQMF(またはHQMF)時間スロットについてのサブバンド・サンプルの単なる総和なので、特に素直である。段324における8個の最も低いハイブリッド・サブバンド・サンプルの総和後、システムは、CQMFチャネル0信号C 326を再構築したことになり、これが図3Cの仮想ベース・モジュール330への入力332になる。
A plurality of complex-valued hybrid subband samples (sample A) 322 are input to Nyquist synthesis
図3Cは、ある実施形態のもとでの、ある種のレイテンシー低減プロセスを実装するまたは該プロセスとの関連で使われる仮想ベース・システムを示している。図3Cの仮想ベース・モジュール330は、信号D 332を入力としてもつ。先行するナイキスト分解フィルタバンク307がバイパスされるある実施形態では、信号D 332は、図3Aの信号B 306からルーティングされてもよい。もう一つの実施形態では、信号D 332は、図3Bのナイキスト合成段320の信号C 326からフィードされてもよい。いずれの実施形態でも、信号D 332、すなわち仮想ベース・モジュールへの入力信号は、単一の複素数値のCQMF信号(たとえば、一組のCQMFサブバンド信号からの第一のチャネル(チャネル0))である。
FIG. 3C illustrates a virtual base system that implements or is used in connection with some kind of latency reduction process under an embodiment. The
仮想ベース用途では、仮想ベース入力信号のダイナミクスを変えるために、任意的なダイナミクス処理機能がダイナミクス・プロセッサ336によって実行されてもよい。プロセッサ336は、弱いベースのレベルを減少させ、強いベースを維持または高めるために使われてもよい。すなわち、伸張器(expander)として使われてもよい。この方式は、ベース・レンジにおける等ラウドネス曲線(ELC: Equal Loudness Contour)の形に一致する。ラウドネス曲線は、よりラウドネスが大きい信号については周波数においてより平坦であり、より弱いラウドネスの信号についてはより急峻である。よって、高調波を生成するとき、基本成分と生成される高調波との間の相対的なラウドネスを維持するために、より弱いベースはより強いベースよりも大きく減衰させられることができる。ダイナミクス・プロセッサ336の利得は、移動平均エネルギー信号、たとえば第一のCQMF帯域信号332のダウンミックスされた(モノ)バージョンの移動平均エネルギーによって制御されてもよい。
For virtual base applications, an optional dynamics processing function may be performed by the
システム330の実施形態について、窓サイズL(長さNまで0パディングを含む)を使う第一の窓掛け関数338、順FFT 340および変調関数342が、非線形処理ブロック344への入力に先立って(可能性としてはダイナミクス処理された)CQMF信号に対して実行される。本発明のある実施形態では、窓形状は非対称的である。もう一つの実施形態では、(コンポーネント338ないし356を有する)転移器は、「組み合わされた転移(combined transposition)」と称される補間技法を使う改善された位相ボコーダーを表わす。これは、基本転移器についてと同じFFT分解/合成チェーンを使って二次、三次、四次および可能性としてはより高次の高調波(転移因子)を生成する。一般に、そのような組み合わされた転移は、基本次数の高調波以外の高調波の品質はいくらか損なわれるかもしれないが、計算量を節約する。組み合わされた転移なしでは、少なくとも順変換または逆変換のいずれかは、異なる転移因子について別個である必要がある。非線形処理ブロック344は、整数転移因子を使う。これは、多くの標準的な位相ボコーダーにおいて使われているところでは一般に不安定で不正確である、ある種の位相推定、位相復元または位相ロック技法を余計なものにする。ある実施形態では、位相乗算器344は2より高い基本転移因子B、たとえば8または他の任意の適切な値を使う。
For an embodiment of
転移器338〜356は、インパルス(衝撃)音を改善するために周波数領域における過剰サンプリング(すなわち、ブロック338および356における0パディングされた分解および合成窓)を使う。これはベース周波数範囲で使われるときに卓越する。そのような過剰サンプリングなしでは、衝撃性の太鼓音は、少なくともいくらかの前エコーおよび後エコーのアーチファクトを生成する可能性が高く、ベースを、ぼやけて不明瞭なものにする。ある実施形態では、過剰サンプリング因子Fは少なくとも因子F=(B+1)/2であるよう選択される。ここで、Bは基本転移因子(たとえばB=8)である。これは、孤立した過渡音について、前エコーおよび後エコーが抑制されることを保証する助けとなる。
Transformers 338-356 use oversampling in the frequency domain (ie, zero padded decomposition and synthesis windows in
図3Cに示されるように、転移器は、位相乗算器回路(非線形処理ブロック344)に続いて、増幅器346によって適用されるFFTビン毎の利得および傾き補償を含む。これは、種々の転移因子についての全体的な利得が独立して設定されることを許容する。たとえば、諸利得が、ある種の等ラウドネス曲線(ELC)を近似するよう設定されることができる。近似として、ELCは、400Hzより下の周波数については、対数スケール上の直線によって十分にモデル化されることができる。この場合、奇数次数の高調波はより大きな度合いで減衰させられることができる。奇数次数の高調波(たとえば三次、五次など)は、結果として得られる仮想ベース効果のためには重要であるが、時に、偶数次数の高調波より耳ざわりに感じられることがあるからである。各転移された信号はさらに、傾き利得、すなわちロールオフ減衰因子を有していてもよい。これはたとえば、dB毎オクターブ(dB per octave)で測られる。この減衰は、増幅器346によって変換領域でもビン毎に適用される。
As shown in FIG. 3C, the transition includes a phase multiplier circuit (non-linear processing block 344) followed by gain and slope compensation per FFT bin applied by
非ハイブリッド・フィルタバンクに基づくシステム、たとえば時間領域のシステムでは、図3Aの信号302を入力として取ると、転移器338〜356は、フル・サンプリング・レート(たとえば44.1または48kHz)の時間領域信号に対して直接作用し、次いで、低周波数(ベース)レンジにおいて十分な分解能を与えるために、ほぼ4096ラインのFFTサイズを用いることになる。ある実施形態では、しかしながら、すべての処理はCQMFチャネル0サブバンド・サンプル(システム330の信号D 332)に対して実行される。これは、転移器において関心対象の信号のみを処理することによって、すなわち臨界サンプリングされた(または最大限に間引きされた)低域通過信号を処理することによって計算量を節約するなど、通常の処理事例に対してある種の利点を提供する。たとえば、四次の基本転移器を使うことにより、仮想ベース・システムは、入力信号の帯域幅を四倍拡張する。一般に、仮想ベース・システムは、ほぼ500Hzより上の帯域幅をもつ信号を出力することは要求されない。これは、(fs=48kHzについて)375Hzの帯域幅をもつ第一のCQMFチャネル(チャネル0)が仮想ベース入力のために十分以上であり、最初の二つのCQMFチャネル(チャネル0および1)が仮想ベース出力についての十分な帯域幅(fs=48kHzにおいて750Hz)を有することを意味する。CQMFチャネル0を入力としてもつことで、システムは、4096ではなく64(4096/64)のサイズのFFT変換を使って複素数値のサンプルを処理することができる。ここで、64倍の減少はCQMFバンクのダウンサンプリング因子に由来し、この因子は時間領域入力信号に比べた第一のCQMFサブバンド信号の縮小された帯域幅にも等しい。本来的な帯域幅拡張のため、転移器からの出力は、CQMF帯域0および1に変換される必要がある。これは、64ラインのFFTを四つの16ラインのFFTに分割し、CQMF帯域0および1をなす二つの16ラインのFFTの逆FFTが計算される前に変換領域においてCQMFプロトタイプ・フィルタ応答補償を用いることによって近似的に行なわれてもよい。上記の例では、周波数領域過剰サンプリングは考えられていないことを注意しておく。先述した過剰サンプリング因子だけ順および逆変換のサイズを増すことになるからである。ある用途では、FFTスペクトルは仮想ベース・モジュール330のモジュール348において分割されてもよく、CQMFフィルタ応答補償が乗算器350によってなされてもよい。他の実施形態では、CQMFフィルタ応答補償が、FFT分割モジュール348前に、完全な(たとえば上記の例では64ラインの)FFTスペクトルに対してなされてもよい。
In a non-hybrid filter bank based system, such as a time domain system, taking the
図3Cにさらに示されるように、CQMFフィルタ応答補償ブロック350からの出力は変調ステップ352に入力され、それにN/B点の変換サイズを使う逆FFT回路354および窓長L/Bを使うその後の窓掛けおよび重複/加算ステップ356が続く。本発明のある実施形態では、窓の形は非対称的である。変調ステップ352は、FFT分割348およびCQMFフィルタ応答補償350ブロックの前に適用されてもよい。窓掛けおよび重複/加算回路356からの出力信号は、遅延されたHQMF信号A 364と混合されるべき仮想ベース信号を含む、二つのCQMF信号である。しかしながら、いずれの信号も、ハイブリッド領域に収まるためには、それぞれ8および4チャネル・ナイキスト分解フィルタバンク360を通じてまずフィルタリングされる必要がある。本発明のある実施形態では、ナイキスト分解フィルタバンク360は打ち切りされたプロトタイプ・フィルタを使う。フィルタバンク360からのHQMF出力は、モジュール362において、帯域通過フィルタリングされ、遅延された入力成分A 364と混合されて、向上されたオーディオ出力HQMF信号366を生成してもよい。ある実施形態では、ハイブリッド帯域混合ブロック362への入力A 364の遅延は、時間的に遅らされた仮想ベース信号をなすための仮想ベース・システム遅延(信号B 306が入力として使われる場合にはこれからナイキスト分解遅延を引いたもの)より少ない。
As further shown in FIG. 3C, the output from the CQMF filter
CQMF分解バンクに由来するサブバンド信号の間の位相関係は、上記で概説したようなFFT分割を実行するときには維持されない。これを軽減するために、ある実施形態では、システム330は、ナイキスト分解ブロック360の前に、CQMFチャネル1に対するexp(−jπ/2)乗算358による位相補償を用いる。位相補償関数358への具体的な引数は、図3Aの先行するCQMFバンク304によって使用された変調方式に依存し、実施形態の間で変わることがある。また、補償因子358は、他の処理ブロックに移され、吸収されてもよい。
The phase relationship between the subband signals from the CQMF decomposition bank is not maintained when performing the FFT split as outlined above. To alleviate this, in one embodiment,
〈仮想ベース・レイテンシー低減〉
背景セクションにおいて述べたように、仮想ベース処理システムは、入力信号を処理するときにある種の遅延を導入する。図1Bを参照するに、レガシー転移器の遅延(転移器出力サンプリング周波数上で測定される)は、D=3L/2−2SAとして表わすことができる。ここで、Lは転移器窓サイズであり、SAは分解ストライドまたはホップ・サイズである。L=64かつSA=4であるシステムでは、転移器およびナイキスト・フィルタバンク分解段の総遅延は、先述したように3200サンプルのオーダーであることができる。
<Virtual base latency reduction>
As mentioned in the background section, the virtual base processing system introduces some delay when processing the input signal. Referring to Figure 1B, the delay of the legacy transition unit (measured on metastatic output sampling frequency) can be expressed as D = 3L / 2-2S A. Where L is the transformer window size and S A is the decomposition stride or hop size. In a system where L = 64 and S A = 4, the total delay of the transformer and Nyquist filterbank decomposition stage can be on the order of 3200 samples as described above.
ある実施形態では、仮想ベース処理システムは、仮想ベース処理されたコンテンツに関連するレイテンシーを軽減するためにある種のステップを実行するコンポーネントを含む。図4は、ある実施形態のもとでの、仮想ベース・レイテンシー軽減プロセスおよびシステムによって利用される主要な機能コンポーネントのブロック図である。図4の描画400に示されるように、レイテンシー軽減プロセスは、より高次の基本転移因子402、低レイテンシーの非対称な変換窓404、打ち切りされたナイキスト・プロトタイプ・フィルタ406および時間的に遅らされた仮想ベース信号408の使用を含む。描画400の機能コンポーネントのそれぞれは、単独で使われてもよいし、あるいは仮想ベース処理されたコンテンツのレイテンシーを軽減するのを助けるために他のコンポーネントの内の一つまたは複数との関連で使われてもよい。描画400は、コンポーネント402〜408のそれぞれが回路、プロセッサなどといったハードウェア・コンポーネントとして具現されるときのシステムを表わしていてもよい。この描画は、コンポーネント402〜408のそれぞれが、一つまたは複数のプロセッサによって実行されるコンピュータ実装されるプロセスのような機能コンポーネントによって実行される工程として実装されるときのようなプロセスをも表わしていてもよい。あるいはまた、描画400は、ある種のコンポーネントがハードウェア回路において実装されてもよく、他のコンポーネントが実行される方法ステップとして実装されてもよいハイブリッドのシステムおよび方法を表わしていてもよい。コンポーネント402〜408は、別個のスタンドアローンのコンポーネントとして実装されてもよいし、あるいは一つまたは複数の統合されたレイテンシー低減機能において組み合わされていてもよい。システム400の各コンポーネントの組成および動作の詳細について以下で述べる。
In some embodiments, the virtual base processing system includes components that perform certain steps to reduce latency associated with virtual base processed content. FIG. 4 is a block diagram of the major functional components utilized by the virtual base latency mitigation process and system, under an embodiment. As shown in the drawing 400 of FIG. 4, the latency mitigation process is delayed in time by a higher order
〈高次の基本転移因子〉
図4の高次の基本転移因子402に関し、レガシーの転移器遅延の式Dts={3L/2−2SA}・64/2(式(2))は、式(3)に示されるようにして導き出せる。
<Higher order basic transfer factor>
For the higher order fundamental
Dts={(B+1)L/2−B・SA}・64/B (3)
式(3)では、レガシー・システムの基本転移因子2は、任意の整数の基本転移因子Bによって置き換えられる。式(3)が、64チャネルをもつCQMFに基づくフレームワークの出力サンプルにおける遅延のことを言っていることを注意しておく。一定のLおよびSAについて、Bが増すと遅延が減少することを検証できる。図5Aは、第一のホップ・サイズに関連する遅延を示す表であり、図5Bはある実施形態のもとでの仮想ベース・レイテンシー軽減システムについての第二のホップ・サイズに関連する遅延を示す表である。図5Aの表1は、さまざまな窓サイズ(L=16ないし128)および基本転移因子(B=2ないし16)について、SA=4のホップ・サイズについてのレイテンシーを示している。これに比して、図5Bの表2は、同じさまざまな窓サイズ(L=16ないし128)および基本転移因子(B=2ないし16)について、SA=2のホップ・サイズについてのレイテンシーを示している。図5Aおよび図5Bにおいて見て取れるように、基本転移因子をたとえば2から8に増すことによって、著しいレイテンシー軽減が達成できる(たとえばL=64およびSA=4の公称事例について、2816から2048サンプルに)。
D ts = {(B + 1) L / 2−B ・ S A } ・ 64 / B (3)
In equation (3), the
図3Cを参照するに、組み合わされた転移器338〜356において、TはBより大きい(T>B)として、より高次の転移因子Tを生成するとき、分解変換スペクトルにおいて、転移器源範囲は転移器目標範囲より小さい。目標ビンは、源ビンの補間から帰結する。より高次の基本転移器を使ってより低次の転移因子を生成するとき、すなわちTがBより小さい(T<B)とき、源範囲は目標範囲より大きくなり、目標ビンは源ビンの間引きから帰結する。しかしながら、T<Bの場合についても、Tが奇数であるときは、nが目標ビン・インデックスであるとして、k=nB/Tとして導出される源ビン・インデックスは一般には整数にはならず、よって、目標ビンは二つの連続する源ビンの補間から導出されることになる。 Referring to FIG. 3C, in the combined transformers 338-356, when T is greater than B (T> B), when generating a higher order transposable factor T, the transformer source range in the decomposition transform spectrum Is less than the target range of the transformer. The target bin results from interpolation of the source bin. When using a higher order fundamental transformer to produce a lower order transposable factor, ie when T is less than B (T <B), the source range will be greater than the target range and the target bin will be decimation As a result. However, even for T <B, when T is odd, the source bin index derived as k = nB / T is generally not an integer, assuming that n is the target bin index, Thus, the target bin is derived from the interpolation of two consecutive source bins.
基本転移因子の増大した次数は、仮想ベース・プロセスに対してある種の含みをもつ。第一に、転移器源範囲が分解変換範囲内(すなわち0ないしN−1の範囲内)に留まることを強制するために、制御が確立される必要がある。第二に、基本転移因子2を使うシステムと比べ、二つの合成変換354は今やN/2ではなくN/Bのサイズである。ここで、Nは分解変換サイズである。これは、合成窓が2倍ではなくB倍間引きされ、スペクトル分割348も、フィルタ応答補償350のための利得ベクトルとともに、相応してダウンスケーリングされることを意味する。これは、Bのより大きな値についての増大した帯域幅拡張の結果である;転移器出力は本来的に、(一個のCQMF帯域の入力を想定すると)B個のCQMF帯域の周波数範囲をカバーする。ここで、最初の二つのみが実際に合成され、それにより複雑さを節約する。基本転移因子B=8および周波数領域過剰サンプリング因子F=4については、二つの合成変換サイズはNS=F・L/B=4・64/8=32であり、合成変換窓356はたったL/B=64/8=32個のタップをもつ。
The increased order of the basic transposable element has some implications for the virtual base process. First, control needs to be established to force the transformer source range to remain within the resolved conversion range (ie, within the range of 0 to N−1). Secondly, compared to the system using basic
転移された信号の品質は、基本転移因子によって支配され、より高次の転移次数については低減されるが、減少した分解ホップ・サイズ(時間領域での増加した過剰サンプリング)を使うことによって改善できる。さらに、衝撃音(過渡音)についての品質を維持するために、周波数領域過剰サンプリングの次数(order)は、より高い基本転移因子については、増大する必要がある。しかしながら、時間および周波数の両方における増大した過剰サンプリングは、転移器の計算量に上乗せすることになりうる。ある実施形態では、分解ホップ・サイズは、レガシー・システムに比べて因子2だけ減少される。因子B=8の基本転移器は、少なくともF=(B+1)/2=4.5の周波数領域過剰サンプリング因子を必要とする。ある実施形態では、システムは、因子4の過剰サンプリング(F=4)を使い、0.5の欠けている値は一般には実際上取るに足りない。変換窓が端では漸減されるからである。よって、この実施形態では、計算量は、時間における増大した過剰サンプリングに由来して、全部で因子2だけ増大する。増大した時間過剰サンプリングは、わずかに増大した遅延という代償をも伴い、図5Bの表2に示されるように、L=64、B=8およびSA=2について総レイテンシー2176という結果になることを注意しておくべきである。
The quality of the transferred signal is governed by the fundamental transfer factor and is reduced for higher order transfer orders, but can be improved by using a reduced resolution hop size (increased oversampling in the time domain). . In addition, the order of frequency domain oversampling needs to be increased for higher fundamental transfer factors in order to maintain quality for impact sounds (transient sounds). However, increased oversampling in both time and frequency can add to the computational complexity of the transformer. In some embodiments, the decomposition hop size is reduced by a
〈非対称的な変換窓〉
図5Aおよび図5Bの表1および表2に示されるものを与えられると、転移器遅延を減少させる自明な方法は、より短い変換窓を、よってより小さな分解および合成変換サイズを使うことであると思われるかもしれない。しかしながら、これは一般には、密なトーン様信号(dense tonal signal)についての低下した品質という代償を伴う。より短い変換窓から帰結する減少した周波数分解能のためである。順および逆変換段において非対称的な分解および合成窓を使うことによって、転移器のアルゴリズム遅延のより堅牢な減少が達成できることが見出された。こうして、図4の低レイテンシー非対称変換404に関し、ある実施形態では、レイテンシー低減システムは、順および逆変換段(たとえば、それぞれ図3Cの窓掛け段338および356)において非対称な分解および合成窓を使う。これは、変換遅延に寄与しない履歴中のサンプルに向けて窓の「尾部」を延ばすことによって、限られた長さの対称窓の周波数応答を本質的に改善する。さらに一般的な実施形態では、分解窓の長さおよび順変換のサイズが、合成窓および逆変換のものと異なっていてもよい。
<Asymmetric conversion window>
Given what is shown in Tables 1 and 2 of FIGS. 5A and 5B, an obvious way to reduce the transformer delay is to use a shorter transform window, and thus a smaller decomposition and synthesis transform size. You might think. However, this generally comes at the cost of reduced quality for dense tone-like signals. This is due to the reduced frequency resolution resulting from the shorter conversion window. It has been found that by using asymmetric decomposition and synthesis windows in the forward and inverse transform stages, a more robust reduction in the algorithm delay of the transferer can be achieved. Thus, with respect to the low latency
図5Cは、レガシーの対称的なハニング窓に比べた非対称窓の時間応答の例示的なプロットである。図5Cは、プロット514として示される長さ64のハニング窓およびプロット516として示される長さ41のハニング窓についての信号振幅(たとえばボルト単位)に対するサンプル(x軸)の関数としての時間応答を、長さ64および遅延40(長さ41のハニング窓に等しい遅延)の非対称窓についての時間応答プロット512に対して示している。図5Dは、レガシーの対称ハニング窓に比べた非対称窓の周波数応答の例示的なプロットである。図5Dは、プロット524として示される長さ64のハニング窓およびプロット526として示される長さ41のハニング窓についての対数スケール上での信号振幅(たとえばdB単位)に対する正規化された周波数(x軸)の関数としての周波数応答を、長さ64および遅延40の非対称窓(長さ41のハニング窓に等しい)についての周波数応答プロット522に対して示している。図5Dにおいて見て取れるように、非対称窓の主ローブは、上記対称的なハニング窓の幅の中間の幅をもつ。これは、上記二つのハニング窓の中間の周波数分解能または選択性を示している。
FIG. 5C is an exemplary plot of the time response of an asymmetric window compared to a legacy symmetric Hanning window. FIG. 5C shows the time response as a function of sample (x axis) versus signal amplitude (eg, in volts) for a
非対称な窓変換処理を受け容れるために、転移器アルゴリズムは、分解/合成チェーンの低下した変換遅延Dを考慮に入れて、レガシー実装に比較して部分的に変更される必要がある。レガシー・システムの順変換のあとで逆変換の前のe-iπkによる周波数変調の代わりに、非対称システムは、分解変換後の周波数変調342を必要とする:
MA(k)=e-i(2π/N)(D/2-L+1)k 0≦k<N (4)
システムはまた、合成FFTスペクトルの分割のまえの変調をも必要とする:
MS(k)=e-i(π/N・D・n) 0≦n<N (5)
上記の式(4)および(5)において、kおよびnはそれぞれ変換周波数係数インデックスであり、Nは分解変換サイズ、すなわちN=FLであり、ここで、Fは周波数領域過剰サンプリング因子であり、Lは分解窓サイズであり、Dは変換遅延である。図3Cに示されるように、式(5)の変調は、FFT分割モジュール348および応答補償ステップ350のあとの変調段352においても適用されてもよい。
In order to accept the asymmetric window transformation process, the transferor algorithm needs to be partially modified compared to the legacy implementation, taking into account the reduced transformation delay D of the decomposition / synthesis chain. Instead of frequency modulation with e- iπk after forward conversion of legacy systems and before inverse conversion, asymmetric systems require
M A (k) =
The system also requires prior modulation of the composite FFT spectrum:
M S (k) =
In equations (4) and (5) above, k and n are the transform frequency coefficient indices, respectively, N is the decomposition transform size, i.e. N = FL, where F is the frequency domain oversampling factor, L is the resolution window size and D is the conversion delay. As shown in FIG. 3C, the modulation of equation (5) may also be applied in the
図6は、ある実施形態のもとでの、非対称窓およびB次基本転移器によって課される関連する遅延の使用を様式的に示している。レガシーの仮想ベース・システムでは、Bは通例2に設定されるが、非対称窓プロセス404がより高次の基本転移因子プロセス402との関連で使われる場合には、Bは2より大きな整数値になる(たとえばB=4,8または16)。時間プロット600は、分解窓の群遅延(約D/2)としての時間0基準を示している。分解フェーズ602において、時間t0から新しいサンプル604が加えられる。時間プロット610は、転移器の時間伸張二重性(duality)が、合成フェーズ612において、新しい時間伸張されたサンプル614について、t0をB・t0に移すことを示している。図5(512)または図6に示されるような非対称窓が使われる場合、全分解/合成チェーン遅延は、ほぼD/2+B(D/2−SA)になる。
FIG. 6 illustrates in style the use of an asymmetric window and the associated delay imposed by a B order fundamental transition, under an embodiment. In legacy virtual base systems, B is typically set to 2, but if the
周波数領域変調がN/2サンプルによる巡回的時間シフトによって実装されうる対称窓の場合については、上記の式(4)および(5)の計算は同様に、それぞれ分解変換前のN−(D/2−(L−1))(mod N)サンプルおよび(単一の)合成変換後のN−D/2サンプルの巡回的時間シフトによって実装されてもよい。しかしながら、非対称窓をより高次の基本転移因子、たとえばB=8およびFFT分割段348と組み合わせるとき、合成変換後の時間シフトは(N−D/2)/Bサンプルになる。これは整数値でないこともある。この場合、丸められた値が近似として使われてもよい。さらに、計算量を節約するために、分解変調は、式(6)によって与えられるような併合合成変調として、合成変調と組み合わされてもよい。
For the case of a symmetric window where frequency domain modulation can be implemented by a cyclic time shift with N / 2 samples, the calculations in equations (4) and (5) above are similarly N- (D / 2-(L-1)) (mod N) samples and may be implemented by a cyclic time shift of ND / 2 samples after a (single) composite transformation. However, when combining an asymmetric window with a higher order fundamental transition factor, eg, B = 8 and
MASC(k)=e-i(2π/N)(D/2・(B+1)-L+1)・B)・k 0≦k<N (6)
式(6)の組み合わされた変調は、転移因子TがBに等しいときにのみ厳密である。他の転移因子については、式(6)も近似である。
M ASC (k) =
The combined modulation of equation (6) is exact only when the transfer factor T is equal to B. For other transfer factors, equation (6) is also an approximation.
あるいはまた、式(6)の変調は、式(7)に示されるように、合成変換後の組み合わされた巡回的時間シフトとして実装されてもよい。 Alternatively, the modulation of equation (6) may be implemented as a combined cyclic time shift after composite transformation, as shown in equation (7).
fx(m)=gx(S+m) 0≦m<N/B−S
fx(N/B−S+m)=gx(m) 0≦m<S (7)
上記の式(7)において、gx(m)は合成逆変換のうちの一つからの時間領域出力であり、fx(m)はシフトされた時間シーケンスであり、Sは:
f x (N / B−S + m) = g x (m) 0 ≦ m <S (7)
In equation (7) above, g x (m) is the time domain output from one of the composite inverses, f x (m) is the shifted time sequence, and S is:
ここでもまた、式(7)は、天井関数(最も近い整数に丸める)の引数が厳密な整数でない場合には、式(6)によって実装される周波数変調(これ自身も近似であることがありうる)の近似を与えるだけである。上記の式(5)または(6)が好ましくは、二つの逆フーリエ変換に含まれる係数の限られた部分にのみ適用されることも注意しておくべきである。 Again, equation (7) may be an approximation of the frequency modulation implemented by equation (6) itself, if the ceiling function (round to the nearest integer) argument is not a strict integer. It only gives an approximation of It should also be noted that the above equation (5) or (6) is preferably applied only to a limited part of the coefficients included in the two inverse Fourier transforms.
図6を参照するに、非対称窓転移器フレームワークの総システム遅延についての厳密な表式は式(8)に示されるようになる。 Referring to FIG. 6, the exact expression for the total system delay of the asymmetric window transition framework is as shown in equation (8).
Dta={(B+1)・D/2−B(SA−1)}・64/B (8)
ここでもまた、式(8)は、64チャネルのCQMFに基づくフレームワークを使った出力サンプルにおける遅延を指す。
D ta = {(B + 1) ・ D / 2−B (S A −1)} ・ 64 / B (8)
Again, equation (8) refers to the delay in the output samples using a 64 channel CQMF based framework.
ある実施形態のもとでの、非対称的な変換窓を使う仮想ベース・レイテンシー低減システムについて、図7のAは、第一のホップ・サイズについての全レイテンシー値を示す表であり、図7のBは、第二のホップ・サイズについての全レイテンシー値を示す表である。図7のAの表3は、さまざまな変換遅延値(D=15ないし127)および基本転移因子(B=2ないし16)について、ホップ・サイズSA=4についてのレイテンシーを示す。比較して、図7のBの表4は、同じさまざまな変換遅延値(D=15ないし127)および基本転移因子(B=2ないし16)について、ホップ・サイズSA=2についてのレイテンシーを示す。表4において見て取れるように、対称的な64タップ窓(D=63)から非対称的な窓に移行する際のレイテンシー低減は、828サンプルである(SA=2およびB=8である公称事例について、2204−1376=828)。 For a virtual base latency reduction system using an asymmetric transformation window under an embodiment, FIG. 7A is a table showing the total latency values for the first hop size, FIG. B is a table showing total latency values for the second hop size. Table 3 of FIG. 7A shows the latency for hop size S A = 4 for various conversion delay values (D = 15 to 127) and basic transfer factors (B = 2 to 16). In comparison, Table 4 of FIG. 7B shows the latency for the hop size S A = 2 for the same various conversion delay values (D = 15 to 127) and basic transition factors (B = 2 to 16). Show. As can be seen in Table 4, the latency reduction in transitioning from a symmetric 64-tap window (D = 63) to an asymmetric window is 828 samples (for the nominal case where S A = 2 and B = 8) , 2204-1376 = 828).
式(3)と式(8)を比較すると、Dts=Dtaと置くことで
D=L−(2B/(B+1)) (9)
が得られることを検証できる。上記の式(9)は、B=1のときの対称窓についてD=L−1の期待される変換遅延を表わす。
Comparing Eq. (3) and Eq. (8), D ts = D ta
D = L- (2B / (B + 1)) (9)
Can be verified. Equation (9) above represents the expected conversion delay of D = L−1 for the symmetric window when B = 1.
転移窓の非対称の量は、システムの制約および要求に依存して変わりうる。ある実施形態および個別的な実装では、非対称窓の群遅延は、十分な転移品質を維持するために、変換遅延の半分に近くなるよう選択される。こうして、この場合、
〈打ち切りされたナイキスト・プロトタイプ・フィルタ〉
図4を参照するに、第三のレイテンシー軽減要素は、打ち切りされたナイキスト・プロトタイプ・フィルタ406を使うことを含む。図3Cに示されるように、ハイブリッド領域で仮想ベース信号を混合できるために、8チャネルおよび4チャネルのナイキスト分解フィルタバンク360が仮想ベース出力CQMFチャネルに適用される(これらのフィルタバンクは、図3Aのナイキスト・フィルタバンク307および308に対応する)。ある実施形態では、ナイキスト分解フィルタバンク360は、対称的な13タップのプロトタイプ・フィルタを使う。これは結果として、6個のCQMFサンプルの遅延(たとえば、この場合、6・64=384出力サンプル)を与えることができる。将来のサンプルに作用する当該プロトタイプ・フィルタの六個の係数を除去することによって、この遅延全体(たとえば384サンプル)が解消されうる。一般に、ナイキスト分解/合成チェーンはそれでも完璧な再構成を提供する。しかしながら、打ち切りされたフィルタを使うナイキスト・フィルタバンクの周波数応答は変わることがある。残りのフィルタ係数の最適化が、打ち切りされたフィルタを使うナイキスト・フィルタバンクの潜在的により貧弱な周波数応答を改善しうる。
<Canceled Nyquist prototype filter>
Referring to FIG. 4, a third latency mitigation element involves using a truncated
〈時間的に遅らされた仮想ベース信号〉
図4を参照するに、第四のレイテンシー軽減要素は、仮想ベース信号を、もとの信号408より遅れ(lag)させることを含む。この場合、広帯域信号(すなわち図3Cのハイブリッド信号A 364)が、仮想ベース・システム遅延(delay)が実際に含意するよりも短い時間期間、遅延されるので、全体的なシステムのレイテンシー(latency)が短縮されることができる。略式の聴取試験は、20ms未満の遅れ(lag)が仮想ベース効果を妨げないことを示している。この遅れは、49kHzオーディオ信号について960サンプルに対応する。
<Virtual base signal delayed in time>
Referring to FIG. 4, the fourth latency mitigation element includes lagging the virtual base signal from the
ある実施形態のある個別的な実装では、仮想ベース信号は、合計352サンプル(48kHzでは7.33ms)だけ広帯域信号を遅らせることを許容される。これら352サンプルのうち、32サンプルは、非対称的な変換窓に由来する。1376がCQMFフィルタバンク・サイズの64で割り切れないからである。よって、非対称窓変換からの遅延は、1344の広帯域レイテンシー+32サンプルの遅れに分割されることができる。これら32サンプルに上乗せされる追加的な遅れは、320サンプルである(5個のCQMFサンプル、48kHzのサンプリング周波数では6.67msに対応)。 In one particular implementation of an embodiment, the virtual base signal is allowed to delay the wideband signal by a total of 352 samples (7.33 ms at 48 kHz). Of these 352 samples, 32 samples are derived from asymmetric conversion windows. This is because 1376 is not divisible by 64 of the CQMF filter bank size. Thus, the delay from the asymmetric window transformation can be divided into 1344 wideband latency +32 sample delay. The additional delay added to these 32 samples is 320 samples (5 CQMF samples, corresponding to 6.67 ms at 48 kHz sampling frequency).
図4の種々のレイテンシー軽減要素402〜408は、仮想ベース・システム・レイテンシーの軽減を達成するために、任意の実際的な数の組み合わせにおいて使用されうる。さらに、各レイテンシー軽減方法の適切な変数は、仮想ベース信号品質における何らかの知覚される低下に関係して、レイテンシーを増すよう変更されてもよい。ある実施形態では、四つのレイテンシー軽減要素は、以下の値を使って実装された:基本転移因子B=8、ホップ・サイズSA=2、変換遅延D=40、打ち切りされたナイキスト・フィルタおよび320サンプルの追加的な仮想ベース遅れ。この例示的な場合には、出力サンプルにおける結果として得られる仮想ベース・システム遅延は、次のようであった。 The various latency mitigation elements 402-408 of FIG. 4 can be used in any practical number combination to achieve virtual base system latency mitigation. Further, the appropriate variable for each latency mitigation method may be modified to increase latency in connection with some perceived decrease in virtual base signal quality. In one embodiment, the four latency mitigation elements were implemented using the following values: basic transfer factor B = 8, hop size S A = 2, conversion delay D = 40, truncated Nyquist filter, and Additional virtual base delay of 320 samples. In this exemplary case, the resulting virtual base system delay in the output samples was:
DVB={(B+1)・D/2−B・(SA−1)}・64/B−32+0−320=1376−352=1024
上記のように前処理段においてナイキスト分解フィルタバンクを回避する(たとえば、図2における入力B 203および図3Aの信号B 306を図3Cの仮想ベース・モジュール330の入力D 332として使う)ことは、遅延のさらに384サンプルを節約することができる。結果として、1024−384=640サンプルの仮想ベース・システム遅延を与える(48kHzのサンプリング周波数では13msに対応)。
D VB = {(B + 1) ・ D / 2−B ・ (S A −1)} ・ 64 /
Avoiding the Nyquist decomposition filter bank in the preprocessing stage as described above (eg, using input B 203 in FIG. 2 and
この例示的な場合における640サンプルの遅延は、先述したレガシー仮想ベース・システムにおける3200サンプルの公称遅延より著しく少ない。この遅延は、さらなる仮想ベース遅れを加えることによって、ホップ・サイズSAを2でなく4に増加させることによって、または40より短い結果的な分解/合成遅延をもつ非対称的な変換窓を設計することによって、さらに短縮することができる。しかしながら、そのようないかなる値の変更も、レイテンシーがさらに短縮されうるものの、わずかにより貧弱な仮想ベース品質につながりうる。 The delay of 640 samples in this exemplary case is significantly less than the nominal delay of 3200 samples in the legacy virtual base system described above. This delay is designed by adding a further virtual base delay, increasing the hop size S A to 4 instead of 2, or designing an asymmetric transformation window with a resulting decomposition / synthesis delay shorter than 40 This can be further shortened. However, any such value change can lead to slightly poorer virtual base quality, although the latency can be further reduced.
本稿に記載される仮想ベース・レイテンシー軽減の実施形態は、図2および図3に示されるような任意の適切な仮想ベース生成システムとの関連で使用されてもよい。図8は、ある実施形態のもとでの、仮想ベース生成システムおよびレイテンシー軽減システムを含むオーディオ処理システムを示すブロック図である。図8に示されるように、システム800は、図3Cに示されるような仮想ベース・システム330を有する。仮想ベース・システム330は、入力オーディオ信号801を受け取って、ある種の周波数転移機能を実行して、限られた周波数応答機能のものでありうるスピーカー806を通じた再生のために、向上されたオーディオ・コンテンツを生成する。ある種のレイテンシーが、仮想ベース・システム330によって実行される転移機能に付随することがある。ある実施形態では、仮想ベース・レイテンシー軽減システム400(図4に示されるようなもの)は、仮想ベース処理に付随するレイテンシーを軽減するための、仮想ベース・システム330への後プロセスとして設けられる。仮想ベース・システム330および400からの軽減されたレイテンシーのオーディオ信号は、次いで、レンダリング・サブシステム802に送られる。該レンダリング・サブシステム802は、左右の(または多チャネルの)スピーカー806のために増幅器804を通じてフィードされうるスピーカー・フィードを生成するよう構成される。
The virtual base latency mitigation embodiments described herein may be used in connection with any suitable virtual base generation system as shown in FIGS. FIG. 8 is a block diagram illustrating an audio processing system including a virtual base generation system and a latency mitigation system, under an embodiment. As shown in FIG. 8, the
仮想ベース・レイテンシー軽減システム400はシステム800における別個の後プロセス要素であるように示されているが、そのようなレイテンシー軽減システムは、(先に示したように)仮想ベース・システム330の一部として実装されてもよく、あるいはレンダリング・サブシステム802内の機能コンポーネントのようなシステム800の他の任意の適切な要素の一部として実装されてもよいことは注意しておくべきである。同様に、仮想ベース・システム330は、背景において概説したレガシーの仮想ベース生成システムであってもよいし、あるいはスピーカー806を通じた再生のためにベース・コンテンツの知覚されるレベルを高めるために入力オーディオ信号801を向上させるために高調波転移を使う他の何らかの仮想ベース生成および処理システムであってもよい。
Although the virtual base
仮想ベース・レイテンシー軽減システムの諸実施形態は、多様な異なる再生装置およびオーディオ・スピーカー(トランスデューサ)を通じてデジタル・オーディオをレンダリングおよび再生するいかなるオーディオ処理システムにおいて使用されることもできる。これらのスピーカーは、多様な異なる聴取装置または再生設備品目の任意のもの、たとえばコンピュータ、テレビジョン、ステレオ・システム(家庭または映画館)、携帯電話、タブレットおよび他の携帯再生装置において具現されてもよい。スピーカーは任意の適切なサイズおよびパワー定格のものであってもよく、自立型のドライバ、スピーカー・エンクロージャー、サラウンドサウンド・システム、サウンドバー、ヘッドホン、イヤホンなどの形で提供されてもよい。スピーカーは、いかなる適切なアレイにおいて構成されてもよく、モノフォニック・ドライバ、バイノーラル・スピーカー、サラウンドサウンド・スピーカー・アレイまたはオーディオ・ドライバの他の任意の適切なアレイを含んでいてもよい。 Embodiments of the virtual base latency mitigation system can be used in any audio processing system that renders and plays digital audio through a variety of different playback devices and audio speakers (transducers). These speakers may be embodied in any of a variety of different listening devices or playback equipment items, such as computers, televisions, stereo systems (home or movie theaters), cell phones, tablets and other portable playback devices. Good. The speakers may be of any suitable size and power rating, and may be provided in the form of free-standing drivers, speaker enclosures, surround sound systems, sound bars, headphones, earphones, and so forth. The speakers may be configured in any suitable array and may include monophonic drivers, binaural speakers, surround sound speaker arrays, or any other suitable array of audio drivers.
本稿に記載される一つまたは複数の実施形態の諸側面は、ソフトウェア命令を実行する一つまたは複数のコンピュータまたは処理装置を含むネットワークを通じた送信のためにオーディオ信号を処理するオーディオ・システムにおいて実装されてもよい。記載される実施形態のいずれも、単独でまたは任意の組み合わせで互いと一緒に使用されてもよい。さまざまな実施形態は、本明細書の一つまたは複数の箇所で論じられるか暗に示唆されるかされていることがありうる従来技術のさまざまな欠点によって動機付けられたことがあるが、実施形態は必ずしもこれらの欠点のいずれかに対処するものではない。換言すれば、種々の実施形態は、明細書で論じていることがありうる種々の欠点に対処することがある。いくつかの実施形態は、明細書で論じていることがありうるいくつかの欠点またはたった一つの欠点に部分的に対処するだけであることがあり、いくつかの実施形態はこれらの欠点のいずれにも対処しないことがありうる。 Aspects of one or more embodiments described herein are implemented in an audio system that processes audio signals for transmission over a network that includes one or more computers or processing devices that execute software instructions. May be. Any of the described embodiments may be used with each other alone or in any combination. While the various embodiments have been motivated by various shortcomings of the prior art that may be discussed or implied in one or more places in the specification, The form does not necessarily address any of these drawbacks. In other words, the various embodiments may address various drawbacks that may be discussed in the specification. Some embodiments may only partially address some or only one drawback that may be discussed in the specification, and some embodiments may not address any of these disadvantages. May not be addressed.
本稿に記載されるシステムの諸側面は、デジタルまたはデジタイズされたオーディオ・ファイルを処理するための適切なコンピュータ・ベースの音処理ネットワーク環境において実装されうる。適応オーディオ・システムの諸部分は、コンピュータ間で伝送されるデータをバッファリングおよびルーティングするはたらきをする一つまたは複数のルータ(図示せず)を含む、任意の所望される数の個別の機械を有する一つまたは複数のネットワークを含んでいてもよい。そのようなネットワークは、さまざまな異なるネットワーク・プロトコルの上に構築されてもよく、インターネット、広域ネットワーク(WAN)、ローカル・エリア・ネットワーク(LAN)またはその任意の組み合わせであってもよい。 The system aspects described herein may be implemented in a suitable computer-based sound processing network environment for processing digital or digitized audio files. The parts of the adaptive audio system can include any desired number of individual machines, including one or more routers (not shown) that serve to buffer and route data transmitted between computers. One or more networks may be included. Such a network may be built on a variety of different network protocols and may be the Internet, a wide area network (WAN), a local area network (LAN), or any combination thereof.
上記のコンポーネント、ブロック、プロセスまたは他の機能構成要素の一つまたは複数は、システムのプロセッサ・ベースのコンピューティング装置の実行を制御するコンピュータ・プログラムを通じて実装されてもよい。本稿に開示されるさまざまな機能は、ハードウェア、ファームウェアのいくつもある組み合わせを使っておよび/またはさまざまな機械可読もしくはコンピュータ可読媒体において具現されたデータおよび/または命令として、挙動上の、レジスタ転送、論理コンポーネントおよび/または他の特性を用いて記載されることがあることを注意しておくべきである。そのようなフォーマットされたデータおよび/または命令が具現されうるコンピュータ可読媒体は、光学式、磁気式もしくは半導体記憶媒体のようなさまざまな形の物理的(非一時的)、不揮発性記憶媒体を含むがそれに限定されない。 One or more of the above components, blocks, processes or other functional components may be implemented through a computer program that controls the execution of the processor-based computing device of the system. The various functions disclosed in this article are behavioral, register transfers using any combination of hardware, firmware and / or as data and / or instructions embodied in various machine-readable or computer-readable media. It should be noted that logic components and / or other characteristics may be described. Computer readable media on which such formatted data and / or instructions can be implemented include various forms of physical (non-transitory), non-volatile storage media such as optical, magnetic or semiconductor storage media. Is not limited to this.
文脈がそうでないことを明確に要求するのでないかぎり、本記述および請求項を通じて、単語「有する」「含む」などは、排他的もしくは網羅的な意味ではなく包含的な意味に解釈されるものとする。すなわち、「……を含むがそれに限定されない」の意味である。単数または複数を使った単語は、それぞれ複数または単数をも含む。さらに、「本稿で」「以下で」「上記で」「下記で」および類似の意味の単語は、全体としての本願を指すのであって、本願のいかなる特定の部分を指すものでもない。単語「または」が二つ以上の項目のリストを参照して使われるとき、その単語は該単語の以下の解釈のすべてをカバーする:リスト中の項目の任意のもの、リスト中の項目のすべておよびリスト中の項目の任意の組み合わせ。 Unless the context clearly requires otherwise, the words “comprising”, “including”, and the like are to be interpreted in an inclusive rather than an exclusive or exhaustive sense throughout the description and claims. To do. In other words, it means “including but not limited to”. Words using the singular or plural number also include the plural or singular number respectively. Further, the words “in this article”, “below”, “above”, “below” and similar meanings refer to the present application as a whole, and not to any particular part of the present application. When the word “or” is used with reference to a list of two or more items, the word covers all of the following interpretations of the word: any of the items in the list, all of the items in the list And any combination of items in the list.
一つまたは複数の実装が、例として、個別的な実施形態を用いて記載されているが、一つまたは複数の実装は開示される実施形態に限定されないことは理解されるものとする。逆に、当業者に明白であろうさまざまな修正および類似の構成をカバーすることが意図されている。したがって、付属の請求項の範囲は、そのようなすべての修正および類似の構成を包含するような最も広い解釈を与えられるべきである。 Although one or more implementations are described by way of example with particular embodiments, it is to be understood that one or more implementations are not limited to the disclosed embodiments. On the contrary, it is intended to cover various modifications and similar arrangements that will be apparent to those skilled in the art. Accordingly, the scope of the appended claims should be accorded the broadest interpretation so as to encompass all such modifications and similar arrangements.
Claims (22)
入力オーディオ信号を受領する段階と;
前記入力オーディオ信号の低周波数成分に対して高調波転移を実行して前記入力オーディオ信号の高調波を示す転移されたデータを生成する段階と;
前記転移されたデータに応答して仮想ベース信号を生成する段階と;
前記仮想ベース信号を前記入力オーディオ信号の遅延されたバージョンと組み合わせることによって向上されたオーディオ信号を生成する段階とを含み、
前記高調波転移は、2より大きい基本転移次数Bを使う組み合わされた転移を用い、それにより、前記高調波が、前記低周波数成分のそれぞれの二次高調波および少なくとも一つのより高次の高調波を含み、前記高調波のすべてが、非対称な分解窓を使う共通の時間から周波数領域への変換段によって決定される周波数領域の値と、非対称な合成窓を使う共通の周波数から時間領域への変換段によって決定されるその後の逆変換とに応答して生成される、
方法。 A method for generating a low latency virtual base comprising:
Receiving an input audio signal;
Performing a harmonic transition on the low frequency components of the input audio signal to generate the transferred data indicative of the harmonics of the input audio signal;
Generating a virtual base signal in response to the transferred data;
Combining the virtual base signal with a delayed version of the input audio signal to generate an enhanced audio signal;
The harmonic transition uses a combined transition that uses a fundamental transition order B greater than 2, whereby the harmonics are each second harmonic and at least one higher harmonic of the low frequency component. And all of the harmonics are frequency domain values determined by a common time to frequency domain conversion stage using an asymmetric decomposition window and a common frequency to time domain using an asymmetric synthesis window. Generated in response to a subsequent inverse transformation determined by the transformation stage of
Method.
前記非線形演算によって処理された周波数成分から、第一の周波数帯域内の周波数成分の第一のセットおよび第二の周波数帯域内の周波数成分の第二のセットに分割することによって、二組の周波数成分を生成する段階と;
さらに、周波数成分の前記第一のセットに対して第一の周波数から時間領域への変換を実行し、周波数成分の前記第二のセットに対して第二の周波数から時間領域への変換を実行する段階であって、前記第一の周波数から時間領域への変換および前記第二の周波数から時間領域への変換のそれぞれは、前記時間から周波数領域への変換よりB倍小さな変換サイズをもつ、段階と;
さらに、前記周波数から時間領域への変換からのサンプルに対して、非対称な0パディングされた窓を適用する段階であって、前記非対称な0パディングされた窓は、前記入力オーディオ信号から生成される前記非対称に窓掛けされ、0パディングされたサンプルよりB倍短く、それにより二セットの転移されたデータを形成する段階とを含む、
請求項4記載の方法。 Generating data transferred from low frequency components produces asymmetrically windowed, zero-padded samples, and asymmetrically windowed, zero-padded samples from time to frequency domain Performing a frequency domain oversampled transform on the input audio signal by performing a transform, and then performing a non-linear operation on the output from the time to frequency domain transform to the low frequency Performing by generating said transferred data from components; and
From frequency components that are processed by said non-linear operation, by dividing the second set of the first set and a second frequency component in the frequency band of the frequency components within the first frequency band, two sets of Generating a frequency component;
In addition, a first frequency to time domain transformation is performed on the first set of frequency components, and a second frequency to time domain transformation is performed on the second set of frequency components. Each of the first frequency to time domain transform and the second frequency to time domain transform has a transform size that is B times smaller than the time to frequency domain transform. Stages;
And applying an asymmetric zero-padded window to the samples from the frequency to time domain transform, wherein the asymmetric zero-padded window is generated from the input audio signal. Comprising B times shorter than the asymmetrically windowed and zero-padded sample, thereby forming two sets of transferred data;
The method of claim 4.
入力オーディオ信号を受領し、前記入力オーディオ信号の低周波数成分に対して高調波転移を実行して前記入力オーディオ信号の高調波を示す転移されたデータを生成する第一のコンポーネントと;
前記転移されたデータに応答して仮想ベース信号を生成し、前記仮想ベース信号を前記入力オーディオ信号の遅延されたバージョンと組み合わせて向上されたオーディオ信号を生成する第二のコンポーネントであって、前記高調波転移は、2より大きい基本転移次数Bを使う組み合わされた転移を用い、それにより、前記高調波が、前記低周波数成分のそれぞれの二次高調波および少なくとも一つのより高次の高調波を含み、前記高調波のすべてが、非対称な分解窓を使う共通の時間から周波数領域への変換段によって決定される周波数領域の値と、非対称な合成窓を使う共通の周波数から時間領域への変換段によって決定されるその後の逆変換とに応答して生成される、
装置。 A device that generates a low-latency virtual base:
A first component that receives an input audio signal and performs a harmonic transition on a low frequency component of the input audio signal to generate transferred data indicative of harmonics of the input audio signal;
A second component for generating a virtual base signal in response to the transferred data and combining the virtual base signal with a delayed version of the input audio signal to generate an enhanced audio signal, Harmonic transitions use a combined transition that uses a fundamental transition order B greater than 2, so that the harmonics are each second harmonic and at least one higher harmonic of the low frequency component. All of the harmonics are frequency domain values determined by a common time to frequency domain conversion stage using an asymmetric decomposition window and a common frequency to time domain using an asymmetric synthesis window. Generated in response to a subsequent inverse transformation determined by the transformation stage,
apparatus.
前記非線形演算によって処理された周波数成分から、第一の周波数帯域内の周波数成分の第一のセットおよび第二の周波数帯域内の周波数成分の第二のセットに分割することによって、二組の周波数成分を生成する第四のコンポーネントと;
さらに、周波数成分の前記第一のセットに対して第一の周波数から時間領域への変換を実行し、周波数成分の前記第二のセットに対して第二の周波数から時間領域への変換を実行する第五のコンポーネントであって、前記第一の周波数から時間領域への変換および前記第二の周波数から時間領域への変換のそれぞれは、前記時間から周波数領域への変換よりB倍小さな変換サイズをもつ、第五のコンポーネントと;
前記周波数から時間領域への変換からのサンプルに対して、非対称な0パディングされた窓を適用する第六のコンポーネントであって、前記非対称な0パディングされた窓は、前記入力オーディオ信号から生成される前記非対称に窓掛けされ、0パディングされたサンプルよりB倍短く、それにより二セットの転移されたデータを形成する第六のコンポーネントとをさらに有する、
請求項16記載の装置。 Generating data transferred from low frequency components produces asymmetrically windowed, zero-padded samples, and asymmetrically windowed, zero-padded samples from time to frequency domain Performing a frequency domain oversampled transform on the input audio signal by performing a transform, and then performing a non-linear operation on the output from the time to frequency domain transform to the low frequency A third component, by generating the transferred data from the component;
From frequency components that are processed by said non-linear operation, by dividing the second set of the first set and a second frequency component in the frequency band of the frequency components within the first frequency band, two sets of A fourth component that generates frequency components;
In addition, a first frequency to time domain transformation is performed on the first set of frequency components, and a second frequency to time domain transformation is performed on the second set of frequency components. Each of the first frequency to time domain transform and the second frequency to time domain transform has a transform size that is B times smaller than the time to frequency domain transform. And a fifth component;
A sixth component that applies an asymmetric zero-padded window to samples from the frequency to time domain transform, wherein the asymmetric zero-padded window is generated from the input audio signal; A sixth component that is B times shorter than the asymmetrically windowed and zero-padded sample, thereby forming two sets of transferred data;
The apparatus of claim 16.
前記転移されたデータに応答して仮想ベース信号を生成することが、前記二セットの転移されたデータの一方または両方に適用される分解フィルタバンクを含み、該分解フィルタバンクは対称的なフィルタの打ち切りされたバージョンを含む、装置。 18. The apparatus of claim 17, wherein the first frequency band is a frequency band of CQMF channel 0 and the second frequency band is a frequency band of CQMF channel 1 from a set of CQMF subband signals.
Generating a virtual base signal in response to the transferred data includes a decomposition filter bank applied to one or both of the two sets of transferred data, the decomposition filter bank being a symmetrical filter bank. A device that contains a truncated version.
前記仮想ベース信号を前記遅延された入力オーディオ信号と組み合わせて、時間的に遅らされた仮想ベース信号を示す向上されたオーディオ信号を生成する混合コンポーネントとをさらに有する、
請求項13記載の装置。 A timing component that generates a version of the input audio signal delayed by a predefined time period shorter than the latency of the virtual base signal;
A mixing component that combines the virtual base signal with the delayed input audio signal to generate an enhanced audio signal indicative of the temporally delayed virtual base signal;
The apparatus of claim 13.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/652,023 | 2012-10-15 | ||
US13/652,023 US8971551B2 (en) | 2009-09-18 | 2012-10-15 | Virtual bass synthesis using harmonic transposition |
PCT/EP2013/070262 WO2014060204A1 (en) | 2012-10-15 | 2013-09-27 | System and method for reducing latency in transposer-based virtual bass systems |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015531575A JP2015531575A (en) | 2015-11-02 |
JP5894347B2 true JP5894347B2 (en) | 2016-03-30 |
Family
ID=49293633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015536058A Active JP5894347B2 (en) | 2012-10-15 | 2013-09-27 | System and method for reducing latency in a virtual base system based on a transformer |
Country Status (4)
Country | Link |
---|---|
EP (2) | EP2907324B1 (en) |
JP (1) | JP5894347B2 (en) |
CN (1) | CN104704855B (en) |
WO (1) | WO2014060204A1 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105280189B (en) * | 2015-09-16 | 2019-01-08 | 深圳广晟信源技术有限公司 | The method and apparatus that bandwidth extension encoding and decoding medium-high frequency generate |
BR112022002100A2 (en) | 2019-08-08 | 2022-04-12 | Boomcloud 360 Inc | Adaptable non-linear filter banks for psychoacoustic frequency range extension |
US20230217166A1 (en) * | 2020-03-20 | 2023-07-06 | Dolby International Ab | Bass enhancement for loudspeakers |
WO2023280356A1 (en) * | 2021-07-09 | 2023-01-12 | Soundfocus Aps | Method and transducer array system for directionally reproducing an input audio signal |
EP4367906A1 (en) * | 2021-07-09 | 2024-05-15 | Soundfocus Aps | Method and loudspeaker system for processing an input audio signal |
JP2023130644A (en) * | 2022-03-08 | 2023-09-21 | アルプスアルパイン株式会社 | Acoustic signal processing device, acoustic system, and method for enhancing low-pitched sound feeling |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE0101175D0 (en) | 2001-04-02 | 2001-04-02 | Coding Technologies Sweden Ab | Aliasing reduction using complex-exponential-modulated filter banks |
TWI339991B (en) * | 2006-04-27 | 2011-04-01 | Univ Nat Chiao Tung | Method for virtual bass synthesis |
US8036903B2 (en) * | 2006-10-18 | 2011-10-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system |
JP4983694B2 (en) * | 2008-03-31 | 2012-07-25 | 株式会社Jvcケンウッド | Audio playback device |
KR101256808B1 (en) * | 2009-01-16 | 2013-04-22 | 돌비 인터네셔널 에이비 | Cross product enhanced harmonic transposition |
CN101505443B (en) * | 2009-03-13 | 2013-12-11 | 无锡中星微电子有限公司 | Virtual supper bass enhancing method and system |
GB0906594D0 (en) * | 2009-04-17 | 2009-05-27 | Sontia Logic Ltd | Processing an audio singnal |
KR101613684B1 (en) * | 2009-12-09 | 2016-04-19 | 삼성전자주식회사 | Apparatus for enhancing bass band signal and method thereof |
US8638953B2 (en) * | 2010-07-09 | 2014-01-28 | Conexant Systems, Inc. | Systems and methods for generating phantom bass |
PL2596497T3 (en) * | 2010-07-19 | 2014-10-31 | Dolby Int Ab | Processing of audio signals during high frequency reconstruction |
JP5375861B2 (en) * | 2011-03-18 | 2013-12-25 | ヤマハ株式会社 | Audio reproduction effect adding method and apparatus |
CN102354500A (en) * | 2011-08-03 | 2012-02-15 | 华南理工大学 | Virtual bass boosting method based on harmonic control |
TWI575962B (en) * | 2012-02-24 | 2017-03-21 | 杜比國際公司 | Low delay real-to-complex conversion in overlapping filter banks for partially complex processing |
-
2013
- 2013-09-27 EP EP13771123.0A patent/EP2907324B1/en active Active
- 2013-09-27 CN CN201380053450.0A patent/CN104704855B/en active Active
- 2013-09-27 WO PCT/EP2013/070262 patent/WO2014060204A1/en active Application Filing
- 2013-09-27 JP JP2015536058A patent/JP5894347B2/en active Active
- 2013-10-14 EP EP13188415.7A patent/EP2720477B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
EP2907324B1 (en) | 2016-11-09 |
WO2014060204A1 (en) | 2014-04-24 |
EP2720477A1 (en) | 2014-04-16 |
EP2907324A1 (en) | 2015-08-19 |
JP2015531575A (en) | 2015-11-02 |
CN104704855A (en) | 2015-06-10 |
CN104704855B (en) | 2016-08-24 |
EP2720477B1 (en) | 2016-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9407993B2 (en) | Latency reduction in transposer-based virtual bass systems | |
JP7206318B2 (en) | Systems and methods for generating high frequency components of a signal | |
JP5894347B2 (en) | System and method for reducing latency in a virtual base system based on a transformer | |
RU2402872C2 (en) | Efficient filtering with complex modulated filterbank | |
JP4527716B2 (en) | A novel processing and adaptive time signaling method based on complex exponential modulation filter bank | |
KR101773631B1 (en) | Band enhancement method, band enhancement apparatus, program, integrated circuit and audio decoder apparatus | |
SG183966A1 (en) | Improved magnitude response and temporal alignment in phase vocoder based bandwidth extension for audio signals | |
JP2012500410A (en) | Parametric stereo conversion system and method | |
JP7260101B2 (en) | Information processing device, mixing device using the same, and latency reduction method | |
CN111988726A (en) | Method and system for synthesizing single sound channel by stereo | |
US11488574B2 (en) | Method and system for implementing a modal processor | |
JP2024510177A (en) | Audio decorrelator, processing system and method for decorrelating audio signals | |
CN117157706A (en) | Audio decorrelator, processing system and method for decorrelating audio signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20151007 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151013 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160202 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160225 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5894347 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |