JP2022522706A - Down mixer and down mix method - Google Patents

Down mixer and down mix method Download PDF

Info

Publication number
JP2022522706A
JP2022522706A JP2021550157A JP2021550157A JP2022522706A JP 2022522706 A JP2022522706 A JP 2022522706A JP 2021550157 A JP2021550157 A JP 2021550157A JP 2021550157 A JP2021550157 A JP 2021550157A JP 2022522706 A JP2022522706 A JP 2022522706A
Authority
JP
Japan
Prior art keywords
spectral
spectral region
band
region representation
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021550157A
Other languages
Japanese (ja)
Other versions
JP7416816B2 (en
Inventor
ロイテルフーバー・フランツ
エドラー・ベルント
フォトプルー・エレニ
ムルトラス・マークス
マーベン・パラヴィ
ディッシュ・ザシャ
Original Assignee
フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2022522706A publication Critical patent/JP2022522706A/en
Priority to JP2023188061A priority Critical patent/JP2024001324A/en
Priority to JP2023188062A priority patent/JP2024001325A/en
Application granted granted Critical
Publication of JP7416816B2 publication Critical patent/JP7416816B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Complex Calculations (AREA)
  • Superheterodyne Receivers (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereo-Broadcasting Methods (AREA)

Abstract

少なくとも2つのチャネルを有するマルチチャネル信号をダウンミックスするためのダウンミキサは、前記少なくとも2つのチャネルの帯域ごとの重み値を推定するための重み値推定器(100)と、前記帯域ごとの重み値を使用して前記少なくとも2つのチャネルのスペクトル領域表現を重み付けするためのスペクトル重み付け器(200)と、前記少なくとも2つのチャネルの重み付けされたスペクトル領域表現を前記少なくとも2つのチャネルの時間表現に変換する変換器(300)と、ダウンミックス信号を取得するために前記少なくとも2つのチャネルの前記時間表現を混合するためのミキサ(400)とを備える。The down mixer for downmixing a multi-channel signal having at least two channels includes a weight value estimator (100) for estimating a weight value for each band of the at least two channels, and a weight value for each band. Is used to convert the weighted spectral region representation of the at least two channels into the temporal representation of the at least two channels with a spectral weighting device (200) for weighting the spectral region representation of the at least two channels. It comprises a converter (300) and a mixer (400) for mixing the temporal representations of the at least two channels to obtain a downmix signal.

Description

本発明は、オーディオ信号処理に関し、特に、マルチチャネル信号のダウンミックス又はオーディオ信号のスペクトル分解能変換に関する。 The present invention relates to audio signal processing, in particular to downmixing of multichannel signals or spectral resolution conversion of audio signals.

ステレオ符号化ビットストリームは、通常、ステレオシステム上で再生されるように復号されるが、ステレオビットストリームを受信することができる全てのデバイスが常にステレオ信号を出力することができるわけではない。可能なシナリオは、モノラルスピーカのみを用いた携帯電話でのステレオ信号の再生である。したがって、新しい3GPP IVAS規格によってサポートされているようなマルチチャネル移動通信シナリオの出現により、単純な受動的ダウンミックスで達成可能なものを超える、最良の可能な知覚品質を提供しながら、追加の遅延のない、且つ複雑性の面で可能な限り効率的な、ステレオからモノラルへのダウンミックスが必要とされる。 Stereo-encoded bitstreams are usually decoded to be played on a stereo system, but not all devices capable of receiving a stereobitstream can always output a stereo signal. A possible scenario is the reproduction of a stereo signal on a mobile phone using only monaural speakers. Therefore, with the advent of multi-channel mobile communication scenarios as supported by the new 3GPP IVAS standard, additional delays are provided while providing the best possible perceptual quality beyond what is achievable with a simple passive downmix. There is a need for a stereo-to-monaural downmix that is as efficient as possible in terms of complexity.

ステレオ信号をモノラル信号に変換する方法は複数ある。これを行う最も直接的な方法は、時間領域における受動的ダウンミックス[1]によるものであり、左右のチャネルを加算し、結果をスケーリングすることによって中間信号を生成する:

Figure 2022522706000002
There are multiple ways to convert a stereo signal to a monaural signal. The most direct way to do this is by passive downmixing [1] in the time domain, adding the left and right channels and scaling the result to generate an intermediate signal:
Figure 2022522706000002

更に高度な(すなわち、能動的)時間領域ベースのダウンミックス方法は、信号[2]、[3]の全体的なエネルギーを保存するための努力におけるエネルギースケーリング、キャンセル効果を回避するための位相整合[4]、及びコヒーレンス抑制によるコムフィルタ効果の防止[5]を含む。 A more advanced (ie, active) time domain-based downmix method is a phase matching to avoid energy scaling and cancellation effects in efforts to conserve the overall energy of signals [2], [3]. Includes [4] and prevention of comb filter effect by suppressing coherence [5].

別の方式は、複数のスペクトル帯域に対して別々の重み係数を計算することによって周波数依存方式でエネルギー補正を行うことである。例えば、これはMPEG-Hフォーマット変換器[6]の一部として行われ、ダウンミックスは、ハイブリッドQMFサブ帯域表現上で、又はチャネルの追加の事前位相整合を伴う信号のSTFTフィルタバンクを用いて実行される。IVASのコンテキストでは、同様の帯域ごとのダウンミックス(位相及び時間の両方の整合を含む)が、パラメトリック低ビットレートモードDFTステレオのために既に使用されており、重み付け及びミックスがDFT領域において適用される[7]。 Another method is to perform energy correction in a frequency-dependent manner by calculating different weighting factors for multiple spectral bands. For example, this is done as part of an MPEG-H format converter [6] and downmixing is done on a hybrid QMF subband representation or using a signal STFT filter bank with additional pre-phase matching of the channel. Will be executed. In the context of IVAS, similar per-band downmixes (including both phase and time matching) have already been used for parametric low bitrate mode DFT stereo, and weighting and mixing are applied in the DFT region. [7].

ステレオ信号を復号した後の時間領域における受動的なステレオからモノラルへのダウンミックスの単純な解決策は理想的ではなく、なぜなら純粋に受動的ダウンミックスには、特定の欠点、例えば、位相キャンセル効果又は一般的なエネルギー損失があり、これは、項目に応じて、品質を著しく低下させる可能性があることがよく知られているためである。 A simple solution for passive stereo-to-monaural downmixing in the time domain after decoding a stereo signal is not ideal, because purely passive downmixing has certain drawbacks, such as the phase canceling effect. Or there is a general energy loss, as it is well known that, depending on the item, it can significantly reduce quality.

純粋に時間領域ベースである他の能動的ダウンミックス方法は、受動的ダウンミックスのいくつかの問題を軽減するが、周波数依存重み付けの欠如のために依然として次善の方法である。 Other active downmix methods that are purely time domain based alleviate some problems with passive downmixing, but are still suboptimal due to the lack of frequency dependent weighting.

遅延及び複雑さに関してIVASのような移動通信コーデックに対する暗黙の制約により、帯域ごとのダウンミックスを適用するためのMPEG-Hフォーマット変換器のような専用の後処理ステージを有することは、必要な周波数領域への変換及び戻りが必然的に複雑さ及び遅延の両方を増加させるため、選択肢ではない。 Due to implicit constraints on mobile communication codecs like IVAS with respect to delay and complexity, having a dedicated post-processing stage like an MPEG-H format converter to apply a band-by-band downmix is a required frequency. Conversion and return to the domain inevitably increases both complexity and delay, so it is not an option.

[8]のようにブロック切り替えを伴うTCX変換符号化を利用するステレオコーデックモードの場合、使用可能な様々なモードがあり得、例えば、20msのブロックサイズを有するフレーム当たり1つのブロック(TCX20)及び10msのブロックサイズを有するフレーム当たり2つのサブブロック(TCX10)である。各サブブロックは、10msのフルTCX10ブロックであるか、又は再び5msの2つのブロック(TCX5)に細分される。どのモードを使用するかの決定は、各チャネルに対して互いに独立して行われる。これは、チャネル間で異なる決定を行うことが可能であることを意味する。これは、それぞれのスペクトル領域表現の異なる時間-周波数分解能のために、[7](チャネルの帯域ごとの重み付け、次いでDFT領域でのモノ-ダウンミックスの両方)に記載されているようなDFTベースのステレオエンコーダで使用されるのと全く同じダウンミックス方法を使用することを不可能にする。 In the case of a stereo codec mode that utilizes TCX transform coding with block switching as in [8], there may be various modes available, for example one block per frame (TCX20) with a block size of 20 ms. Two subblocks (TCX10) per frame with a block size of 10 ms. Each subblock is either a 10 ms full TCX10 block or is again subdivided into two 5 ms blocks (TCX5). The determination of which mode to use is independent of each other for each channel. This means that it is possible to make different decisions between channels. This is a DFT-based as described in [7] (both channel band-by-band weighting and then mono-downmix in the DFT region) due to the different time-frequency resolution of each spectral region representation. Makes it impossible to use the exact same downmix method used in the stereo encoders.

本発明の目的は、オーディオ信号処理のための改善された概念を提供することである。 It is an object of the present invention to provide an improved concept for audio signal processing.

この目的は、請求項1又は35に記載のダウンミキサ、請求項46又は47に記載のダウンミックス方法、又は請求項48に記載のコンピュータプログラムによって達成される。 This object is achieved by the downmixer according to claim 1 or 35, the downmix method according to claim 46 or 47, or the computer program according to claim 48.

本発明の第1の態様によれば、ダウンミキサは、重み値推定器と、スペクトル重み付け器と、変換器と、続いて接続されるミキサとを備える。スペクトル領域から時間領域への変換は、次に、第1のチャネルのスペクトル領域表現のスペクトル重み付け、及び第2のチャネルのスペクトル領域表現の重み付け、場合によっては更なるチャネルのスペクトル領域表現のスペクトル重み付けが実行される。重み付けされたスペクトル領域表現は、スペクトル領域表現から対応するチャネルの時間表現に変換される。時間領域では、ダウンミキサの出力としてダウンミックス信号を得るためにミックスが行われる。この手順は、スペクトル領域において有用且つ効率的であるがそれにもかかわらず高いオーディオ品質重み付けを実行することを可能にするが、スペクトル領域重み付け及びダウンミックスが単一の操作で実行される状況と比較して、スペクトル領域における個々のチャネルの個々の処理を依然として可能にする。このような状況では、スペクトル重み付け及びダウンミックスに続いて単一のダウンミックス信号が存在するため、個々のチャネル処理を実行することはもはや不可能である。したがって、本発明のこの態様によれば、それでもなお、スペクトル領域における個々のチャネル処理を実行することが可能にされるが、スペクトル領域におけるこの個々の処理は、スペクトル重み付けの後に実行される。 According to the first aspect of the present invention, the down mixer includes a weight value estimator, a spectrum weighter, a converter, and a mixer subsequently connected. The spectral domain-to-time domain transformation is then spectral weighting of the spectral domain representation of the first channel, and possibly further spectral weighting of the spectral domain representation of the second channel. Is executed. The weighted spectral domain representation is converted from the spectral domain representation to the time representation of the corresponding channel. In the time domain, mixing is done to obtain a downmix signal as the output of the downmixer. This procedure makes it possible to perform high audio quality weighting while being useful and efficient in the spectral region, but compared to situations where spectral region weighting and downmixing are performed in a single operation. Thus, individual processing of individual channels in the spectral region is still possible. In such situations, it is no longer possible to perform individual channel processing due to the presence of a single downmix signal following spectral weighting and downmixing. Therefore, according to this aspect of the invention, it is still possible to perform individual channel processing in the spectral region, but this individual processing in the spectral region is performed after spectral weighting.

少なくとも2つのチャネルが異なる時間又は周波数分解能を有する状況では、少なくとも2つのチャネルの帯域ごとの重み値の計算は、個々の帯域の少なくとも2つのチャネルのスペクトル領域表現の一方又は両方を、同じ時間又は周波数分解能を有する対応する表現に変換する必要がある。帯域ごとの重み値を計算することができる。しかしながら、この態様では、帯域ごとの重み値は、変換されたスペクトル領域表現又は2つ以上の結合されたスペクトル表現に適用されない。代わりに、スペクトル重み付けは、結合されたスペクトル領域表現が導出された元のスペクトル領域表現に適用される。したがって、重み付けされたスペクトル領域表現は元のスペクトル領域表現に依存し、好ましくはダウンミックス前のチャネル内の帯域の目標エネルギー及びダウンミックス信号の帯域の目標エネルギーを使用して、いずれにせよエネルギーの特定の推定値に基づく重み値のみが、少なくともいくつかの点で元のスペクトル領域表現とは異なる1つ以上の結合されたスペクトル領域表現から導出されることが保証される。 In situations where at least two channels have different time or frequency resolutions, the calculation of the bandwise weight values for at least two channels can be done with one or both of the spectral region representations of at least two channels of the individual bands at the same time or both. It needs to be converted to a corresponding representation with frequency resolution. The weight value for each band can be calculated. However, in this aspect, the band-by-band weighting values do not apply to the transformed spectral region representation or to the combined spectral representation of two or more. Instead, spectral weighting is applied to the original spectral region representation from which the combined spectral region representation was derived. Therefore, the weighted spectral region representation depends on the original spectral region representation, preferably using the target energy of the band in the channel before downmixing and the target energy of the band of the downmix signal, in any case of energy. Only weight values based on a particular estimate are guaranteed to be derived from one or more combined spectral region representations that differ from the original spectral region representation in at least some respects.

好ましくは、重み付けされたスペクトル領域表現を時間表現に変換するための変換器は、いくつかの構成要素を有する。1つの構成要素は実際の周波数-時間変換器であり、更なる構成要素は、例えば、スペクトル領域表現が由来するマルチチャネル信号を有するサイド情報を介して送信されたパラメータを使用する時間領域におけるチャネルごとの後処理である。あるいは、実際の周波数-時間変換の前にポストプロセッサが適用される。制御パラメータは、個々のチャネルのスペクトル領域処理を操作する。しかしながら、周波数-時間変換器を最初に有し、マルチチャネル信号のサイド情報から導出されるか、又はユーザ入力若しくは任意の他のパラメータ生成を介してダウンミキサで実際に生成若しくは入力されるチャネルごとの制御パラメータを使用して、少なくとも2つのチャネルの後処理時間領域表現のためのポストプロセッサを有することが好ましい。この時間領域の後処理に続いて、実際にダウンミックス信号を生成するミキサがある。 Preferably, the transducer for converting a weighted spectral region representation to a temporal representation has several components. One component is the actual frequency-time converter, and a further component is a channel in the time domain using parameters transmitted via side information having a multi-channel signal from which the spectral domain representation is derived, for example. It is a post-processing for each. Alternatively, the postprocessor is applied prior to the actual frequency-time conversion. Control parameters manipulate the spectral region processing of individual channels. However, for each channel that has a frequency-time converter first and is derived from the side information of the multi-channel signal or is actually generated or input by the downmixer via user input or any other parameter generation. It is preferred to have a postprocessor for post-processing time domain representation of at least two channels using the control parameters of. Following the post-processing in this time domain, there is a mixer that actually produces the downmix signal.

この手順は、元のスペクトル領域表現に帯域ごとの重み値を適用することに起因して、且つ、何らかの種類の電力又は画像推定値にいずれにせよ基づく帯域ごとの重み値が、1つ以上の(人工的に作成された)結合スペクトル領域表現から導出されるという事実に起因して、高品質のオーディオ信号処理を提供する。一方、実際のミックスステップは、全ての必要な個々のチャネル処理が適用されたときに発生する処理チェーンの最後のステップであるため、個々のチャネルのおそらく必要な時間領域又は周波数領域処理を依然として実行できるという事実により、高い処理柔軟性が達成される。更に、この手順は、実際のダウンミックス動作が処理チェーン内の最初の処理動作である場合に、制御パラメータのダウンミックス又はそれが必要とされるようなダウンミックスを必要としないので、非常に効率的である。 This procedure results from applying band-by-band weight values to the original spectral region representation, and has one or more band-by-band weight values based on any kind of power or image estimate. Due to the fact that it is derived from the (artificially created) coupled spectral region representation, it provides high quality audio signal processing. On the other hand, the actual mix step is the last step in the processing chain that occurs when all the required individual channel processing is applied, so it still performs the probably required time domain or frequency domain processing for each channel. High processing flexibility is achieved by the fact that it is possible. Moreover, this procedure is very efficient as it does not require a control parameter downmix or a downmix as it is required if the actual downmix operation is the first processing operation in the processing chain. It is a target.

本発明の第2の態様によれば、スペクトル分解能を変換するための装置は、結合スペクトル値の第1のグループを取得するために、1つ以上のスペクトル領域表現の複数のサブフレームの各サブフレームからの同じ周波数ビンに属するスペクトル値を第1の方式で結合し、また結合スペクトル値の第2のグループを取得するために、スペクトル領域表現の各サブフレームからの同じ周波数ビンに属するスペクトル値を第2の方式で結合するためのスペクトル値計算機を備える。この第2の方式は第1の方式とは異なり、結合スペクトル値の第1及び第2のグループは、異なる時間ビンサイズ及び異なる周波数ビンサイズを有する結合スペクトル領域表現を表す。このスペクトル分解能変換は、高い時間分解能を示すが低い周波数分解能を示す短い時間-周波数変換に由来する一対のスペクトル表現が存在する場合に特に有用である。 According to a second aspect of the invention, the apparatus for converting spectral resolution is a subframe of a plurality of subframes of one or more spectral region representations in order to obtain a first group of coupled spectral values. Spectral values belonging to the same frequency bin from each subframe of the spectral region representation to combine spectral values belonging to the same frequency bin from the frame in the first method and to obtain a second group of coupled spectral values. Is provided with a spectral value calculator for combining the above in the second method. This second scheme is different from the first scheme in that the first and second groups of coupled spectral values represent coupled spectral region representations with different time bin sizes and different frequency bin sizes. This spectral resolution conversion is particularly useful when there is a pair of spectral representations derived from a short time-frequency conversion that exhibits high temporal resolution but low frequency resolution.

本発明の第2の態様によれば、この一対の短いスペクトル領域表現は、高スペクトル分解能を有するが低い時間分解能を有する単一の長いスペクトル領域表現に変換される。1つの時間/周波数分解能(高時間分解能及び低周波数分解能)から異なる時間/周波数分解能(低時間分解能及び高周波数分解能)へのこの変換は、その間の時間領域表現の実際の計算なしに行われる。したがって、2つの短いスペクトル領域表現を時間領域に変換し、その結果を再び周波数領域に変換することからなる通常の手順の代わりに、本発明は、2つの異なる方式で同じ周波数ビンに属するスペクトル値のスペクトル領域結合のみを適用する。したがって、2つの周波数-時間変換及び非常に非効率的であり、著しい遅延を招く1つの時間-周波数変換の実行とは対照的に、本発明は、2つの低周波数分解能スペクトル領域表現から高スペクトル領域表現を得るために、2つの値を加算するか、又は2つの値を互いから減算するなどの基本的な算術結合演算の必要性のみを提供する。好ましくは、第1の結合規則は、ローパスフィルタリング、又は言い換えれば、同じ低分解能周波数ビンに属する2つのスペクトル値の加算又は重み付け加算であり、第2の方式によるスペクトル値の結合は、ハイパスフィルタリング又は2つのスペクトル値間の差の計算である。対応する2つの隣接する連続スペクトル値は、2つの周波数隣接スペクトル値に変換され、2つの周波数隣接スペクトル値のうちの1つは、ローパスフィルタリング動作に由来するより低い周波数スペクトル値であり、次の1つは、ハイパス動作に由来するより高い周波数スペクトル値である。 According to a second aspect of the invention, this pair of short spectral region representations is transformed into a single long spectral region representation with high spectral resolution but low temporal resolution. This conversion from one time / frequency resolution (high time resolution and low frequency resolution) to different time / frequency resolutions (low time resolution and high frequency resolution) is done without the actual calculation of the time domain representation in between. Therefore, instead of the usual procedure of converting two short spectral domain representations into a time domain and then converting the result back into a frequency domain, the present invention presents the present invention with spectral values belonging to the same frequency bin in two different ways. Only the spectral domain coupling of is applied. Thus, in contrast to performing two frequency-time conversions and one time-frequency conversion, which is highly inefficient and causes significant delay, the present invention presents a high spectrum from two low frequency resolution spectral region representations. It provides only the need for basic arithmetic join operations, such as adding two values or subtracting two values from each other to obtain a domain representation. Preferably, the first coupling rule is low pass filtering, or in other words, the addition or weighting of two spectral values belonging to the same low resolution frequency bin, and the coupling of the spectral values by the second method is high pass filtering or high pass filtering. It is a calculation of the difference between two spectral values. The corresponding two adjacent continuous spectral values are converted into two frequency adjacent spectral values, one of the two frequency adjacent spectral values being a lower frequency spectral value derived from the lowpass filtering operation and the following: One is the higher frequency spectrum value derived from the high pass operation.

次の手順は、次の一対の高スペクトル分解能スペクトル値が同じ手順で再び計算されることであり、すなわち、典型的にはローパス特性を表すより低い周波数スペクトル値に対して第1の結合を実行し、一対のスペクトル値のうちのより高い周波数スペクトル値に対してハイパス演算を表すより高い周波数スペクトル値に対して別の結合を実行することである。 The next step is to recalculate the next pair of high spectral resolution spectral values in the same procedure, i.e., perform the first coupling on the lower frequency spectral values that typically represent lowpass characteristics. Then, for the higher frequency spectrum value of the pair of spectral values, another coupling is performed for the higher frequency spectral value representing the highpass operation.

本発明の第2の態様に従って生成された結合スペクトル領域表現は、異なる目的に使用することができる。本発明の第1の態様では、帯域ごとの重み値を導出するために、結合スペクトル領域表現が使用される。これは、第1のチャネルスペクトル領域表現が低い時間分解能及び高スペクトル分解能を有し、少なくとも2つのチャネルのうちの第2のチャネルが、両方とも低い時間分解能を有する2つの高時間分解能スペクトル領域表現を有する場合に特に有用であり、変換によって生成された結合スペクトル領域表現から、帯域ごとの重み値を導出することができる。更なる使用法では、結合スペクトル領域表現は、時間領域での変換、及び再生又は記憶又はオーディオ信号圧縮の目的のために変換されたスペクトルを使用するなどの任意の有用な更なる処理によって更に処理することができる。別の手順は、例えばスペクトル領域のダウンミックスの目的のために、同じスペクトル分解能を有する別のスペクトル表現と共に結合スペクトル領域表現のスペクトル処理を実行することである。 The combined spectral region representation generated according to the second aspect of the invention can be used for different purposes. In the first aspect of the invention, the coupled spectral region representation is used to derive the weight values for each band. This is because the first channel spectral region representation has low time resolution and high spectral resolution, and the second channel of at least two channels has two high time resolution spectral region representations, both of which have low temporal resolution. It is particularly useful to have, and the weight value for each band can be derived from the coupled spectral region representation generated by the transformation. In further use, the combined spectral domain representation is further processed by conversion in the time domain and any useful further processing such as using the transformed spectrum for reproduction or storage or audio signal compression purposes. can do. Another procedure is to perform spectral processing of the coupled spectral region representation with another spectral representation having the same spectral resolution, for example for the purpose of downmixing the spectral region.

本発明の第3の態様によれば、ダウンミックス演算は、スペクトル重み付けを使用して実行され、帯域ごとの重み値は、帯域ごとの目標エネルギー値に基づいて計算され、その結果、ダウンミックス信号の帯域におけるエネルギーは、等しいか、又は少なくとも2つのチャネルの同じ帯域における2つのエネルギーのうちの高い方の値の+/-30%の許容範囲内で等しいなどの所定の関係にある。エネルギーによって駆動される帯域ごとの重み値が、少なくとも2つのチャネルのスペクトル領域表現に適用され、ダウンミックス信号は、本発明の第1の態様のように時間領域において、又は必要に応じてスペクトル領域において、少なくとも2つのチャネルの重み付けされたスペクトル領域表現を使用して計算される。 According to a third aspect of the invention, the downmix operation is performed using spectral weighting and the per-band weight value is calculated based on the per-band target energy value, resulting in a downmix signal. The energies in the band are equal or have a predetermined relationship, such as being equal within the tolerance of +/- 30% of the higher of the two energies in the same band of at least two channels. Energy-driven band-by-band weighting is applied to the spectral domain representation of at least two channels, and the downmix signal is in the time domain as in the first aspect of the invention, or optionally in the spectral domain. Is calculated using a weighted spectral domain representation of at least two channels.

スペクトル領域表現がMDCT変換などにおいて純実数である場合、又はスペクトル領域表現がMDST(修正離散サイン変換)を適用するときなど純虚数のものである場合、重み値推定器は、純実数又は純虚数のいずれかである既存のスペクトル領域表現から、他のスペクトル領域表現を推定するように構成される。したがって、実数値スペクトル領域表現が存在するとき、虚数スペクトル領域表現が推定され、虚数スペクトル領域表現が存在するとき、実数値スペクトル領域表現が推定される。これらの推定値は、帯域内の第1のチャネルのエネルギーを計算するため、帯域内の第2のチャネルのエネルギーを計算するため、及び帯域内の少なくとも2つのチャネルからのスペクトル値の積又は線形結合に応じてチャネル間の混合項を計算するために使用される。 If the spectral domain representation is a pure real number, such as in an MDCT transform, or if the spectral domain representation is a pure imaginary number, such as when applying an MDST (Modified Discrete Sine SIGN Transform), the weight estimator is a pure real or pure imaginary number. It is configured to estimate the other spectral domain representation from the existing spectral domain representation of any of the above. Therefore, when the real-valued spectral domain representation is present, the imaginary spectral domain representation is estimated, and when the imaginary spectral domain representation is present, the real-valued spectral domain representation is estimated. These estimates are for calculating the energy of the first channel in the band, for calculating the energy of the second channel in the band, and the product or linearity of the spectral values from at least two channels in the band. Used to calculate the mixed term between channels depending on the binding.

ダウンミックスの状況におけるスペクトル重み付けのための帯域ごとの重み値を計算するこの手順は、第1の態様において適用することができ、スペクトル重み付けとダウンミックスとの間で、周波数-時間変換及びいくつかの時間領域後処理が行われる。本発明の第2の態様に関して、目標エネルギー特徴に従ってスペクトル領域重み値を計算するために使用される一方又は両方のチャネルのスペクトル領域表現は、元のスペクトル領域表現から導出されるか、又は本発明の第2の態様に関して例示されるか、若しくは第1の態様に関して例示されるスペクトル分解能変換によって生成された1つ又は2つの結合スペクトル領域表現から導出される。 This procedure of calculating the per-band weighting value for spectral weighting in a downmix situation can be applied in the first aspect, with frequency-time conversion and some between spectral weighting and downmixing. Time domain post-processing is performed. For a second aspect of the invention, the spectral region representation of one or both channels used to calculate the spectral region weight value according to the target energy feature may be derived from the original spectral region representation or the invention. Is exemplified with respect to the second aspect of, or is derived from one or two coupled spectral region representations produced by the spectral resolution conversion exemplified with respect to the first aspect.

帯域ごとの目標エネルギー値に基づいて導出された帯域ごとの重み値を使用するスペクトル重み付けを使用したダウンミックスは、一方では、帯域内の各スペクトル値に1つの同じ重み値を適用することによってスペクトル重み付けを容易に行うことができるという事実により、特に、低周波数での小さい帯域幅から高周波数での高い帯域幅に増加する心理音響的に動機付けられた帯域幅が適用される場合に、非常に効率的である。例えば、100個以上のスペクトル値を有する高域が考えられる場合、この帯域の単一の重み値のみが計算され、この単一の重み値が個々のスペクトル値に適用される。この手順では、例えば乗算による重み付けが低リソースで低遅延の手順であると同時に、帯域内の各スペクトル値に同じ重み値を適用するこの手順は、特定の並列ハードウェアプロセッサによって並列化される可能性が高いため、中程度の計算リソースしか必要とされない。他方では、ダウンミックスされるべき2つのチャネルがダウンミックスにおいて問題となる互いに位相関係にあるとき、すなわち、両方のチャネルが互いに高度に相関しており、特定の位相関係を有するとき、発生する信号キャンセル又は他のアーチファクトのない高いオーディオ品質のダウンミックス信号が得られる。
本発明の好ましい実施形態は、添付の図面に関して以下に説明される。
Downmixing with spectral weighting using per-band weights derived based on per-band target energy values, on the one hand, is a spectrum by applying one and the same weight value to each spectral value in the band. Due to the fact that weighting can be done easily, especially when psychoacoustic motivated bandwidth is applied, which increases from a small bandwidth at low frequencies to a high bandwidth at high frequencies. Is efficient. For example, if a high region with 100 or more spectral values is considered, only a single weight value in this band is calculated and this single weight value is applied to the individual spectral values. In this procedure, for example, weighting by multiplication is a low resource and low latency procedure, while applying the same weighting value to each spectral value in the band, this procedure can be parallelized by a particular parallel hardware processor. Due to its high nature, it requires only moderate computational resources. On the other hand, the signal that occurs when the two channels to be downmixed are in phase with each other in question in the downmix, that is, when both channels are highly correlated with each other and have a particular phase relationship. A high audio quality downmix signal with no cancellation or other artifacts is obtained.
Preferred embodiments of the present invention are described below with respect to the accompanying drawings.

第1の態様によるダウンミキサを示す図である。It is a figure which shows the down mixer by the 1st aspect. 第1の態様によるダウンミキサの更なる実施形態を示す図である。It is a figure which shows the further embodiment of the down mixer by 1st Embodiment. 重み値推定器の好ましい実施態様を示す図である。It is a figure which shows the preferable embodiment of the weight value estimator. 第3の態様にも好ましい重み値推定器の好ましい実施形態を示す図である。It is a figure which shows the preferable embodiment of the weight value estimator which is also preferable in the 3rd aspect. 異なるチャネルにおける異なる時間/周波数分解能を示す図である。It is a figure which shows the different time / frequency resolution in a different channel. 高スペクトル分解能、中スペクトル分解能、及び低スペクトル分解能を示すスペクトル表現である。It is a spectral expression showing high spectral resolution, medium spectral resolution, and low spectral resolution. 低周波数分解能及び低時間分解能をもたらす第1の実施形態による重み値推定を示す図である。It is a figure which shows the weight value estimation by 1st Embodiment which brings low frequency resolution and low time resolution. 第2の実施形態に従って重み値推定器によって実行され、第2の態様に従っても適用される高周波数分解能及び低時間分解能をもたらす手順を示す。The procedure performed by the weight value estimator according to the second embodiment and resulting in the high frequency resolution and the low time resolution which is also applied according to the second embodiment is shown. 低周波数分解能及び高時間分解能をもたらす第3の実施形態による重み値推定の実施態様を示す図である。It is a figure which shows the embodiment of the weight value estimation by the 3rd Embodiment which brings low frequency resolution and high time resolution. 高周波数分解能及び高時間分解能をもたらす重み値推定器の更なる手順を示す図である。It is a figure which shows the further procedure of the weight value estimator which brings high frequency resolution and high time resolution. 第2の態様によるスペクトル分解能を変換するための装置の一実施形態を示す図である。It is a figure which shows one Embodiment of the apparatus for converting the spectral resolution by the 2nd aspect. 第2の態様によるスペクトル分解能を変換するための装置の更なる実施態様を示す図である。It is a figure which shows the further embodiment of the apparatus for converting the spectral resolution by the 2nd aspect. 第3の態様によるダウンミキサの一実施形態を示す図である。It is a figure which shows one Embodiment of the down mixer by the 3rd aspect. 第3の態様によるダウンミキサの更なる実施形態を示す図である。It is a figure which shows the further embodiment of the down mixer by the 3rd aspect.

図1は、本発明の第1の態様のダウンミキサの一実施形態を示す。ダウンミキサは、重み値推定器100と、重み値推定器100に接続されたスペクトル重み付け器200と、第1又は左チャネル及び第2又は右チャネルの入力とを備える。スペクトル重み付け器200は、少なくとも2つのチャネルの重み付けされたスペクトル領域表現を少なくとも2つのチャネルの時間表現に変換するための変換器300に接続されている。これらの時間表現は、少なくとも2つのチャネルの時間表現を混合して時間領域ダウンミックス信号を取得するためにミキサに出力される。好ましくは、変換器300は、周波数-時間変換器310と、続いて接続されるポストプロセッサ320とを備える。周波数-時間変換器310は、実際に時間領域における重み付けされたスペクトル領域表現の変換を実行し、オプション機能であるポストプロセッサ320は、左チャネル及び右チャネルの制御パラメータをそれぞれ使用して、時間領域に既に存在する第1チャネル及び第2チャネルのチャネル非依存処理を実行する。変換器300は、周波数-時間変換器310によって、スペクトル-時間変換アルゴリズムを使用して生時間表現を生成するように構成され、更に、変換器300は、ポストプロセッサ320によって、生時間表現を個別に、特に、少なくとも2つのチャネルの時間表現を取得するためにチャネルの別個の制御情報を使用して、ミキサによる混合の前に信号処理方向に後処理するように構成される。 FIG. 1 shows an embodiment of a down mixer according to the first aspect of the present invention. The downmixer comprises a weight estimator 100, a spectral weighter 200 connected to the weight estimator 100, and inputs for a first or left channel and a second or right channel. The spectral weighting device 200 is connected to a converter 300 for converting a weighted spectral region representation of at least two channels into a temporal representation of at least two channels. These time representations are output to the mixer to mix the time representations of at least two channels to obtain a time domain downmix signal. Preferably, the converter 300 comprises a frequency-time converter 310 and subsequently connected post-processor 320. The frequency-time converter 310 actually performs the conversion of the weighted spectral domain representation in the time domain, and the optional postprocessor 320 uses the left and right channel control parameters, respectively, in the time domain. Executes the channel-independent processing of the first channel and the second channel that already exist in. The converter 300 is configured by a frequency-time converter 310 to generate a lifetime representation using a spectrum-time conversion algorithm, and the converter 300 is further configured by a postprocessor 320 to individually generate a lifetime representation. In particular, it is configured to post-process in the signal processing direction prior to mixing by the mixer, using the channel's separate control information to obtain the time representation of at least two channels.

好ましくは、ポストプロセッサ320は、後処理動作として、バス・ポストフィルタリング、TCX-LTP処理(変換符号化励起長期予測)、又はLPC(線形予測符号化)合成を実行するように構成される。スペクトル的に重み付けされたチャネルで動作するが、ダウンミックス信号への実際のミックスの前に動作するポストプロセッサの利点は、マルチチャネル信号の2つ以上のチャネルのうちの左右のチャネル、又は一般的には個々のチャネルの別個のパラメータとして利用可能なパラメータを、パラメータのダウンミックスなしで依然として使用できることである。そうでなければ、そのような手順は、ダウンミックスがスペクトル重み付けと一緒に実行され、周波数時間変換器310の出力に時間領域ダウンミックス信号が既に存在する場合に必要となる。 Preferably, the post-processor 320 is configured to perform bus post-filtering, TCX-LTP processing (transform-coded excitation long-term prediction), or LPC (linear predictive coding) synthesis as post-processing operations. The advantage of a post-processor that operates on a spectrally weighted channel but operates before the actual mix to the downmix signal is the left and right channels of the two or more channels of the multi-channel signal, or in general. The parameters available as separate parameters for individual channels are still available without parameter downmixing. Otherwise, such a procedure would be required if the downmix was performed with spectral weighting and a time domain downmix signal was already present at the output of the frequency time converter 310.

一般に、マルチチャネル信号は2つのチャネル、すなわち左チャネル及び右チャネルを含むことができ、又はマルチチャネル信号は3つ以上などの2つを超えるチャネルを含む。そのような状況では、重み値推定器100は、少なくとも2つのチャネルのうちの第1のチャネルの複数の帯域について複数の第1の帯域ごとの重み値を計算し、少なくとも2つのチャネルのうちの第2のチャネルの複数の帯域について第2の複数の帯域ごとの重み値を計算するように構成される。更に、重み値推定器100は、2つを超えるチャネルを有するマルチチャネル信号の第1のチャネルの複数の帯域について複数の第1の帯域ごとの重み値を計算し、2つを超えるチャネルの第2のチャネルの複数の帯域について第2の複数の帯域ごとの重み値を計算し、2つを超えるチャネルの第3の又は更に別のチャネルの複数の帯域について更なる複数の帯域ごとの重み値を計算するように構成される。 In general, a multi-channel signal can include two channels, i.e. a left channel and a right channel, or a multi-channel signal includes more than two channels, such as three or more. In such a situation, the weight estimator 100 calculates the weight value for each of the plurality of first bands for the plurality of bands of the first channel of at least two channels, and of the at least two channels. It is configured to calculate the weight value for each of the second plurality of bands for the plurality of bands of the second channel. Further, the weight value estimator 100 calculates the weight value for each of the plurality of first bands for the plurality of bands of the first channel of the multi-channel signal having more than two channels, and the first of the two or more channels. Calculates the weight values for each of the second multiple bands for the multiple bands of the two channels, and the weight values for each of the further multiple bands for the multiple bands of the third or yet another channel of the two or more channels. Is configured to calculate.

特に、少なくとも2つのチャネルのスペクトル領域表現は各々、周波数ビンのセットを含み、スペクトル値は周波数ビンに関連付けられる。特に、重み値推定器100は、帯域の帯域ごとの重み値を計算するように構成され、各帯域は、1つ、2つ、又はそれ以上のスペクトル値を含み、好ましくは、帯域ごとの周波数ビンの数は、より高い中心周波数を有する帯域共に増加し、そのため、心理音響的に動機付けられた、スペクトル領域表現の不均一な帯域幅を有する帯域への細分化が得られる。 In particular, each spectral region representation of at least two channels comprises a set of frequency bins, the spectral values being associated with the frequency bins. In particular, the weight value estimator 100 is configured to calculate the weight value for each band of the band, where each band contains one, two or more spectral values, preferably frequency per band. The number of bins increases with the band having the higher center frequency, thus resulting in psychoacoustic motivated subdivision into bands with non-uniform bandwidth of spectral region representation.

ダウンミキサの好ましい実施態様を図2に示す。マルチチャネル信号は、ステレオビットストリームとして利用可能であり、好ましくはMDCTステレオデコーダとして実装されるステレオデコーダ500に供給される。更に、重み値推定器は、左値計算機110と、右値計算機112と、更に、左チャネル用の虚数部推定器120と、右チャネル用の虚数部推定器122とを備える。図2の実施形態では、ステレオデコーダ500は、復号された左右のチャネルスペクトル表現が純実数のスペクトル値、すなわちMDCT値を有することを意味するMDCTステレオデコーダである。虚数推定器120、122は、純虚数のスペクトル値、すなわち、MDST(修正離散サイン変換)値を生成する。これらの情報項目、すなわちスペクトル領域表現及び推定スペクトル値から、重み係数が計算され、図2に示すように帯域ごとの重み付けを実行するスペクトル重み付け器200に転送される。重み付けされたスペクトル領域表現は、各チャネルのIMDCT変換器として実装される対応する周波数-時間変換器310に転送される。更に、各チャネルについて任意選択のポストプロセッサ320が同様に示されており、変換され、任意選択で後処理されたデータは、時間領域ダウンミックス信号、すなわち、図2の実施形態では、モノラル出力信号を生成するためにダウンミキサDMX400に入力されるが、ダウンミックス信号の1つ以上のチャネルの数がダウンミックス前のマルチチャネル信号のチャネルの数よりも少ない限り、マルチチャネル信号とすることもできる。 A preferred embodiment of the down mixer is shown in FIG. The multi-channel signal can be used as a stereo bitstream and is preferably supplied to a stereo decoder 500 implemented as an MDCT stereo decoder. Further, the weight value estimator includes a left value computer 110, a right value computer 112, an imaginary part estimator 120 for the left channel, and an imaginary part estimator 122 for the right channel. In the embodiment of FIG. 2, the stereo decoder 500 is an MDCT stereo decoder which means that the decoded left and right channel spectral representations have pure real spectral values, i.e. MDCT values. The imaginary estimators 120, 122 generate pure imaginary spectral values, i.e. MDST (Modified Discrete Sine Sign Transformation) values. A weighting coefficient is calculated from these information items, that is, the spectral region representation and the estimated spectral value, and is transferred to the spectral weighting device 200 that performs weighting for each band as shown in FIG. The weighted spectral region representation is transferred to the corresponding frequency-time converter 310 implemented as an IMDCT converter for each channel. Further, an optional postprocessor 320 is also shown for each channel, and the transformed and optional post-processed data is a time domain downmix signal, i.e., in the embodiment of FIG. 2, a monaural output signal. Is input to the downmixer DMX400 to generate, but can also be a multichannel signal as long as the number of channels of one or more of the downmix signals is less than the number of channels of the multichannel signal before downmixing. ..

あるいは、マルチチャネルデコーダ又はステレオデコーダ500がMDSTデコーダなどの虚数値デコーダとして実装される場合、ブロック120、122は、MDCT値などの純実数のデータを推定する。したがって、一般に、重み値推定器100は、スペクトル領域表現が純実数である場合に虚数スペクトル表現を推定するように、又は元のスペクトル領域表現が純虚数である場合に実数スペクトル表現を推定するように構成される。更に、重み値推定器110は、場合によっては、推定虚数スペクトル表現又は推定実数スペクトル表現を使用して重み値を推定するように構成される。これは、ダウンミックス信号の帯域内のエネルギーが少なくとも2つのチャネルの同じ帯域内のエネルギーと所定の関係にあるように、帯域ごとの目標エネルギー値に基づくスペクトル帯域ごとの重み値の計算に特に有用である。好ましくは、所定の関係は、ダウンミックス信号の帯域におけるエネルギーが、少なくとも2つのチャネルにおける同じ帯域のエネルギーの合計であることである。しかしながら、他の所定の関係も有用である。例示的には、所定の関係は、ダウンミックス信号の対応する帯域のエネルギーとして、2つのチャネルの合計の75%から125%に及ぶことができる。しかしながら、最も好ましい実施形態では、所定の関係は、等しいか、又は+/-10%の許容範囲内で等しいことである。 Alternatively, if the multi-channel decoder or stereo decoder 500 is implemented as an imaginary value decoder such as an MDST decoder, the blocks 120, 122 estimate pure real data such as MDCT values. Therefore, in general, the weight value estimator 100 estimates the imaginary spectral representation when the spectral domain representation is a pure real number, or estimates the real spectral representation when the original spectral domain representation is a pure imaginary number. It is composed of. Further, the weight value estimator 110 is configured to estimate the weight value using an estimated imaginary spectral representation or an estimated real spectral representation, as the case may be. This is especially useful for calculating the weight value per spectrum band based on the target energy value per band so that the energy in the band of the downmix signal has a predetermined relationship with the energy in the same band of at least two channels. Is. Preferably, the predetermined relationship is that the energy in the band of the downmix signal is the sum of the energy in the same band in at least two channels. However, other predetermined relationships are also useful. Illustratively, a given relationship can range from 75% to 125% of the total of the two channels as the energy of the corresponding band of the downmix signal. However, in the most preferred embodiment, the predetermined relationships are equal or equal within a +/- 10% tolerance.

図3aは、重み値推定器100の好ましい実施態様を示す。特に、この実施態様は、少なくとも2つのチャネルのスペクトル領域表現が異なる時間又は周波数分解能を有する場合に重み値を計算するのに有用である。ブロック又はステップ130に示すように、重み値推定器100は、第1及び第2チャネルのスペクトル領域表現の時間/周波数分解能が互いに異なるかどうかをチェックするように構成されている。等しい時間又は周波数分解能の場合、重み値推定器100は、第1又は左チャネルについてはwによって示され、第2又は右チャネルについてはwによって示されるように、帯域ごとの重み係数又は帯域ごとの重み値を計算するように構成される。 FIG. 3a shows a preferred embodiment of the weight value estimator 100. In particular, this embodiment is useful for calculating weight values when the spectral region representations of at least two channels have different time or frequency resolutions. As shown in the block or step 130, the weight value estimator 100 is configured to check if the time / frequency resolutions of the spectral region representations of the first and second channels are different from each other. For equal time or frequency resolution, the weight estimator 100 has a band-by-band weighting factor or band, as indicated by w L for the first or left channel and w R for the second or right channel. It is configured to calculate the weight value for each.

あるいは、後に図4aに関して示されるように、ブロック130の重み値推定器100によって、時間又は周波数分解能がある期間にわたって左チャネルと右チャネルとの間、又は第1のチャネルと第2のチャネルとの間で等しくないと判定された場合、重み値推定器100は、1つ又は2つの結合スペクトル領域表現を計算する(132)ように構成される。特に、少なくとも2つのチャネルのうちの第1のチャネルの第1のスペクトル領域表現は第1の時間分解能又は第1の周波数分解能を有し、少なくとも2つのチャネルのうちの第2のチャネルの第2のスペクトル領域表現は第2の時間分解能又は第2の周波数分解能を有し、第2の時間分解能は第1の時間分解能とは異なり、又は第2の周波数分解能は第1の周波数分解能とは異なる。重み値推定器100は、第1のスペクトル領域表現を、第2の時間分解能又は第2の周波数分解能を有する結合スペクトル領域表現に変換又は計算し(132)、結合スペクトル領域表現及び第2のスペクトル領域表現を用いて帯域ごとの重み値を計算するように構成されている。あるいは、第2のスペクトル領域表現は、第1の時間分解能又は第1の周波数分解能を有する結合スペクトル領域表現に変換され、帯域ごとの重み値は、結合スペクトル領域表現及び第1のスペクトル領域表現を使用して計算される。あるいは、第1のチャネルの第1のスペクトル領域表現が第1の時間分解能又は第1の周波数分解能を有し、少なくとも2つのチャネルの第2のチャネルの第2のスペクトル領域表現が第2の時間分解能又は第2の周波数分解能を有し、第2の時間分解能が第1の時間分解能とは異なるか、又は第2の周波数分解能が第1の時間分解能とは異なる場合、重み値推定器100は、第1のスペクトル領域表現を、第3の時間分解能又は第3の周波数分解能を有する第1の結合スペクトル領域表現に変換又は計算する(132)ように構成され、第3の時間分解能は第1の時間分解能又は第2の時間分解能とは異なり、第3の周波数分解能は第1の周波数分解能及び/又は第2の周波数分解能とは異なる。更に、第2のスペクトル領域表現はまた、第3の時間分解能又は第3の周波数分解能を有する第2の結合スペクトル領域表現に変換され、帯域ごとの重み値は、第1の結合スペクトル領域表現及び第2のスペクトル領域表現を使用して計算される。図5a~図5dに関して後述するような実際の状況に応じて、ブロック134によって計算された帯域ごとの重み値又は係数が実際のスペクトル重み付けに使用されず、図3aの136に示すように導出された帯域ごとの重み係数が計算される状況もあり得る。 Alternatively, as shown later with respect to FIG. 4a, the weight estimator 100 of the block 130 allows time or frequency resolution between the left and right channels over a period of time, or between the first channel and the second channel. If it is determined that they are not equal, the weight estimator 100 is configured to calculate one or two coupled spectral region representations (132). In particular, the first spectral region representation of the first channel of at least two channels has a first time resolution or a first frequency resolution and is the second of the second channel of at least two channels. The spectral region representation of has a second time resolution or a second frequency resolution, the second time resolution is different from the first time resolution, or the second frequency resolution is different from the first frequency resolution. .. The weight value estimator 100 converts or calculates the first spectral region representation into a coupled spectral region representation with a second time resolution or a second frequency resolution (132), and the coupled spectral region representation and the second spectrum. It is configured to calculate the weight value for each band using the area representation. Alternatively, the second spectral region representation is converted to a combined spectral region representation with a first time resolution or a first frequency resolution, and the weighting values for each band are the coupled spectral region representation and the first spectral region representation. Calculated using. Alternatively, the first spectral region representation of the first channel has a first time resolution or a first frequency resolution, and the second spectral region representation of the second channel of at least two channels has a second time. If the second time resolution is different from the first time resolution or the second frequency resolution is different from the first time resolution, the weight value estimator 100 has a resolution or a second frequency resolution. , The first spectral region representation is converted or calculated to be converted or calculated (132) into a first coupled spectral region representation having a third time resolution or a third frequency resolution, the third time resolution being the first. Unlike the time resolution of the first or the second time resolution, the third frequency resolution is different from the first frequency resolution and / or the second frequency resolution. Further, the second spectral region representation is also converted into a second coupled spectral region representation having a third time resolution or a third frequency resolution, and the weight values for each band are the first coupled spectral region representation and the first coupled spectral region representation. Calculated using the second spectral region representation. Band-by-band weights or coefficients calculated by block 134 are not used for actual spectral weighting and are derived as shown in FIG. 3a 136, depending on the actual situation as described below with respect to FIGS. 5a-5d. There may be situations where the weighting factor for each band is calculated.

一般に、第1のチャネルが低い第1の時間分解能及び高い第1の周波数分解能を有すると仮定し、また第2チャネルが高い第2の時間分解能及び低い第2の周波数分解能を有すると仮定すると、重み値推定器100の機能は、これらのチャネルのスペクトル領域重み値を計算するために、スペクトル領域における第1のチャネルと第2のチャネルとの間の分解能間のマッチングを行うための4つの異なる方法のうちの1つを選択することができる。 In general, assuming that the first channel has a low first time resolution and a high first frequency resolution, and that the second channel has a high second time resolution and a low second frequency resolution. The function of the weight value estimator 100 is to perform matching between the resolutions of the first channel and the second channel in the spectral region in order to calculate the spectral region weight values of these channels. You can choose one of the methods.

図5aは第1の実施形態を示し、帯域ごとの重み値は、2つの結合スペクトル領域表現が両方とも低周波数分解能及び低時間分解能を有する2つの結合スペクトル領域表現から計算される。 FIG. 5a shows the first embodiment, where the bandwise weight values are calculated from two coupled spectral region representations, both of which have low frequency resolution and low temporal resolution.

図5bに示す第2の実施形態では、単一の結合スペクトル領域表現のみが低周波数分解能表現から計算され、その結果、帯域ごとの重み値は、高周波数分解能及び低時間分解能の両方を有する一対のスペクトル領域表現から計算される。 In the second embodiment shown in FIG. 5b, only a single coupled spectral region representation is calculated from the low frequency resolution representation so that the bandwise weight values are a pair with both high frequency resolution and low time resolution. Calculated from the spectral region representation of.

図5cは、単一の結合表現が計算され、両方とも低周波数分解能及び高時間分解能を有する2つのスペクトル領域表現を使用してスペクトル領域帯域ごとの重み値の計算に使用される、更なる第3の実施形態を示す。 FIG. 5c is a further th-order in which a single coupled representation is calculated and both are used to calculate weight values per spectral region band using two spectral region representations with low frequency resolution and high temporal resolution. 3 Embodiment is shown.

図5dに示す第4の実施形態では、重み値推定器は、両方とも高周波数分解能及び高時間分解能を示すフォーマットである2つの結合表現を使用して帯域ごとの重み値を計算するように構成される。 In the fourth embodiment shown in FIG. 5d, the weight value estimator is configured to calculate the weight value for each band using two combined representations, both of which are formats exhibiting high frequency resolution and high time resolution. Will be done.

図4aは、第1のチャネル及び第2のチャネルに2つの異なる分解能(時間及び/又は周波数における)がある状況を示している。図4aの第1の部分は、第1のチャネルに長いブロックを有し、第2のチャネルに2つの後続の短いブロックを有するフレームを示す。長いブロックは、例えば、TCX20ブロックであり得る。短いブロックは、2つの後続のTCX10ブロックであり得る。更に、図4aは、2つのサブフレームA、Bに細分された更なるフレームを示しており、第1のチャネルでは、サブフレームAは短いブロックを有し、第2のチャネルでは、サブフレームはまた短いブロックを有する。しかしながら、図4aの第2のフレームのサブフレームBでは、第1のチャネルは短いブロックを有し、第2のチャネルは2つの非常に短いブロック、すなわち各サブサブフレームに対して1つの非常に短いブロックを有する。非常に短いブロックは、例えば、TCX5ブロックであり得る。一般に、長いブロックは短いブロックよりも長く、短いブロックは非常に短いブロックよりも長く、もちろん、非常に短いブロックは長いブロックよりも短い。当然ながら、1つの長いブロックが2つの短いブロックと同じ長さである必要はない。あるいは、結合された長さが1つの長いブロックの長さに等しい3つの短いブロックが存在してもよく、又は各サブサブフレームに対して非常に短いブロックなどの4つの短いブロックが存在してもよい。他の細分化も同様に存在することができ、すなわち、第1のチャネル内の2つの長いブロックは、第2のチャネル内の3つの短いブロックの長さに等しい結合された長さを有することができる。長いブロック、短いブロック、及び非常に短いブロックの長さは、必ずしも互いに整数の関係にある必要はない。更に、3つを超えるブロック長又は2つのみの異なるブロック長など、3つを超える異なるブロック長が存在することもあり得る。 FIG. 4a shows a situation where the first channel and the second channel have two different resolutions (in time and / or frequency). The first part of FIG. 4a shows a frame having a long block in the first channel and two subsequent short blocks in the second channel. The long block can be, for example, a TCX20 block. The short block can be two subsequent TCX10 blocks. Further, FIG. 4a shows a further frame subdivided into two subframes A, B, in which the subframe A has a short block in the first channel and the subframe is in the second channel. It also has a short block. However, in subframe B of the second frame of FIG. 4a, the first channel has a short block and the second channel has two very short blocks, i.e. one very short for each subsubframe. Has a block. The very short block can be, for example, a TCX5 block. In general, long blocks are longer than short blocks, short blocks are longer than very short blocks, and of course, very short blocks are shorter than long blocks. Of course, one long block does not have to be the same length as two short blocks. Alternatively, there may be three short blocks whose combined length is equal to the length of one long block, or four short blocks, such as very short blocks for each sub-subframe. good. Other subdivisions can exist as well, i.e., that the two long blocks in the first channel have a combined length equal to the length of the three short blocks in the second channel. Can be done. The lengths of long blocks, short blocks, and very short blocks do not necessarily have to be in an integer relationship with each other. Further, there may be more than 3 different block lengths, such as more than 3 block lengths or only 2 different block lengths.

図4bは、第1のラインにおける高スペクトル分解能を有するスペクトルの表現を示す。スペクトル値は周波数ラインに沿って整数で示されており、図4bは3つの後続の帯域b、b、bを示しており、より高い周波数を表す各帯域は、より低い周波数を表す各帯域よりも広い。TCX20スペクトルなどの高スペクトル分解能の状況では、最低帯域bは4つのスペクトルライン又はスペクトル値又はスペクトルビンを有する。第2の帯域bは、本実施形態では、8つのスペクトル値を有し、第3のスペクトル帯域bは、12個のスペクトルビンを有する。高スペクトル分解能を中スペクトル分解能表現に変換又は変換すると、高分解能スペクトル表現から、TCX10分解能などの中スペクトル分解能が、第1の帯域のための2つのスペクトルビン、第2の帯域bのための4つのスペクトルビン、及び第3の帯域bのための6つのスペクトルビンを有するように、スペクトル値が結合される(又は間引かれる)という事実がもたらされる。この中程度のスペクトル分解能を、TCX5ブロックで発生するような低スペクトル分解能表現と再び比較すると、第1の帯域は単一の周波数ビンのみを有し、第2のbは2つの周波数ビンを有し、第3のスペクトル帯域bは3つのスペクトルビンを有する。中程度のスペクトル分解能は、2つ以上の隣接するスペクトル線を結合することによって、又は間引き演算によって低スペクトル分解能に変換することができる。 FIG. 4b shows a representation of the spectrum with high spectral resolution in the first line. The spectral values are shown as integers along the frequency line, FIG. 4b shows the three subsequent bands b 1 , b 2 , b 3 and each band representing the higher frequency represents the lower frequency. Wider than each band. In the context of high spectral resolution, such as the TCX20 spectrum, the lowest band b1 has four spectral lines or spectral values or spectral bins. The second band b 2 has eight spectral values in this embodiment and the third spectral band b 3 has 12 spectral bins. When high spectral resolution is converted or converted to medium spectral resolution representation, from high resolution spectral representation, medium spectral resolution such as TCX10 resolution is for two spectral bins for the first band, for the second band b2. The fact is that the spectral values are combined (or thinned out) to have four spectral bins and six spectral bins for the third band b3. Comparing this moderate spectral resolution again with the low spectral resolution representations that occur in TCX5 blocks, the first band has only a single frequency bin and the second b 2 has two frequency bins. The third spectral band b 3 has three spectral bins. Medium spectral resolution can be converted to low spectral resolution by combining two or more adjacent spectral lines or by decimation operations.

一方、低スペクトル分解能表現は、例えば、中スペクトル分解能用の第1の帯域bの2つのスペクトルビンから、図4bに示すような4つのより高い分解能スペクトルビン1、2、3、4を計算することができるように、補間又はコピー又はコピー及びフィルタリングによってより高い分解能表現に変換することができる。 On the other hand, the low spectral resolution representation calculates, for example, four higher resolution spectral bins 1, 2, 3 and 4 as shown in FIG. 4b from the two spectral bins of the first band b1 for medium spectral resolution. It can be converted to a higher resolution representation by interpolation or copying or copying and filtering so that it can be done.

この新規な手法は、2つのチャネルのスペクトル帯域の帯域ごとの重み付けのみが周波数領域で行われ、モノラル信号への実際のダウンミックスは、2つのスペクトル重み付けされた信号を合計及びスケーリングすることによって時間領域に変換した後に行われる、ステレオからモノラル変換のための遅延のない能動的な帯域ごとのダウンミックス方法を提供することを目的とする。 In this novel technique, only band-by-band weighting of the spectral bands of the two channels is done in the frequency domain, and the actual downmix to the monaural signal is timed by summing and scaling the two spectrally weighted signals. It is intended to provide an active band-by-band downmix method for stereo to monaural conversion that is performed after conversion to the domain.

両方の信号のスペクトル領域表現が異なる時間-周波数分解能(すなわち、1つの信号のより短いブロックサイズ)を有する場合、重み計算は、隣接するスペクトルビンを時間的及びスペクトル的に両方結合することによって適合され、その結果、クロススペクトル計算を同じ時間-周波数領域で行うことができる。 If the spectral domain representations of both signals have different time-frequency resolutions (ie, shorter block sizes of one signal), the weighting calculation is adapted by combining adjacent spectral bins both temporally and spectrally. As a result, cross-spectral calculations can be performed in the same time-frequency domain.

この方法では、2つのステレオチャネルの時間-周波数分解能は均一である必要はなく、これに関してチャネルが異なる場合にはチャネルの帯域ごとの重み付けを依然として行うことができるが、重要なステレオからモノラルへの変換は、両方のスペクトル的に重み付けされたチャネルが既に時間領域に変換されているときに後で行われる。
実施形態は、デコーダ側で最適化された遅延のないステレオからモノラルへのダウンミックスを提供する。
好ましい態様は、分離された重み付け(周波数領域)及びミックス段階(時間領域)を有する帯域ごとの重み付けを有する能動的ダウンミックスに関する。
In this method, the time-frequency resolution of the two stereo channels does not have to be uniform, and in this regard it is still possible to perform band-by-band weighting of the channels if the channels are different, but from stereo to monaural, which is important. The conversion is done later when both spectrally weighted channels have already been converted to the time domain.
The embodiment provides a delay-free stereo to monaural downmix optimized on the decoder side.
A preferred embodiment relates to an active downmix with band-by-band weighting with separate weighting (frequency domain) and mix step (time domain).

更に好ましい態様は、異なるスペクトル領域表現を有するチャネルの場合のクロススペクトル相関のための周波数ビンの時間的/スペクトル的結合に関し、これらの態様は、ダウンミックス態様とは別個に、又はダウンミックス態様と共に使用することができる。 A more preferred embodiment relates to the temporal / spectral coupling of frequency bins for cross-spectral correlation for channels with different spectral region representations, which are separate or in combination with the downmix embodiment. Can be used.

ステレオ画像を表すいくつかのサイドパラメータと共に既にダウンミックスされたコア信号のみが送信される[7]のようなパラメトリックステレオコーデックとは異なり、両方のチャネルが常にTCXコーダで直接符号化されるMDCTベースの離散ステレオ用途のデコーダで利用可能なダウンミックスはない。したがって、ダウンミックスは、デコーダ側で完全に生成されなければならない。 Unlike parametric stereo codecs such as [7], where only the core signal already downmixed is transmitted with some side parameters representing the stereo image, both channels are always directly encoded in the TCX coder based on M DCT. There is no downmix available in the discrete stereo application decoder. Therefore, the downmix must be completely generated on the decoder side.

図3bは、図1に示す重み値推定器100の好ましい実施態様を示す。ステップ140において、重み値推定器は、第1のチャネル及び第2のチャネルから、あるいは第1のチャネル及び結合スペクトル領域表現から、又は第2のチャネル及び結合スペクトル領域表現から、又は第1の結合スペクトル領域表現及び第2の結合スペクトル領域表現から、周波数ビンごとに対応する虚数又は実数値スペクトル値を推定する。一般に、重み値推定器は、帯域内の第1のチャネルのエネルギーと、帯域内の第2のチャネルのエネルギーと、帯域内の少なくとも2つのチャネルからのスペクトル値の積又は線形結合に依存する混合項とを使用して、第1の重み値及び第2の重み値を計算するように構成される。図3bでは、第1のチャネルのエネルギー及び第2のチャネルのエネルギーは、ブロック140で例示的に計算される。更に、積に依存する混合項がブロック148で計算され、線形結合に依存する別の混合項がブロック146で計算される。更に、ブロック144において、帯域ごとのスペクトルビンの電力の平方根に対応する帯域ごとの「振幅」が計算される。 FIG. 3b shows a preferred embodiment of the weight value estimator 100 shown in FIG. In step 140, the weight value estimator is from the first channel and the second channel, or from the first channel and the coupled spectral region representation, or from the second channel and the coupled spectral region representation, or the first coupling. The corresponding imaginary or real-valued spectral values for each frequency bin are estimated from the spectral domain representation and the second coupled spectral domain representation. In general, a weight estimator is a mixture that depends on the product or linear combination of the energy of the first channel in the band, the energy of the second channel in the band, and the spectral values from at least two channels in the band. The terms and are configured to calculate the first and second weight values. In FIG. 3b, the energy of the first channel and the energy of the second channel are schematically calculated in block 140. In addition, a product-dependent mixed term is calculated in block 148 and another linear combination dependent mixed term is calculated in block 146. Further, in block 144, the "amplitude" for each band corresponding to the square root of the power of the spectrum bin for each band is calculated.

したがって、図3bに示されるように、第1の重み値wは、両方のチャネルの帯域ごとの振幅から、混合項、好ましくは、ブロック146に示される線形結合に依存する混合項に応じて計算される。更に、バンドごとの重み付けベクトルwは、バンドごとの、すなわち他のチャネルの重み値wを使用して計算されることが好ましい。他のチャネルの値、すなわち帯域当たりのwは、好ましくは、148で示された積に依存する混合項と、ブロック142で決定された対応するチャネルの帯域当たりの電力からブロック144によって導出された帯域当たりの「振幅」とに基づいて計算される。 Therefore, as shown in FIG. 3b, the first weight value w L depends on the mixed term, preferably the linear combination dependent mixed term shown in block 146, from the bandwise amplitudes of both channels. It is calculated. Further, it is preferable that the weight vector w L for each band is calculated using the weight values w R for each band, that is, for other channels. The value of the other channel, i.e. w R per band, is preferably derived by block 144 from the product-dependent mixing term shown in 148 and the power per band of the corresponding channel determined in block 142. It is calculated based on the "amplitude" per band.

したがって、好ましくは、少なくとも2つのチャネルのスペクトル領域表現から帯域内で互いに加算されたスペクトル値のエネルギーの平方根が「振幅」として使用されるが、1より小さく1/2とは異なる指数による累乗から導出された「振幅」などの他の「振幅」も使用することができる。帯域からのスペクトル値は線形結合され、すなわち互いに加算され、結果として得られる値の1未満の指数を有する平方根又は任意の他の累乗が行われ、好ましくは、帯域内のチャネルの両方の累乗が追加的に使用される。 Therefore, preferably, the square root of the energy of the spectral values added to each other in the band from the spectral region representation of at least two channels is used as the "amplitude", but from a power with an exponent less than 1 and different from 1/2. Other "amplitudes" such as the derived "amplitude" can also be used. Spectral values from the band are linearly combined, ie added together, to a square root with an exponent of less than 1 of the resulting value or any other power, preferably both powers of the channels in the band. Used additionally.

積を表す混合項として、例えばブロック148の計算において、第1のチャネルの帯域のスペクトル値と第2のチャネルの帯域のスペクトル値との複素ドット積の絶対値も求めることができる。好ましくは、スペクトル重み付け器200によって決定されたものと同じ重みが、少なくとも2つのチャネルのうちの一方のチャネルの帯域の各スペクトル値に適用され、別の重みが、少なくとも2つのチャネルのうちの別のチャネルの帯域の各スペクトル値に適用される。
続いて、重み値推定器100によって使用され得るような帯域ごとの重み係数の計算の好ましい実施態様が示されている。
As a mixed term representing the product, for example, in the calculation of block 148, the absolute value of the complex dot product of the spectral value of the band of the first channel and the spectral value of the band of the second channel can also be obtained. Preferably, the same weights as determined by the spectral weighter 200 are applied to each spectral value in the band of at least one of the two channels, with another weight being another of the at least two channels. Applies to each spectral value of the band of the channel.
Subsequently, a preferred embodiment of the calculation of the weighting factor for each band, which can be used by the weight value estimator 100, is shown.

受動的ダウンミックスの使用には上述のような欠点があるため、能動的ダウンミックス方式を使用すると、多くの項目が大幅に改善される。ステレオ復号後に両方のチャネルのDFT変換を含む別の復号器段を追加することは、複雑さと遅延の両方の理由で実現可能ではないため、ダウンミックス処理は、MDCT領域と時間領域の処理の結合として行われる。 Due to the drawbacks of using passive downmixes as described above, using an active downmix method can significantly improve many items. Since adding another decoder stage containing DFT transforms for both channels after stereo decoding is not feasible for both complexity and delay reasons, the downmix process is a combination of MDCT and time domain processes. It is done as.

最初に、帯域ごとの重みが計算され、両方のチャネルのMDCT表現に適用される。これは、ステレオ処理(例えば逆MSなど)の後、IMDCT逆変換の直前に行われる。重みは、位相回転された中間チャネルのエネルギーを目標として、[7]に記載されたDFTベースのステレオエンコーダで既に使用されているのと同じ方式で計算される:

Figure 2022522706000003
First, the band-by-band weights are calculated and applied to the MDCT representation of both channels. This is done after stereo processing (eg, inverse MS, etc.) and just before IMDCT inverse conversion. The weights are calculated in the same manner as already used in the DFT-based stereo encoders described in [7], targeting the energy of the phase-rotated intermediate channel:
Figure 2022522706000003

式中、

Figure 2022522706000004
及び
Figure 2022522706000005
は、左右のチャネルスペクトルの大きさを表す。この目標エネルギーに基づいて、チャネルの重みを各スペクトル帯域について以下のように計算することができる。
Figure 2022522706000006
また
Figure 2022522706000007
During the ceremony
Figure 2022522706000004
as well as
Figure 2022522706000005
Represents the magnitude of the left and right channel spectra. Based on this target energy, the channel weights can be calculated for each spectral band as follows.
Figure 2022522706000006
Also
Figure 2022522706000007

これらの重み又は帯域ごとの重み値w及びwは、スペクトル帯域ごとに計算され、各帯域は、最低帯域の少数のビン、例えば4から始まり、最高帯域のいくつか又は多くのビン、例えば160までのより高い周波数に向かって増加するいくつかのMDCTビンを包含する。 These weights or weight values w R and w L for each band are calculated for each spectral band, where each band starts with a small number of bins in the lowest band, eg 4, and some or more bins in the highest band, eg. Includes several MDCT bins increasing towards higher frequencies up to 160.

送信されたMDCT係数は実数値のみであるため、エネルギー保存重み付けに必要な相補的MDST値は、推定[9]によって各チャネルについて取得される:

Figure 2022522706000008
式中、iはスペクトルビン番号を指定する。 Since the MDCT coefficients transmitted are only real values, the complementary MDST values required for energy conservation weighting are obtained for each channel by estimation [9]:
Figure 2022522706000008
In the formula, i specifies the spectrum bin number.

この推定値

Figure 2022522706000009
及び
Figure 2022522706000010
を使用して、各帯域
Figure 2022522706000011
について以下のように計算される:
Figure 2022522706000012
Figure 2022522706000013
は、以下のように計算される:
Figure 2022522706000014
また
Figure 2022522706000015
は、複素ドット積の大きさ又は絶対値として計算され、
Figure 2022522706000016
式中、iは、スペクトル帯域
Figure 2022522706000017
内のビン番号を指定する。 This estimate
Figure 2022522706000009
as well as
Figure 2022522706000010
Using each band
Figure 2022522706000011
Is calculated as follows:
Figure 2022522706000012
Figure 2022522706000013
Is calculated as:
Figure 2022522706000014
Also
Figure 2022522706000015
Is calculated as the magnitude or absolute value of the complex dot product,
Figure 2022522706000016
In the formula, i is the spectral band.
Figure 2022522706000017
Specify the bin number in.

異なる変換及び推定されたエネルギーのみにもかかわらず、結果として生じる重みは、依然として[7]と同様のダウンミックスをもたらす。
第2のステップでは、2つのスペクトル的に重み付けされたチャネルの単純な加算及びスケーリングによって、2つの重み付けされたチャネルが時間領域でダウンミックスされる。
Despite only the different transformations and estimated energies, the resulting weights still result in a downmix similar to [7].
In the second step, the two weighted channels are downmixed in the time domain by a simple addition and scaling of the two spectrally weighted channels.

図2を参照する。
この結合された手法の理由は2つあり、1つは、両方のチャネルを時間領域に変換し戻すことによって、ポストフィルタリング、例えば、時間領域でも動作するTCX-LTPは、個々のチャネルのコア符号化から抽出されたパラメータ(例えば、ピッチ)を使用して両方のチャネルで実行することができ、したがって、ダウンミックスに適合する平均化されたパラメータを見つけようと試みる必要性を回避することである。第2に、より厳密には、MDCTステレオは、2つのチャネルに対して異なるコアコーダ及び/又は重なり判定を可能にするように構成される。具体的には、これは、一方のチャネルが例えば1つのTCX20長いブロック(20msフレーム、より高い周波数分解能、より低い時間分解能)で符号化され、他方が例えば2つのTCX10短いブロック(2×10msのサブフレーム、より低い周波数分解能、より高い時間分解能)で符号化され、一方又は両方の短いブロックが再び2つのTCX5サブフレーム(2×5ms)に分割され得ることを意味する。これは、完全な周波数領域ダウンミックスを事実上不可能にする。しかしながら、帯域ごとの重み付けのみをMDCT領域で直接行うことができる。
See FIG.
There are two reasons for this combined approach, one is that by converting both channels back into the time domain, post-filtering, eg, TCX-LTP, which also operates in the time domain, is the core code of the individual channels. It is possible to run on both channels using parameters extracted from the conversion (eg, pitch), thus avoiding the need to try to find an averaged parameter that fits the downmix. .. Second, more precisely, the M DCT stereo is configured to allow different core coder and / or overlap determination for the two channels. Specifically, this is because one channel is encoded, for example, in one TCX20 long block (20 ms frame, higher frequency resolution, lower time resolution) and the other is, for example, two TCX10 shorter blocks (2 x 10 ms). Encoded with subframes (lower frequency resolution, higher time resolution), meaning that one or both short blocks can be again divided into two TCX5 subframes (2 x 5 ms). This makes complete frequency domain downmixing virtually impossible. However, only band-by-band weighting can be done directly in the MDCT region.

図5aに示す一実施形態は以下のように機能する:2つのチャネル内の異なるコアの特別な場合については、重み計算の一部としてのクロススペクトル相関の計算をわずかに適合させる必要がある。TCX20とTCX10の周波数と時間の分解能が異なるため、左右のドット積を直接計算することはできない。代わりに、MDCTビンは、それらが同じ時間-周波数領域をカバーするように結合されなければならない。TCX20の場合、これは常に2つの隣接ビンを結合することを意味するが、TCX10の場合、第1のサブフレームの各ビンは、以下のサブフレームにおいて同じビンと結合する必要があり、例えば、

Figure 2022522706000018
及び
Figure 2022522706000019

Figure 2022522706000020
が、TCX20 MDCTスペクトルであり、
Figure 2022522706000021
が2つのサブフレームを有するTCX10 MDCTスペクトルである場合、iは、スペクトルビン番号及び
Figure 2022522706000022
及び
Figure 2022522706000023
TCX10サブフレームを指定する。推定MDSTスペクトルでも同じ結合が行われる。
次いで、得られた結合ビンを用いて、クロススペクトル相関
Figure 2022522706000024
及び/又は
Figure 2022522706000025
の値が計算される。これは、幾分粗い相関推定値をもたらすが、十分であることが分かっている。 One embodiment shown in FIG. 5a works as follows: For the special case of different cores in two channels, the calculation of cross-spectral correlation as part of the weighting calculation needs to be slightly adapted. Since the frequency and time resolutions of TCX20 and TCX10 are different, the left and right dot products cannot be calculated directly. Instead, the MDCT bins must be coupled so that they cover the same time-frequency domain. In the case of TCX20, this always means joining two adjacent bins, but in the case of TCX10, each bin in the first subframe must be joined to the same bin in the following subframes, for example.
Figure 2022522706000018
as well as
Figure 2022522706000019

Figure 2022522706000020
Is the TCX20 MDCT spectrum,
Figure 2022522706000021
If is a TCX10 MDCT spectrum with two subframes, i is the spectrum bin number and
Figure 2022522706000022
as well as
Figure 2022522706000023
Specify the TCX10 subframe. The same coupling is done in the estimated MDST spectrum.
Then, using the obtained binding bin, cross-spectral correlation
Figure 2022522706000024
And / or
Figure 2022522706000025
The value of is calculated. This results in a somewhat coarse correlation estimate, but has been found to be sufficient.

図5bに示す別の実施形態は以下のように機能する:2つのチャネル内の異なるコアの特別な場合については、重み計算の一部としてのクロススペクトル相関の計算をわずかに適合させる必要がある。TCX20とTCX10の周波数と時間の分解能が異なるため、左右のドット積を直接計算することはできない。これを可能にするために、より低いスペクトル分解能を有する(サブ)フレームのスペクトルは、以下を計算することによって2倍のスペクトル分解能を有するスペクトルの近似値に変換される:

Figure 2022522706000026
及び
Figure 2022522706000027
式中、iは、スペクトルビン番号を指定し、
Figure 2022522706000028
及び
Figure 2022522706000029
はより低い分解能を有するサブフレームを指定する。これらの加算及び減算は、1つのより低い分解能ビンを2つのより高い分解能ビンに分割するハイパス及びローパスフィルタリング動作と見なすことができ、フィルタリングは、ビン番号iが偶数であるか奇数であるかに依存する(最下位ビン
Figure 2022522706000030
から始まる)。 Another embodiment shown in FIG. 5b works as follows: For the special case of different cores in two channels, the calculation of cross-spectral correlation as part of the weighting calculation needs to be slightly adapted. .. Since the frequency and time resolutions of TCX20 and TCX10 are different, the left and right dot products cannot be calculated directly. To make this possible, the spectrum of the (sub) frame with lower spectral resolution is converted to an approximation of the spectrum with twice the spectral resolution by computing:
Figure 2022522706000026
as well as
Figure 2022522706000027
In the formula, i specifies the spectrum bin number,
Figure 2022522706000028
as well as
Figure 2022522706000029
Specifies a subframe with lower resolution. These additions and subtractions can be considered as high-pass and low-pass filtering operations that divide one lower resolution bin into two higher resolution bins, and filtering is whether bin number i is even or odd. Depends (lowest bin)
Figure 2022522706000030
start from).

これは、一方のチャネルがTCX20である場合、他方のチャネルが同じスペクトル分解能に変換されることを意味する。他方のチャネルのサブフレームの一方又は両方が再び2つのTCX5「サブサブフレーム」に再分割される場合、これらは最初に同じフィルタリングによってTCX10分解能に変換された後、再び分割されて最終的なTCX20表現に到達する。 This means that if one channel is TCX20, the other channel will be converted to the same spectral resolution. If one or both of the subframes of the other channel are re-divided into two TCX5 "sub-subframes", they are first converted to TCX10 resolution by the same filtering and then re-divided into the final TCX20 representation. To reach.

いずれのチャネルもTCX20でない場合でも、一方のチャネルにTCX10があり、他方のチャネルにTCX5がある場合には、一方又は両方のサブフレームについて、より高い分解能への変換が依然として必要であり得る。一例として、左チャネルがサブフレームAのTCX10であり、サブフレームBの2×TCX5である一方で、右チャネルがサブフレームAの2×TCX5であり、サブフレームBのTCX10である場合、両方のチャネルは、両方のサブフレームにおいてTCX10分解能を有するように変換される(左チャネル用のサブフレームB、右チャネル用のサブフレームAを変換する)。同じ例において、右チャネルもまた、サブフレームAについてはTCX10であり、Bについては2×TCX5である場合、変換は行われない、すなわち、サブフレームAはTCX10分解能でダウンミックスされ、サブフレームBはTCX5でダウンミックスされる。 Even if neither channel is TCX20, if one channel has TCX10 and the other channel has TCX5, conversion to higher resolution may still be required for one or both subframes. As an example, if the left channel is TCX10 in subframe A and 2xTCX5 in subframe B, while the right channel is 2xTCX5 in subframe A and TCX10 in subframe B, both. The channel is transformed to have TCX10 resolution in both subframes (converts subframe B for the left channel and subframe A for the right channel). In the same example, if the right channel is also TCX10 for subframe A and 2 × TCX5 for B, then no conversion is done, i.e. subframe A is downmixed with TCX10 resolution and subframe B Is downmixed with TCX5.

MDST推定値及び最終チャネル重みは、これらの変換されたスペクトルを使用して計算される。重み自体は元の入力スペクトルに適用され、これは、変換の場合、各計算された重みが、全てのサブフレームについて元のより低い分解能で同じ周波数範囲をカバーする全てのビンに適用されることを意味する。 MDST estimates and final channel weights are calculated using these transformed spectra. The weights themselves are applied to the original input spectrum, which in the case of transformation, each calculated weight is applied to all bins covering the same frequency range with the original lower resolution for all subframes. Means.

能動的帯域ごとのダウンミックスの重み付け段階を実際の混合段階から分離することによって、この新しい方法は、能動的ダウンミックスの利点を有するモノラル信号を出力することができるが、追加の遅延又は複雑さはなく、個々のチャネルの選択された時間-周波数分解能とは無関係である。 By separating the downmix weighting stage for each active band from the actual mixing stage, this new method can output a monaural signal with the benefits of active downmixing, but with additional delay or complexity. Is not independent of the selected time-frequency resolution of the individual channels.

これはまた、専用のパラメータダウンミックスを必要とせずに、両方のチャネルで更なる時間領域後処理(例えば、ピッチ情報を使用したTCX-LTPポストフィルタ)を使用することを可能にする。 It also makes it possible to use additional time domain post-processing (eg, TCX-LTP postfilters with pitch information) on both channels without the need for a dedicated parameter downmix.

図5aは、2つの結合されたスペクトル領域表現が生成される第1の代替例を示す。第1の結合スペクトル領域表現は、図5aの左側に示されている高分解能スペクトル領域表現の2つの隣接ビンを加算して第1の結合スペクトル領域表現を得ることによって計算される。 FIG. 5a shows a first alternative example in which two combined spectral region representations are generated. The first coupled spectral region representation is calculated by adding two adjacent bins of the high resolution spectral region representation shown on the left side of FIG. 5a to obtain the first coupled spectral region representation.

更に、図5aの中央のTCX10に示されている2つの低スペクトル分解能表現は、第2の結合スペクトル領域表現を得るために互いに結合される。重み値推定器100は、これらの2つの結合されたスペクトル領域表現から左右の重み係数w及びwを計算するように構成される。 Further, the two low spectral resolution representations shown in the central TCX10 of FIG. 5a are coupled together to obtain a second coupled spectral region representation. The weight value estimator 100 is configured to calculate the left and right weighting coefficients w L and w R from these two combined spectral region representations.

スペクトル重み付け器200によって実行された実際に実行されたスペクトル重み付けに関して、左チャネルの重み係数は、元の左チャネル表現、すなわち図5aの左側に示されるTCX20表現に適用される。更に、2つの時間後続のTCX10ブロックによって表される右チャネルの帯域ごとの重み値は、両方のTCX10ブロックに適用される。同じ帯域ごとの重み値が、図5aの中央に示されている2つの時間的に後続のTCX10ブロックの対応する帯域に適用される。 With respect to the actual spectrum weighting performed by the spectrum weighting device 200, the left channel weighting factor applies to the original left channel representation, i.e. the TCX20 representation shown on the left side of FIG. 5a. In addition, the bandwise weight values for the right channel, represented by the two time-successor TCX10 blocks, apply to both TCX10 blocks. The same band-by-band weight value is applied to the corresponding band of the two temporally subsequent TCX10 blocks shown in the center of FIG. 5a.

図5bに示す第2の代替案では、いくつかの異なる事例について示されているように、単一の結合スペクトル領域表現のみが計算される。例えば、第1のチャネル内のサブフレームがTCX5フレームなどの2つの非常に短いサブフレームを有し、次のサブフレームが単一のTCX10フレームを有する場合、及び第2のチャネルが例えば2つのTCX10フレームを有する場合、第1のサブサブフレームについて結合スペクトル領域表現が計算されるが、第2のサブサブフレームについては、第1及び第2のチャネルは既にTCX10表現内にある。 In the second alternative shown in FIG. 5b, only a single coupled spectral region representation is calculated, as shown for several different cases. For example, if the subframe in the first channel has two very short subframes, such as TCX5 frames, and the next subframe has a single TCX10 frame, and the second channel has, for example, two TCX10 frames. If it has a frame, the coupled spectral region representation is calculated for the first sub-subframe, but for the second sub-subframe, the first and second channels are already in the TCX10 representation.

この例では、スペクトル重み付け器200は、例えば、各々が5ミリ秒を表すサブフレーム内の対応する帯域に高スペクトル分解能重み係数を適用するように構成されている。更に、高分解能重み係数は、例えば、第1のサブフレームA内の短いTCX10フレームを有する他方のチャネルの対応する元のスペクトル領域表現に適用される。 In this example, the spectral weighting device 200 is configured to, for example, apply a high spectral resolution weighting factor to the corresponding band within a subframe, each representing 5 milliseconds. Further, the high resolution weighting factor is applied, for example, to the corresponding original spectral region representation of the other channel with the short TCX10 frame in the first subframe A.

あるいは、状況は、第1のチャネルが図5bの左に示された表現を有し、第2のチャネルが図5bの右に示された表現を有する場合であり、第1のチャネルの表現は、図5bの左から中央へ、及び図5bの中央から右への2つのステップを介して単一の結合スペクトル領域表現に変換される。周波数分解能は重み係数を計算するために使用され、対応する重み係数は、図5bの右側に示されている分解能を有する第2のチャネルの高周波数分解能及び低時間分解能表現に適用され、帯域について同じ値が、図5bのD及びCによって示されている個々のサブフレームA、B及び次のサブフレームの全てに適用される。 Alternatively, the situation is when the first channel has the representation shown on the left in FIG. 5b and the second channel has the representation shown on the right in FIG. 5b. , Converted into a single coupled spectral region representation through two steps, left-to-center in FIG. 5b and center-to-right in FIG. 5b. The frequency resolution is used to calculate the weighting factor, and the corresponding weighting factor is applied to the high frequency resolution and low time resolution representation of the second channel with the resolution shown on the right side of FIG. 5b, with respect to the band. The same values apply to all of the individual subframes A, B and the following subframes shown by D and C in FIG. 5b.

図5cは、実際の領域重み値が低周波数分解能及び高時間分解能表現から計算される別の代替案を示す。第1のチャネルは、例えば、TCX20表現であり、第2のチャネルは、例えば、2つのTCX10表現のシーケンスである。図5bに示す代替形態とは対照的に、結合表現は、ここでは図5cの右上隅に示されている高時間分解能及び低周波数分解能の表現である。スペクトル領域重み係数は、一方の結合表現と、図5cの左下隅に示されている第2のチャネルの元のスペクトル領域表現とから計算される。 FIG. 5c shows another alternative in which the actual region weight value is calculated from the low frequency resolution and high time resolution representations. The first channel is, for example, a TCX20 representation, and the second channel is, for example, a sequence of two TCX10 representations. In contrast to the alternative form shown in FIG. 5b, the coupled representation is here the representation of high temporal resolution and low frequency resolution shown in the upper right corner of FIG. 5c. The spectral region weighting factor is calculated from one of the combined representations and the original spectral region representation of the second channel shown in the lower left corner of FIG. 5c.

2組の帯域ごとの重み値、すなわち、各サブフレームに対して1つが取得される。これらの値は、第2のチャネルの対応するサブフレームに適用される。しかしながら、第1のチャネルがフレーム全体に対して単一のスペクトル領域表現しか有さないという事実に起因して、導出されたスペクトル領域重み値は、図3aのブロック136に示されるように計算される。導出されたスペクトル領域重み値を計算するための1つの手順は、2つの(又はそれ以上の)サブフレームに対して全く同じ帯域の対応する重み値の重み付け加算を実行することであり、各重み値は、例えば、平均化演算をもたらす重み付け加算において0.5によって重み付けされる。別の代替案は、2つのサブフレームの重み値の算術平均若しくは幾何平均を計算すること、又はフレーム内の帯域の2つの重み値から単一の重み値を取得するための任意の他の手順である。オプションは、2つの値の一方を単に選択し、他方を無視することなどであり得る。 Two sets of weight values for each band, i.e. one for each subframe, are acquired. These values apply to the corresponding subframe of the second channel. However, due to the fact that the first channel has only a single spectral region representation for the entire frame, the derived spectral region weight values are calculated as shown in block 136 of FIG. 3a. To. One procedure for calculating the derived spectral region weight values is to perform weighting addition of the corresponding weight values in the exact same band for two (or more) subframes, each weight. The values are weighted by 0.5, for example, in a weighted addition that results in an averaging operation. Another alternative is to calculate the arithmetic or geometric mean of the weight values of the two subframes, or any other procedure for obtaining a single weight value from the two weight values of the band in the frame. Is. Options may be to simply select one of the two values and ignore the other.

更に、第1のチャネルから結合スペクトル領域表現を計算するために、図5aに関して前述した手順を使用することができ、すなわち、2つの隣接するスペクトル値を一緒に加算してスペクトル分解能を低下させることができる。これは図4bにも示され、帯域内の特定の数のスペクトル値を有する高スペクトル分解能を、同じ帯域内のより少ない数のスペクトル値を有する中程度のスペクトル分解能に低減することができる。更に、図5cの右上隅に示される2つのサブフレームのスペクトル値を2倍にするために、例えば、両方のサブフレームの帯域に対して同じ(低いスペクトル分解能)スペクトル値を使用することができ、又は場合によっては、より早い又はより遅い値を使用して何らかの種類の重み付けされた間引きを実行することができる。 In addition, the procedure described above with respect to FIG. 5a can be used to calculate the coupled spectral region representation from the first channel, i.e., adding two adjacent spectral values together to reduce spectral resolution. Can be done. This is also shown in FIG. 4b, where high spectral resolution with a certain number of spectral values within the band can be reduced to medium spectral resolution with a smaller number of spectral values within the same band. In addition, the same (low spectral resolution) spectral values can be used, for example, for the bands of both subframes to double the spectral values of the two subframes shown in the upper right corner of FIG. 5c. , Or, in some cases, earlier or later values can be used to perform some sort of weighted decimation.

図5dは、第1のチャネルがTCX20表現などの高周波数及び低時間分解能表現を有し、第2のチャネルが2つのTCX10フレームなどの2つの短いフレームのシーケンスなどの低周波数及び高時間分解能表現を有する更なる実施態様を示す。第1の結合スペクトル領域表現は、高周波数分解能及び高時間分解能表現であり、第2の結合スペクトル領域表現は、更に、高周波数分解能及び高時間分解能である。図5dに示す手順は、例えば、第1のチャネルから、同じスペクトル値をとるが、ここではTCX10によって示される2つの後続の時間フレームに対して、第1の結合スペクトル領域表現が計算されるように実行することができる。あるいは、TCX20フレームから2つの後続のTCX10フレームが計算されるように、フレーム数を2倍にするために、何らかの補間処理なども実行することができる。更に、第2のチャネルは既に正しい時間分解能にあるが、周波数分解能を2倍にしなければならない。この目的のために、図4bの下のラインから上のラインまでの手順を実行することができ、すなわち、TCX10表現の周波数ビン内のスペクトル値は、一対の周波数ビンについて同じスペクトル値を有するように処理することができる。正しいエネルギーを得るために、何らかの重み付けを行うことができる。代替的又は追加的に、第2の結合スペクトル領域表現内で互いに隣接する周波数ビンが必ずしも正確に同じスペクトル値を有するのではなく、異なる値を有するように、何らかの種類の高度な補間を実行することができる。スペクトル領域重み値は、重み値推定器100によって、高周波数分解能及び高時間分解能データから導出された第1の結合スペクトル領域表現及び第2の結合スペクトル領域表現から計算される。 In FIG. 5d, the first channel has a high frequency and low time resolution representation such as TCX20 representation, and the second channel has a low frequency and high time resolution representation such as a sequence of two short frames such as two TCX10 frames. Further embodiments are shown. The first coupled spectral region representation is a high frequency resolution and high time resolution representation, and the second coupled spectral region representation is further high frequency resolution and high time resolution. The procedure shown in FIG. 5d takes, for example, the same spectral value from the first channel, but here the first coupled spectral region representation is calculated for the two subsequent time frames indicated by TCX10. Can be executed. Alternatively, some interpolation processing or the like can be performed in order to double the number of frames so that two subsequent TCX10 frames are calculated from the TCX20 frame. Moreover, although the second channel is already at the correct time resolution, the frequency resolution must be doubled. For this purpose, the procedure from the bottom line to the top line in FIG. 4b can be performed, i.e., the spectral values within the frequency bins of the TCX10 representation will have the same spectral values for a pair of frequency bins. Can be processed. Some weighting can be done to get the correct energy. Alternatively or additionally, perform some sort of advanced interpolation such that the frequency bins adjacent to each other in the second coupled spectral region representation do not necessarily have exactly the same spectral value, but have different values. be able to. The spectral region weight value is calculated by the weight value estimator 100 from the first combined spectral region representation and the second coupled spectral region representation derived from the high frequency resolution and high time resolution data.

スペクトル重み付け器200は、対応するスペクトル領域重み値を第2チャネルに適用するように構成されており、各サブフレームについて一組の帯域ごとの重み値が存在する。第1のチャネルの高周波数分解能及び時間分解能(TCX20)スペクトル領域表現を重み付けするために必要なスペクトル領域重み係数のセットは一組だけであるため、第1のチャネルのTCX20データを重み付けする目的で、重み値推定器100は、導出された帯域幅重み係数136を再び計算するように構成される。導出された帯域ごとの重み値を計算するための結合手順は、例えば、平均化であり得る。 The spectrum weighting device 200 is configured to apply the corresponding spectral region weighting value to the second channel, and there is a set of bandwise weighting values for each subframe. For the purpose of weighting the TCX20 data of the first channel, since there is only one set of spectral region weighting coefficients required to weight the high frequency resolution and time resolution (TCX20) spectral region representation of the first channel. , The weight value estimator 100 is configured to recalculate the derived bandwidth weighting factor 136. The coupling procedure for calculating the derived bandwise weight values can be, for example, averaging.

図6は、本発明の更なる態様、すなわち、少なくとも2つのサブフレームを含むチャネルのスペクトル領域表現のスペクトル分解能を変換するための装置を示し、各サブフレームは、時間ビンサイズ及び周波数ビンサイズを表す複数のスペクトル値を含む。第2の態様による変換のための装置に含まれるスペクトル値計算機160は、第1の方式結合器170と、第2の方式結合器180とを備える。好ましくは、第1の方式結合器はローパスプロセッサとして動作し、第2の方式結合器はハイパスプロセッサを操作する。スペクトル値計算機は、第1の方式結合器によって、結合スペクトル値の第1のグループを取得するために、スペクトル領域表現の各サブフレームからの同じ周波数ビンに属するスペクトル値を結合し、第2の方式結合器180は、結合スペクトル値の第2のグループを取得するために、第2の方式でスペクトル領域表現の各サブフレームからの同じ周波数ビンに属するスペクトル値を結合し、第2の方式は第1の方式とは異なり、結合スペクトル値の第1のグループ及び結合スペクトル値の第2のグループは、異なる時間ビンサイズ及び異なる周波数ビンサイズを有する結合スペクトル領域表現を表す。この計算の好ましい実施態様は、図5bに関して説明及び図示されており、一例では、A、A及びB、Bのシーケンスは、高スペクトル分解能表現に変換されるが、ここでは一方でF、E及び他方でF、Eによって示されるように低い時間分解能を有する。 FIG. 6 shows a further aspect of the invention, i.e., a device for converting the spectral resolution of a spectral region representation of a channel containing at least two subframes, where each subframe has a time bin size and a frequency bin size. Contains multiple spectral values to represent. The spectral value computer 160 included in the apparatus for conversion according to the second aspect includes a first method coupler 170 and a second method coupler 180. Preferably, the first method combiner operates as a low pass processor and the second method combiner operates a high pass processor. The spectral value calculator combines the spectral values belonging to the same frequency bin from each subframe of the spectral region representation in order to obtain the first group of coupled spectral values by the first method combiner, and the second. The method combiner 180 combines the spectral values belonging to the same frequency bin from each subframe of the spectral region representation in the second method in order to obtain a second group of coupled spectral values. Unlike the first scheme, the first group of coupled spectral values and the second group of coupled spectral values represent coupled spectral region representations with different time bin sizes and different frequency bin sizes. Preferred embodiments of this calculation are described and illustrated with respect to FIG. 5b, in which, in one example, the sequences A 2 , A 1 and B 2 , B 1 are converted into high spectral resolution representations, but here on the other hand. It has low temporal resolution as indicated by F 2 , E 2 and F 1 , E 1 on the other hand.

あるいは、図5bはまた、少なくとも2つのサブフレームが図5bの中央の図に2つの時間的に後に続く10msのサブフレームとして示されており、高スペクトル分解能及び低時間分解能の表現が図5bの右側に示されている状況を示している。好ましくは、加算は第1の方式で実行され、減算は第2の方式で実行される。更に、両方の手順が平均関数も含むことが好ましい。更に、図6のスペクトル値計算機160は、重み付け符号を使用する重み付けを含む第1の方式又は第2の方式のいずれかを適用するように構成され、スペクトル値計算機は、同じ周波数ビンの周波数ビン番号に従って重み付け符号を設定するように構成される。更に、スペクトル値計算機は、図5bに示すように、より低い分解能ビンを2つのより高い分解能ビンに変換するように構成され、第1の方式は偶数ビン番号に使用され、第2の方式は奇数ビン番号に使用される。 Alternatively, FIG. 5b also shows at least two subframes as two temporally trailing 10 ms subframes in the central figure of FIG. 5b, with high spectral and low temporal resolution representations of FIG. 5b. It shows the situation shown on the right. Preferably, the addition is performed by the first method and the subtraction is performed by the second method. Furthermore, it is preferred that both procedures also include an average function. Further, the spectral value calculator 160 of FIG. 6 is configured to apply either the first method or the second method including weighting using a weighting code, and the spectral value calculator is a frequency bin of the same frequency bin. It is configured to set the weighting code according to the number. Further, the spectral value calculator is configured to convert the lower resolution bins into two higher resolution bins, as shown in FIG. 5b, the first method is used for even bin numbers and the second method is Used for odd bin numbers.

図7は、スペクトル分解能を変換するための装置の更なる実施態様を示す図である。スペクトル分解能結合器160に加えて、スペクトル分解能を変換するための装置は、更なる要素を備えてもよい。更なる要素は、例えば、スペクトルプロセッサ500及び/又は処理データ計算機190及び/又は更なるスペクトルプロセッサ220である。スペクトルプロセッサ500を用いた実装では、逆変換及び順変換操作なしで変換された、したがって低計算リソース及び低遅延で生成された変換されたスペクトル領域表現は、単独で、又は例えば同じ第2のスペクトル分解能を有する別のスペクトル表現と一緒に更に処理することができる。これは、例えば、ある種のダウンミックスのために行うことができる。図5bの右側に示されている高周波数分解能の低時間分解能表現は、処理データを計算するために使用することができるだけでなく、実際には、例えばダウンミックス又は後の処理段階における任意の種類の音声レンダリングなどの追加の又は他の代替の使用のために更に処理される。 FIG. 7 is a diagram showing a further embodiment of an apparatus for converting spectral resolution. In addition to the spectral resolution coupler 160, the device for converting spectral resolution may include additional elements. Additional elements are, for example, the spectrum processor 500 and / or the processing data calculator 190 and / or the additional spectrum processor 220. In an implementation with the spectrum processor 500, the transformed spectral region representations transformed without inverse and forward transformation operations and thus generated with low computational resources and low latency can be used alone or, for example, in the same second spectrum. It can be further processed with another spectral representation with resolution. This can be done, for example, for certain downmixes. The high frequency resolution low time resolution representation shown on the right side of FIG. 5b can be used not only to calculate the processing data, but is actually of any kind, for example in downmixing or later processing stages. Further processed for the use of additional or other alternatives such as audio rendering of.

一方、図1及び図5bに関して前述した手順は、第2のスペクトル分解能を有するスペクトル領域表現、すなわち「結合スペクトル領域表現」が、左及び右チャネル、又は一般的に言えば、マルチチャネル信号の第1及び第2のチャネルの重み値などのある種の処理データを計算するためだけに使用される。高スペクトル分解能に変換されたスペクトル領域表現を使用して生成された処理データは、処理データを計算するためにのみ使用されるが、このスペクトル領域表現はそれ自体では更に処理されない。代わりに、重み値などの処理データを使用して、ブロック220によって示されるように、第1のスペクトル分解能を有する元の入力スペクトル領域表現がスペクトル的に処理される。この目的のために、例えば、スペクトル領域で生じるダウンミックス動作などのために、第1の分解能を有する別のスペクトル領域表現を使用することが好ましい。 On the other hand, in the procedure described above with respect to FIGS. 1 and 5b, the spectral region representation with the second spectral resolution, i.e., the "coupling spectral region representation", is the left and right channels, or more generally, the multi-channel signal. It is only used to calculate certain processing data such as weight values for the first and second channels. The processed data generated using the spectral region representation converted to high spectral resolution is used only to compute the processed data, but this spectral region representation is not further processed by itself. Instead, processing data such as weight values are used to spectrally process the original input spectral region representation with the first spectral resolution, as shown by block 220. For this purpose, it is preferred to use another spectral region representation with a first resolution, for example for downmixing operations that occur in the spectral region.

図8は、少なくとも2つのチャネルを有するマルチチャネル信号をダウンミックスするためのダウンミキサとして動作する本発明の第3の態様の一実施形態を示す。ダウンミキサは、少なくとも2つのチャネルの帯域ごとの重み値を推定するための重み値推定器100を備え、重み値推定器は、帯域ごとの目標エネルギー値に基づいて帯域ごとの重み値を計算し、その結果、ダウンミックス信号の帯域のエネルギーは、2つのチャネルの同じ帯域のエネルギーと所定の関係にあるように構成される。好ましくは、重み値推定器100は、図3bに示され、図3bの文脈で説明されるように実装される。ダウンミキサは、少なくとも2つのチャネルの重み付けされたスペクトル領域表現を使用してダウンミックス信号を計算するためのスペクトル重み付け器200及びその後に接続されるミキサ400を更に備える。 FIG. 8 shows an embodiment of a third aspect of the invention that operates as a downmixer for downmixing a multichannel signal having at least two channels. The downmixer comprises a weight value estimator 100 for estimating band-by-band weight values for at least two channels, and the weight-value estimator calculates band-by-band weight values based on band-by-band target energy values. As a result, the band energy of the downmix signal is configured to have a predetermined relationship with the energy of the same band of the two channels. Preferably, the weight value estimator 100 is shown in FIG. 3b and implemented as described in the context of FIG. 3b. The downmixer further comprises a spectral weighter 200 for computing the downmix signal using a weighted spectral region representation of at least two channels and a mixer 400 subsequently connected.

図9は、図8のダウンミキサの更なる実施態様を示す図である。スペクトル重み付け器200は、好ましくは、第1及び/又は第2のチャネル用の制御データを受信するように構成される。更に、スペクトル重み付け器は、4つの異なる入力データ対のうちの1つに対して制御データを適用するように構成される。入力データの第1の対は、図9の左に示すように、第1のチャネルスペクトル領域表現及び第2のチャネルスペクトル領域表現とすることができる。第2の代替案は、例えば、図5b、図5cに関して説明したように導出された第1のチャネルスペクトル領域表現及び結合スペクトル領域表現であり得る。更に、他の代替案は、図5b、図5cに関して前述したように、第2のチャネルスペクトル領域表現及び単一の結合スペクトル領域表現を表す一対のデータとすることができる。別の代替案は、スペクトル重み付け器200が、図5a又は図5dに関して示されているように、スペクトル重みを第1の結合スペクトル領域表現及び第2の結合スペクトル表現に適用することであり得る。第1及び/又は第2のチャネルの制御データは、例えば、一方では重み値wであり、他方ではwであり得るが、任意の種類のスペクトル重み付けを実行するために使用される任意の他の制御データであってもよい。 FIG. 9 is a diagram showing a further embodiment of the down mixer of FIG. The spectrum weighter 200 is preferably configured to receive control data for the first and / or second channel. Further, the spectrum weighter is configured to apply control data to one of four different input data pairs. The first pair of input data can be a first channel spectral region representation and a second channel spectral region representation, as shown on the left in FIG. The second alternative may be, for example, a first channel spectral region representation and a coupled spectral region representation derived as described with respect to FIGS. 5b, 5c. Yet another alternative can be a pair of data representing a second channel spectral region representation and a single coupled spectral region representation, as described above with respect to FIGS. 5b and 5c. Another alternative is that the spectral weighting device 200 may apply the spectral weights to the first coupled spectral region representation and the second coupled spectral representation, as shown with respect to FIGS. 5a or 5d. The control data for the first and / or second channel can be, for example, a weight value w L on the one hand and w R on the other, but any kind of spectral weighting used to perform any kind of weighting. It may be other control data.

ダウンミキサの更なる要素は、一実施形態において、加算されたスペクトル領域表現、すなわちスペクトル領域におけるダウンミックススペクトル領域表現を計算する加算器480である。モノラル信号プロセッサ490は、例えば、任意のデータによって制御されるか、又は例えば、図1又は図2のブロック310に関して前述したように、周波数-時間変換器として実装される。 A further element of the downmixer is, in one embodiment, an adder 480 that computes the added spectral region representation, i.e., the downmix spectral region representation in the spectral region. The monaural signal processor 490 is controlled by, for example, arbitrary data, or is implemented, for example, as a frequency-time converter as described above with respect to block 310 of FIG. 1 or FIG.

3つの態様は、互いに別々に使用することができるが、互いに有利に結合することもできることを強調すべきである。特に、図8による重み値推定器の実装は、図1に示す第1の態様の重み値推定器100に適用することができる。更に、図6に示すスペクトル分解能変換器は、好ましくは、図5bに示す代替案における図1の重み値推定器100によって実装され、2つの高時間分解能及び低スペクトル分解能サブフレームから高分解能/低分解能スペクトル領域表現を生成する。更に、特に処理データの計算に関して、図1に示す第1の態様の機能は、処理データ計算機190及び図7に示す更なるスペクトルプロセッサ220によって実施することができ、本発明の第3の態様のミキサ400は、図9の代替として、ダウンミックス信号を計算するためのミキサ400が実際の時間領域サンプルごとの加算を実行する前に図1に示す変換器300の機能を適用するように実施することができる。したがって、3つの態様のうちの1つについて従属請求項で定義された全ての特定の実施形態は、対応する従属請求項の定義における3つの態様の任意の他の態様にも適用することができる。 It should be emphasized that the three embodiments can be used separately from each other, but can also be coupled in favor of each other. In particular, the implementation of the weight value estimator according to FIG. 8 can be applied to the weight value estimator 100 of the first aspect shown in FIG. Further, the spectral resolution converter shown in FIG. 6 is preferably implemented by the weight value estimator 100 of FIG. 1 in the alternative shown in FIG. 5b, from two high time resolution and low spectral resolution subframes to high resolution / low. Generates a resolution spectral region representation. Further, particularly with respect to the calculation of the processed data, the function of the first aspect shown in FIG. 1 can be performed by the processed data computer 190 and the additional spectrum processor 220 shown in FIG. 7, according to the third aspect of the present invention. As an alternative to FIG. 9, the mixer 400 implements the mixer 400 for calculating the downmix signal to apply the functionality of the converter 300 shown in FIG. 1 before performing the actual time domain sample-by-sample addition. be able to. Thus, all specific embodiments defined in the dependent claim for one of the three embodiments can also be applied to any other aspect of the three embodiments in the corresponding definition of the dependent claim. ..

したがって、実装に応じて、3つの態様を別々に適用することができ、あるいは3つの態様のうちの任意の2つを結合することによって、又は3つの態様全てを結合することによって、3つの態様を互いに結合することができることが明らかになる。
続いて、本発明の態様の更なる例を示す。
Thus, depending on the implementation, the three embodiments can be applied separately, or by combining any two of the three embodiments, or by combining all three embodiments. It becomes clear that can be combined with each other.
Subsequently, further examples of aspects of the present invention will be shown.

1.少なくとも2つのチャネルを有するマルチチャネル信号をダウンミックスするためのダウンミキサであって、
少なくとも2つのチャネルの帯域ごとの重み値を推定するための重み値推定器(100)と、
帯域ごとの重み値を使用して少なくとも2つのチャネルのスペクトル領域表現を重み付けするためのスペクトル重み付け器(200)と、
少なくとも2つのチャネルの重み付けされたスペクトル領域表現を少なくとも2つのチャネルの時間表現に変換する変換器(300)と、
ダウンミックス信号を取得するために少なくとも2つのチャネルの時間表現を混合するためのミキサ(400)と
を備える、ダウンミキサ。
1. 1. A downmixer for downmixing a multichannel signal with at least two channels.
A weight value estimator (100) for estimating the weight value for each band of at least two channels, and
A spectral weighter (200) for weighting the spectral region representation of at least two channels using band-by-band weighting values, and
A transducer (300) that converts a weighted spectral region representation of at least two channels into a temporal representation of at least two channels.
A downmixer comprising a mixer (400) for mixing time representations of at least two channels to obtain a downmix signal.

2.重み値推定器(100)は、少なくとも2つのチャネルのうちの第1のチャネルの複数の帯域について複数の第1の帯域ごとの重み値を計算し、少なくとも2つのチャネルのうちの第2のチャネルの複数の帯域について第2の複数の帯域ごとの重み値を計算するように構成される、又は、
マルチチャネル信号は2つを超えるチャネルを有し、重み値推定器(100)は、2つを超えるチャネルのうちの第1のチャネルの複数の帯域について複数の第1の帯域ごとの重み値を計算し、2つを超えるチャネルのうちの第2のチャネルの複数の帯域について第2の複数の帯域ごとの重み値を計算し、2つを超えるチャネルのうちの更なるチャネルの複数の帯域について更なる複数の帯域ごとの重み値を計算するように構成される、実施例1に記載のダウンミキサ。
2. 2. The weight value estimator (100) calculates the weight value for each of the plurality of first bands for the plurality of bands of the first channel of at least two channels, and the second channel of at least two channels. It is configured to calculate the weight value for each of the second plurality of bands for the plurality of bands of, or
The multi-channel signal has more than two channels, and the weight value estimator (100) sets the weight value for each of the plurality of first bands for the plurality of bands of the first channel among the two or more channels. Calculate and calculate the weight value for each of the second multiple bands for the multiple bands of the second channel of the more than two channels, and for the multiple bands of the further channels of the more than two channels. The downmixer according to Example 1, which is configured to calculate weight values for each of a further plurality of bands.

3.少なくとも2つのチャネルのスペクトル領域表現は各々、周波数ビンのセットを含み、スペクトル値は周波数ビンに関連付けられ、
重み値推定器(100)は、帯域に対する帯域ごとの重み値を計算するように構成され、各帯域は、1つ、2つ、若しくはそれ以上の周波数ビンを含み、又は
帯域当たりの周波数ビンの数は、より高い中心周波数を有する帯域と共に増加する、実施例1又は2に記載のダウンミキサ。
3. 3. Each spectral region representation of at least two channels contains a set of frequency bins, the spectral values are associated with the frequency bins, and
The weight value estimator (100) is configured to calculate a bandwise weight value for a band, where each band contains one, two, or more frequency bins, or a frequency bin per band. The downmixer according to Example 1 or 2, wherein the number increases with a band having a higher center frequency.

4.重み値推定器(100)は、帯域当たりの目標エネルギー値に基づいて帯域ごとの重み値を計算し、その結果、ダウンミックス信号の帯域におけるエネルギーが、少なくとも2つのチャネルの同じ帯域におけるエネルギーに対して所定の関係にあるように構成される、実施例1から3のいずれか一項に記載のダウンミキサ。 4. The weight value estimator (100) calculates the weight value for each band based on the target energy value per band, so that the energy in the band of the downmix signal is relative to the energy in the same band of at least two channels. The down mixer according to any one of Examples 1 to 3, which is configured to have a predetermined relationship.

5.符号化された信号を復号するためのコアデコーダ(500)であって、符号化された信号は、少なくとも2つの元のチャネルの符号化されたスペクトル領域表現を有し、コアデコーダは、符号化されたスペクトル領域表現からスペクトル領域表現を生成するように構成される、コアデコーダ(500)
を更に備える、実施例1から4のいずれか一項に記載のダウンミキサ。
5. A core decoder (500) for decoding a coded signal, wherein the coded signal has a coded spectral region representation of at least two original channels and the core decoder is encoded. A core decoder (500) configured to generate a spectral region representation from the resulting spectral region representation.
The down mixer according to any one of Examples 1 to 4, further comprising.

6.スペクトル領域表現は純実数又は純虚数のいずれかであり、
重み値推定器(100)は、スペクトル領域表現が純実数である場合、虚数スペクトル領域表現を推定(120、122)する、又はスペクトル領域表現が純虚数である場合、実数スペクトル領域表現を推定するように構成され、
重み値推定器(100)は、推定された虚数スペクトル領域表現又は推定された実数ペクトル領域表現を使用して帯域ごとの重み値を推定するように構成される、実施例1から5のいずれか一項に記載のダウンミキサ。
6. The spectral domain representation is either a pure real number or a pure imaginary number,
The weight value estimator (100) estimates the imaginary spectral domain representation (120, 122) when the spectral domain representation is a pure real number, or estimates the real spectral domain representation when the spectral domain representation is a pure imaginary number. Configured like
One of Examples 1 to 5, wherein the weight value estimator (100) is configured to estimate a bandwise weight value using an estimated imaginary spectral domain representation or an estimated real spectrum domain representation. The down mixer according to paragraph 1.

7.重み値推定器(100)は、少なくとも2つのチャネルのうちの第1のチャネルの帯域に対する第1の重み値を計算するように構成され、
重み値推定器(100)は、少なくとも2つのチャネルのうちの第2のチャネルの帯域に対する第2の重み値を計算するように構成され、
重み値推定器(100)は、帯域内の第1のチャネルのエネルギーと、帯域内の第2のチャネルのエネルギーと、帯域内の少なくとも2つのチャネルからのスペクトル値の積又は線形結合に依存する混合項とを用いて、第1の重み値及び第2の重み値を計算するように構成される、実施例1から6のいずれか一項に記載のダウンミキサ。
7. The weight value estimator (100) is configured to calculate the first weight value for the band of the first channel of at least two channels.
The weight value estimator (100) is configured to calculate a second weight value for the band of the second channel of at least two channels.
The weight estimator (100) depends on the product or linear combination of the energy of the first channel in the band, the energy of the second channel in the band, and the spectral values from at least two channels in the band. The downmixer according to any one of Examples 1 to 6, which is configured to calculate a first weight value and a second weight value using a mixed term.

8.重み値推定器(100)は、線形結合を表す混合項として、少なくとも2つのチャネルのスペクトル領域表現から帯域内で互いに加算されたスペクトル値のエネルギーの平方根を計算するように構成され、帯域は複数のスペクトル値を含むか、又は、積を表す混合項として、少なくとも2つのチャネルのうちの第1のチャネルの帯域内のスペクトル値と第2のチャネルの帯域内のスペクトル値との間の複素ドット積の絶対値を計算するように構成される、実施例1から7のいずれか一項に記載のダウンミキサ。 8. The weight value estimator (100) is configured as a mixed term representing a linear coupling to calculate the square root of the energy of the spectral values added to each other in the band from the spectral domain representation of at least two channels, with multiple bands. A complex dot between the spectral value in the band of the first channel of at least two channels and the spectral value in the band of the second channel as a mixed term containing or representing the spectral values of The downmixer according to any one of Examples 1 to 7, which is configured to calculate the absolute value of the product.

9.複数の少なくとも2つのチャネルのうちの第1及び第2のチャネルの各帯域は複数のスペクトル値を有し、スペクトル重み付け器(200)は、少なくとも2つのチャネルのうちの一方の帯域の各スペクトル値に同じ重みを適用し、少なくとも2つのチャネルのうちの別のチャネルの帯域の各スペクトル値に別の重みを適用するように構成される、実施例1から8のいずれか一項に記載のダウンミキサ。 9. Each band of the first and second channels of the plurality of at least two channels has a plurality of spectral values, and the spectrum weighting device (200) has each spectral value of one band of the at least two channels. The down according to any one of Examples 1-8, wherein the same weights are applied to and different weights are applied to each spectral value of the band of another channel of at least two channels. Mixer.

10.重み付けされたスペクトル領域表現はMDCT(修正離散コサイン変換)スペクトルであり、
変換器(300)は、複数のチャネルの各チャネルについて、合成窓がけ演算及び重畳加算演算を使用して逆MDCT変換を実行するように構成される、実施例1から9のいずれか一項に記載のダウンミキサ。
10. The weighted spectral domain representation is the MDCT (Modified Discrete Cosine Transform) spectrum.
In any one of Examples 1 to 9, the converter (300) is configured to perform an inverse MDCT transformation for each channel of the plurality of channels using a composite windowing operation and a superimposing addition operation. The down mixer described.

11.ミキサ(400)は、少なくとも2つのチャネルの時間表現のサンプルごとの加算を適用するように構成されるか、又は
ミキサ(400)は、少なくとも2つのチャネルの時間表現のサンプルごとの加算と、サンプルごとの加算の結果に適用される、又はサンプルごとの加算への入力に適用されるスケーリング動作とを適用するように構成される、実施例1から10のいずれか一項に記載のダウンミキサ。
11. The mixer (400) is configured to apply a sample-by-sample addition of the time representation of at least two channels, or the mixer (400) is a sample-by-sample addition of the time representation of at least two channels. The downmixer according to any one of Examples 1 to 10, configured to apply a scaling operation that is applied to the result of the per-addition or applied to the input to the per-sample addition.

12.変換器(300)は、スペクトル-時間アルゴリズムを使用して生の時間表現を生成し(310)、
時間表現を取得するためにチャネルのための別個の制御情報を使用して、ミキサ(400)による混合の前に信号処理方向に生の時間表現を個別に後処理する(320)ように構成される、実施例1から11のいずれか一項に記載のダウンミキサ。
12. The transducer (300) uses a spectrum-time algorithm to generate a raw time representation (310).
It is configured to post-process the raw time representation individually in the signal processing direction (320) prior to mixing by the mixer (400), using separate control information for the channel to obtain the time representation. The down mixer according to any one of Examples 1 to 11.

13.変換器(300)は、後処理(320)として、バス・ポストフィルタリング、TCX-LTP(Transform Coded Excitation Long Term Prediction)処理、又はLPC(Linear Prediction Coding)合成を各時間表現について個別に実行するように構成される、実施例12に記載のダウンミキサ。 13. The transducer (300) is to perform bus post-filtering, TCX-LTP (Transform Coded Excitation Long Term Precision) processing, or LPC (Linear Prevention Coding) synthesis individually for each time representation as post-processing (320). The down mixer according to Example 12, which is configured in 1.

14.少なくとも2つのチャネルのうちの第1のチャネルの第1のスペクトル領域表現は、第1の時間又は周波数分解能を有し、
少なくとも2つのチャネルのうちの第2のチャネルの第2のスペクトル領域表現は、第2の時間又は周波数分解能を有し、第2の時間又は周波数分解能は、第1の時間又は周波数分解能とは異なり、
重み値推定器(100)は、帯域ごとの重み値に関連付けられた帯域の周波数分解能が、第1の周波数分解能及び第2の周波数分解能よりも低くなるように、又は第1の周波数分解能及び第2の周波数分解能のうちの低い方の周波数分解能と等しくなるように、帯域ごとの重み値を計算するように構成される、実施例1から13のいずれか一項に記載のダウンミキサ。
14. The first spectral region representation of the first channel of at least two channels has a first time or frequency resolution.
The second spectral region representation of the second channel of at least two channels has a second time or frequency resolution, the second time or frequency resolution being different from the first time or frequency resolution. ,
The weight value estimator (100) is such that the frequency resolution of the band associated with the weight value for each band is lower than the first frequency resolution and the second frequency resolution, or the first frequency resolution and the first frequency resolution. The down mixer according to any one of Examples 1 to 13, which is configured to calculate a weight value for each band so as to be equal to the lower frequency resolution of the frequency resolutions of 2.

15.第1のスペクトル領域表現は、帯域内の第1の複数のスペクトル値を有し、
第2のスペクトル領域表現は、帯域内の第2の複数のスペクトル値を有し、第2の複数のスペクトル値は第1の複数のスペクトル値よりも高く、
重み値推定器(100)は、
第2の複数のスペクトル値のうちの2つ以上のスペクトル値を結合するか、又は第2の複数のスペクトル値からスペクトル値のサブセットを選択して、
2つ以上のスペクトル値を結合した結果を使用して、又はスペクトル値のサブセットを使用して、帯域内の少なくとも2つのチャネルからのスペクトル値の積又は線形結合に依存する混合項を計算し、
混合項を使用して帯域ごとの重み値を計算するように構成される、実施例1から14のいずれか一項に記載のダウンミキサ。
15. The first spectral region representation has the first plurality of spectral values within the band.
The second spectral region representation has a second plurality of spectral values within the band, the second plurality of spectral values being higher than the first plurality of spectral values.
The weight value estimator (100)
Combine two or more spectral values out of the second plurality of spectral values, or select a subset of the spectral values from the second plurality of spectral values.
Using the result of combining two or more spectral values, or using a subset of the spectral values, a mixed term that depends on the product of the spectral values from at least two channels in the band or a linear combination is calculated.
The down mixer according to any one of Examples 1 to 14, wherein the mixed term is used to calculate the weight value for each band.

16.第1のスペクトル領域表現は、第1の時間ビンサイズ及び第1の周波数ビンサイズを表す複数の第1のスペクトル値を含み、
第2のスペクトル領域表現は、第2の時間ビンサイズ及び第2の周波数ビンサイズを表す複数のスペクトル値を含み、
第1の時間ビンサイズは第2の時間ビンサイズよりも大きいか、又は第1の周波数ビンサイズは第2の周波数ビンサイズよりも小さく、
重み値推定器(100)は、第1のスペクトル領域表現からの複数のスペクトル値を結合して、結合された周波数ビンサイズが第2の周波数ビンサイズに等しい第1の結合されたスペクトル領域表現を取得するか、又は第2のスペクトル領域表現からの複数のスペクトル値を結合して、結合された時間ビンサイズが第1の時間ビンサイズに等しい第1の結合されたスペクトル領域表現を取得するように構成される、実施例1から15のいずれか一項に記載のダウンミキサ。
16. The first spectral region representation comprises a plurality of first spectral values representing a first time bin size and a first frequency bin size.
The second spectral region representation comprises a plurality of spectral values representing a second time bin size and a second frequency bin size.
The first time bin size is larger than the second time bin size, or the first frequency bin size is smaller than the second frequency bin size.
The weight value estimator (100) combines a plurality of spectral values from the first spectral region representation so that the combined frequency bin size is equal to the second frequency bin size in the first coupled spectral region representation. Or combine multiple spectral values from the second spectral region representation to get the first combined spectral region representation whose combined time bin size is equal to the first time bin size. The downmixer according to any one of Examples 1 to 15, which is configured as described above.

17.重み値推定器(100)は、少なくとも2つのチャネルのうちの第1のチャネル及び第2のチャネルの帯域ごとの重み値の計算のために第1の結合スペクトル表現又は第2の結合スペクトル領域表現を使用するように構成され、計算は、帯域内の混合項の計算と帯域内のエネルギーの計算とを含み、
スペクトル重み付け器(200)は、少なくとも2つのチャネルのうちの第1のチャネルの帯域ごとの重み値を、対応する帯域内の第1のスペクトル領域表現のスペクトル値に適用し、少なくとも2つのチャネルのうちの第2のチャネルの帯域ごとの重み値を、対応する帯域内の第2のスペクトル領域表現のスペクトル値に適用するように構成される、実施例16に記載のダウンミキサ。
17. The weight value estimator (100) is a first coupled spectral representation or a second coupled spectral region representation for bandwise calculation of the first and second channels of at least two channels. The calculation includes the calculation of the mixed term in the band and the calculation of the energy in the band.
The spectral weighter (200) applies the bandwise weighting value of the first channel of at least two channels to the spectral value of the first spectral region representation within the corresponding band, for at least two channels. The downmixer according to Example 16, wherein the bandwise weighting value of the second channel is configured to be applied to the spectral value of the second spectral region representation within the corresponding band.

18.第1のチャネルの第1のスペクトル領域表現は、第1の時間ビンサイズ及び第1の周波数ビンサイズを表す複数の第1のスペクトル値を含み、
第2のチャネルの第2のスペクトル領域表現は少なくとも2つのサブフレームを含み、各サブフレームは、第2の時間ビンサイズ及び第2の周波数ビンサイズを表す複数のスペクトル値を含み、
第1の時間ビンサイズは第2の時間ビンサイズよりも大きいか、又は第1の周波数ビンサイズは第2の周波数ビンサイズよりも小さく、
重み値推定器(100)は、
結合スペクトル値の第1のグループを取得するために、第1の方式で第2のスペクトル領域表現の各サブフレームからの同じ周波数ビンに属するスペクトル値を結合し、
結合スペクトル値の第2のグループを取得するために、第2の方式で第2のスペクトル領域表現の各サブフレームからの同じ周波数ビンに属するスペクトル値を結合し、第2の方式は第1の方式とは異なり、
結合スペクトル値の第1のグループ及び結合スペクトル値の第2のグループは、第1の時間ビンサイズ及び第1の周波数ビンサイズを有する結合スペクトル領域表現を表し、
帯域ごとの重み値の計算のために、結合スペクトル領域表現及び第1のスペクトル領域表現のスペクトル値を使用する
ように構成される、実施例1から15のいずれか一項に記載のダウンミキサ。
18. The first spectral region representation of the first channel comprises a plurality of first spectral values representing a first time bin size and a first frequency bin size.
The second spectral region representation of the second channel comprises at least two subframes, each subframe containing a plurality of spectral values representing a second time bin size and a second frequency bin size.
The first time bin size is larger than the second time bin size, or the first frequency bin size is smaller than the second frequency bin size.
The weight value estimator (100)
To obtain the first group of coupled spectral values, the spectral values belonging to the same frequency bin from each subframe of the second spectral region representation are coupled in the first method.
In order to obtain a second group of coupled spectral values, the second method combines spectral values belonging to the same frequency bin from each subframe of the second spectral region representation, the second method being the first. Unlike the method,
The first group of coupled spectral values and the second group of coupled spectral values represent a coupled spectral region representation with a first time bin size and a first frequency bin size.
The downmixer according to any one of Examples 1 to 15, configured to use the spectral values of the coupled spectral region representation and the first spectral region representation for band-by-band weighting calculation.

19.重み値推定器(100)は、第1の方式で加算及び減算の一方を実行し、第2の方式で加算及び減算の他方を実行するように構成される、実施例18に記載のダウンミキサ。 19. The downmixer according to Example 18, wherein the weight value estimator (100) is configured to perform one of addition and subtraction in the first method and the other of addition and subtraction in the second method. ..

20.重み値推定器(100)は、第1の方式及び第2の方式で平均関数を実行するように構成される、実施例18又は19に記載のダウンミキサ。 20. The downmixer according to Example 18 or 19, wherein the weight value estimator (100) is configured to perform an average function in a first and second manner.

21.重み値推定器(100)は、重み付け符号を使用する重み付けを含む第1の方式又は第2の方式のいずれかを適用するように構成され、重み値推定器(100)は、同じ周波数ビンの周波数ビン番号に従って重み付け符号を設定するように構成される、実施例18から20のいずれか一項に記載のダウンミキサ。
21.重み値推定器(100)は、第1の方式として、ハイパスフィルタリング及びローパスフィルタリングの一方を適用し、第2の方式として、ハイパスフィルタリング及びローパスフィルタリングの他方を適用するように構成される、実施例18から21のいずれか一項に記載のダウンミキサ。
21. The weight value estimator (100) is configured to apply either the first method or the second method, which includes weighting using a weighting code, and the weight value estimator (100) is of the same frequency bin. The down mixer according to any one of Examples 18 to 20, which is configured to set a weighting code according to a frequency bin number.
21. The weight value estimator (100) is configured to apply one of high-pass filtering and low-pass filtering as a first method and the other of high-pass filtering and low-pass filtering as a second method. The down mixer according to any one of 18 to 21.

22.重み値推定器(100)は、より低い分解能ビンを2つのより高い分解能ビンに変換するように構成され、第1の方式は、2つのより高い分解能ビンのうちの第1のより高い分解能ビンの偶数ビン番号に使用され、第2の方式は、2つのより高い分解能ビンのうちの第2のより高い分解能ビンの奇数ビン番号に使用される、実施例18から22のいずれか一項に記載のダウンミキサ。 22. The weight estimator (100) is configured to convert the lower resolution bins into two higher resolution bins, the first method being the first of the two higher resolution bins. The second method is used for the odd bin number of the second higher resolution bin of the two higher resolution bins, according to any one of Examples 18-22. The down mixer described.

23.第1のチャネルの第1のスペクトル領域表現はTCX20フレームを含み、第2のチャネルの第2のスペクトル領域表現は2つのTCX10サブフレームを含み、重み値推定器(100)は、2つのTCX10サブフレームからの結合TCX20スペクトル領域表現を計算するように構成される、又は
第1のチャネルの第1のスペクトル領域表現は、TCX20フレームを含み、第2のチャネルの第2のスペクトル領域表現は、TCX10サブフレーム及び2つのTCX5サブフレームを含み、重み値推定器(100)は、2つのTCX5サブフレームからの第1の結合TCX10スペクトル領域表現を計算し、第1の結合TCX10スペクトル領域表現及びTCX10サブフレームからの第2の結合TCX20サブフレームを計算するように構成され、
第1のチャネルの第1のスペクトル領域表現は、TCX10サブフレームを含み、第2のチャネルの第2のスペクトル領域表現は、2つのTCX5サブフレームを含み、重み値推定器(100)は、2つのTCX5サブフレームからの結合TCX10スペクトル領域表現を計算するように構成され、
表現TCX20は、第1の時間長を有する第1の部分を示し、表現TCX10は、第2の時間長を有する第2の部分を示し、表現TCX5は、第3の時間長を有する第3の部分を示し、第1の時間長は第2の時間長又は第3の時間長より長い、又は第2の時間長は、第1の時間長よりも短い又は第2の時間長よりも長く、第3の時間長は第1の時間長より短い又は第2の時間長より短い、実施例18から22のいずれか一項に記載のダウンミキサ。
23. The first spectral region representation of the first channel contains TCX20 frames, the second spectral region representation of the second channel contains two TCX10 subframes, and the weight estimator (100) contains two TCX10 subframes. The first spectral region representation of the first channel, which is configured to compute the coupled TCX20 spectral region representation from the frame, comprises the TCX20 frame and the second spectral region representation of the second channel is TCX10. Containing a subframe and two TCX5 subframes, the weight estimator (100) computes the first coupled TCX10 spectral region representation from the two TCX5 subframes and the first coupled TCX10 spectral region representation and TCX10 subframe. Configured to compute a second combined TCX20 subframe from the frame,
The first spectral region representation of the first channel contains TCX10 subframes, the second spectral region representation of the second channel contains two TCX5 subframes, and the weight estimator (100) has two. It is configured to compute a coupled TCX10 spectral region representation from two TCX5 subframes.
Representation TCX20 indicates a first portion having a first time length, representation TCX10 indicates a second portion having a second time length, and representation TCX5 represents a third portion having a third time length. The part is shown, the first time length is longer than the second time length or the third time length, or the second time length is shorter than the first time length or longer than the second time length. The downmixer according to any one of Examples 18 to 22, wherein the third time length is shorter than the first time length or shorter than the second time length.

24.重み値推定器(100)は、以下の式に基づいて第1の方式を適用するように構成され:

Figure 2022522706000031
、又は
重み値推定器(100)は、以下の式に基づいて第2の方式を適用するように構成され:
Figure 2022522706000032

式中、iはスペクトルビン番号を指定し、
Figure 2022522706000033
及び
Figure 2022522706000034
は、第2のチャネルの第2のスペクトル領域表現のサブフレームを指定し、
式中、
Figure 2022522706000035
及び
Figure 2022522706000036
は、結合スペクトル領域表現のスペクトル値を示し、
Figure 2022522706000037
及び
Figure 2022522706000038
は、それぞれ第2のサブフレームk及び第1のサブフレームkからのスペクトル値を示す、実施例18から23のいずれか一項に記載のダウンミキサ。 24. The weight value estimator (100) is configured to apply the first method based on the following equation:
Figure 2022522706000031
, Or the weight value estimator (100) is configured to apply the second method based on the following equation:
Figure 2022522706000032
,
In the formula, i specifies the spectrum bin number,
Figure 2022522706000033
as well as
Figure 2022522706000034
Specifies a subframe of the second spectral region representation of the second channel,
During the ceremony
Figure 2022522706000035
as well as
Figure 2022522706000036
Indicates the spectral value of the coupled spectral region representation,
Figure 2022522706000037
as well as
Figure 2022522706000038
Is the downmixer according to any one of Examples 18 to 23, which shows spectral values from the second subframe k 1 and the first subframe k 0 , respectively.

25.少なくとも2つのチャネルの第1のチャネルの第1のスペクトル領域表現は、第1の時間分解能又は第1の周波数分解能を有し、少なくとも2つのチャネルの第2のチャネルの第2のスペクトル領域表現は、第2の時間分解能又は第2の周波数分解能を有し、第2の時間分解能は第1の時間分解能とは異なる、又は第2の周波数分解能は第1の周波数分解能とは異なり、
重み値推定器(100)は、第1のスペクトル領域表現を第2の時間分解能又は第2の周波数分解能を有する結合スペクトル領域表現に変換し(132)、結合スペクトル領域表現及び第2のスペクトル領域表現を使用して帯域ごとの重み値を計算する、又は第2のスペクトル領域表現を第1の時間分解能又は第1の周波数分解能を有する結合スペクトル領域表現に変換し、結合スペクトル領域表現及び第1のスペクトル領域表現を使用して帯域ごとの重み値を計算し、又は
少なくとも2つのチャネルの第1のチャネルの第1のスペクトル領域表現は、第1の時間分解能又は第1の周波数分解能を有し、少なくとも2つのチャネルの第2のチャネルの第2のスペクトル領域表現は、第2の時間分解能又は第2の周波数分解能を有し、第2の時間分解能は、第1の時間分解能とは異なり、又は第2の周波数分解能は、第1の周波数分解能とは異なり、
重み値推定器(100)は、
第1のスペクトル領域表現を、第3の時間分解能又は第3の周波数分解能を有する第1の結合スペクトル領域表現に変換(132)し、
第3の時間分解能は、第1の時間分解能又は第2の時間分解能とは異なり、第3の周波数分解能は、第1の周波数分解能又は第2の周波数分解能とは異なり、
第2のスペクトル領域表現を、第3の時間分解能又は第3の周波数分解能を有する第2の結合スペクトル領域表現に変換(132)し、
第1の結合スペクトル領域表現及び第2の結合スペクトル領域表現を使用して、帯域ごとの重み値を計算する(134)ように構成される、実施例1に記載のダウンミキサ。
25. The first spectral domain representation of the first channel of at least two channels has a first temporal resolution or a first frequency resolution, and the second spectral domain representation of the second channel of at least two channels , Has a second time resolution or a second frequency resolution, the second time resolution is different from the first time resolution, or the second frequency resolution is different from the first frequency resolution.
The weight value estimator (100) converts the first spectral region representation into a coupled spectral region representation with a second time resolution or a second frequency resolution (132), and the coupled spectral region representation and the second spectral region. Use the representation to calculate the weight values for each band, or convert the second spectral region representation to a coupled spectral region representation with a first time resolution or a first frequency resolution, and the coupled spectral region representation and the first. The spectral region representation of is calculated for each band, or the first spectral region representation of the first channel of at least two channels has a first temporal resolution or a first frequency resolution. , The second spectral region representation of the second channel of at least two channels has a second time resolution or a second frequency resolution, the second time resolution being different from the first time resolution. Or the second frequency resolution is different from the first frequency resolution.
The weight value estimator (100)
The first spectral region representation is converted (132) into a first coupled spectral region representation with a third time resolution or a third frequency resolution.
The third time resolution is different from the first time resolution or the second time resolution, and the third frequency resolution is different from the first frequency resolution or the second frequency resolution.
The second spectral region representation is converted (132) into a second coupled spectral region representation with a third time resolution or a third frequency resolution.
The downmixer according to Example 1, configured to calculate a bandwise weight value using a first coupled spectral region representation and a second coupled spectral region representation (134).

26.第2のチャネルは、特定の時間部分(TCX20)について、第2のスペクトル領域表現を含み、
第1のチャネルは、特定の時間部分(2xTCX10)について、2つ以上の第1のスペクトル領域表現を含み、
重み値推定器(100)は、2つ以上の第1のスペクトル領域表現を、第2のスペクトル領域表現と同じ時間分解能及び周波数分解能を有する結合スペクトル領域表現に変換し、結合スペクトル領域表現及び第2のスペクトル領域表現を使用して帯域ごとの重み値を計算するように構成され、
スペクトル重み付け器(200)は、帯域ごとの重み値を使用して第2のスペクトル領域表現に重み付けし、同じ帯域ごとの重み値を使用して2つ以上の第1のスペクトル領域表現の各第1のスペクトル領域表現に重み付けするように構成される、実施例25に記載のダウンミキサ。
26. The second channel comprises a second spectral region representation for a particular time portion (TCX20).
The first channel comprises two or more first spectral region representations for a particular time portion (2xTCX10).
The weight value estimator (100) converts two or more first spectral region representations into a coupled spectral region representation having the same time and frequency resolutions as the second spectral region representation, resulting in a coupled spectral region representation and a first. It is configured to calculate the weight value for each band using the spectral region representation of 2.
The spectrum weighting device (200) weights the second spectral region representation using the band-by-band weighting value, and uses the same band-wise weighting value to each second of the two or more first spectral region representations. The downmixer according to Example 25, configured to weight the spectral region representation of 1.

27.重み値推定器(100)は、2つ以上の第1のスペクトル領域表現の同じ周波数のスペクトル値を加算して、結合スペクトル領域表現の第1のスペクトル値を取得し、2つ以上の第1のスペクトル領域表現の同じ周波数のスペクトル値を減算して、結合スペクトル領域表現の第1のスペクトル値の周波数がより高く、隣接している結合スペクトル領域表現の第2のスペクトル値を取得するように構成され、
スペクトル重み付け器(200)は、同じ帯域ごとの重み値を使用して、2つ以上の第1のスペクトル領域表現の各第1のスペクトル領域表現において同じ周波数を有する帯域に重み付けするように構成されている、実施例26に記載のダウンミキサ。
27. The weight value estimator (100) adds the spectral values of the same frequency of two or more first spectral region representations to obtain the first spectral value of the coupled spectral region representation and obtains the first spectral value of the two or more first spectral regions. Subtract the spectral values of the same frequency in the spectral region representation of to obtain the second spectral value of the adjacent coupled spectral region representation where the frequency of the first spectral value of the coupled spectral region representation is higher. Configured,
The spectrum weighting device (200) is configured to weight bands having the same frequency in each first spectral region representation of two or more first spectral region representations using the same band-by-band weighting value. 26. The down mixer according to Example 26.

28.第2のチャネルは、特定の時間部分(TCX20)について、第2のスペクトル領域表現を含み、
第1のチャネルは、特定の時間部分(2xTCX10)について、2つ以上の第1のスペクトル領域表現を含み、
重み値推定器(100)は、
第2のスペクトル領域表現を、2つ以上の第1のスペクトル領域表現と同じ時間分解能及び周波数分解能を有する2つ以上の結合スペクトル領域表現に変換し、
2つ以上の結合スペクトル領域表現の第1の結合スペクトル領域表現と、2つ以上の第1のスペクトル領域表現の第1の第1のスペクトル領域表現とを使用して、第1の帯域ごとの重み値を計算し、
2つ以上の結合スペクトル領域表現の第2の結合スペクトル領域表現と、2つ以上の第1のスペクトル領域表現の第2の第1のスペクトル領域表現とを使用して、第2の帯域ごとの重み値を計算する
ように構成され、
スペクトル重み付け器(200)は、
第1及び第2の帯域ごとの重み値から導出された(136)、導出された帯域ごとの重み値を使用して、第2のスペクトル領域表現に重み付けし、
第1の帯域ごとの重み値を使用して、2つ以上の第1のスペクトル領域表現の第1の第1のスペクトル領域表現に重み付けし、
第2の帯域ごとの重み値を使用して、2つ以上の第1のスペクトル領域表現の第2の第1のスペクトル領域表現に重み付けする
ように構成される、実施例25に記載のダウンミキサ。
28. The second channel comprises a second spectral region representation for a particular time portion (TCX20).
The first channel comprises two or more first spectral region representations for a particular time portion (2xTCX10).
The weight value estimator (100)
The second spectral region representation is transformed into two or more coupled spectral region representations that have the same time and frequency resolutions as the two or more first spectral region representations.
For each band, a first coupled spectral region representation of two or more coupled spectral region representations and a first first spectral region representation of two or more first spectral region representations are used. Calculate the weight value and
For each second band, the second coupled spectral region representation of the two or more coupled spectral region representations and the second first spectral region representation of the two or more first spectral region representations are used. Configured to calculate the weight value,
The spectrum weighter (200) is
Using the derived band-by-band weight values derived from the first and second band-by-band weight values (136), the second spectral region representation is weighted.
The weighting values for each of the first bands are used to weight the first first spectral region representation of two or more first spectral region representations.
The downmixer according to Example 25, which is configured to weight a second first spectral region representation of two or more first spectral region representations using a second bandwise weighting value. ..

29.重み値推定器(100)は、第2のスペクトル領域表現の周波数対のスペクトル値を加算して加算スペクトル値を取得し、加算スペクトル値にコピーして、2つ以上の結合スペクトル領域表現の各々の結合スペクトル値を取得するように構成され、
スペクトル重み付け器(200)は、第1の帯域ごとの重み値のうちの特定の帯域に対する重み値を、第2の帯域ごとの重み値のうちの特定の帯域に対する重み値と結合して(136)、導出された帯域ごとの重み値のうちの特定の帯域に対する導出された重み値を取得するように構成されている、実施例28に記載のダウンミキサ。
29. The weight value estimator (100) adds the spectral values of the frequency pair of the second spectral region representation to obtain the added spectral value, copies it to the added spectral value, and copies each of the two or more coupled spectral region representations. It is configured to get the combined spectral value of
The spectrum weighting device (200) combines the weight value for a specific band among the weight values for each first band with the weight value for a specific band among the weight values for each second band (136). ), The downmixer according to Example 28, which is configured to acquire the derived weight value for a specific band among the derived weight values for each band.

30.第2のチャネルは、特定の時間部分(TCX20)について、第2のスペクトル領域表現を含み、
第1のチャネルは、特定の時間部分(2xTCX10)について、2つ以上の第1のスペクトル領域表現を含み、
重み値推定器(100)は、
第2のスペクトル領域表現を、2つ以上の第1のスペクトル領域表現と同じ時間分解能を有し、第2のスペクトル領域表現と同じ周波数分解能を有する2つ以上の結合スペクトル領域表現に変換し、
2つ以上の結合スペクトル領域表現の第1の結合スペクトル領域表現と、2つ以上の第1のスペクトル領域表現の第1の第1のスペクトル領域表現とを使用して、第1の帯域ごとの重み値を計算し、
2つ以上の結合スペクトル領域表現の第2の結合スペクトル領域表現と、2つ以上の第1のスペクトル領域表現の第2の第1のスペクトル領域表現とを使用して、第2の帯域ごとの重み値を計算する
ように構成され、
スペクトル重み付け器(200)は、
第1及び第2の帯域ごとの重み値から導出された(136)、帯域ごとの重み値を使用して、第2のスペクトル領域表現に重み付けし、
第1の帯域ごとの重み値を使用して、2つ以上の第1のスペクトル領域表現の第1の第1のスペクトル領域表現に重み付けし、
第2の帯域ごとの重み値を使用して、2つ以上の第1のスペクトル領域表現の第2の第1のスペクトル領域表現に重み付けする
ように構成される、実施例25に記載のダウンミキサ。
30. The second channel comprises a second spectral region representation for a particular time portion (TCX20).
The first channel comprises two or more first spectral region representations for a particular time portion (2xTCX10).
The weight value estimator (100)
The second spectral region representation is converted into two or more coupled spectral region representations that have the same time resolution as the two or more first spectral region representations and the same frequency resolution as the second spectral region representation.
For each band, a first coupled spectral region representation of two or more coupled spectral region representations and a first first spectral region representation of two or more first spectral region representations are used. Calculate the weight value and
For each second band, the second coupled spectral region representation of the two or more coupled spectral region representations and the second first spectral region representation of the two or more first spectral region representations are used. Configured to calculate the weight value,
The spectrum weighter (200) is
Using the band-by-band weight values derived from the first and second band-by-band weight values (136), the second spectral region representation is weighted.
The weighting values for each of the first bands are used to weight the first first spectral region representation of two or more first spectral region representations.
The downmixer according to Example 25, which is configured to weight a second first spectral region representation of two or more first spectral region representations using a second bandwise weighting value. ..

31.重み値推定器(100)は、1つ以上のスペクトル値をアップサンプリングして第2のスペクトル領域表現の隣接周波数に対するアップサンプリングされたスペクトル値を取得し、アップサンプリングされたスペクトル値にコピーして、2つ以上の結合スペクトル領域表現の各々の結合スペクトル値を取得するように構成され、
スペクトル重み付け器(200)は、第1の帯域ごとの重み値のうちの特定の帯域に対する重み値を、第2の帯域ごとの重み値のうちの特定の帯域に対する重み値と結合して(136)、導出された帯域ごとの重み値のうちの特定の帯域に対する導出された重み値を取得するように構成されている、実施例30に記載のダウンミキサ。
31. The weight value estimator (100) upsamples one or more spectral values to obtain the upsampled spectral values for adjacent frequencies in the second spectral region representation and copies them to the upsampled spectral values. It is configured to acquire the combined spectral values of each of the two or more coupled spectral region representations.
The spectrum weighting device (200) combines the weight value for a specific band among the weight values for each first band with the weight value for a specific band among the weight values for each second band (136). ), The downmixer according to Example 30, which is configured to acquire the derived weight value for a specific band among the derived weight values for each band.

32.第2のチャネルは、特定の時間部分(TCX20)について、第2のスペクトル領域表現を含み、
第1のチャネルは、特定の時間部分(2xTCX10)について、2つ以上の第1のスペクトル領域表現を含み、
重み値推定器(100)は、2つ以上の第1のスペクトル領域表現を、第2のスペクトル領域表現と同じ時間分解能を有する第1の結合スペクトル領域表現に変換し、
第2のスペクトル領域表現を2つ以上の第1のスペクトル領域表現と同じ周波数分解能を有する第2の結合スペクトル領域表現に変換し、
第1の結合スペクトル領域表現及び第2の結合スペクトル領域表現を使用して帯域ごとの重み値を計算するように構成され、
スペクトル重み付け器(200)は、帯域ごとの重み値を使用して第2のスペクトル領域表現に重み付けし、同じ帯域ごとの重み値を使用して2つ以上の第1のスペクトル領域表現の各第1のスペクトル領域表現に重み付けするように構成される、実施例25に記載のダウンミキサ。
32. The second channel comprises a second spectral region representation for a particular time portion (TCX20).
The first channel comprises two or more first spectral region representations for a particular time portion (2xTCX10).
The weight value estimator (100) converts two or more first spectral domain representations into a first coupled spectral domain representation having the same time resolution as the second spectral domain representation.
The second spectral region representation is converted into a second coupled spectral region representation having the same frequency resolution as the two or more first spectral region representations.
It is configured to calculate the weight value for each band using the first coupled spectral region representation and the second coupled spectral region representation.
The spectrum weighting device (200) weights the second spectral region representation using the band-by-band weighting value, and uses the same band-wise weighting value to each second of the two or more first spectral region representations. The downmixer according to Example 25, configured to weight the spectral region representation of 1.

33.重み値推定器(100)は、第2のスペクトル領域表現の周波数対のスペクトル値を加算して、第2の結合スペクトル領域表現を取得し、2つ以上の第1のスペクトル領域表現の同じ周波数のスペクトル値を加算して、第1の結合スペクトル領域表現を取得するように構成され、
スペクトル重み付け器(200)は、同じ帯域ごとの重み値を使用して、2つ以上の第1のスペクトル領域表現の各第1のスペクトル領域表現において同じ周波数を有する帯域に重み付けするように構成される、実施例32に記載のダウンミキサ。
33. The weight value estimator (100) adds the spectral values of the frequency pair of the second spectral region representation to obtain the second coupled spectral region representation of the same frequency of two or more first spectral region representations. Is configured to add the spectral values of to obtain the first coupled spectral region representation.
The spectrum weighting device (200) is configured to weight bands having the same frequency in each first spectral region representation of two or more first spectral region representations using the same band-by-band weighting value. The down mixer according to Example 32.

34.重み値推定器(100)は、第1のチャネルの第1のスペクトル領域表現の少なくとも2つのスペクトル値、第2のチャネルの第2のスペクトル領域表現のスペクトル値、第1のスペクトル領域表現又は第2のスペクトル領域表現のスペクトル値から導出された単一の結合スペクトル領域表現のスペクトル値、第1のスペクトル領域表現のスペクトル値から導出された第1の結合スペクトル領域表現のスペクトル値から導出された第1の結合スペクトル領域表現のスペクトル値、及び第2のスペクトル領域表現のスペクトル値から導出された第2の結合スペクトル領域表現のスペクトル値に依存する第1の計算規則を使用して、少なくとも2つのチャネルの第1のチャネルの複数の帯域について複数の第1の帯域ごとの重み値を計算するように構成され、
重み値推定器(100)は、少なくとも2つの複数の第1の帯域ごとの重み値、第1のチャネルの第1のスペクトル領域表現のスペクトル値、第2のチャネルの第2のスペクトル領域表現のスペクトル値、第1のスペクトル領域表現又は第2のスペクトル領域表現のスペクトル値から導出された単一の結合スペクトル領域表現のスペクトル値、第1のスペクトル領域表現のスペクトル値から導出された第1の結合スペクトル領域表現のスペクトル値、及び第2のスペクトル領域表現のスペクトル値から導出された第2の結合スペクトル領域表現のスペクトル値に依存する第2の計算規則を使用して、少なくとも2つのチャネルの第1のチャネルの複数の帯域について複数の第2の帯域ごとの重み値を計算するように構成され、第2の計算規則は第1の計算規則とは異なる、実施例1から33のいずれか一項に記載のダウンミキサ。
34. The weight value estimator (100) is a first spectral region representation or a first spectral region representation of at least two spectral values of the first spectral region representation of the first channel, a second spectral region representation of the second channel. Derived from the spectral values of a single coupled spectral region representation derived from the spectral values of the spectral region representation of 2, and the spectral values of the first coupled spectral region representation derived from the spectral values of the first spectral region representation. At least 2 using a first calculation rule that depends on the spectral values of the first coupled spectral region representation and the spectral values of the second coupled spectral region representation derived from the spectral values of the second spectral region representation. It is configured to calculate the weight values for each of the multiple first bands for the multiple bands of the first channel of one channel.
The weight value estimator (100) is a weight value for at least two plurality of first bands, a spectral value of the first spectral region representation of the first channel, and a second spectral region representation of the second channel. A first derived from a spectral value, a single coupled spectral region representation of a spectral value derived from a spectral value of a first spectral region representation or a second spectral region representation, a spectral value of a first spectral region representation. Using a second calculation rule that depends on the spectral values of the coupled spectral region representation and the spectral values of the second coupled spectral region representation derived from the spectral values of the second spectral region representation, of at least two channels. One of Examples 1 to 33, wherein the weight values for each of the plurality of second bands are calculated for the plurality of bands of the first channel, and the second calculation rule is different from the first calculation rule. The down mixer according to paragraph 1.

35.少なくとも2つのサブフレームを含むチャネルのスペクトル領域表現のスペクトル分解能を変換する装置であって、各サブフレームは、時間ビンサイズ及び周波数ビンサイズを表す複数のスペクトル値を含み、
結合スペクトル値の第1のグループを取得するために、第1の方式でスペクトル領域表現の各サブフレームからの同じ周波数ビンに属するスペクトル値を結合し(170)、
結合スペクトル値の第2のグループを取得するために、第2の方式でスペクトル領域表現の各サブフレームからの同じ周波数ビンに属するスペクトル値を結合する(180)ためのスペクトル値計算機(160)であって、第2の方式は第1の方式とは異なり、結合スペクトル値の第1のグループ及び結合スペクトル値の第2のグループは、異なる時間ビンサイズ及び異なる周波数ビンサイズを有する結合スペクトル領域表現を表す、スペクトル値計算機(160)
を含む、装置。
35. A device that transforms the spectral resolution of a spectral region representation of a channel containing at least two subframes, each subframe containing multiple spectral values representing time bin size and frequency bin size.
To obtain the first group of coupled spectral values, the spectral values belonging to the same frequency bin from each subframe of the spectral region representation are coupled (170) in the first method.
In a spectral value calculator (160) for combining spectral values belonging to the same frequency bin from each subframe of the spectral region representation (180) in a second manner to obtain a second group of coupled spectral values. The second method is different from the first method, in that the first group of coupled spectral values and the second group of coupled spectral values are represented in a coupled spectral region with different time bin sizes and different frequency bin sizes. Represents a spectral value calculator (160)
Including equipment.

36.スペクトル値計算機(160)は、第1の方式で加算及び減算の一方を実行し、第2の方式で加算及び減算の他方を実行するように構成される、実施例35に記載の装置。 36. The apparatus according to Example 35, wherein the spectrum value calculator (160) is configured to perform one of addition and subtraction in the first method and the other of addition and subtraction in the second method.

37.スペクトル値計算機(160)は、第1の方式及び第2の方式で平均関数を実行するように構成される、実施例35又は36に記載の装置。 37. The apparatus according to Example 35 or 36, wherein the spectral value calculator (160) is configured to perform an average function in the first and second methods.

38.スペクトル値計算機(160)は、重み付け符号を使用する重み付けを含む第1の方式又は第2の方式のいずれかを適用するように構成され、スペクトル値計算機(160)は、同じ周波数ビンの周波数ビン番号に従って重み付け符号を設定するように構成される、実施例35から37のいずれか一項に記載の装置。 38. The spectral value calculator (160) is configured to apply either the first method or the second method, which includes weighting using a weighting code, and the spectral value calculator (160) is a frequency bin of the same frequency bin. The apparatus according to any one of Examples 35 to 37, which is configured to set a weighting code according to a number.

39.スペクトル値計算機(160)は、第1の方式として、ハイパスフィルタリング及びローパスフィルタリングの一方を適用し、第2の方式として、ハイパスフィルタリング及びローパスフィルタリングの他方を適用するように構成される、実施例35から38のいずれか一項に記載の装置。 39. The spectrum value computer (160) is configured to apply one of high-pass filtering and low-pass filtering as a first method, and apply the other of high-pass filtering and low-pass filtering as a second method, Example 35. 38. The apparatus according to any one of.

40.スペクトル値計算機(160)は、より低い分解能ビンを2つのより高い分解能ビンに変換するように構成され、第1の方式は偶数ビン番号に使用され、第2の方式は奇数ビン番号に使用される、実施例35から39のいずれか一項に記載の装置。 40. The spectral value calculator (160) is configured to convert lower resolution bins to two higher resolution bins, the first method is used for even bin numbers and the second method is used for odd bin numbers. The apparatus according to any one of Examples 35 to 39.

41.第1のチャネルの第1のスペクトル領域表現はTCX20フレームを含み、チャネルのスペクトル領域表現は2つのTCX10サブフレームを含み、スペクトル値計算機は、2つのTCX10サブフレームからの結合TCX20スペクトル領域表現を計算するように構成される、又は
第1のチャネルの第1のスペクトル領域表現は、TCX20フレームを含み、チャネルのスペクトル領域表現は、TCX10サブフレーム及び2つのTCX5サブフレームを含み、スペクトル値計算機(160)は、2つのTCX5サブフレームからの第1の結合TCX10スペクトル領域表現を計算し、第1の結合TCX10スペクトル領域表現及びTCX10サブフレームからの第2の結合TCX20サブフレームを計算するように構成され、
第1のチャネルの第1のスペクトル領域表現は、TCX10サブフレームを含み、チャネルのスペクトル領域表現は、2つのTCX5サブフレームを含み、スペクトル値計算機(160)は、2つのTCX5サブフレームからの結合TCX10スペクトル領域表現を計算するように構成され、
表現TCX20は、第1の時間長を有する第1の部分を示し、表現TCX10は、第2の時間長を有する第2の部分を示し、表現TCX5は、第3の時間長を有する第3の部分を示し、第1の時間長は第2の時間長又は第3の時間長より長い、又は第2の時間長は、第1の時間長よりも短い又は第2の時間長よりも長く、第3の時間長は第1の時間長より短い又は第2の時間長より短い、実施例35から40のいずれか一項に記載の装置。
41. The first spectral region representation of the first channel contains TCX20 frames, the spectral region representation of the channel contains two TCX10 subframes, and the spectral value calculator calculates the combined TCX20 spectral region representation from the two TCX10 subframes. The first spectral region representation of the first channel, or the spectral region representation of the channel, comprises a TCX10 subframe and two TCX5 subframes, the spectral value calculator (160). ) Is configured to calculate the first coupled TCX10 spectral region representation from the two TCX5 subframes and the second coupled TCX20 subframe from the first coupled TCX10 spectral region representation and the TCX10 subframe. ,
The first spectral domain representation of the first channel comprises TCX10 subframes, the spectral domain representation of the channel comprises two TCX5 subframes, and the spectral value calculator (160) combines from the two TCX5 subframes. Configured to compute the TCX10 spectral region representation,
Representation TCX20 indicates a first portion having a first time length, representation TCX10 indicates a second portion having a second time length, and representation TCX5 represents a third portion having a third time length. The part is shown, the first time length is longer than the second time length or the third time length, or the second time length is shorter than the first time length or longer than the second time length. The device according to any one of Examples 35 to 40, wherein the third time length is shorter than the first time length or shorter than the second time length.

42.スペクトル値計算機(160)は、以下の式に基づいて第1の方式を適用するように構成され:

Figure 2022522706000039
、又は
スペクトル値計算機は、以下の式に基づいて第2の方式を適用するように構成され:
Figure 2022522706000040

式中、iはスペクトルビン番号並びにチャネルのスペクトル領域表現のサブフレーム
Figure 2022522706000041
及び
Figure 2022522706000042
を指定し、
式中、
Figure 2022522706000043
及び
Figure 2022522706000044
は、結合スペクトル領域表現のスペクトル値を示し、
Figure 2022522706000045
及び
Figure 2022522706000046
は、それぞれ第2のサブフレームk及び第1のサブフレームkからのスペクトル値を示す、実施例35から41のいずれか一項に記載の装置。 42. The spectral value calculator (160) is configured to apply the first method based on the following equation:
Figure 2022522706000039
, Or the spectral value calculator is configured to apply the second method based on the following equation:
Figure 2022522706000040
,
In the equation, i is the spectral bin number and the subframe of the spectral region representation of the channel.
Figure 2022522706000041
as well as
Figure 2022522706000042
And specify
During the ceremony
Figure 2022522706000043
as well as
Figure 2022522706000044
Indicates the spectral value of the coupled spectral region representation,
Figure 2022522706000045
as well as
Figure 2022522706000046
Is the apparatus according to any one of Examples 35 to 41, which shows spectral values from the second subframe k 1 and the first subframe k 0 , respectively.

43.符号化又は復号又は処理されたオーディオ信号の計算において、異なる時間ビンサイズ及び異なる周波数ビンサイズを有する結合スペクトル領域表現を使用するための信号計算機(500、190、220)を更に備える、実施例35から42のいずれか一項に記載の装置。 43. 35. The device according to any one of 42 to 42.

44.スペクトル値計算機(160)は、第1のスペクトル分解能を有するスペクトル領域表現を受け取り、第1のスペクトル分解能とは異なる第2のスペクトル分解能を有する変換スペクトル領域表現を生成するように構成され、
装置は、
変換されたスペクトル領域表現を処理して、第2の分解能を有する処理されたスペクトル領域表現を取得するための第1のスペクトルプロセッサ(500)、又は
変換されたスペクトル領域表現から処理データを計算するための処理データ計算機(190)と、スペクトル領域表現を処理して、第1の分解能を有する処理済みスペクトル領域表現を取得するための第2のスペクトルプロセッサ(220)とを更に含む、実施例35から43のいずれか一項に記載の装置。
44. The spectral value computer (160) is configured to receive a spectral region representation with a first spectral resolution and generate a transformed spectral region representation with a second spectral resolution different from the first spectral resolution.
The device is
Compute the processed data from a first spectral processor (500) for processing the transformed spectral region representation to obtain a processed spectral region representation with a second resolution, or from the transformed spectral region representation. 35. The apparatus according to any one of 43 to 43.

45.第1のスペクトルプロセッサ(500)は、処理において、第2のスペクトル分解能を有する更なるスペクトル領域表現を使用するように構成されており、又は、
第2のスペクトルプロセッサ(220)は、処理において、第1のスペクトル分解能を有する更なるスペクトル領域表現を使用するように構成される、実施例44に記載の装置。
45. The first spectral processor (500) is configured to use a further spectral region representation with a second spectral resolution in processing, or
42. The apparatus of Example 44, wherein the second spectral processor (220) is configured to use a further spectral region representation with a first spectral resolution in processing.

46.少なくとも2つのチャネルを有するマルチチャネル信号をダウンミックスするためのダウンミキサであって、
少なくとも2つのチャネルの帯域ごとの重み値を推定するための重み値推定器(100)であって、重み値推定器(100)は、帯域ごとの目標エネルギー値に基づいて帯域ごとの重み値を計算し、その結果、ダウンミックス信号の帯域におけるエネルギーが少なくとも2つのチャネルの同じ帯域におけるエネルギーと所定の関係にあるように構成される、重み値推定器(100)と、
帯域ごとの重み値を使用して少なくとも2つのチャネルのスペクトル領域表現を重み付けして、重み付けされたスペクトル領域表現を取得するためのスペクトル重み付け器(200)と、
少なくとも2つのチャネルの重み付けされたスペクトル領域表現を使用してダウンミックス信号を計算するためのミキサ(400)と
を備える、ダウンミキサ。
46. A downmixer for downmixing a multichannel signal with at least two channels.
It is a weight value estimator (100) for estimating the weight value for each band of at least two channels, and the weight value estimator (100) calculates the weight value for each band based on the target energy value for each band. With the weight value estimator (100), which is calculated and as a result, the energy in the band of the downmix signal is configured to have a predetermined relationship with the energy in the same band of at least two channels.
A spectral weighter (200) for weighting the spectral region representations of at least two channels using band-by-band weighting values to obtain a weighted spectral region representation.
A downmixer comprising a mixer (400) for computing a downmix signal using a weighted spectral region representation of at least two channels.

47.スペクトル領域表現は純実数又は純虚数のいずれかであり、
重み値推定器(100)は、スペクトル領域表現が純実数である場合、虚数スペクトル領域表現を推定する(140)、又はスペクトル領域表現が純虚数である場合、実数スペクトル領域表現を推定する(140)ように構成され、
重み値推定器(100)は、推定された虚数スペクトル領域表現又は推定された実数ペクトル領域表現を使用して帯域ごとの重み値を推定するように構成される、実施例46に記載のダウンミキサ。
47. The spectral domain representation is either a pure real number or a pure imaginary number,
The weight value estimator (100) estimates the imaginary spectral domain representation when the spectral domain representation is a pure real number (140), or estimates the real spectral domain representation when the spectral domain representation is a pure imaginary number (140). ) Is configured as
The downmixer according to Example 46, wherein the weight value estimator (100) is configured to estimate a bandwise weight value using an estimated imaginary spectral region representation or an estimated real number spectrum region representation. ..

48.重み値推定器(100)は、少なくとも2つのチャネルのうちの第1のチャネルの帯域に対する第1の重み値を計算し、少なくとも2つのチャネルのうちの第2のチャネルの帯域に対する第2の重み値を計算し、帯域内の第1のチャネルのエネルギーと、帯域内の第2のチャネルのエネルギーと、帯域内の少なくとも2つのチャネルからのスペクトル値の積(148)又は線形結合(146)に依存する混合項とを用いて(142)、第1の重み値及び第2の重み値を計算するように構成される、実施例46又は47に記載のダウンミキサ。 48. The weight value estimator (100) calculates the first weight value for the band of the first channel of at least two channels and the second weight for the band of the second channel of at least two channels. Calculate the value to the product (148) or linear coupling (146) of the energy of the first channel in the band, the energy of the second channel in the band, and the spectral values from at least two channels in the band. The downmixer according to Example 46 or 47, configured to calculate a first weight value and a second weight value using a dependent mixing term (142).

49.重み値推定器(100)は、線形結合(146)を表す混合項として、少なくとも2つのチャネルのスペクトル領域表現から帯域内で互いに加算されたスペクトル値のエネルギーの平方根を計算するように構成され、帯域は複数のスペクトル値を含むか、又は、積(148)を表す混合項として、少なくとも2つのチャネルのうちの第1のチャネルの帯域内のスペクトル値と第2のチャネルの帯域内のスペクトル値との間の複素ドット積の絶対値を計算するように構成される、実施例46から48のいずれか一項に記載のダウンミキサ。 49. The weight estimator (100) is configured to calculate the square root of the energy of the spectral values added to each other in the band from the spectral region representation of at least two channels as a mixed term representing the linear coupling (146). The band contains a plurality of spectral values or, as a mixed term representing a product (148), a spectral value in the band of the first channel of at least two channels and a spectral value in the band of the second channel. The downmixer according to any one of Examples 46-48, configured to calculate the absolute value of the complex dot product between and.

50.少なくとも2つのチャネルのうちの第1及び第2のチャネルの各帯域は複数のスペクトル値を有し、スペクトル重み付け器(200)は、少なくとも2つのチャネルのうちの一方の帯域の各スペクトル値に同じ重みを適用し、少なくとも2つのチャネルのうちの別のチャネルの帯域の各スペクトル値に別の重みを適用するように構成される、実施例46から49のいずれか一項に記載のダウンミキサ。 50. Each band of the first and second channels of at least two channels has a plurality of spectral values, and the spectrum weighter (200) is the same as each spectral value of one band of at least two channels. The downmixer according to any one of Examples 46 to 49, wherein weights are applied and different weights are applied to each spectral value in the band of another channel of at least two channels.

51.重み値推定器(100)は、以下の式に基づいて、少なくとも2つのチャネルのうちの第1のチャネルの帯域ごとの重み値を計算する(150)ように構成され、

Figure 2022522706000047
式中、wは、帯域の第1のチャネルの重み係数であり、
Figure 2022522706000048
は、第2のチャネルの推定電力であり、
Figure 2022522706000049
は、帯域の第1のチャネルの推定電力であり、
Figure 2022522706000050
は、帯域のチャネル間の推定ドット積であり、
Figure 2022522706000051
は、帯域の第2のチャネルの推定振幅であり、
Figure 2022522706000052
は、帯域の第1のチャネルの推定振幅である、実施例46から50のいずれか一項に記載のダウンミキサ。 51. The weight value estimator (100) is configured to calculate the bandwise weight value of the first channel of at least two channels (150) based on the following equation.
Figure 2022522706000047
In the equation, w R is the weighting factor of the first channel of the band.
Figure 2022522706000048
Is the estimated power of the second channel,
Figure 2022522706000049
Is the estimated power of the first channel of the band,
Figure 2022522706000050
Is the estimated dot product between the channels of the band,
Figure 2022522706000051
Is the estimated amplitude of the second channel of the band,
Figure 2022522706000052
The down mixer according to any one of Examples 46 to 50, wherein is the estimated amplitude of the first channel of the band.

52.重み値推定器(100)は、以下の式に基づいて、少なくとも2つのチャネルのうちの第2のチャネルの帯域ごとの重み値を計算する(152)ように構成され、

Figure 2022522706000053
式中、wは、帯域の第2のチャネルの重み係数であり、
Figure 2022522706000054
は、帯域の第1のチャネル及び第2のチャネルの推定振幅の推定線形結合である、実施例51に記載のダウンミキサ。 52. The weight value estimator (100) is configured to calculate the bandwise weight value of the second channel of at least two channels (152) based on the following equation.
Figure 2022522706000053
In the equation, w L is the weighting factor of the second channel of the band.
Figure 2022522706000054
The down mixer according to Example 51, wherein is an estimated linear combination of the estimated amplitudes of the first and second channels of the band.

53.重み値推定器(100)は、帯域内の第2のチャネルの推定振幅を計算し(144)、次の式に基づいて帯域内の第1のチャネルの推定振幅を計算するように構成される:

Figure 2022522706000055
、又は、
重み値推定器(100)は、次の式に基づいて、帯域内の第1のチャネル及び第2のチャネルの推定振幅の推定線形結合を計算(146)するように構成される:
Figure 2022522706000056
、又は、
重み値推定器(100)は、次の式に基づいて、帯域内のチャネル間の推定ドット積を計算する(148)ように構成される:
Figure 2022522706000057
、又は、
重み値推定器(100)は、次の式に基づいて、帯域内の第2のチャネルの推定電力又は帯域内の第1のチャネルの推定電力を計算する(142)ように構成される:
Figure 2022522706000058
式中、iはスペクトル帯域
Figure 2022522706000059
内のビン番号を指定し、
Figure 2022522706000060
は、MDCTビンiの推定虚数部を表し、
Figure 2022522706000061
は、第1のチャネル又は第2のチャネルのスペクトル領域表現に含まれるMDCTビンiの実数部を表し、rは第1のチャネルを表し、lは第2のチャネルを表す、実施例50から52のいずれか一項に記載のダウンミキサ。 53. The weight estimator (100) is configured to calculate the estimated amplitude of the second channel in the band (144) and calculate the estimated amplitude of the first channel in the band based on the following equation: :
Figure 2022522706000055
, Or
The weight estimator (100) is configured to calculate (146) an estimated linear combination of the estimated amplitudes of the first and second channels in the band based on the following equation:
Figure 2022522706000056
, Or
The weight estimator (100) is configured to calculate the estimated dot product between channels in the band (148) based on the following equation:
Figure 2022522706000057
, Or
The weight estimator (100) is configured to calculate the estimated power of the second channel in the band or the estimated power of the first channel in the band (142) based on the following equation:
Figure 2022522706000058
In the equation, i is the spectral band
Figure 2022522706000059
Specify the bin number in
Figure 2022522706000060
Represents the estimated imaginary part of MDCT bin i,
Figure 2022522706000061
Represents the real part of the MDCT bin i contained in the spectral region representation of the first channel or the second channel, r represents the first channel, l represents the second channel, Examples 50-52. The down mixer according to any one of the above.

54.少なくとも2つのチャネルの第1のチャネルの第1のスペクトル領域表現は、第1の時間分解能又は第1の周波数分解能を有し、少なくとも2つのチャネルの第2のチャネルの第2のスペクトル領域表現は、第2の時間分解能又は第2の周波数分解能を有し、第2の時間分解能は第1の時間分解能とは異なり、第2の周波数分解能は第1の周波数分解能(130)とは異なり、
重み値推定器(100)は、第1のスペクトル領域表現を第2の時間分解能又は第2の周波数分解能を有する結合スペクトル領域表現に変換し(132)、結合スペクトル領域表現及び第2のスペクトル領域表現を使用して帯域ごとの重み値(134)を計算する、又は第2のスペクトル領域表現を第1の時間分解能又は第1の周波数分解能を有する結合スペクトル領域表現に変換し(132)、結合スペクトル領域表現及び第1のスペクトル領域表現を使用して帯域ごとの重み値を計算し(134)、又は
少なくとも2つのチャネルの第1のチャネルの第1のスペクトル領域表現は、第1の時間分解能又は第1の周波数分解能を有し、少なくとも2つのチャネルの第2のチャネルの第2のスペクトル領域表現は、第2の時間分解能又は第2の周波数分解能を有し、第2の時間分解能は、第1の時間分解能とは異なり、第2の周波数分解能は、第1の周波数分解能(130)とは異なり、
重み値推定器(100)は、
第1のスペクトル領域表現を、第3の時間分解能又は第3の周波数分解能を有する第1の結合スペクトル領域表現に変換(132)し、
第3の時間分解能は、第1の時間分解能又は第2の時間分解能とは異なり、第3の周波数分解能は、第1の周波数分解能又は第2の周波数分解能とは異なり、
第2のスペクトル領域表現を、第3の時間分解能又は第3の周波数分解能を有する第2の結合スペクトル領域表現に変換(132)し、
第1の結合スペクトル領域表現及び第2の結合スペクトル領域表現を使用して、帯域ごとの重み値を計算する(134)ように構成される、実施例46から53のいずれか一項に記載のダウンミキサ。
54. The first spectral domain representation of the first channel of at least two channels has a first temporal resolution or a first frequency resolution, and the second spectral domain representation of the second channel of at least two channels , A second time resolution or a second frequency resolution, the second time resolution is different from the first time resolution, the second frequency resolution is different from the first frequency resolution (130).
The weight value estimator (100) converts the first spectral region representation into a coupled spectral region representation with a second time resolution or a second frequency resolution (132), and the coupled spectral region representation and the second spectral region. Use the representation to calculate the per-band weight value (134), or convert the second spectral region representation to a coupled spectral region representation with a first time resolution or a first frequency resolution (132) and combine. The spectral region representation and the first spectral region representation are used to calculate the weight values for each band (134), or the first spectral region representation of the first channel of at least two channels is the first temporal resolution. Or the second spectral region representation of the second channel of at least two channels having a first frequency resolution has a second time resolution or a second frequency resolution and the second time resolution is. Unlike the first time resolution, the second frequency resolution is different from the first frequency resolution (130).
The weight value estimator (100)
The first spectral region representation is converted (132) into a first coupled spectral region representation with a third time resolution or a third frequency resolution.
The third time resolution is different from the first time resolution or the second time resolution, and the third frequency resolution is different from the first frequency resolution or the second frequency resolution.
The second spectral region representation is converted (132) into a second coupled spectral region representation with a third time resolution or a third frequency resolution.
The item according to any one of Examples 46 to 53, wherein the weight value for each band is calculated using the first coupled spectral region representation and the second coupled spectral region representation (134). Down mixer.

55.スペクトル重み付け器(200)は、少なくとも2つのチャネルのスペクトル領域表現として、結合スペクトル領域表現及び第2のスペクトル領域表現、結合スペクトル領域表現及び第1のスペクトル領域表現、並びに第1の結合スペクトル領域表現及び第2の結合スペクトル領域表現のうちの一方を重み付けして、第1の重み付けされたスペクトル領域表現及び第2の重み付けされたスペクトル領域表現を取得するように構成される、実施例54に記載のダウンミキサ。 55. The spectrum weighting device (200) has, as the spectral region representation of at least two channels, a coupled spectral region representation and a second spectral region representation, a coupled spectral region representation and a first spectral region representation, and a first coupled spectral region representation. And the second coupled spectral region representation according to Example 54, configured to weight one of the two combined spectral region representations to obtain a first weighted spectral region representation and a second weighted spectral region representation. Down mixer.

56.ミキサ(400)は、第1の重み付けされたスペクトル領域表現と第2の重み付けされたスペクトル領域表現とを加算してスペクトル領域ダウンミックス表現を取得し、時間領域内のスペクトル領域ダウンミックス表現を変換してダウンミックス信号を取得する、又は第1の重み付けされたスペクトル領域表現及び第2の重み付けされたスペクトル領域表現を時間領域に変換して少なくとも2つのチャネルの時間表現を取得し、少なくとも2つのチャネルの時間表現を加算してダウンミックス信号を取得するように構成される、実施例55に記載のダウンミキサ。 56. The mixer (400) adds the first weighted spectral domain representation and the second weighted spectral domain representation to obtain a spectral domain downmix representation and transforms the spectral domain downmix representation in the time domain. To obtain the downmix signal, or convert the first weighted spectral domain representation and the second weighted spectral domain representation into time domains to obtain the time representation of at least two channels, and at least two. The downmixer according to Example 55, configured to acquire a downmix signal by adding the time representations of the channels.

57.少なくとも2つのチャネルを有するマルチチャネル信号をダウンミックスするための方法であって、
少なくとも2つのチャネルの帯域ごとの重み値を推定することと、
帯域ごとの重み値を使用して少なくとも2つのチャネルのスペクトル領域表現を重み付けすることと、
少なくとも2つのチャネルの重み付けされたスペクトル領域表現を少なくとも2つのチャネルの時間表現に変換することと、
ダウンミックス信号を取得するために少なくとも2つのチャネルの時間表現を混合することと
を含む、方法。
57. A method for downmixing a multichannel signal with at least two channels.
Estimating the band-by-band weight values for at least two channels,
Weighting the spectral region representation of at least two channels using band-by-band weighting,
Converting a weighted spectral region representation of at least two channels into a temporal representation of at least two channels,
A method comprising mixing time representations of at least two channels to obtain a downmix signal.

58.少なくとも2つのサブフレームを含むチャネルのスペクトル領域表現のスペクトル分解能を変換する方式であって、各サブフレームは、時間ビンサイズ及び周波数ビンサイズを表す複数のスペクトル値を含み、
結合スペクトル値の第1のグループを取得するために、第1の方式でスペクトル領域表現の各サブフレームからの同じ周波数ビンに属するスペクトル値を結合することと、
結合スペクトル値の第2のグループを取得するために、第2の方式でスペクトル領域表現の各サブフレームからの同じ周波数ビンに属するスペクトル値を結合することであって、第2の方式は第1の方式とは異なり、結合スペクトル値の第1のグループ及び結合スペクトル値の第2のグループは、異なる時間ビンサイズ及び異なる周波数ビンサイズを有する結合スペクトル領域表現を表す、ことと
を含む、方法。
58. A method of converting the spectral resolution of a spectral region representation of a channel containing at least two subframes, each subframe containing multiple spectral values representing time bin size and frequency bin size.
In order to obtain the first group of coupled spectral values, the first method is to combine spectral values belonging to the same frequency bin from each subframe of the spectral region representation.
In order to obtain a second group of coupled spectral values, the second method is to combine spectral values belonging to the same frequency bin from each subframe of the spectral region representation, the second method being the first. A method comprising that a first group of coupled spectral values and a second group of coupled spectral values represent a coupled spectral region representation with different time bin sizes and different frequency bin sizes, as opposed to the method of.

59.少なくとも2つのチャネルを有するマルチチャネル信号をダウンミックスするための方法であって、
少なくとも2つのチャネルの帯域ごとの重み値を推定することであって、帯域ごとの目標エネルギー値に基づいて帯域ごとの重み値を計算し、その結果、ダウンミックス信号の帯域におけるエネルギーが少なくとも2つのチャネルの同じ帯域におけるエネルギーと所定の関係にあることを含む、ことと、
帯域ごとの重み値を使用して少なくとも2つのチャネルのスペクトル領域表現を重み付けして、重み付けされたスペクトル領域表現を取得することと、
少なくとも2つのチャネルの重み付けされたスペクトル領域表現を使用してダウンミックス信号を計算することと
を含む、方法。
59. A method for downmixing a multichannel signal with at least two channels.
Estimating the band-by-band weight values for at least two channels, calculating the band-by-band weight values based on the band-by-band target energy values, resulting in at least two energy in the downmix signal band. Including having a given relationship with energy in the same band of the channel,
To obtain a weighted spectral region representation by weighting the spectral region representations of at least two channels using band-by-band weighting values.
A method comprising computing a downmix signal using a weighted spectral region representation of at least two channels.

60.コンピュータ又はプロセッサを実行するときに、実施例57又は58又は59に記載の方法を実行するためのコンピュータプログラム。 60. A computer program for performing the method according to embodiment 57 or 58 or 59 when running a computer or processor.

本明細書では、前述の全ての代替形態又は態様、及び以下の特許請求の範囲における独立請求項によって定義される全ての態様は、個別に、すなわち、企図される代替形態、目的又は独立請求項以外の代替形態又は目的なしに使用することができることに留意されたい。しかしながら、他の実施形態では、2つ以上の代替形態又は態様又は独立請求項を互いに結合することができ、他の実施形態では、全ての態様又は代替形態及び全ての独立請求項を互いに結合することができる。 In the present specification, all the alternative forms or aspects described above, and all aspects defined by the independent claims in the following claims, are individually, i.e., the intended alternative form, purpose or independent claim. Note that it can be used in any alternative form or purpose other than. However, in other embodiments, two or more alternative forms or embodiments or independent claims can be combined with each other, and in other embodiments, all embodiments or alternative embodiments and all independent claims are combined with each other. be able to.

本発明の符号化されたオーディオ信号は、デジタル記憶媒体又は非一時的記憶媒体に記憶することができ、あるいはインターネットなどの無線伝送媒体又は有線伝送媒体などの伝送媒体上で伝送することができる。 The encoded audio signal of the present invention can be stored in a digital storage medium or a non-temporary storage medium, or can be transmitted on a transmission medium such as a wireless transmission medium such as the Internet or a wired transmission medium.

いくつかの態様は、装置の文脈で説明されているが、これらの態様は、対応する方法の説明も表しており、ブロック又は装置は、方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップの文脈で説明される態様は、対応するブロック又は対応する装置のアイテム又は特徴の記述も表す。 Some aspects are described in the context of the device, but these aspects also represent a description of the corresponding method, and it is clear that the block or device corresponds to a method step or a feature of the method step. be. Similarly, embodiments described in the context of method steps also represent a description of an item or feature of a corresponding block or corresponding device.

特定の実装要件に応じて、本発明の実施形態は、ハードウェア又はソフトウェアで実装することができる。実施形態は、中に格納される電子的に読み取り可能な制御信号を有し、各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能な)、例えばフロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROM又はフラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。 Depending on the specific implementation requirements, embodiments of the invention can be implemented in hardware or software. Embodiments have electronically readable control signals stored therein and cooperate (or collaborate) with a computer system programmable to perform each method, eg, a floppy disk. It can be performed using a digital storage medium such as a DVD, CD, ROM, PROM, EPROM, EEPROM or flash memory.

本発明によるいくつかの実施形態は、プログラム可能なコンピュータシステムと協働して、本明細書に記載の方法の1つが実行されるような、電子的に読み取り可能な制御信号を有するデータキャリアを備える。
一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作するときに、本方法の1つを実行するように動作するプログラムコードを有するコンピュータプログラム製品として実施することができる。プログラムコードは、例えば、機械読み取り可能なキャリアに格納することができる。
Some embodiments according to the invention work with a programmable computer system to provide a data carrier with electronically readable control signals such that one of the methods described herein is performed. Be prepared.
In general, embodiments of the present invention can be implemented as computer program products having program code that operates to perform one of the methods when the computer program product operates on a computer. The program code can be stored, for example, in a machine-readable carrier.

他の実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含み、機械読み取り可能なキャリア、又は非一時的記憶媒体に格納される。
換言すれば、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
Other embodiments include computer programs for performing one of the methods described herein and are stored in a machine-readable carrier, or non-temporary storage medium.
In other words, an embodiment of the method of the invention is a computer program having program code for performing one of the methods described herein when the computer program is executed on a computer.

したがって、本発明の方法の更なる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを含み、そこに記録される、データキャリア(又はデジタル記憶媒体又はコンピュータ可読媒体)である。 Accordingly, further embodiments of the methods of the invention include a computer program for performing one of the methods described herein, the data carrier (or digital storage medium or computer) recorded therein. Readable medium).

したがって、本発明の方法の更なる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリーム又は信号のシーケンスである。データストリーム又は信号のシーケンスは、例えば、データ通信接続、例えばインターネットを介して転送されるように構成することができる。 Accordingly, a further embodiment of the method of the invention is a sequence of data streams or signals representing a computer program for performing one of the methods described herein. A data stream or sequence of signals can be configured to be transferred, for example, over a data communication connection, eg, the Internet.

更なる実施形態は、本明細書に記載の方法のうちの1つを実行するように構成された、又は適用される処理手段、例えばコンピュータ又はプログラマブル論理装置を含む。
更なる実施形態は、本明細書で説明される方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
Further embodiments include processing means configured or applied to perform one of the methods described herein, such as a computer or programmable logic device.
A further embodiment includes a computer on which a computer program for performing one of the methods described herein is installed.

いくつかの実施形態では、プログラマブルロジック装置(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書に記載の方法の機能の一部又は全部を実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書で説明する方法の1つを実行するためにマイクロ処理部と協働することができる。一般に、これらの方法は、好ましくは、任意のハードウェア装置によって実行される。 In some embodiments, programmable logic devices (eg, field programmable gate arrays) can be used to perform some or all of the functions of the methods described herein. In some embodiments, the field programmable gate array can work with the microprocessing unit to perform one of the methods described herein. In general, these methods are preferably performed by any hardware device.

上述の実施形態は、本発明の原理の単なる例示である。本明細書に記載された構成及び詳細の修正及び変形は、他の当業者には明らかであることが理解される。したがって、本明細書の実施形態の説明及び説明として提示された特定の詳細によってではなく、差し迫った特許請求の範囲によってのみ限定されることが意図される。 The embodiments described above are merely exemplary of the principles of the invention. It will be appreciated that modifications and variations of the configurations and details described herein will be apparent to those of ordinary skill in the art. Accordingly, it is intended to be limited only by the imminent claims, not by the specific details presented as description and description of the embodiments herein.

参考文献
[1]ITU-R BS.775-2、Multichannel Stereophonic Sound System with And Without Accompanying Picture、2006年7月。
[2]F.Baumgarte,C.Faller und P.Kroon、「Audio Coder Enhancement using Scalable Binaural Cue Coding with Equalized Mixing」、116th Convention of the AES、ベルリン、2004年。
[3]G.Stoll,J.Groh,M.Link,J.Deigmoller, B.Runow,M.Keil,R.Stoll,M.Stoll and C.Stoll,’’Method for Generating a Downward-Compatible Sound Format’’。米国特許第2012/0014526号、2012年。
[4]M.Kim、E.Oh及びH.Shim、「Stereo audio coding improved by phase parameters」、129 Convention of the AES、サンフランシスコ、2010年。
[5]A.Adami、E.Habets、及びJ.Herre、「Down-mixing using coherence suppression」、IEEE International Conference on Acoustics、Speech and Signal Processing、フィレンツェ、2014年。
[6]ISO/IEC 23008-3:、Information technology-High efficiency coding and media delivery in heterogeneous environments-Part 3:3D audio、2019年。
[7]S.Bayer,C.Borsz、J.Buthe,S.Disch,B.Edler,G.Fuchs,F.ghido and M.Multrus,「DOWNMIXER AND METHOD FOR DOWNMIXING AT LEAST TWO CHANNELS AND MULTICHANNEL ENCODER AND MULTICHANNEL DECODER」。国際公開第2018086946号
[8]3GPP TS 26.445、Codec for Enhanced Voice Services(EVS);Detailed algorithmic description。
[9]S.Chen、H.Ruimin、及びS.Zhang、「Estimating spatial cues for audio coding in MDCT domain」、IEEE International Conference on Multimedia and Expo、ニューヨーク、2009年。

References [1] ITU-R BS. 775-2, Multichannel Stereophonic Sound System with And Without Accessing Picture, July 2006.
[2] F. Boumgarte, C.I. Faller und P. Kron, "Audio Codec Advanced encryption Scalable Binaural Cue Coding with Equalized Mixing", 116th Convention of the AES, Berlin, 2004.
[3] G. Stoll, J. et al. Groh, M. et al. Link, J. Mol. Deigmoller, B.I. Runow, M. et al. Keil, R.M. Stoll, M. et al. Stoll and C. Stol,'' Method for Generating a Downward-Compatible Sound Form''. U.S. Pat. No. 2012/0014526, 2012.
[4] M. Kim, E.I. Oh and H. Sim, "Stereo audio coding embedded by phase parameters", 129 Convention of the AES, San Francisco, 2010.
[5] A. Adami, E.I. Havets, and J.M. Herere, "Down-mixing coherence support", IEEE International Conference on Acoustics, Speech and Signal Processing, Florence, 2014.
[6] ISO / IEC 23008-3 :, Information technology-High efficiency coding and media delivery in heterogeneous environments-Part 3: 3D audio, 2019.
[7] S. Bayer, C.I. Borsz, J. et al. Buse, S.M. Ditch, B.I. Edler, G.M. Fuchs, F. et al. ghido and M. Multirus, "DOWNMIXER AND METHOD FOR DOWNMIXING AT LEAST TWO CHANNELS AND MULTICHANNEL ENCODER AND MULTICHANNEL DECODER". International Publication No. 2018806946 [8] 3GPP TS 26.445, Codec for Enhanced Voice Services (EVS); Selected algorithmic description.
[9] S. Chen, H. et al. Ruimin, and S.M. Zhang, "Estimating spital cures for audio coding in MDCT domain", IEEE International Conference on Multimedia and Expo, New York, 2009.

Claims (49)

少なくとも2つのチャネルを有するマルチチャネル信号をダウンミックスするためのダウンミキサであって、
前記少なくとも2つのチャネルの帯域ごとの重み値を推定するための重み値推定器(100)と、
前記帯域ごとの重み値を使用して前記少なくとも2つのチャネルのスペクトル領域表現を重み付けするためのスペクトル重み付け器(200)と、
前記少なくとも2つのチャネルの重み付けされたスペクトル領域表現を前記少なくとも2つのチャネルの時間表現に変換する変換器(300)と、
ダウンミックス信号を取得するために前記少なくとも2つのチャネルの前記時間表現を混合するためのミキサ(400)と
を備える、ダウンミキサ。
A downmixer for downmixing a multichannel signal with at least two channels.
A weight value estimator (100) for estimating the weight value for each band of at least two channels, and
A spectral weighter (200) for weighting the spectral region representation of the at least two channels using the bandwise weighting values.
A transducer (300) that converts the weighted spectral region representation of the at least two channels into a time representation of the at least two channels.
A downmixer comprising a mixer (400) for mixing the temporal representations of the at least two channels to obtain a downmix signal.
前記重み値推定器(100)は、前記少なくとも2つのチャネルのうちの第1のチャネルの複数の帯域について複数の第1の帯域ごとの重み値を計算し、前記少なくとも2つのチャネルのうちの第2のチャネルの前記複数の帯域について第2の複数の帯域ごとの重み値を計算するように構成される、又は、
前記マルチチャネル信号は2つを超えるチャネルを有し、前記重み値推定器(100)は、前記2つを超えるチャネルのうちの第1のチャネルの複数の帯域について複数の第1の帯域ごとの重み値を計算し、前記2つを超えるチャネルのうちの第2のチャネルの前記複数の帯域について第2の複数の帯域ごとの重み値を計算し、前記2つを超えるチャネルのうちの更なるチャネルの前記複数の帯域について更なる複数の帯域ごとの重み値を計算するように構成される、請求項1に記載のダウンミキサ。
The weight value estimator (100) calculates a weight value for each of a plurality of first bands for a plurality of bands of the first channel of the at least two channels, and the first of the at least two channels. It is configured to calculate the weight value for each of the second plurality of bands for the plurality of bands of the two channels, or
The multi-channel signal has more than two channels, and the weight value estimator (100) has a plurality of bands of the first channel among the more than two channels for each of the plurality of first bands. The weight value is calculated, the weight value for each of the second plurality of bands is calculated for the plurality of bands of the second channel among the two or more channels, and further of the two or more channels. The downmixer according to claim 1, wherein a weight value for each of the plurality of bands is calculated for the plurality of bands of the channel.
前記少なくとも2つのチャネルの前記スペクトル領域表現は各々、周波数ビンのセットを含み、スペクトル値は前記周波数ビンに関連付けられ、
前記重み値推定器(100)は、帯域に対する前記帯域ごとの重み値を計算するように構成され、各帯域は、1つ、2つ、若しくはそれ以上の周波数ビンを含み、又は
帯域当たりの周波数ビンの数は、より高い中心周波数を有する帯域と共に増加する、請求項1又は2に記載のダウンミキサ。
Each of the spectral region representations of the at least two channels comprises a set of frequency bins, and the spectral values are associated with the frequency bins.
The weight value estimator (100) is configured to calculate a weight value for each band with respect to the band, and each band contains one, two, or more frequency bins, or a frequency per band. The downmixer according to claim 1 or 2, wherein the number of bins increases with a band having a higher center frequency.
前記重み値推定器(100)は、帯域当たりの目標エネルギー値に基づいて前記帯域ごとの重み値を計算し、その結果、前記ダウンミックス信号の前記帯域におけるエネルギーが、前記少なくとも2つのチャネルの同じ帯域におけるエネルギーに対して所定の関係にあるように構成される、請求項1から3のいずれか一項に記載のダウンミキサ。 The weight value estimator (100) calculates a weight value for each band based on a target energy value per band, and as a result, the energy of the downmix signal in the band is the same for the at least two channels. The downmixer according to any one of claims 1 to 3, which is configured to have a predetermined relationship with energy in a band. 符号化された信号を復号するためのコアデコーダ(500)であって、前記符号化された信号は、少なくとも2つの元のチャネルの符号化されたスペクトル領域表現を有し、前記コアデコーダは、前記符号化されたスペクトル領域表現から前記スペクトル領域表現を生成するように構成される、コアデコーダ(500)
を更に備える、請求項1から4のいずれか一項に記載のダウンミキサ。
A core decoder (500) for decoding a coded signal, wherein the coded signal has a coded spectral region representation of at least two original channels. A core decoder (500) configured to generate the spectral region representation from the encoded spectral region representation.
The down mixer according to any one of claims 1 to 4, further comprising.
前記スペクトル領域表現は純実数又は純虚数のいずれかであり、
前記重み値推定器(100)は、前記スペクトル領域表現が純実数である場合、虚数スペクトル領域表現を推定(120、122)する、又は前記スペクトル領域表現が純虚数である場合、実数スペクトル領域表現を推定するように構成され、
前記重み値推定器(100)は、推定された前記虚数スペクトル領域表現又は推定された前記実数ペクトル領域表現を使用して前記帯域ごとの重み値を推定するように構成される、請求項1から5のいずれか一項に記載のダウンミキサ。
The spectral region representation is either a pure real number or a pure imaginary number.
The weight value estimator (100) estimates the imaginary spectral domain representation (120, 122) when the spectral domain representation is a pure real number, or the real spectral domain representation when the spectral domain representation is a pure imaginary number. Is configured to estimate
From claim 1, the weight value estimator (100) is configured to estimate the weight value for each band using the estimated imaginary spectral region representation or the estimated real number spectrum region representation. 5. The down mixer according to any one of 5.
前記重み値推定器(100)は、前記少なくとも2つのチャネルのうちの第1のチャネルの帯域に対する第1の重み値を計算するように構成され、
前記重み値推定器(100)は、前記少なくとも2つのチャネルのうちの第2のチャネルの前記帯域に対する第2の重み値を計算するように構成され、
前記重み値推定器(100)は、前記帯域内の前記第1のチャネルのエネルギーと、前記帯域内の前記第2のチャネルのエネルギーと、前記帯域内の前記少なくとも2つのチャネルからのスペクトル値の積又は線形結合に依存する混合項とを用いて、前記第1の重み値及び前記第2の重み値を計算するように構成される、請求項1から6のいずれか一項に記載のダウンミキサ。
The weight value estimator (100) is configured to calculate a first weight value for the band of the first channel of the at least two channels.
The weight value estimator (100) is configured to calculate a second weight value for the band of the second channel of the at least two channels.
The weight value estimator (100) is a spectral value of the energy of the first channel in the band, the energy of the second channel in the band, and the spectral values from at least two channels in the band. The down according to any one of claims 1 to 6, configured to calculate the first weight value and the second weight value using a mixed term that relies on a product or a linear combination. Mixer.
前記重み値推定器(100)は、前記線形結合を表す前記混合項として、前記少なくとも2つのチャネルの前記スペクトル領域表現から前記帯域内で互いに加算されたスペクトル値のエネルギーの平方根を計算するように構成され、前記帯域は複数のスペクトル値を含むか、又は、前記積を表す前記混合項として、前記少なくとも2つのチャネルのうちの第1のチャネルの前記帯域内の前記スペクトル値と第2のチャネルの前記帯域内の前記スペクトル値との間の複素ドット積の絶対値を計算するように構成される、請求項1から7のいずれか一項に記載のダウンミキサ。 The weight value estimator (100) calculates the square root of the energy of the spectral values added to each other in the band from the spectral region representation of the at least two channels as the mixed term representing the linear coupling. The band comprises the spectral values and the second channel within the band of the first channel of the at least two channels as the mixed term representing the product or the band contains a plurality of spectral values. The downmixer according to any one of claims 1 to 7, wherein the downmixer is configured to calculate the absolute value of the complex dot product between the spectral values and the spectral values in the band. 前記複数の少なくとも2つのチャネルのうちの第1及び第2のチャネルの各帯域は複数のスペクトル値を有し、前記スペクトル重み付け器(200)は、前記少なくとも2つのチャネルのうちの一方の前記帯域の各スペクトル値に同じ重みを適用し、前記少なくとも2つのチャネルのうちの別のチャネルの前記帯域の各スペクトル値に別の重みを適用するように構成される、請求項1から8のいずれか一項に記載のダウンミキサ。 Each band of the first and second channels of the plurality of at least two channels has a plurality of spectral values, and the spectrum weighting device (200) has the band of one of the at least two channels. Any of claims 1-8, configured to apply the same weight to each spectral value of the The down mixer according to one item. 前記重み付けされたスペクトル領域表現はMDCT(修正離散コサイン変換)スペクトルであり、
前記変換器(300)は、前記複数のチャネルの各チャネルについて、合成窓がけ演算及び重畳加算演算を使用して逆MDCT変換を実行するように構成される、請求項1から9のいずれか一項に記載のダウンミキサ。
The weighted spectral domain representation is an MDCT (Modified Discrete Cosine Transform) spectrum.
One of claims 1 to 9, wherein the transducer (300) is configured to perform an inverse MDCT transform using a composite windowing operation and an overlay addition operation for each channel of the plurality of channels. The down mixer described in the section.
前記ミキサ(400)は、前記少なくとも2つのチャネルの前記時間表現のサンプルごとの加算を適用するように構成されるか、又は
前記ミキサ(400)は、前記少なくとも2つのチャネルの前記時間表現のサンプルごとの加算と、前記サンプルごとの加算の結果に適用される、又は前記サンプルごとの加算への入力に適用されるスケーリング動作とを適用するように構成される、請求項1から10のいずれか一項に記載のダウンミキサ。
The mixer (400) is configured to apply a sample-by-sample addition of the time representation of the at least two channels, or the mixer (400) is a sample of the time representation of the at least two channels. Any of claims 1-10 configured to apply a per-addition and a scaling operation applied to the result of the per-sample addition or applied to an input to the per-sample addition. The down mixer according to one item.
前記変換器(300)は、スペクトル-時間アルゴリズムを使用して生の時間表現を生成し(310)、
前記時間表現を取得するためにチャネルのための別個の制御情報を使用して、前記ミキサ(400)による前記混合の前に信号処理方向に前記生の時間表現を個別に後処理する(320)ように構成される、請求項1から11のいずれか一項に記載のダウンミキサ。
The transducer (300) uses a spectrum-time algorithm to generate a raw time representation (310).
The raw time representation is individually post-processed in the signal processing direction prior to the mixing by the mixer (400) using separate control information for the channel to obtain the time representation (320). The down mixer according to any one of claims 1 to 11, wherein the down mixer is configured as described above.
前記変換器(300)は、前記後処理(320)として、バス・ポストフィルタリング、TCX-LTP(Transform Coded Excitation Long Term Prediction)処理、又はLPC(Linear Prediction Coding)合成を各時間表現について個別に実行するように構成される、請求項12に記載のダウンミキサ。 As the post-processing (320), the converter (300) individually executes bus post-filtering, TCX-LTP (Transform Coded Excitation Long Term Precision) processing, or LPC (Linear Prevention Coding) synthesis for each time expression. 12. The down mixer according to claim 12. 前記少なくとも2つのチャネルのうちの第1のチャネルの第1のスペクトル領域表現は、第1の時間又は周波数分解能を有し、
前記少なくとも2つのチャネルのうちの第2のチャネルの第2のスペクトル領域表現は、第2の時間又は周波数分解能を有し、前記第2の時間又は周波数分解能は、前記第1の時間又は周波数分解能とは異なり、
前記重み値推定器(100)は、前記帯域ごとの重み値に関連付けられた前記帯域の周波数分解能が、前記第1の周波数分解能及び前記第2の周波数分解能よりも低くなるように、又は前記第1の周波数分解能及び前記第2の周波数分解能のうちの低い方の周波数分解能と等しくなるように、前記帯域ごとの重み値を計算するように構成される、請求項1から13のいずれか一項に記載のダウンミキサ。
The first spectral region representation of the first channel of the at least two channels has a first time or frequency resolution.
The second spectral region representation of the second channel of the at least two channels has a second time or frequency resolution, and the second time or frequency resolution is the first time or frequency resolution. Unlike,
The weight value estimator (100) is such that the frequency resolution of the band associated with the weight value for each band is lower than the first frequency resolution and the second frequency resolution, or the first. One of claims 1 to 13, configured to calculate the weight value for each band so as to be equal to the lower frequency resolution of the frequency resolution of 1 and the frequency resolution of the second frequency. The down mixer described in.
前記第1のスペクトル領域表現は、帯域内の第1の複数のスペクトル値を有し、
前記第2のスペクトル領域表現は、前記帯域内の第2の複数のスペクトル値を有し、前記第2の複数のスペクトル値は前記第1の複数のスペクトル値よりも高く、
前記重み値推定器(100)は、
前記第2の複数のスペクトル値のうちの2つ以上のスペクトル値を結合するか、又は前記第2の複数のスペクトル値からスペクトル値のサブセットを選択して、
前記2つ以上のスペクトル値を結合した結果を使用して、又は前記スペクトル値のサブセットを使用して、前記帯域内の前記少なくとも2つのチャネルからのスペクトル値の積又は線形結合に依存する混合項を計算し、
前記混合項を使用して前記帯域ごとの重み値を計算するように構成される、請求項1から14のいずれか一項に記載のダウンミキサ。
The first spectral region representation has a first plurality of spectral values within the band.
The second spectral region representation has a second plurality of spectral values within the band, the second plurality of spectral values being higher than the first plurality of spectral values.
The weight value estimator (100) is
Combine two or more of the second plurality of spectral values, or select a subset of the spectral values from the second plurality of spectral values.
A mixed term that depends on the product or linear combination of spectral values from at least two channels in the band, using the result of combining the two or more spectral values, or using a subset of the spectral values. Calculate and
The downmixer according to any one of claims 1 to 14, wherein the mixed term is used to calculate a weight value for each band.
第1のスペクトル領域表現は、第1の時間ビンサイズ及び第1の周波数ビンサイズを表す複数の第1のスペクトル値を含み、
前記第2のスペクトル領域表現は、第2の時間ビンサイズ及び第2の周波数ビンサイズを表す複数のスペクトル値を含み、
前記第1の時間ビンサイズは前記第2の時間ビンサイズよりも大きいか、又は前記第1の周波数ビンサイズは前記第2の周波数ビンサイズよりも小さく、
前記重み値推定器(100)は、前記第1のスペクトル領域表現からの複数のスペクトル値を結合して、結合された周波数ビンサイズが前記第2の周波数ビンサイズに等しい第1の結合されたスペクトル領域表現を取得するか、又は前記第2のスペクトル領域表現からの複数のスペクトル値を結合して、結合された時間ビンサイズが前記第1の時間ビンサイズに等しい第1の結合されたスペクトル領域表現を取得するように構成される、請求項1から15のいずれか一項に記載のダウンミキサ。
The first spectral region representation comprises a plurality of first spectral values representing a first time bin size and a first frequency bin size.
The second spectral region representation comprises a plurality of spectral values representing a second time bin size and a second frequency bin size.
The first time bin size is larger than the second time bin size, or the first frequency bin size is smaller than the second frequency bin size.
The weight value estimator (100) combines a plurality of spectral values from the first spectral region representation so that the combined frequency bin size is equal to the second frequency bin size. A first combined spectrum in which the combined time bin size is equal to the first time bin size by obtaining a spectral region representation or combining multiple spectral values from the second spectral region representation. The downmixer according to any one of claims 1 to 15, configured to acquire a region representation.
前記重み値推定器(100)は、前記少なくとも2つのチャネルのうちの第1のチャネル及び第2のチャネルの前記帯域ごとの重み値の前記計算のために前記第1の結合スペクトル表現又は前記第2の結合スペクトル領域表現を使用するように構成され、前記計算は、帯域内の混合項の計算と前記帯域内のエネルギーの計算とを含み、
前記スペクトル重み付け器(200)は、前記少なくとも2つのチャネルのうちの前記第1のチャネルの前記帯域ごとの重み値を、対応する帯域内の前記第1のスペクトル領域表現のスペクトル値に適用し、前記少なくとも2つのチャネルのうちの前記第2のチャネルの前記帯域ごとの重み値を、前記対応する帯域内の前記第2のスペクトル領域表現のスペクトル値に適用するように構成される、請求項16に記載のダウンミキサ。
The weight value estimator (100) is the first coupled spectral representation or the first for the calculation of the bandwise weight values of the first channel and the second channel of the at least two channels. Configured to use the coupled spectral region representation of 2, the calculation includes the calculation of the in-band mixed term and the calculation of the in-band energy.
The spectrum weighting device (200) applies the weight value for each band of the first channel of the at least two channels to the spectrum value of the first spectral region representation in the corresponding band. 16. Claim 16 configured to apply the bandwise weighting of the second channel of the at least two channels to the spectral values of the second spectral region representation within the corresponding band. The down mixer described in.
第1のチャネルの第1のスペクトル領域表現は、第1の時間ビンサイズ及び第1の周波数ビンサイズを表す複数の第1のスペクトル値を含み、
第2のチャネルの第2のスペクトル領域表現は少なくとも2つのサブフレームを含み、各サブフレームは、第2の時間ビンサイズ及び第2の周波数ビンサイズを表す複数のスペクトル値を含み、
前記第1の時間ビンサイズは前記第2の時間ビンサイズよりも大きいか、又は前記第1の周波数ビンサイズは前記第2の周波数ビンサイズよりも小さく、
前記重み値推定器(100)は、
結合スペクトル値の第1のグループを取得するために、第1の方式で前記第2のスペクトル領域表現の各サブフレームからの同じ周波数ビンに属するスペクトル値を結合し、
結合スペクトル値の第2のグループを取得するために、第2の方式で前記第2のスペクトル領域表現の各サブフレームからの同じ周波数ビンに属するスペクトル値を結合し、前記第2の方式は前記第1の方式とは異なり、
結合スペクトル値の前記第1のグループ及び結合スペクトル値の前記第2のグループは、前記第1の時間ビンサイズ及び前記第1の周波数ビンサイズを有する結合スペクトル領域表現を表し、
前記帯域ごとの重み値の前記計算のために、前記結合スペクトル領域表現及び前記第1のスペクトル領域表現の前記スペクトル値を使用する
ように構成される、請求項1から15のいずれか一項に記載のダウンミキサ。
The first spectral region representation of the first channel comprises a plurality of first spectral values representing a first time bin size and a first frequency bin size.
The second spectral region representation of the second channel comprises at least two subframes, each subframe containing a plurality of spectral values representing a second time bin size and a second frequency bin size.
The first time bin size is larger than the second time bin size, or the first frequency bin size is smaller than the second frequency bin size.
The weight value estimator (100) is
In order to obtain the first group of coupled spectral values, the spectral values belonging to the same frequency bin from each subframe of the second spectral region representation are coupled in the first method.
In order to obtain a second group of coupled spectral values, the second method combines spectral values belonging to the same frequency bin from each subframe of the second spectral region representation, the second method said. Unlike the first method,
The first group of coupled spectral values and the second group of coupled spectral values represent a coupled spectral region representation having the first time bin size and the first frequency bin size.
One of claims 1 to 15, configured to use the spectral values of the combined spectral region representation and the first spectral region representation for the calculation of the weight values for each band. The down mixer described.
前記重み値推定器(100)は、前記第1の方式で加算及び減算の一方を実行し、前記第2の方式で前記加算及び前記減算の他方を実行するように構成される、請求項18に記載のダウンミキサ。 18. The weight value estimator (100) is configured to perform one of addition and subtraction in the first method and the other of the addition and subtraction in the second method. The down mixer described in. 前記重み値推定器(100)は、前記第1の方式及び前記第2の方式で平均関数を実行するように構成される、請求項18又は19に記載のダウンミキサ。 The downmixer according to claim 18 or 19, wherein the weight value estimator (100) is configured to execute an average function in the first method and the second method. 前記重み値推定器(100)は、重み付け符号を使用する重み付けを含む前記第1の方式又は前記第2の方式のいずれかを適用するように構成され、前記重み値推定器(100)は、前記同じ周波数ビンの周波数ビン番号に従って前記重み付け符号を設定するように構成される、請求項18から20のいずれか一項に記載のダウンミキサ。 The weight value estimator (100) is configured to apply either the first method or the second method, which includes weighting using a weighting code, the weight value estimator (100). The down mixer according to any one of claims 18 to 20, which is configured to set the weighting code according to the frequency bin number of the same frequency bin. 前記重み値推定器(100)は、前記第1の方式として、ハイパスフィルタリング及びローパスフィルタリングの一方を適用し、前記第2の方式として、ハイパスフィルタリング及びローパスフィルタリングの他方を適用するように構成される、請求項18から21のいずれか一項に記載のダウンミキサ。 The weight value estimator (100) is configured to apply one of high-pass filtering and low-pass filtering as the first method, and apply the other of high-pass filtering and low-pass filtering as the second method. , The down mixer according to any one of claims 18 to 21. 前記重み値推定器(100)は、より低い分解能ビンを2つのより高い分解能ビンに変換するように構成され、前記第1の方式は、前記2つのより高い分解能ビンのうちの第1のより高い分解能ビンの偶数ビン番号に使用され、前記第2の方式は、前記2つのより高い分解能ビンのうちの第2のより高い分解能ビンの奇数ビン番号に使用される、請求項18から22のいずれか一項に記載のダウンミキサ。 The weight value estimator (100) is configured to convert a lower resolution bin into two higher resolution bins, the first method being the first of the two higher resolution bins. 23. 22 of claims 18-22, which are used for even bin numbers of high resolution bins and the second method is used for odd bin numbers of the second higher resolution bin of the two higher resolution bins. The down mixer according to any one of the items. 前記第1のチャネルの前記第1のスペクトル領域表現はTCX20フレームを含み、前記第2のチャネルの前記第2のスペクトル領域表現は2つのTCX10サブフレームを含み、前記重み値推定器(100)は、前記2つのTCX10サブフレームからの結合TCX20スペクトル領域表現を計算するように構成される、又は
前記第1のチャネルの前記第1のスペクトル領域表現は、TCX20フレームを含み、前記第2のチャネルの前記第2のスペクトル領域表現は、TCX10サブフレーム及び2つのTCX5サブフレームを含み、前記重み値推定器(100)は、前記2つのTCX5サブフレームからの第1の結合TCX10スペクトル領域表現を計算し、前記第1の結合TCX10スペクトル領域表現及び前記TCX10サブフレームからの第2の結合TCX20サブフレームを計算するように構成され、
前記第1のチャネルの前記第1のスペクトル領域表現は、TCX10サブフレームを含み、前記第2のチャネルの前記第2のスペクトル領域表現は、2つのTCX5サブフレームを含み、前記重み値推定器(100)は、前記2つのTCX5サブフレームからの結合TCX10スペクトル領域表現を計算するように構成され、
前記表現TCX20は、第1の時間長を有する第1の部分を示し、前記表現TCX10は、第2の時間長を有する第2の部分を示し、前記表現TCX5は、第3の時間長を有する第3の部分を示し、前記第1の時間長は前記第2の時間長又は前記第3の時間長より長い、又は前記第2の時間長は、前記第1の時間長よりも短い又は前記第2の時間長よりも長く、前記第3の時間長は前記第1の時間長より短い又は前記第2の時間長より短い、請求項18から22のいずれか一項に記載のダウンミキサ。
The first spectral region representation of the first channel comprises TCX20 frames, the second spectral region representation of the second channel comprises two TCX10 subframes, and the weight value estimator (100). , The first spectral region representation of the first channel comprises the TCX20 frame and the second channel. The second spectral region representation comprises a TCX10 subframe and two TCX5 subframes, and the weight estimator (100) calculates a first coupled TCX10 spectral region representation from the two TCX5 subframes. , The first coupled TCX10 spectral region representation and the second coupled TCX20 subframe from the TCX10 subframe are configured to be calculated.
The first spectral region representation of the first channel comprises TCX10 subframes, the second spectral region representation of the second channel comprises two TCX5 subframes, and the weight value estimator ( 100) is configured to compute the combined TCX10 spectral region representation from the two TCX5 subframes.
The representation TCX20 indicates a first portion having a first time length, the representation TCX10 represents a second portion having a second time length, and the representation TCX5 has a third time length. A third portion is shown, wherein the first time length is longer than the second time length or the third time length, or the second time length is shorter than the first time length or said. The down mixer according to any one of claims 18 to 22, which is longer than the second time length and the third time length is shorter than the first time length or shorter than the second time length.
前記重み値推定器(100)は、以下の式に基づいて前記第1の方式を適用するように構成され:
Figure 2022522706000062
、又は
前記重み値推定器(100)は、以下の式に基づいて前記第2の方式を適用するように構成され:
Figure 2022522706000063

式中、iはスペクトルビン番号を指定し、
Figure 2022522706000064
及び
Figure 2022522706000065
は、前記第2のチャネルの前記第2のスペクトル領域表現のサブフレームを指定し、
式中、
Figure 2022522706000066
及び
Figure 2022522706000067
は、前記結合スペクトル領域表現のスペクトル値を示し、
Figure 2022522706000068
及び
Figure 2022522706000069
は、それぞれ第2のサブフレームk及び第1のサブフレームkからのスペクトル値を示す、請求項18から23のいずれか一項に記載のダウンミキサ。
The weight value estimator (100) is configured to apply the first method based on the following equation:
Figure 2022522706000062
, Or the weight value estimator (100) is configured to apply the second method based on the following equation:
Figure 2022522706000063
,
In the formula, i specifies the spectrum bin number,
Figure 2022522706000064
as well as
Figure 2022522706000065
Specifies a subframe of the second spectral region representation of the second channel.
During the ceremony
Figure 2022522706000066
as well as
Figure 2022522706000067
Indicates the spectral value of the combined spectral region representation.
Figure 2022522706000068
as well as
Figure 2022522706000069
The down mixer according to any one of claims 18 to 23, which shows spectral values from the second subframe k 1 and the first subframe k 0 , respectively.
前記少なくとも2つのチャネルの第1のチャネルの第1のスペクトル領域表現は、第1の時間分解能又は第1の周波数分解能を有し、前記少なくとも2つのチャネルの第2のチャネルの第2のスペクトル領域表現は、第2の時間分解能又は第2の周波数分解能を有し、前記第2の時間分解能は前記第1の時間分解能とは異なる、又は前記第2の周波数分解能は前記第1の周波数分解能とは異なり、
前記重み値推定器(100)は、前記第1のスペクトル領域表現を前記第2の時間分解能又は前記第2の周波数分解能を有する結合スペクトル領域表現に変換し(132)、前記結合スペクトル領域表現及び前記第2のスペクトル領域表現を使用して前記帯域ごとの重み値を計算する、又は前記第2のスペクトル領域表現を前記第1の時間分解能又は前記第1の周波数分解能を有する結合スペクトル領域表現に変換し、前記結合スペクトル領域表現及び前記第1のスペクトル領域表現を使用して前記帯域ごとの重み値を計算し、又は
前記少なくとも2つのチャネルの第1のチャネルの第1のスペクトル領域表現は、第1の時間分解能又は第1の周波数分解能を有し、前記少なくとも2つのチャネルの第2のチャネルの第2のスペクトル領域表現は、第2の時間分解能又は第2の周波数分解能を有し、前記第2の時間分解能は、前記第1の時間分解能とは異なり、又は前記第2の周波数分解能は、前記第1の周波数分解能とは異なり、
前記重み値推定器(100)は、
前記第1のスペクトル領域表現を、第3の時間分解能又は第3の周波数分解能を有する第1の結合スペクトル領域表現に変換(132)し、
前記第3の時間分解能は、前記第1の時間分解能又は前記第2の時間分解能とは異なり、前記第3の周波数分解能は、前記第1の周波数分解能又は前記第2の周波数分解能とは異なり、
前記第2のスペクトル領域表現を、前記第3の時間分解能又は前記第3の周波数分解能を有する第2の結合スペクトル領域表現に変換(132)し、
前記第1の結合スペクトル領域表現及び前記第2の結合スペクトル領域表現を使用して、前記帯域ごとの重み値を計算する(134)ように構成される、請求項1に記載のダウンミキサ。
The first spectral region representation of the first channel of the at least two channels has a first time resolution or a first frequency resolution and a second spectral region of the second channel of the at least two channels. The representation has a second time resolution or a second frequency resolution, the second time resolution being different from the first time resolution, or the second frequency resolution being the first frequency resolution. Is different
The weight value estimator (100) converts the first spectral region representation into a coupled spectral region representation having the second time resolution or the second frequency resolution (132), and the coupled spectral region representation and The second spectral region representation is used to calculate the weight value for each band, or the second spectral region representation is converted into a coupled spectral region representation having the first time resolution or the first frequency resolution. The combined spectral region representation and the first spectral region representation are used to convert and calculate the weight values for each band, or the first spectral region representation of the first channel of at least two channels. The second spectral region representation of the second channel of the at least two channels has a first time resolution or a first frequency resolution and has a second time resolution or a second frequency resolution, said. The second time resolution is different from the first time resolution, or the second frequency resolution is different from the first frequency resolution.
The weight value estimator (100) is
The first spectral region representation is converted (132) into a first coupled spectral region representation having a third time resolution or a third frequency resolution.
The third time resolution is different from the first time resolution or the second time resolution, and the third frequency resolution is different from the first frequency resolution or the second frequency resolution.
The second spectral region representation is converted (132) into a second coupled spectral region representation having the third time resolution or the third frequency resolution.
The downmixer according to claim 1, wherein the weight value for each band is calculated using the first coupled spectral region representation and the second coupled spectral region representation (134).
前記第2のチャネルは、特定の時間部分(TCX20)について、前記第2のスペクトル領域表現を含み、
前記第1のチャネルは、前記特定の時間部分(2xTCX10)について、2つ以上の前記第1のスペクトル領域表現を含み、
前記重み値推定器(100)は、前記2つ以上の第1のスペクトル領域表現を、前記第2のスペクトル領域表現と同じ時間分解能及び周波数分解能を有する前記結合スペクトル領域表現に変換し、前記結合スペクトル領域表現及び前記第2のスペクトル領域表現を使用して前記帯域ごとの重み値を計算するように構成され、
前記スペクトル重み付け器(200)は、前記帯域ごとの重み値を使用して前記第2のスペクトル領域表現に重み付けし、同じ帯域ごとの重み値を使用して前記2つ以上の第1のスペクトル領域表現の各第1のスペクトル領域表現に重み付けするように構成される、請求項25に記載のダウンミキサ。
The second channel comprises the second spectral region representation for a particular time portion (TCX20).
The first channel comprises two or more of the first spectral region representations for the particular time portion (2xTCX10).
The weight value estimator (100) converts the two or more first spectral region representations into the coupled spectral region representation having the same time and frequency resolutions as the second spectral region representation, and the coupling. It is configured to calculate the weight value for each band using the spectral region representation and the second spectral region representation.
The spectrum weighting device (200) uses the weight values for each band to weight the second spectral region representation, and uses the weight values for the same band to use the weight values for each of the two or more first spectral regions. 25. The downmixer of claim 25, configured to weight each first spectral region representation of the representation.
前記重み値推定器(100)は、前記2つ以上の第1のスペクトル領域表現の同じ周波数のスペクトル値を加算して、前記結合スペクトル領域表現の第1のスペクトル値を取得し、前記2つ以上の第1のスペクトル領域表現の同じ周波数のスペクトル値を減算して、前記結合スペクトル領域表現の前記第1のスペクトル値の周波数より高く且つ隣接している前記結合スペクトル領域表現の第2のスペクトル値を取得するように構成され、
前記スペクトル重み付け器(200)は、同じ帯域ごとの重み値を使用して、前記2つ以上の第1のスペクトル領域表現の各第1のスペクトル領域表現において同じ周波数を有する帯域に重み付けするように構成される、請求項26に記載のダウンミキサ。
The weight value estimator (100) adds the spectral values of the same frequency of the two or more first spectral region representations to obtain the first spectral value of the combined spectral region representation, and obtains the first spectral value of the combined spectral region representation. The second spectrum of the combined spectral region representation that is higher and adjacent to the frequency of the first spectral value of the combined spectral region representation by subtracting the spectral values of the same frequency of the first spectral region representation above. Configured to get the value,
The spectrum weighting device (200) uses the same band-by-band weighting value to weight bands having the same frequency in each of the first spectral region representations of the two or more first spectral region representations. 26. The down mixer according to claim 26.
前記第2のチャネルは、特定の時間部分(TCX20)について、前記第2のスペクトル領域表現を含み、
前記第1のチャネルは、前記特定の時間部分(2xTCX10)について、2つ以上の前記第1のスペクトル領域表現を含み、
前記重み値推定器(100)は、
前記第2のスペクトル領域表現を、前記2つ以上の第1のスペクトル領域表現と同じ時間分解能及び周波数分解能を有する2つ以上の結合スペクトル領域表現に変換し、
前記2つ以上の結合スペクトル領域表現の第1の結合スペクトル領域表現と、前記2つ以上の第1のスペクトル領域表現の第1の第1のスペクトル領域表現とを使用して、第1の帯域ごとの重み値を計算し、
前記2つ以上の結合スペクトル領域表現の第2の結合スペクトル領域表現と、前記2つ以上の第1のスペクトル領域表現の第2の第1のスペクトル領域表現とを使用して、第2の帯域ごとの重み値を計算する
ように構成され、
前記スペクトル重み付け器(200)は、
前記第1及び第2の帯域ごとの重み値から導出された(136)、導出された帯域ごとの重み値を使用して、前記第2のスペクトル領域表現に重み付けし、
前記第1の帯域ごとの重み値を使用して、前記2つ以上の第1のスペクトル領域表現の前記第1の第1のスペクトル領域表現に重み付けし、
前記第2の帯域ごとの重み値を使用して、前記2つ以上の第1のスペクトル領域表現の前記第2の第1のスペクトル領域表現に重み付けする
ように構成される、請求項25に記載のダウンミキサ。
The second channel comprises the second spectral region representation for a particular time portion (TCX20).
The first channel comprises two or more of the first spectral region representations for the particular time portion (2xTCX10).
The weight value estimator (100) is
The second spectral region representation is converted into two or more coupled spectral region representations having the same time and frequency resolutions as the two or more first spectral region representations.
A first band using the first coupled spectral region representation of the two or more coupled spectral region representations and the first first spectral region representation of the two or more first spectral region representations. Calculate the weight value for each
A second band using the second coupled spectral region representation of the two or more coupled spectral region representations and the second first spectral region representation of the two or more first spectral region representations. It is configured to calculate the weight value for each
The spectrum weighting device (200) is
Using the derived band-by-band weight values derived from the first and second band-by-band weight values (136), the second spectral region representation is weighted.
The weighting values for each of the first bands are used to weight the first spectral region representation of the two or more first spectral region representations.
25. Down mixer.
前記重み値推定器(100)は、前記第2のスペクトル領域表現の周波数対のスペクトル値を加算して加算スペクトル値を取得し、加算スペクトル値にコピーして、前記2つ以上の結合スペクトル領域表現の各々の結合スペクトル値を取得するように構成され、
前記スペクトル重み付け器(200)は、前記第1の帯域ごとの重み値のうちの特定の帯域に対する重み値を、前記第2の帯域ごとの重み値のうちの前記特定の帯域に対する重み値と結合して(136)、前記導出された帯域ごとの重み値のうちの前記特定の帯域に対する導出された重み値を取得するように構成されている、請求項28に記載のダウンミキサ。
The weight value estimator (100) adds the spectral values of the frequency pairs of the second spectral region representation to obtain the added spectral value, copies it to the added spectral value, and copies the two or more coupled spectral regions. It is configured to get the combined spectral value of each of the representations,
The spectrum weighting device (200) combines the weight value for a specific band among the weight values for each of the first bands with the weight value for the specific band among the weight values for each second band. (136) The down mixer according to claim 28, which is configured to acquire the derived weight value for the specific band among the derived weight values for each band.
前記第2のチャネルは、特定の時間部分(TCX20)について、前記第2のスペクトル領域表現を含み、
前記第1のチャネルは、前記特定の時間部分(2xTCX10)について、2つ以上の前記第1のスペクトル領域表現を含み、
前記重み値推定器(100)は、
前記第2のスペクトル領域表現を、前記2つ以上の第1のスペクトル領域表現と同じ時間分解能を有し、前記第2のスペクトル領域表現と同じ周波数分解能を有する2つ以上の結合スペクトル領域表現に変換し、
前記2つ以上の結合スペクトル領域表現の第1の結合スペクトル領域表現と、前記2つ以上の第1のスペクトル領域表現の第1の第1のスペクトル領域表現とを使用して、第1の帯域ごとの重み値を計算し、
前記2つ以上の結合スペクトル領域表現の第2の結合スペクトル領域表現と、前記2つ以上の第1のスペクトル領域表現の第2の第1のスペクトル領域表現とを使用して、第2の帯域ごとの重み値を計算する
ように構成され、
前記スペクトル重み付け器(200)は、
前記第1及び第2の帯域ごとの重み値から導出された(136)、帯域ごとの重み値を使用して、前記第2のスペクトル領域表現に重み付けし、
前記第1の帯域ごとの重み値を使用して、前記2つ以上の第1のスペクトル領域表現の前記第1の第1のスペクトル領域表現に重み付けし、
前記第2の帯域ごとの重み値を使用して、前記2つ以上の第1のスペクトル領域表現の前記第2の第1のスペクトル領域表現に重み付けする
ように構成される、請求項25に記載のダウンミキサ。
The second channel comprises the second spectral region representation for a particular time portion (TCX20).
The first channel comprises two or more of the first spectral region representations for the particular time portion (2xTCX10).
The weight value estimator (100) is
The second spectral region representation is transformed into two or more coupled spectral region representations having the same time resolution as the two or more first spectral region representations and the same frequency resolution as the second spectral region representation. Converted,
A first band using the first coupled spectral region representation of the two or more coupled spectral region representations and the first first spectral region representation of the two or more first spectral region representations. Calculate the weight value for each
A second band using the second coupled spectral region representation of the two or more coupled spectral region representations and the second first spectral region representation of the two or more first spectral region representations. It is configured to calculate the weight value for each
The spectrum weighting device (200) is
Using the band-by-band weight values derived from the band-by-band weight values (136), the second spectral region representation is weighted.
The weighting values for each of the first bands are used to weight the first spectral region representation of the two or more first spectral region representations.
25. Down mixer.
前記重み値推定器(100)は、1つ以上のスペクトル値をアップサンプリングして前記第2のスペクトル領域表現の隣接周波数に対するアップサンプリングされたスペクトル値を取得し、アップサンプリングされたスペクトル値にコピーして、前記2つ以上の結合スペクトル領域表現の各々の結合スペクトル値を取得するように構成され、
前記スペクトル重み付け器(200)は、前記第1の帯域ごとの重み値のうちの特定の帯域に対する重み値を、前記第2の帯域ごとの重み値のうちの前記特定の帯域に対する重み値と結合して(136)、前記導出された帯域ごとの重み値のうちの前記特定の帯域に対する導出された重み値を取得するように構成されている、請求項30に記載のダウンミキサ。
The weight value estimator (100) upsamples one or more spectral values to obtain upsampled spectral values for adjacent frequencies in the second spectral region representation and copies them to the upsampled spectral values. It is configured to obtain the combined spectral values of each of the two or more coupled spectral region representations.
The spectrum weighting device (200) combines the weight value for a specific band among the weight values for each of the first bands with the weight value for the specific band among the weight values for each second band. The down mixer according to claim 30, wherein (136) is configured to acquire the derived weight value for the specific band among the derived weight values for each band.
前記第2のチャネルは、特定の時間部分(TCX20)について、前記第2のスペクトル領域表現を含み、
前記第1のチャネルは、前記特定の時間部分(2xTCX10)について、2つ以上の前記第1のスペクトル領域表現を含み、
前記重み値推定器(100)は、前記2つ以上の第1のスペクトル領域表現を、前記第2のスペクトル領域表現と同じ時間分解能を有する前記第1の結合スペクトル領域表現に変換し、
前記第2のスペクトル領域表現を前記2つ以上の第1のスペクトル領域表現と同じ周波数分解能を有する前記第2の結合スペクトル領域表現に変換し、
前記第1の結合スペクトル領域表現及び前記第2の結合スペクトル領域表現を使用して前記帯域ごとの重み値を計算するように構成され、
前記スペクトル重み付け器(200)は、前記帯域ごとの重み値を使用して前記第2のスペクトル領域表現に重み付けし、同じ帯域ごとの重み値を使用して前記2つ以上の第1のスペクトル領域表現の各第1のスペクトル領域表現に重み付けするように構成される、請求項25に記載のダウンミキサ。
The second channel comprises the second spectral region representation for a particular time portion (TCX20).
The first channel comprises two or more of the first spectral region representations for the particular time portion (2xTCX10).
The weight value estimator (100) converts the two or more first spectral region representations into the first coupled spectral region representation having the same time resolution as the second spectral region representation.
The second spectral region representation is converted into the second coupled spectral region representation having the same frequency resolution as the two or more first spectral region representations.
It is configured to calculate the weight value for each band using the first coupled spectral region representation and the second coupled spectral region representation.
The spectrum weighting device (200) uses the weight values for each band to weight the second spectral region representation, and uses the weight values for the same band to use the weight values for each of the two or more first spectral regions. 25. The downmixer of claim 25, configured to weight each first spectral region representation of the representation.
前記重み値推定器(100)は、前記第2のスペクトル領域表現の周波数対のスペクトル値を加算して、前記第2の結合スペクトル領域表現を取得し、前記2つ以上の前記第1のスペクトル領域表現の同じ周波数のスペクトル値を加算して、前記第1の結合スペクトル領域表現を取得するように構成され、
前記スペクトル重み付け器(200)は、同じ帯域ごとの重み値を使用して、前記2つ以上の第1のスペクトル領域表現の各第1のスペクトル領域表現において同じ周波数を有する帯域に重み付けするように構成される、請求項32に記載のダウンミキサ。
The weight value estimator (100) adds the spectrum values of the frequency pairs of the second spectral region representation to obtain the second coupled spectral region representation, and the two or more said first spectra. It is configured to add the spectral values of the same frequency of the region representation to obtain the first coupled spectral region representation.
The spectrum weighting device (200) uses the same band-by-band weighting value to weight bands having the same frequency in each of the first spectral region representations of the two or more first spectral region representations. 32. The down mixer according to claim 32.
前記重み値推定器(100)は、前記第1のチャネルの第1のスペクトル領域表現の少なくとも2つのスペクトル値、前記第2のチャネルの第2のスペクトル領域表現のスペクトル値、前記第1のスペクトル領域表現又は前記第2のスペクトル領域表現の前記スペクトル値から導出された単一の結合スペクトル領域表現のスペクトル値、前記第1のスペクトル領域表現のスペクトル値から導出された第1の結合スペクトル領域表現の前記スペクトル値から導出された第1の結合スペクトル領域表現のスペクトル値、及び前記第2のスペクトル領域表現の前記スペクトル値から導出された第2の結合スペクトル領域表現のスペクトル値に依存する第1の計算規則を使用して、前記少なくとも2つのチャネルの第1のチャネルの複数の帯域について複数の第1の帯域ごとの重み値を計算するように構成され、
前記重み値推定器(100)は、少なくとも2つの前記複数の第1の帯域ごとの重み値、前記第1のチャネルの前記第1のスペクトル領域表現の前記スペクトル値、前記第2のチャネルの前記第2のスペクトル領域表現の前記スペクトル値、前記第1のスペクトル領域表現又は前記第2のスペクトル領域表現の前記スペクトル値から導出された前記単一の結合スペクトル領域表現の前記スペクトル値、前記第1のスペクトル領域表現の前記スペクトル値から導出された第1の結合スペクトル領域表現の前記スペクトル値、及び前記第2のスペクトル領域表現の前記スペクトル値から導出された第2の結合スペクトル領域表現の前記スペクトル値に依存する第2の計算規則を使用して、前記少なくとも2つのチャネルの前記第1のチャネルの複数の帯域について複数の第2の帯域ごとの重み値を計算するように構成され、前記第2の計算規則は前記第1の計算規則とは異なる、請求項1から33のいずれか一項に記載のダウンミキサ。
The weight value estimator (100) has at least two spectral values of the first spectral region representation of the first channel, a spectral value of the second spectral region representation of the second channel, and the first spectrum. A single coupled spectral region representation derived from the spectral values of the region representation or the second spectral region representation, a first coupled spectral region representation derived from the spectral values of the first spectral region representation. Depends on the spectral value of the first coupled spectral region representation derived from the spectral value of the second spectral region representation and the spectral value of the second coupled spectral region representation derived from the spectral value of the second spectral region representation. It is configured to calculate the weight values for each of the plurality of first bands for the plurality of bands of the first channel of the at least two channels using the calculation rule of.
The weight value estimator (100) has at least two weight values for each of the plurality of first bands, the spectral value of the first spectral region representation of the first channel, and the said of the second channel. The spectral value of the single coupled spectral region representation derived from the spectral value of the second spectral region representation, the first spectral region representation or the spectral value of the second spectral region representation, said first. The spectrum value of the first coupled spectral region representation derived from the spectral value of the spectral region representation of, and the spectrum of the second coupled spectral region representation derived from the spectral value of the second spectral region representation. The second calculation rule, which depends on the value, is configured to calculate the weight value for each of the plurality of second bands for the plurality of bands of the first channel of the at least two channels. The downmixer according to any one of claims 1 to 33, wherein the calculation rule of 2 is different from the first calculation rule.
少なくとも2つのチャネルを有するマルチチャネル信号をダウンミックスするためのダウンミキサであって、
前記少なくとも2つのチャネルの帯域ごとの重み値を推定するための重み値推定器(100)であって、前記重み値推定器(100)は、帯域ごとの目標エネルギー値に基づいて前記帯域ごとの重み値を計算し、その結果、ダウンミックス信号の前記帯域におけるエネルギーが前記少なくとも2つのチャネルの同じ帯域におけるエネルギーと所定の関係にあるように構成される、重み値推定器(100)と、
前記帯域ごとの重み値を使用して前記少なくとも2つのチャネルのスペクトル領域表現を重み付けして、重み付けされたスペクトル領域表現を取得するためのスペクトル重み付け器(200)と、
前記少なくとも2つのチャネルの前記重み付けされたスペクトル領域表現を使用して前記ダウンミックス信号を計算するためのミキサ(400)と
を備える、ダウンミキサ。
A downmixer for downmixing a multichannel signal with at least two channels.
It is a weight value estimator (100) for estimating the weight value for each band of at least two channels, and the weight value estimator (100) is for each band based on the target energy value for each band. A weight value estimator (100), wherein the weight value is calculated so that the energy in the band of the downmix signal is configured to have a predetermined relationship with the energy in the same band of the at least two channels.
A spectral weighter (200) for weighting the spectral region representations of the at least two channels using the bandwise weighting values to obtain a weighted spectral region representation.
A downmixer comprising the mixer (400) for computing the downmix signal using the weighted spectral region representation of the at least two channels.
前記スペクトル領域表現は純実数又は純虚数のいずれかであり、
前記重み値推定器(100)は、前記スペクトル領域表現が純実数である場合、虚数スペクトル領域表現を推定する(140)、又は前記スペクトル領域表現が純虚数である場合、実数スペクトル領域表現を推定する(140)ように構成され、
前記重み値推定器(100)は、推定された前記虚数スペクトル領域表現又は推定された前記実数ペクトル領域表現を使用して前記帯域ごとの重み値を推定するように構成される、請求項35に記載のダウンミキサ。
The spectral region representation is either a pure real number or a pure imaginary number.
The weight value estimator (100) estimates the imaginary spectral domain representation when the spectral domain representation is a pure real number (140), or estimates the real spectral domain representation when the spectral domain representation is a pure imaginary number. (140) configured to
35. The down mixer described.
前記重み値推定器(100)は、前記少なくとも2つのチャネルのうちの第1のチャネルの帯域に対する第1の重み値を計算し、前記少なくとも2つのチャネルのうちの第2のチャネルの前記帯域に対する第2の重み値を計算し、前記帯域内の前記第1のチャネルのエネルギーと、前記帯域内の前記第2のチャネルのエネルギーと、前記帯域内の前記少なくとも2つのチャネルからのスペクトル値の積(148)又は線形結合(146)に依存する混合項とを用いて(142)、前記第1の重み値及び前記第2の重み値を計算するように構成される、請求項35又は36に記載のダウンミキサ。 The weight value estimator (100) calculates a first weight value for the band of the first channel of the at least two channels, and for the band of the second channel of the at least two channels. The second weight value is calculated and the product of the energy of the first channel in the band, the energy of the second channel in the band, and the spectral values from at least two channels in the band. 35 or 36, which is configured to calculate the first weight value and the second weight value using (148) or a mixed term depending on the linear coupling (146) (142). The down mixer described. 前記重み値推定器(100)は、前記線形結合(146)を表す前記混合項として、前記少なくとも2つのチャネルの前記スペクトル領域表現から前記帯域内で互いに加算されたスペクトル値のエネルギーの平方根を計算するように構成され、前記帯域は複数のスペクトル値を含むか、又は、前記積(148)を表す前記混合項として、前記少なくとも2つのチャネルのうちの第1のチャネルの前記帯域内の前記スペクトル値と第2のチャネルの前記帯域内の前記スペクトル値との間の複素ドット積の絶対値を計算するように構成される、請求項35から37のいずれか一項に記載のダウンミキサ。 The weight value estimator (100) calculates the square root of the energy of the spectral values added to each other in the band from the spectral region representation of the at least two channels as the mixed term representing the linear coupling (146). The band comprises a plurality of spectral values or, as the mixed term representing the product (148), the spectrum within the band of the first channel of the at least two channels. The downmixer according to any one of claims 35 to 37, configured to calculate the absolute value of the complex dot product between the value and the spectral value within the band of the second channel. 前記少なくとも2つのチャネルのうちの第1及び第2のチャネルの各帯域は複数のスペクトル値を有し、前記スペクトル重み付け器(200)は、前記少なくとも2つのチャネルのうちの一方の前記帯域の各スペクトル値に同じ重みを適用し、前記少なくとも2つのチャネルのうちの別のチャネルの前記帯域の各スペクトル値に別の重みを適用するように構成される、請求項35から38のいずれか一項に記載のダウンミキサ。 Each band of the first and second channels of the at least two channels has a plurality of spectral values, and the spectrum weighting device (200) is used for each of the bands of one of the at least two channels. One of claims 35-38, wherein the same weights are applied to the spectral values and different weights are applied to each spectral value in the band of another channel of the at least two channels. The down mixer described in. 前記重み値推定器(100)は、以下の式に基づいて、前記少なくとも2つのチャネルのうちの第1のチャネルの前記帯域ごとの重み値を計算する(150)ように構成され、
Figure 2022522706000070
式中、wは、帯域の前記第1のチャネルの重み係数であり、
Figure 2022522706000071
は、前記第2のチャネルの推定電力であり、
Figure 2022522706000072
は、前記帯域の前記第1のチャネルの推定電力であり、
Figure 2022522706000073
は、前記帯域の前記チャネル間の推定ドット積であり、
Figure 2022522706000074
は、前記帯域の前記第2のチャネルの推定振幅であり、
Figure 2022522706000075
は、前記帯域の前記第1のチャネルの推定振幅である、請求項35から39のいずれか一項に記載のダウンミキサ。
The weight value estimator (100) is configured to calculate the weight value for each band of the first channel of the at least two channels based on the following equation (150).
Figure 2022522706000070
In the equation, w R is the weighting factor of the first channel of the band.
Figure 2022522706000071
Is the estimated power of the second channel.
Figure 2022522706000072
Is the estimated power of the first channel in the band,
Figure 2022522706000073
Is the estimated dot product between the channels in the band.
Figure 2022522706000074
Is the estimated amplitude of the second channel in the band.
Figure 2022522706000075
35. The down mixer according to any one of claims 35 to 39, wherein is the estimated amplitude of the first channel in the band.
前記重み値推定器(100)は、以下の式に基づいて、前記少なくとも2つのチャネルのうちの第2のチャネルの前記帯域ごとの重み値を計算する(152)ように構成され、
Figure 2022522706000076
式中、wは、前記帯域の前記第2のチャネルの重み係数であり、
Figure 2022522706000077
は、前記帯域の前記第1のチャネル及び前記第2のチャネルの前記推定振幅の推定線形結合である、請求項40に記載のダウンミキサ。
The weight value estimator (100) is configured to calculate the weight value for each band of the second channel of the at least two channels based on the following equation (152).
Figure 2022522706000076
In the equation, w L is the weighting factor of the second channel in the band.
Figure 2022522706000077
40 is the downmixer according to claim 40, wherein is an estimated linear combination of the estimated amplitudes of the first channel and the second channel of the band.
前記重み値推定器(100)は、前記帯域内の前記第2のチャネルの前記推定振幅を計算し(144)、次の式に基づいて前記帯域内の前記第1のチャネルの前記推定振幅を計算するように構成される:
Figure 2022522706000078
、又は、
前記重み値推定器(100)は、次の式に基づいて、前記帯域内の前記第1のチャネル及び前記第2のチャネルの前記推定振幅の前記推定線形結合を計算(146)するように構成される:
Figure 2022522706000079
、又は、
前記重み値推定器(100)は、次の式に基づいて、前記帯域内の前記チャネル間の前記推定ドット積を計算する(148)ように構成される:
Figure 2022522706000080
、又は、
前記重み値推定器(100)は、次の式に基づいて、前記帯域内の前記第2のチャネルの前記推定電力又は前記帯域内の前記第1のチャネルの前記推定電力を計算する(142)ように構成される:
Figure 2022522706000081
式中、iはスペクトル帯域
Figure 2022522706000082
内の前記ビン番号を指定し、
Figure 2022522706000083
は、MDCTビンiの推定虚数部を表し、
Figure 2022522706000084
は、前記第1のチャネル又は前記第2のチャネルの前記スペクトル領域表現に含まれる前記MDCTビンiの実数部を表し、rは前記第1のチャネルを表し、lは前記第2のチャネルを表す、請求項39から41のいずれか一項に記載のダウンミキサ。
The weight value estimator (100) calculates the estimated amplitude of the second channel in the band (144) and calculates the estimated amplitude of the first channel in the band based on the following equation. Constructed to calculate:
Figure 2022522706000078
, Or
The weight value estimator (100) is configured to calculate (146) the estimated linear combination of the estimated amplitudes of the first channel and the second channel in the band based on the following equation. Be done:
Figure 2022522706000079
, Or
The weight value estimator (100) is configured to calculate the estimated dot product between the channels in the band (148) based on the following equation:
Figure 2022522706000080
, Or
The weight value estimator (100) calculates the estimated power of the second channel in the band or the estimated power of the first channel in the band based on the following equation (142). It is configured as:
Figure 2022522706000081
In the equation, i is the spectral band
Figure 2022522706000082
Specify the bin number in
Figure 2022522706000083
Represents the estimated imaginary part of MDCT bin i,
Figure 2022522706000084
Represents the real part of the MDCT bin i included in the spectral region representation of the first channel or the second channel, r represents the first channel and l represents the second channel. , The down mixer according to any one of claims 39 to 41.
前記少なくとも2つのチャネルの第1のチャネルの第1のスペクトル領域表現は、第1の時間分解能又は第1の周波数分解能を有し、前記少なくとも2つのチャネルの第2のチャネルの第2のスペクトル領域表現は、第2の時間分解能又は第2の周波数分解能を有し、前記第2の時間分解能は前記第1の時間分解能とは異なり、前記第2の周波数分解能は前記第1の周波数分解能(130)とは異なり、
前記重み値推定器(100)は、前記第1のスペクトル領域表現を前記第2の時間分解能又は前記第2の周波数分解能を有する結合スペクトル領域表現に変換し(132)、前記結合スペクトル領域表現及び前記第2のスペクトル領域表現を使用して前記帯域ごとの重み値(134)を計算する、又は前記第2のスペクトル領域表現を前記第1の時間分解能又は前記第1の周波数分解能を有する結合スペクトル領域表現に変換し(132)、前記結合スペクトル領域表現及び前記第1のスペクトル領域表現を使用して前記帯域ごとの重み値を計算し(134)、又は
前記少なくとも2つのチャネルの第1のチャネルの第1のスペクトル領域表現は、第1の時間分解能又は第1の周波数分解能を有し、前記少なくとも2つのチャネルの第2のチャネルの第2のスペクトル領域表現は、第2の時間分解能又は第2の周波数分解能を有し、前記第2の時間分解能は、前記第1の時間分解能とは異なり、前記第2の周波数分解能は、前記第1の周波数分解能(130)とは異なり、
前記重み値推定器(100)は、
前記第1のスペクトル領域表現を、第3の時間分解能又は第3の周波数分解能を有する第1の結合スペクトル領域表現に変換(132)し、
前記第3の時間分解能は、前記第1の時間分解能又は前記第2の時間分解能とは異なり、前記第3の周波数分解能は、前記第1の周波数分解能又は前記第2の周波数分解能とは異なり、
前記第2のスペクトル領域表現を、前記第3の時間分解能又は前記第3の周波数分解能を有する第2の結合スペクトル領域表現に変換(132)し、
前記第1の結合スペクトル領域表現及び前記第2の結合スペクトル領域表現を使用して、前記帯域ごとの重み値を計算する(134)ように構成される、請求項35から42のいずれか一項に記載のダウンミキサ。
The first spectral region representation of the first channel of the at least two channels has a first time resolution or a first frequency resolution and a second spectral region of the second channel of the at least two channels. The representation has a second time resolution or a second frequency resolution, the second time resolution is different from the first time resolution, and the second frequency resolution is the first frequency resolution (130). )Unlike,
The weight value estimator (100) converts the first spectral region representation into a coupled spectral region representation having the second time resolution or the second frequency resolution (132), and the coupled spectral region representation and The second spectral region representation is used to calculate the weight value (134) for each band, or the second spectral region representation is a coupled spectrum having the first time resolution or the first frequency resolution. Converted to a region representation (132), the combined spectral region representation and the first spectral region representation are used to calculate the weight value for each band (134), or the first channel of the at least two channels. The first spectral region representation of the first spectral region representation has a first time resolution or a first frequency resolution, and the second spectral region representation of the second channel of the at least two channels has a second temporal resolution or a second. It has 2 frequency resolutions, the second time resolution is different from the first time resolution, and the second frequency resolution is different from the first frequency resolution (130).
The weight value estimator (100) is
The first spectral region representation is converted (132) into a first coupled spectral region representation having a third time resolution or a third frequency resolution.
The third time resolution is different from the first time resolution or the second time resolution, and the third frequency resolution is different from the first frequency resolution or the second frequency resolution.
The second spectral region representation is converted (132) into a second coupled spectral region representation having the third time resolution or the third frequency resolution.
Any one of claims 35 to 42 configured to calculate the weight value for each band using the first coupled spectral region representation and the second coupled spectral region representation (134). The down mixer described in.
前記スペクトル重み付け器(200)は、前記少なくとも2つのチャネルの前記スペクトル領域表現として、前記結合スペクトル領域表現及び前記第2のスペクトル領域表現、前記結合スペクトル領域表現及び前記第1のスペクトル領域表現、並びに前記第1の結合スペクトル領域表現及び前記第2の結合スペクトル領域表現のうちの一方を重み付けして、第1の重み付けされたスペクトル領域表現及び第2の重み付けされたスペクトル領域表現を取得するように構成される、請求項43に記載のダウンミキサ。 The spectrum weighting device (200) has, as the spectral region representation of the at least two channels, the combined spectral region representation and the second spectral region representation, the combined spectral region representation and the first spectral region representation, and the first spectral region representation. One of the first coupled spectral region representation and the second coupled spectral region representation is weighted to obtain the first weighted spectral region representation and the second weighted spectral region representation. The downmixer according to claim 43, which is configured. 前記ミキサ(400)は、前記第1の重み付けされたスペクトル領域表現と前記第2の重み付けされたスペクトル領域表現とを加算してスペクトル領域ダウンミックス表現を取得し、前記時間領域内の前記スペクトル領域ダウンミックス表現を変換して前記ダウンミックス信号を取得する、又は前記第1の重み付けされたスペクトル領域表現及び前記第2の重み付けされたスペクトル領域表現を前記時間領域に変換して前記少なくとも2つのチャネルの時間表現を取得し、前記少なくとも2つのチャネルの前記時間表現を加算して前記ダウンミックス信号を取得するように構成される、請求項44に記載のダウンミキサ。 The mixer (400) adds the first weighted spectral region representation and the second weighted spectral region representation to obtain a spectral region downmix representation and obtains the spectral region downmix representation within the time domain. The downmix representation is converted to obtain the downmix signal, or the first weighted spectral region representation and the second weighted spectral region representation are converted to the time domain to obtain the at least two channels. 44. The downmixer according to claim 44, which is configured to acquire the time representation of and add the time representations of the at least two channels to obtain the downmix signal. 少なくとも2つのチャネルを有するマルチチャネル信号をダウンミックスするための方法であって、
前記少なくとも2つのチャネルの帯域ごとの重み値を推定することと、
前記帯域ごとの重み値を使用して前記少なくとも2つのチャネルのスペクトル領域表現を重み付けすることと、
前記少なくとも2つのチャネルの重み付けされたスペクトル領域表現を前記少なくとも2つのチャネルの時間表現に変換することと、
ダウンミックス信号を取得するために前記少なくとも2つのチャネルの前記時間表現を混合することと
を含む、方法。
A method for downmixing a multichannel signal with at least two channels.
Estimating the band-by-band weight values for at least two channels,
Using the band-by-band weighting values to weight the spectral region representation of the at least two channels,
Converting the weighted spectral region representation of the at least two channels into the temporal representation of the at least two channels,
A method comprising mixing the temporal representations of the at least two channels to obtain a downmix signal.
少なくとも2つのチャネルを有するマルチチャネル信号をダウンミックスするための方法であって、
前記少なくとも2つのチャネルの帯域ごとの重み値を推定することであって、帯域ごとの目標エネルギー値に基づいて前記帯域ごとの重み値を計算し、その結果、ダウンミックス信号の前記帯域におけるエネルギーが前記少なくとも2つのチャネルの同じ帯域におけるエネルギーと所定の関係にあることを含む、ことと、
前記帯域ごとの重み値を使用して前記少なくとも2つのチャネルのスペクトル領域表現を重み付けして、重み付けされたスペクトル領域表現を取得することと、
前記少なくとも2つのチャネルの前記重み付けされたスペクトル領域表現を使用して前記ダウンミックス信号を計算することと
を含む、方法。
A method for downmixing a multichannel signal with at least two channels.
It is to estimate the weight value for each band of the at least two channels, and the weight value for each band is calculated based on the target energy value for each band, and as a result, the energy of the downmix signal in the band is calculated. Including having a predetermined relationship with energy in the same band of at least two channels.
To obtain a weighted spectral region representation by weighting the spectral region representations of the at least two channels using the band-by-band weighting values.
A method comprising computing the downmix signal using the weighted spectral region representation of the at least two channels.
コンピュータ又はプロセッサを実行するときに、請求項46又は47に記載の方法を実行するためのコンピュータプログラム。
ダウンミキサ及びダウンミックス方法

A computer program for performing the method of claim 46 or 47 when running a computer or processor.
Down mixer and down mix method

JP2021550157A 2019-03-06 2020-03-04 Down mixer and down mix method Active JP7416816B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023188061A JP2024001324A (en) 2019-03-06 2023-11-02 Downmixer and down-mixing method
JP2023188062A JP2024001325A (en) 2019-03-06 2023-11-02 Downmixer and down-mixing method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19161076 2019-03-06
EP19161076.5 2019-03-06
PCT/EP2020/055669 WO2020178321A1 (en) 2019-03-06 2020-03-04 Downmixer and method of downmixing

Related Child Applications (2)

Application Number Title Priority Date Filing Date
JP2023188061A Division JP2024001324A (en) 2019-03-06 2023-11-02 Downmixer and down-mixing method
JP2023188062A Division JP2024001325A (en) 2019-03-06 2023-11-02 Downmixer and down-mixing method

Publications (2)

Publication Number Publication Date
JP2022522706A true JP2022522706A (en) 2022-04-20
JP7416816B2 JP7416816B2 (en) 2024-01-17

Family

ID=65801834

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2021550157A Active JP7416816B2 (en) 2019-03-06 2020-03-04 Down mixer and down mix method
JP2023188062A Pending JP2024001325A (en) 2019-03-06 2023-11-02 Downmixer and down-mixing method
JP2023188061A Pending JP2024001324A (en) 2019-03-06 2023-11-02 Downmixer and down-mixing method

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2023188062A Pending JP2024001325A (en) 2019-03-06 2023-11-02 Downmixer and down-mixing method
JP2023188061A Pending JP2024001324A (en) 2019-03-06 2023-11-02 Downmixer and down-mixing method

Country Status (13)

Country Link
US (1) US20210375293A1 (en)
EP (1) EP3935630A1 (en)
JP (3) JP7416816B2 (en)
KR (1) KR20210137121A (en)
CN (1) CN113544774A (en)
AU (2) AU2020233210B2 (en)
BR (1) BR112021017197A2 (en)
CA (1) CA3132404A1 (en)
MX (1) MX2021010570A (en)
SG (1) SG11202108895TA (en)
TW (2) TW202042214A (en)
WO (2) WO2020178322A1 (en)
ZA (1) ZA202107327B (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009194877A (en) * 2008-02-18 2009-08-27 Sharp Corp Audio signal transforming apparatus, audio signal transforming method, control program, and computer-readable recording medium
JP2013511062A (en) * 2009-11-12 2013-03-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Parametric encoding and decoding
WO2018086948A1 (en) * 2016-11-08 2018-05-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for downmixing or upmixing a multichannel signal using phase compensation
WO2018086946A1 (en) * 2016-11-08 2018-05-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer and method for downmixing at least two channels and multichannel encoder and multichannel decoder

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE602004029872D1 (en) * 2003-03-17 2010-12-16 Koninkl Philips Electronics Nv PROCESSING OF MULTICHANNEL SIGNALS
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
DE602005022641D1 (en) * 2004-03-01 2010-09-09 Dolby Lab Licensing Corp Multi-channel audio decoding
BRPI0716315A2 (en) * 2006-10-25 2017-05-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Apparatus and method for generating audio subband values and Apparatus and method for generating time domain audio samples
KR20080076691A (en) * 2007-02-14 2008-08-20 엘지전자 주식회사 Method and device for decoding and encoding multi-channel audio signal
US8311810B2 (en) * 2008-07-29 2012-11-13 Panasonic Corporation Reduced delay spatial coding and decoding apparatus and teleconferencing system
DE102008056704B4 (en) 2008-11-11 2010-11-04 Institut für Rundfunktechnik GmbH Method for generating a backwards compatible sound format
EP2237266A1 (en) * 2009-04-03 2010-10-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal
KR101756838B1 (en) * 2010-10-13 2017-07-11 삼성전자주식회사 Method and apparatus for down-mixing multi channel audio signals
CN103959375B (en) * 2011-11-30 2016-11-09 杜比国际公司 The enhanced colourity extraction from audio codec
WO2013183928A1 (en) * 2012-06-04 2013-12-12 삼성전자 주식회사 Audio encoding method and device, audio decoding method and device, and multimedia device employing same
TWI618051B (en) * 2013-02-14 2018-03-11 杜比實驗室特許公司 Audio signal processing method and apparatus for audio signal enhancement using estimated spatial parameters
WO2016019130A1 (en) * 2014-08-01 2016-02-04 Borne Steven Jay Audio device
US10217467B2 (en) * 2016-06-20 2019-02-26 Qualcomm Incorporated Encoding and decoding of interchannel phase differences between audio signals
JP2017058696A (en) * 2016-12-09 2017-03-23 ホアウェイ・テクノロジーズ・カンパニー・リミテッド Inter-channel difference estimation method and space audio encoder
GB2561596A (en) * 2017-04-20 2018-10-24 Nokia Technologies Oy Audio signal generation for spatial audio mixing

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009194877A (en) * 2008-02-18 2009-08-27 Sharp Corp Audio signal transforming apparatus, audio signal transforming method, control program, and computer-readable recording medium
JP2013511062A (en) * 2009-11-12 2013-03-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Parametric encoding and decoding
WO2018086948A1 (en) * 2016-11-08 2018-05-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for downmixing or upmixing a multichannel signal using phase compensation
WO2018086946A1 (en) * 2016-11-08 2018-05-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer and method for downmixing at least two channels and multichannel encoder and multichannel decoder
JP2019537057A (en) * 2016-11-08 2019-12-19 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. Downmixer and method for downmixing at least two channels and multi-channel encoder and multi-channel decoder
JP2020500336A (en) * 2016-11-08 2020-01-09 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. Apparatus and method for downmixing or upmixing a multi-channel signal using phase compensation

Also Published As

Publication number Publication date
CN113544774A (en) 2021-10-22
JP2024001324A (en) 2024-01-09
TWI760705B (en) 2022-04-11
WO2020178321A1 (en) 2020-09-10
TW202101427A (en) 2021-01-01
CA3132404A1 (en) 2020-09-10
ZA202107327B (en) 2022-08-31
AU2020233210A1 (en) 2021-11-04
JP2024001325A (en) 2024-01-09
BR112021017197A2 (en) 2021-11-09
KR20210137121A (en) 2021-11-17
EP3935630A1 (en) 2022-01-12
TW202042214A (en) 2020-11-16
MX2021010570A (en) 2021-10-13
JP7416816B2 (en) 2024-01-17
WO2020178322A1 (en) 2020-09-10
AU2020233210B2 (en) 2023-09-28
SG11202108895TA (en) 2021-09-29
US20210375293A1 (en) 2021-12-02
AU2023258388A1 (en) 2023-11-23

Similar Documents

Publication Publication Date Title
JP7270096B2 (en) Apparatus and method for encoding or decoding multi-channel signals using frame control synchronization
KR101356972B1 (en) Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing
US9401151B2 (en) Parametric encoder for encoding a multi-channel audio signal
RU2741379C1 (en) Equipment for encoding or decoding an encoded multi-channel signal using filling signal formed by wideband filter
RU2749349C1 (en) Audio scene encoder, audio scene decoder, and related methods using spatial analysis with hybrid encoder/decoder
RU2696952C2 (en) Audio coder and decoder
WO2010140350A1 (en) Down-mixing device, encoder, and method therefor
KR20180009337A (en) Method and apparatus for processing an internal channel for low computation format conversion
JP7416816B2 (en) Down mixer and down mix method
RU2791673C1 (en) Downmix device and downmix method
RU2791872C1 (en) Device, method, or computer program for generation of output downmix representation
JP7348304B2 (en) Apparatus and computer program for generating an output downmix representation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211020

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221101

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240104

R150 Certificate of patent or registration of utility model

Ref document number: 7416816

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150