JP2022163058A - Stereo signal coding method and stereo signal encoder - Google Patents

Stereo signal coding method and stereo signal encoder Download PDF

Info

Publication number
JP2022163058A
JP2022163058A JP2022115641A JP2022115641A JP2022163058A JP 2022163058 A JP2022163058 A JP 2022163058A JP 2022115641 A JP2022115641 A JP 2022115641A JP 2022115641 A JP2022115641 A JP 2022115641A JP 2022163058 A JP2022163058 A JP 2022163058A
Authority
JP
Japan
Prior art keywords
energy
parameter
subbands
residual signal
res
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022115641A
Other languages
Japanese (ja)
Inventor
▲賓▼ 王
Bin Wang
▲澤▼新 ▲劉▼
Zexin Liu
▲海▼▲ティン▼ 李
Haiting Li
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2022163058A publication Critical patent/JP2022163058A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/756Media network packet handling adapting media to device capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a stereo signal coding method and a stereo signal encoder that reduce high-frequency distortion of decoded stereo signals as much as possible while improving the spatial sense and sound image stability of the decoded stereo signals.
SOLUTION: A coding method has a step 301 of determining residual signal coding parameters for a current frame of a stereo signal based on downmix signal energy and residual signal energy of each of M subbands of the current frame. The residual signal coding parameters of the current frame are used for indicating whether to code the residual signal of the M subbands. The M subbands are at least a portion of N subbands, where N is a positive integer greater than 1, M≤N and M is a positive integer. The method further includes a step 302 of determining whether to encode the residual signal of the M subbands of the current frame based on the residual signal coding parameters of the current frame.
SELECTED DRAWING: Figure 6
COPYRIGHT: (C)2023,JPO&INPIT

Description

本出願は、参照によりその全体が本明細書に組み入れられる、2018年5月31日付で中国特許庁に出願された、「STEREO SIGNAL ENCODING METHOD AND APPARATUS」という名称の中国特許出願第201810549237.3号に基づく優先権を主張するものである。 This application is based on Chinese Patent Application No. 201810549237.3 entitled "STEREO SIGNAL ENCODING METHOD AND APPARATUS" filed with the Chinese Patent Office on May 31, 2018, which is incorporated herein by reference in its entirety. priority based on

本出願はオーディオ分野に関し、より具体的には、ステレオ信号符号化方法およびステレオ信号符号化装置に関する。 The present application relates to the audio field, and more particularly to a stereo signal encoding method and stereo signal encoding apparatus.

時間領域または時間周波数領域のステレオ符号化技術を使用してステレオ信号を符号化する一般的なプロセスは以下のとおりである。
左チャネル時間領域信号および右チャネル時間領域信号に対して時間領域前処理を行い、
時間領域前処理によって得られる左チャネル時間領域信号および右チャネル時間領域信号に対して時間領域解析を行い、
時間領域前処理によって得られる左チャネル時間領域信号および右チャネル時間領域信号に対して時間周波数領域変換を行って、左チャネル周波数領域信号および右チャネル周波数領域信号を得、
時間領域におけるチャネル間時間差(Inter-channel Time Difference、ITD)パラメータを決定し、
ITDパラメータに基づいて左周波数領域信号および右チャネル周波数領域信号に対して時間シフト調整を行い、
時間シフト調整によって得られる左チャネル周波数領域信号および右チャネル周波数領域信号に基づいてステレオパラメータ、ダウンミックス信号、および残差信号を計算し、ステレオパラメータ、ダウンミックス信号、および残差信号を符号化する。
The general process of encoding a stereo signal using time domain or time frequency domain stereo encoding techniques is as follows.
performing time-domain preprocessing on the left-channel time-domain signal and the right-channel time-domain signal;
performing time domain analysis on the left channel time domain signal and the right channel time domain signal obtained by the time domain preprocessing;
performing time frequency domain transformation on the left channel time domain signal and the right channel time domain signal obtained by the time domain preprocessing to obtain a left channel frequency domain signal and a right channel frequency domain signal;
determining the Inter-channel Time Difference (ITD) parameter in the time domain;
performing time shift adjustments to the left frequency domain signal and the right channel frequency domain signal based on the ITD parameters;
Compute stereo parameters, a downmix signal and a residual signal based on the left channel frequency domain signal and the right channel frequency domain signal obtained by time shift adjustment, and encode the stereo parameters, the downmix signal and the residual signal. .

先行技術では、符号化レートが比較的低い場合、ステレオパラメータおよびダウンミックス信号のみが一般に符号化され、符号化レートが比較的高い場合にのみ残差信号の一部または全部が符号化されることが知られている。この場合には、復号されたステレオ信号の空間感覚が比較的低く、復号されたステレオ信号の音像安定性が比較的低い。 In the prior art, only the stereo parameters and the downmix signal are generally coded when the coding rate is relatively low, and part or all of the residual signal is coded only when the coding rate is relatively high. It has been known. In this case, the spatial sensation of the decoded stereo signal is relatively low, and the sound image stability of the decoded stereo signal is relatively low.

他の先行技術では、符号化レートが比較的低い場合、ダウンミックス信号に加えて、事前設定された帯域幅範囲を満足するサブバンドの残差信号も符号化されることが知られている。この符号化方法は復号されたステレオ信号の空間感覚および音像安定性を改善することができるが、残差信号の符号化およびダウンミックス信号の符号化のために使用される符号化ビットの総数が固定され、ダウンミックス信号符号化中に低周波数情報が優先的に符号化されるので、ダウンミックス信号が符号化されるべきときに、一部の信号をダウンミックス信号中のより豊富な高周波数情報で符号化するのに十分なビット数がない可能性がある。したがって、復号されたステレオ信号の高周波歪みが比較的大きく、それによって符号化品質に影響が及ぶ。 In other prior art, it is known that when the coding rate is relatively low, in addition to the downmix signal, residual signals of subbands satisfying a preset bandwidth range are also coded. Although this coding method can improve the spatial perception and sound image stability of the decoded stereo signal, the total number of coding bits used for coding the residual signal and coding the downmix signal is Fixed, the low frequency information is preferentially encoded during downmix signal encoding, so that when the downmix signal is to be encoded, some signals are replaced with more abundant high frequencies in the downmix signal. There may not be enough bits to encode the information. Therefore, the high frequency distortion of the decoded stereo signal is relatively large, which affects the coding quality.

本出願は、復号されたステレオ信号の空間感覚および音像安定性が改善されるとともに復号されたステレオ信号の高周波歪みを可能な限り低減することができ、それによって符号化品質が改善されるような、ステレオ信号符号化方法を提供する。 The present application aims to improve the spatial sensation and sound image stability of the decoded stereo signal and to reduce the high frequency distortion of the decoded stereo signal as much as possible, thereby improving the coding quality. , to provide a stereo signal encoding method.

第1の態様によれば、ステレオ信号符号化方法が提供される。本方法は、ステレオ信号の現在のフレームの残差信号符号化パラメータを、現在のフレームのM個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定するステップであって、現在のフレームの残差信号符号化パラメータが、M個のサブバンドの残差信号を符号化するかどうかを示すために使用され、M個のサブバンドがN個のサブバンドの少なくとも一部であり、Nが1より大きい正の整数であり、M≦N、Mが正の整数である、ステップと、現在のフレームの残差信号符号化パラメータに基づいて、現在のフレームのM個のサブバンドの残差信号を符号化するかどうかを決定するステップとを含む。 According to a first aspect, a stereo signal encoding method is provided. The method comprises determining residual signal coding parameters for a current frame of a stereo signal based on downmix signal energy and residual signal energy for each of M subbands of the current frame, comprising: The residual signal coding parameter of the current frame is used to indicate whether to code the residual signal of the M subbands, where the M subbands are at least part of the N subbands. , where N is a positive integer greater than 1, M ≤ N, M is a positive integer, and the M subs of the current frame based on the residual signal coding parameters of the current frame and determining whether to encode the band's residual signal.

残差信号符号化パラメータは、N個のサブバンド内の、事前設定された帯域幅範囲を満足するM個のサブバンドのダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定され、M個のサブバンドの各々の残差信号を符号化するかどうかは、残差信号符号化パラメータに基づいて決定される。これにより、符号化レートが比較的低い場合にダウンミックス信号のみを符号化することが回避される。あるいは、事前設定された帯域幅範囲を満足するサブバンドのすべての残差信号を符号化するかどうかが、残差信号符号化パラメータに基づいて決定される。したがって、復号されたステレオ信号の空間感覚および音像安定性が改善されると同時に復号されたステレオ信号の高周波歪みを可能な限り低減することができ、それによって符号化品質が改善される。 The residual signal coding parameters are determined based on the downmix signal energy and the residual signal energy of the M subbands within the N subbands, satisfying a preset bandwidth range; Whether to code the residual signal of each subband is determined based on the residual signal coding parameters. This avoids encoding only the downmix signal when the encoding rate is relatively low. Alternatively, whether to code all residual signals in subbands satisfying a preset bandwidth range is determined based on residual signal coding parameters. Therefore, the spatial sensation and sound image stability of the decoded stereo signal are improved, and at the same time, the high frequency distortion of the decoded stereo signal can be reduced as much as possible, thereby improving the coding quality.

第1の態様を参照すると、第1の態様の1つの可能な実施態様において、M個のサブバンドは、N個のサブバンド内の、サブバンドインデックス番号が事前設定された最大サブバンドインデックス番号以下であるM個のサブバンドである。 Referring to the first aspect, in one possible implementation of the first aspect, the M subbands are the preset maximum subband index number among the N subbands. Here are the M subbands:

任意選択で、一実施態様では、M個のサブバンドは、N個のサブバンド内の、サブバンドインデックス番号が事前設定された最小サブバンドインデックス番号以上、事前設定された最大サブバンドインデックス番号以下であるM個のサブバンドである。 Optionally, in one embodiment, the M subbands have a subband index number greater than or equal to a preset minimum subband index number and less than or equal to a preset maximum subband index number in the N subbands. are M subbands.

最小サブバンドインデックス番号および/または最大サブバンドインデックス番号は、異なる符号化レートに基づいて設定される。残差信号符号化パラメータは、異なる符号化レートと、N個のサブバンド内の複数の特定のサブバンドのダウンミックス信号エネルギーおよび残差信号エネルギーとに基づいて決定され、M個のサブバンドの各々の残差信号を符号化するかどうかは、残差信号符号化パラメータに基づいて決定される。これにより、符号化レートが比較的低い場合にダウンミックス信号のみを符号化することが回避される。あるいは、事前設定された帯域幅範囲を満足するサブバンドのすべての残差信号を符号化するかどうかが、残差信号符号化パラメータに基づいて決定される。したがって、復号されたステレオ信号の空間感覚および音像安定性が改善されると同時に復号されたステレオ信号の高周波歪みを可能な限り低減することができ、それによって符号化品質が改善される。 The minimum subband index number and/or maximum subband index number are set based on different coding rates. The residual signal coding parameters are determined based on the different coding rates and the downmix signal energy and residual signal energy of multiple specific subbands within the N subbands, and Whether to code each residual signal is determined based on the residual signal coding parameters. This avoids encoding only the downmix signal when the encoding rate is relatively low. Alternatively, whether to code all residual signals in subbands satisfying a preset bandwidth range is determined based on residual signal coding parameters. Therefore, the spatial sensation and sound image stability of the decoded stereo signal are improved, and at the same time, the high frequency distortion of the decoded stereo signal can be reduced as much as possible, thereby improving the coding quality.

第1の態様を参照すると、第1の態様の1つの可能な実施態様において、現在のフレームの残差信号符号化パラメータに基づいて、M個のサブバンドの各々の残差信号を符号化するかどうかを決定するステップは、現在のフレームの残差信号符号化パラメータを事前設定された第1の閾値と比較するステップであって、第1の閾値が0より大きく1.0より小さい、ステップと、現在のフレームの残差信号符号化パラメータが第1の閾値以下である場合、M個のサブバンドの各々の残差信号を符号化しないと決定するステップ、または現在のフレームの残差信号符号化パラメータが第1の閾値より大きい場合、M個のサブバンドの各々の残差信号を符号化すると決定するステップとを含む。 Referring to the first aspect, in one possible implementation of the first aspect, the residual signal of each of the M subbands is encoded based on the residual signal coding parameters of the current frame. The step of determining whether the residual signal coding parameter of the current frame is compared to a preset first threshold, wherein the first threshold is greater than 0 and less than 1.0, the step and determining not to encode the residual signal of each of the M subbands if the residual signal coding parameter of the current frame is less than or equal to the first threshold; or and determining to encode the residual signal of each of the M subbands if the encoding parameter is greater than a first threshold.

第1の閾値が設定され、決定された残差信号符号化パラメータが、第1の閾値と比較される。M個のサブバンドの各々の残差信号を符号化するかどうかは、残差信号符号化パラメータと第1の閾値との比較結果に基づいて決定される。これにより、符号化レートが比較的低い場合にダウンミックス信号のみを符号化することが回避される。あるいは、事前設定された帯域幅範囲を満足するサブバンドのすべての残差信号を符号化するかどうかが、残差信号符号化パラメータと第1の閾値との比較結果に基づいて決定される。したがって、復号されたステレオ信号の空間感覚および音像安定性が改善されると同時に復号されたステレオ信号の高周波歪みを可能な限り低減することができ、それによって符号化品質が改善される。 A first threshold is set and the determined residual signal coding parameter is compared to the first threshold. Whether to encode the residual signal of each of the M subbands is determined based on the result of comparing the residual signal encoding parameter with the first threshold. This avoids encoding only the downmix signal when the encoding rate is relatively low. Alternatively, whether to encode all residual signals in subbands that satisfy a preset bandwidth range is determined based on the result of comparing the residual signal coding parameter with the first threshold. Therefore, the spatial sensation and sound image stability of the decoded stereo signal are improved, and at the same time, the high frequency distortion of the decoded stereo signal can be reduced as much as possible, thereby improving the coding quality.

第1の態様を参照すると、第1の態様の1つの可能な実施態様において、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて現在のフレームの残差信号符号化パラメータを決定するステップは、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて残差信号符号化パラメータを決定するステップ、を含む。 Referring to the first aspect, in one possible implementation of the first aspect, residual signal encoding of the current frame based on downmix signal energy and residual signal energy for each of the M subbands Determining the parameters includes determining residual signal coding parameters based on the downmix signal energy, the residual signal energy, and the side gains for each of the M subbands.

M個のサブバンドの各々の残差信号符号化パラメータは、ダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて決定され、M個のサブバンドの各々の残差信号を符号化するかどうかは、残差信号符号化パラメータに基づいて決定される。これにより、符号化レートが比較的低い場合にダウンミックス信号のみを符号化することが回避される。あるいは、事前設定された帯域幅範囲を満足するサブバンドのすべての残差信号を符号化するかどうかが、残差信号符号化パラメータに基づいて決定される。したがって、復号されたステレオ信号の空間感覚および音像安定性が改善されると同時に復号されたステレオ信号の高周波歪みを可能な限り低減することができ、それによって符号化品質が改善される。 A residual signal coding parameter for each of the M subbands is determined based on the downmix signal energy, the residual signal energy, and the side gain to encode the residual signal for each of the M subbands. is determined based on the residual signal coding parameters. This avoids encoding only the downmix signal when the encoding rate is relatively low. Alternatively, whether to code all residual signals in subbands satisfying a preset bandwidth range is determined based on residual signal coding parameters. Therefore, the spatial sensation and sound image stability of the decoded stereo signal are improved, and at the same time, the high frequency distortion of the decoded stereo signal can be reduced as much as possible, thereby improving the coding quality.

第1の態様を参照すると、第1の態様の1つの可能な実施態様において、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて残差信号符号化パラメータを決定するステップは、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて第1のパラメータを決定するステップであって、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示す、ステップと、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第2のパラメータを決定するステップであって、第2のパラメータが第1のエネルギー和と第2のエネルギー和との間の値関係を示し、第1のエネルギー和がM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、第2のエネルギー和が、現在のフレームの前のフレームの周波数領域信号におけるM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、現在のフレームのM個のサブバンドが前のフレームのM個のサブバンドと同じサブバンドインデックス番号を有する、ステップと、第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて現在のフレームの残差信号符号化パラメータを決定するステップとを含む。 Referring to the first aspect, in one possible implementation of the first aspect, residual signal encoding based on downmix signal energy, residual signal energy, and side gain for each of the M subbands Determining the parameters includes determining a first parameter based on the downmix signal energy, residual signal energy, and side gain for each of the M subbands, wherein the first parameter is M second step based on the downmix signal energy and the residual signal energy for each of the M subbands, indicating a value relationship between the downmix signal energy and the residual signal energy for each of the M subbands; wherein the second parameter indicates a value relationship between the first energy sum and the second energy sum, and the first energy sum is the residual signal of the M subbands a sum of the energy and the downmix signal energy, a second energy sum being the sum of the residual signal energy and the downmix signal energy of the M subbands in the frequency-domain signal of the previous frame of the current frame; a step in which the M subbands of the current frame have the same subband index numbers as the M subbands of the previous frame; determining residual signal coding parameters for the current frame based on the long-term smoothing parameters.

第1の態様を参照すると、第1の態様の1つの可能な実施態様において、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて第1のパラメータを決定するステップは、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいてM個のエネルギーパラメータを決定するステップであって、M個のエネルギーパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応する、ステップと、M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを第1のパラメータとして決定するステップとを含む。 Referring to the first aspect, in one possible implementation of the first aspect, the first parameter is determined based on the downmix signal energy, the residual signal energy, and the side gain of each of the M subbands. The determining step is determining M energy parameters based on the downmix signal energy, residual signal energy, and side gain for each of the M subbands, wherein the M energy parameters are equal to M step, respectively showing a value relationship between the downmix signal energy and the residual signal energy of each of the subbands, the M energy parameters corresponding one-to-one with the M subbands; and determining as the first parameter the energy parameter having the maximum value among the energy parameters of .

第1の態様を参照すると、第1の態様の1つの可能な実施態様において、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータが以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/(res_cod_NRG_S[b]+(1-g(b))・(1-g(b))・res_cod_NRG_M[b]+1)
式中、res_dmx_ratio[b]は、サブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表し、g(b)は、サブバンドインデックス番号がbであるサブバンドのサイドゲインside_gain[b]の関数を表す。
Referring to the first aspect, in one possible implementation of the first aspect, the energy parameter of the subband with subband index number b among the M energy parameters satisfies the following equation:
res_dmx_ratio[b] = res_cod_NRG_S[b]/(res_cod_NRG_S[b] + (1-g(b)) (1-g(b)) res_cod_NRG_M[b]+1)
where res_dmx_ratio[b] represents the energy parameter of the subband whose subband index number is b, b is greater than or equal to 0 and less than or equal to the preset maximum subband index number, res_cod_NRG_S[b] represents the residual signal energy of the subband with subband index number b, res_cod_NRG_M[b] represents the downmix signal energy of the subband with subband index number b, and g(b) is 4 represents a function of the side gain side_gain[b] of the subband whose subband index number is b.

第1の態様を参照すると、第1の態様の1つの可能な実施態様において、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて現在のフレームの残差信号符号化パラメータを決定するステップは、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第1のパラメータを決定するステップであって、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示す、ステップと、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第2のパラメータを決定するステップであって、第2のパラメータが第1のエネルギー和と第2のエネルギー和との間の値関係を示し、第1のエネルギー和がM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、第2のエネルギー和が、現在のフレームの前のフレームの周波数領域信号におけるM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、現在のフレームのM個のサブバンドが前のフレームのM個のサブバンドと同じサブバンドインデックス番号を有する、ステップと、第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて現在のフレームの残差信号符号化パラメータを決定するステップとを含む。 Referring to the first aspect, in one possible implementation of the first aspect, residual signal encoding of the current frame based on downmix signal energy and residual signal energy for each of the M subbands Determining the parameter is determining a first parameter based on the downmix signal energy and the residual signal energy for each of the M subbands, the first parameter being the and determining a second parameter based on the downmix signal energy and the residual signal energy for each of the M subbands. wherein the second parameter indicates a value relationship between the first energy sum and the second energy sum, the first energy sum being the residual signal energy of the M subbands and the downmix is the sum of the signal energies, the second energy sum is the sum of the residual signal energies and the downmix signal energies of the M subbands in the frequency domain signal of the frame before the current frame, and the sum of the downmix signal energies of the current frame; A step in which the M subbands have the same subband index number as the M subbands of the previous frame, and the first parameter, the second parameter, and the long-term smoothing parameter of the frame before the current frame. determining the residual signal coding parameters for the current frame based on .

第1の態様を参照すると、第1の態様の1つの可能な実施態様において、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第1のパラメータを決定するステップは、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいてM個のエネルギーパラメータを決定するステップであって、M個のエネルギーパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応する、ステップと、M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを第1のパラメータとして決定するステップとを含む。 Referring to the first aspect, in one possible implementation of the first aspect, determining the first parameter based on the downmix signal energy and the residual signal energy for each of the M subbands comprises: , determining M energy parameters based on the downmix signal energy and the residual signal energy for each of the M subbands, wherein the M energy parameters are based on the downmix signal energy and the residual signal energy for each of the M subbands. Steps and maximum values among the M energy parameters, each showing a value relationship between the mix signal energy and the residual signal energy, wherein the M energy parameters correspond one-to-one with the M subbands; as the first parameter.

任意選択で、一実施態様では、M個のエネルギーパラメータの和が、(補正されるべき)第1のパラメータres_dmx_ratio1として決定され、res_dmx_ratio1は、M個のエネルギーパラメータのうちの最大値res_dmx_ratio_maxおよびM個のサブバンドの各々のダウンミックス信号エネルギーres_cod_NRG_M[b]に基づいて補正され、補正によって得られたres_dmx_ratio2が決定される。 Optionally, in one implementation, the sum of the M energy parameters is determined as the first parameter res_dmx_ratio 1 (to be corrected), where res_dmx_ratio 1 is the maximum of the M energy parameters res_dmx_ratio_max and Corrected based on the downmix signal energy res_cod_NRG_M[b] of each of the M subbands to determine res_dmx_ratio 2 obtained by correction.

例えば、符号器側はres_dmx_ratio1を以下の式に従って補正し、式中、M=5であり、
補正によって得られたres_dmx_ratio2は以下の式を満たす。

Figure 2022163058000002
For example, the encoder side corrects res_dmx_ratio 1 according to the following formula, where M=5,
res_dmx_ratio 2 obtained by correction satisfies the following equation.
Figure 2022163058000002

任意選択で、一実施態様では、補正によって得られたres_dmx_ratio2がさらに補正され得る。 Optionally, in one implementation, the res_dmx_ratio 2 obtained by correction may be further corrected.

例えば、補正によって最終的に得られたres_dmx_ratio3は以下の式を満たし、
res_dmx_ratio3=pow(res_dmx_ratio2,1.2)
式中、pow()関数は、指数関数を表し、pow(res_dmx_ratio2,1.2)は、res_dmx_ratio2の1.2乗を表す。
For example, res_dmx_ratio 3 finally obtained by correction satisfies the following formula,
res_dmx_ratio3 = pow( res_dmx_ratio2 , 1.2)
In the formula, the pow() function represents an exponential function, and pow( res_dmx_ratio2 , 1.2 ) represents res_dmx_ratio2 raised to the power of 1.2.

任意選択で、一実施態様では、符号器側は第1のパラメータを、M個のサブバンドの残差信号エネルギーの和およびM個のサブバンドのダウンミックス信号エネルギーの和に基づいて決定する。 Optionally, in one embodiment, the encoder side determines the first parameter based on the sum of the residual signal energies of the M subbands and the sum of the downmix signal energies of the M subbands.

具体的には、符号器側は、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currとM個のサブバンドの残差信号エネルギーの和res_nrg_all_currとを別々に決定し、dmx_nrg_all_currおよびres_nrg_all_currに基づいて第1のパラメータを決定する。 Specifically, the encoder side separately determines the sum dmx_nrg_all_curr of the downmix signal energies of the M subbands and the sum res_nrg_all_curr of the residual signal energies of the M subbands, and based on dmx_nrg_all_curr and res_nrg_all_curr Determine the first parameter.

任意選択で、一実施態様では、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currは以下の式を満たし、

Figure 2022163058000003
式中、res_cod_NRG_M_prev[b]は、現在のフレームの前のフレームにおけるサブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表し、γ1は、平滑化係数を表し、γ1は、0以上1以下の実数であり、例えば、γ1=0.1である。 Optionally, in one implementation, the sum dmx_nrg_all_curr of the downmix signal energies of the M subbands satisfies the following equation:
Figure 2022163058000003
where res_cod_NRG_M_prev [b] represents the downmix signal energy of the subband with subband index number b in the frame previous to the current frame, γ1 represents the smoothing factor, and γ1 is 0 It is a real number greater than or equal to 1 and less than or equal to 1, for example, γ 1 =0.1.

任意選択で、一実施態様では、M個のサブバンドの残差信号エネルギーの和res_nrg_all_currは以下の式を満たし、

Figure 2022163058000004
式中、res_cod_NRG_S_prev[b]は、現在のフレームの前のフレームにおけるサブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、γ2は、平滑化係数を表し、γ2は、0以上1以下の実数であり、例えば、γ2=0.1である。 Optionally, in one implementation, the sum res_nrg_all_curr of the residual signal energies of the M subbands satisfies the following equation:
Figure 2022163058000004
where res_cod_NRG_S_prev[ b ] represents the residual signal energy of the subband with subband index number b in the frame previous to the current frame, γ2 represents the smoothing factor, and γ2 is 0 It is a real number greater than or equal to 1 and less than or equal to 1. For example, γ 2 =0.1.

符号器側は、dmx_nrg_all_currおよびres_nrg_all_currに基づいて第1のパラメータres_dmx_ratioを決定する。 The encoder side determines the first parameter res_dmx_ratio based on dmx_nrg_all_curr and res_nrg_all_curr.

例えば、符号器側によって最終的に決定された第1のパラメータres_dmx_ratioは以下の式を満たす。
res_dmx_ratio=res_nrg_all_curr/dmx_nrg_all_curr
For example, the first parameter res_dmx_ratio finally determined by the encoder side satisfies the following equation.
res_dmx_ratio = res_nrg_all_curr/dmx_nrg_all_curr

第1の態様を参照すると、第1の態様の1つの可能な実施態様において、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b]
式中、res_dmx_ratio[b]は、サブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表す。
Referring to the first aspect, in one possible implementation of the first aspect, the energy parameter of the subband with subband index number b among the M energy parameters satisfies the following equation:
res_dmx_ratio[b] = res_cod_NRG_S[b]/res_cod_NRG_M[b]
where res_dmx_ratio[b] represents the energy parameter of the subband whose subband index number is b, b is greater than or equal to 0 and less than or equal to the preset maximum subband index number, res_cod_NRG_S[b] res_cod_NRG_M[b] represents the residual signal energy of the subband with subband index number b, and res_cod_NRG_M[b] represents the downmix signal energy of the subband with subband index number b.

第1の態様を参照すると、第1の態様の1つの可能な実施態様において、現在のフレームの残差信号符号化パラメータは、現在のフレームの長期平滑化パラメータであり、現在のフレームの長期平滑化パラメータは以下の式を満たし、
res_dmx_ratio_lt=res_dmx_ratio・α+res_dmx_ratio_lt_prev・(1-α)
式中、res_dmx_ratio_ltは、現在のフレームの長期平滑化パラメータを表し、res_dmx_ratioは、第1のパラメータを表し、res_dmx_ratio_lt_prevは、現在のフレームの前のフレームの長期平滑化パラメータを表し、0<α<1であり、
第2のパラメータが事前設定された第3の閾値より大きい場合、第1のパラメータが事前設定された第2の閾値より小さい場合のαの値は、第1のパラメータが事前設定された第2の閾値以上の場合のαの値より大きく、第2の閾値は0以上0.6以下であり、第3の閾値は2.7以上3.7以下であるか、または
第2のパラメータが事前設定された第5の閾値より小さい場合、第1のパラメータが事前設定された第4の閾値より大きい場合のαの値は、第1のパラメータが事前設定された第4の閾値以下の場合のαの値より大きく、第4の閾値は0以上0.9以下であり、第5の閾値は0以上0.71以下であるか、または
第2のパラメータが事前設定された第5の閾値以上であり、事前設定された第3の閾値以下である場合、αの値は、第1のパラメータが事前設定された第2の閾値より小さく、第2のパラメータが事前設定された第3の閾値より大きい場合のαの値より小さく、第2の閾値は0以上0.6以下であり、第3の閾値は2.7以上3.7以下であり、第5の閾値は0以上0.71以下である。
Referring to the first aspect, in one possible implementation of the first aspect, the current frame residual signal coding parameter is the current frame long-term smoothing parameter, and the current frame long-term smoothing parameter parameter satisfies the following equation,
res_dmx_ratio_lt = res_dmx_ratio · α + res_dmx_ratio_lt_prev · (1 - α)
where res_dmx_ratio_lt represents the long-term smoothing parameter of the current frame, res_dmx_ratio represents the first parameter, res_dmx_ratio_lt_prev represents the long-term smoothing parameter of the frame before the current frame, 0<α<1 and
If the second parameter is greater than the preset third threshold, the value of α if the first parameter is less than the preset second threshold is the same as the preset second is greater than the value of α for greater than or equal to the threshold of , the second threshold is between 0 and 0.6 inclusive, the third threshold is between 2.7 and 3.7 inclusive, or the second parameter is prior to The value of α when the first parameter is greater than the preset fourth threshold is less than the preset fifth threshold, and the value of α when the first parameter is less than or equal to the preset fourth threshold. greater than the value of α and the fourth threshold is between 0 and 0.9 and the fifth threshold is between 0 and 0.71 or the second parameter is greater than or equal to the preset fifth threshold and is less than or equal to a preset third threshold, then the value of α is less than the first parameter preset second threshold and the second parameter is preset third threshold less than the value of α if greater than, the second threshold is 0 or more and 0.6 or less, the third threshold is 2.7 or more and 3.7 or less, and the fifth threshold is 0 or more and 0.71 It is below.

第1の態様を参照すると、第1の態様の1つの可能な実施態様において、本方法は、M個のサブバンドの残差信号を符号化すると決定されるときに、M個のサブバンドのダウンミックス信号および残差信号を符号化するステップ、またはM個のサブバンドの残差信号を符号化しないと決定されるときに、M個のサブバンドのダウンミックス信号を符号化するステップ、をさらに含む。 Referring to the first aspect, in one possible implementation of the first aspect, when it is determined to encode the residual signal of M subbands, the method comprises: encoding the downmix signal and the residual signal, or encoding the downmix signal for the M subbands when it is determined not to encode the residual signal for the M subbands; Including further.

第2の態様によれば、符号化装置が提供される。本装置は、ステレオ信号の現在のフレームの残差信号符号化パラメータを、現在のフレームのM個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定するように構成された第1の決定モジュールであって、現在のフレームの残差信号符号化パラメータが、M個のサブバンドの残差信号を符号化するかどうかを示すために使用され、M個のサブバンドがN個のサブバンドの少なくとも一部であり、Nが1より大きい正の整数であり、M≦N、Mが正の整数である、第1の決定モジュールと、現在のフレームの残差信号符号化パラメータに基づいて、M個のサブバンドの残差信号を符号化するかどうかを決定するように構成された、第2の決定モジュールと、を含む。 According to a second aspect, an encoding device is provided. The apparatus is configured to determine residual signal coding parameters for a current frame of the stereo signal based on the downmix signal energy and the residual signal energy of each of the M subbands of the current frame. A first determining module, wherein the residual signal coding parameters of the current frame are used to indicate whether to code the residual signal of M subbands, wherein the M subbands are N a first determining module, wherein N is a positive integer greater than 1 and M≤N, where M is a positive integer; and residual signal encoding of the current frame. and a second decision module configured to decide whether to encode the M subband residual signals based on the parameters.

第3の態様によれば、符号化装置が提供される。本装置はメモリとプロセッサとを含み、メモリは、プログラムを格納するように構成され、プロセッサは、プログラムを実行するように構成され、プログラムが実行されると、プロセッサは、第1の態様または第1の態様の可能な実施態様のいずれか1つによる方法を行う。 According to a third aspect, an encoding device is provided. The apparatus includes a memory and a processor, the memory configured to store the program, the processor configured to execute the program, and when the program is executed, the processor performs the first aspect or the first aspect. A method according to any one of the possible embodiments of aspect 1 is carried out.

第4の態様によれば、コンピュータ可読記憶媒体が提供される。本コンピュータ可読記憶媒体は、デバイスによって実行されるべきプログラムコードを格納し、プログラムコードは、第1の態様または第1の態様の様々な実施態様による方法を行うために使用される命令を含む。 According to a fourth aspect, a computer-readable storage medium is provided. The computer-readable storage medium stores program code to be executed by the device, the program code including instructions used to perform the method according to the first aspect or various implementations of the first aspect.

第5の態様によれば、チップが提供される。本チップは、プロセッサと通信インターフェースとを含む。通信インターフェースは、外部デバイスと通信するように構成される。プロセッサは、第1の態様または第1の態様の可能な実施態様のいずれか1つによる方法を行うように構成される。 According to a fifth aspect, a chip is provided. The chip includes a processor and communication interface. A communication interface is configured to communicate with an external device. The processor is configured to perform the method according to the first aspect or any one of the possible implementations of the first aspect.

任意選択で、一実施態様では、本チップはメモリをさらに含み得る。メモリは、命令を格納し、プロセッサは、メモリに格納された命令を実行するように構成される。命令が実行されると、プロセッサは、第1の態様または第1の態様の可能な実施態様のいずれか1つによる方法を行うように構成される。 Optionally, in one implementation, the chip may further include memory. The memory stores instructions and the processor is configured to execute the instructions stored in the memory. When the instructions are executed, the processor is configured to perform the method according to the first aspect or any one of the possible implementations of the first aspect.

任意選択で、一実施態様では、本チップは、端末機器またはネットワーク機器に組み込まれる。 Optionally, in one embodiment, the chip is incorporated into terminal equipment or network equipment.

本出願の一実施形態による時間領域におけるステレオ符号化および復号の概略的構造図である。1 is a schematic structural diagram of stereo encoding and decoding in the time domain according to an embodiment of the present application; FIG. 本出願の一実施形態による移動端末の概略図である。1 is a schematic diagram of a mobile terminal according to an embodiment of the present application; FIG. 本出願の一実施形態によるネットワーク要素の概略図である。1 is a schematic diagram of a network element according to an embodiment of the application; FIG. 周波数領域のステレオ信号符号化方法の概略的な流れ図である。1 is a schematic flow diagram of a stereo signal encoding method in the frequency domain; 時間周波数領域のステレオ信号符号化方法の概略的な流れ図である。1 is a schematic flow diagram of a stereo signal encoding method in the time-frequency domain; 本出願の一実施形態によるステレオ信号符号化方法の概略的な流れ図である。1 is a schematic flow diagram of a stereo signal encoding method according to an embodiment of the present application; 本出願の一実施形態によるステレオ信号符号化方法の他の概略的な流れ図である。Fig. 4 is another schematic flow diagram of a stereo signal encoding method according to an embodiment of the present application; 本出願の一実施形態によるステレオ信号符号化装置の概略的ブロック図である。1 is a schematic block diagram of a stereo signal encoding device according to an embodiment of the present application; FIG. 本出願の一実施形態によるステレオ信号符号化装置の他の概略的ブロック図である。Fig. 3 is another schematic block diagram of a stereo signal encoding device according to an embodiment of the present application;

以下で、添付の図面を参照して本出願の技術的解決策を説明する。 The technical solutions of the present application are described below with reference to the accompanying drawings.

図1は、本出願の一例示的実施形態による時間領域におけるステレオ符号化および復号システムの概略的構造図である。ステレオ符号化および復号システムは、符号化構成要素110と復号構成要素120とを含む。 FIG. 1 is a schematic structural diagram of a stereo encoding and decoding system in the time domain according to an exemplary embodiment of the present application. Stereo encoding and decoding system includes encoding component 110 and decoding component 120 .

符号化構成要素110は、時間領域でステレオ信号を符号化するように構成される。任意選択で、符号化構成要素110は、ソフトウェアを使用して実施されてもよく、またはハードウェアを使用して実施されてもよく、またはソフトウェアとハードウェアの組み合わせの形態で実施されてもよい。これは本実施形態では限定されない。 Encoding component 110 is configured to encode the stereo signal in the time domain. Optionally, encoding component 110 may be implemented using software, or may be implemented using hardware, or may be implemented in the form of a combination of software and hardware. . This is not limited in this embodiment.

符号化構成要素110は、時間領域でステレオ信号を符号化し、以下の複数のステップを含む。 Encoding component 110 encodes the stereo signal in the time domain and includes the following steps.

(1)得られたステレオ信号に対して時間領域前処理を行って、時間領域前処理によって得られる左チャネル信号および時間領域前処理によって得られる右チャネル信号を得る。 (1) Performing time domain preprocessing on the obtained stereo signal to obtain a left channel signal obtained by the time domain preprocessing and a right channel signal obtained by the time domain preprocessing.

ステレオ信号は、収集構成要素によって収集され、符号化構成要素110に送られる。任意選択で、収集構成要素と符号化構成要素110とは同じデバイスに配置され得る。あるいは、収集構成要素と符号化構成要素110とは異なるデバイスに配置され得る。 A stereo signal is collected by the collection component and sent to the encoding component 110 . Optionally, the collection component and encoding component 110 may be located on the same device. Alternatively, the collection component and encoding component 110 may be located on different devices.

前処理によって得られる左チャネル信号および前処理によって得られる右チャネル信号は、前処理によって得られるステレオ信号の2つのチャネルの信号である。 The left channel signal obtained by preprocessing and the right channel signal obtained by preprocessing are signals of two channels of the stereo signal obtained by preprocessing.

任意選択で、前処理は、高域フィルタリング処理、プリエンファシス処理、サンプリングレート変換、およびチャネル変換のうちの少なくとも1つを含む。これは本実施形態では限定されない。 Optionally, pre-processing includes at least one of high-pass filtering, pre-emphasis, sampling rate conversion, and channel conversion. This is not limited in this embodiment.

(2)前処理によって得られる左チャネル信号および前処理によって得られる右チャネル信号に基づいて遅延推定を行って、前処理によって得られる左チャネル信号と前処理によって得られる右チャネル信号との間のチャネル間時間差を得る。 (2) Perform delay estimation based on the left channel signal obtained by preprocessing and the right channel signal obtained by preprocessing, and calculate the difference between the left channel signal obtained by preprocessing and the right channel signal obtained by preprocessing. Get the inter-channel time difference.

(3)チャネル間時間差に基づいて、前処理によって得られる左チャネル信号および前処理によって得られる右チャネル信号に対して遅延調整処理を行って、遅延整合処理によって得られる左チャネル信号および遅延整合処理によって得られる右チャネル信号を得る。 (3) performing delay adjustment processing on the left channel signal obtained by preprocessing and the right channel signal obtained by preprocessing based on the inter-channel time difference, and obtaining the left channel signal and delay matching processing obtained by delay matching processing; Obtain the right channel signal obtained by

(4)チャネル間時間差を符号化してチャネル間時間差の符号化インデックスを得る。 (4) encoding the inter-channel time difference to obtain an encoding index of the inter-channel time difference;

(5)時間領域ダウンミックス処理に使用されるステレオパラメータを計算し、時間領域ダウンミックス処理に使用されるステレオパラメータを符号化して、時間領域ダウンミックス処理に使用されるステレオパラメータの符号化インデックスを得る。 (5) calculating the stereo parameters used in the time-domain downmixing process, encoding the stereo parameters used in the time-domain downmixing process, and obtaining the encoding index of the stereo parameters used in the time-domain downmixing process as obtain.

時間領域ダウンミックス処理に使用されるステレオパラメータは、遅延整合処理によって得られる左チャネル信号および遅延整合処理によって得られる右チャネル信号に対して時間領域ダウンミックス処理を行うために使用される。 The stereo parameters used for time-domain downmix processing are used to perform time-domain downmix processing on the left channel signal obtained by delay matching processing and the right channel signal obtained by delay matching processing.

(6)時間領域ダウンミックス処理に使用されるステレオパラメータに基づいて、遅延整合処理によって得られる左チャネル信号および遅延整合処理によって得られる右チャネル信号に対して時間領域ダウンミックス処理を行って、プライマリチャネル信号およびセカンダリチャネル信号を得る。 (6) performing time-domain downmix processing on the left channel signal obtained by delay matching processing and the right channel signal obtained by delay matching processing, based on the stereo parameters used in the time domain downmix processing, to obtain a primary Obtain a channel signal and a secondary channel signal.

プライマリチャネル信号は、チャネル間の相関に関する情報を表すために使用される。セカンダリチャネル信号は、チャネル間の差に関する情報に使用される。遅延整合処理によって得られる左チャネル信号と遅延整合処理によって得られる右チャネル信号とが時間領域において整合されるとき、セカンダリチャネル信号は最小である。この場合、ステレオ信号は最善の効果を有する。 A primary channel signal is used to represent information about the correlation between channels. Secondary channel signals are used for information about differences between channels. The secondary channel signal is minimal when the left channel signal obtained by the delay matching process and the right channel signal obtained by the delay matching process are matched in the time domain. In this case the stereo signal has the best effect.

(7)プライマリチャネル信号とセカンダリチャネル信号とを別々に符号化して、プライマリチャネル信号に対応する第1のモノラル符号化ビットストリーム、およびセカンダリチャネル信号に対応する第2のモノラル符号化ビットストリームを得る。 (7) separately encode the primary channel signal and the secondary channel signal to obtain a first mono-encoded bitstream corresponding to the primary channel signal and a second mono-encoded bitstream corresponding to the secondary channel signal; .

(8)チャネル間時間差の符号化インデックス、ステレオパラメータの符号化インデックス、第1のモノラル符号化ビットストリーム、および第2のモノラル符号化ビットストリームをステレオ符号化ビットストリームに書き込む。 (8) Write the encoding index of the inter-channel time difference, the encoding index of the stereo parameter, the first mono-encoded bitstream, and the second mono-encoded bitstream into the stereo-encoded bitstream.

復号構成要素120は、ステレオ信号を得るために符号化構成要素110によって生成されたステレオ符号化ビットストリームを復号するように構成される。 Decoding component 120 is configured to decode the stereo-encoded bitstream produced by encoding component 110 to obtain a stereo signal.

任意選択で、符号化構成要素110は復号構成要素120に有線または無線で接続され、復号構成要素120は、この接続上で、符号化構成要素110によって生成されたステレオ符号化ビットストリームを取得する。あるいは、符号化構成要素110は、生成されたステレオ符号化ビットストリームをメモリに格納し、復号構成要素120はメモリ内のステレオ符号化ビットストリームを読み取る。 Optionally, encoding component 110 is wired or wirelessly connected to decoding component 120, over which decoding component 120 obtains the stereo-encoded bitstream produced by encoding component 110. . Alternatively, encoding component 110 stores the generated stereo-encoded bitstream in memory, and decoding component 120 reads the stereo-encoded bitstream in memory.

任意選択で、復号構成要素120は、ソフトウェアを使用して実施されてもよく、またはハードウェアを使用して実施されてもよく、またはソフトウェアとハードウェアの組み合わせの形態で実施されてもよい。これは本実施形態では限定されない。 Optionally, decoding component 120 may be implemented using software, or may be implemented using hardware, or may be implemented in the form of a combination of software and hardware. This is not limited in this embodiment.

復号構成要素120は、ステレオ信号を得るためにステレオ符号化ビットストリームを復号し、これは以下の複数のステップを含む。 Decoding component 120 decodes the stereo-encoded bitstream to obtain a stereo signal, which includes the following steps.

(1)ステレオ符号化ビットストリーム内の第1のモノラル符号化ビットストリームおよび第2のモノラル符号化ビットストリームを復号して、プライマリチャネル信号およびセカンダリチャネル信号を得る。 (1) Decoding the first mono-encoded bitstream and the second mono-encoded bitstream in the stereo-encoded bitstream to obtain a primary channel signal and a secondary channel signal.

(2)ステレオ符号化ビットストリームに基づいて、時間領域アップミックス処理に使用されるステレオパラメータの符号化インデックスを得、プライマリチャネル信号およびセカンダリチャネル信号に対して時間領域アップミックス処理を行って、時間領域アップミックス処理によって得られる左チャネル信号および時間領域アップミックス処理によって得られる右チャネル信号を得る。 (2) based on the stereo-encoded bitstream, obtain the coding indices of the stereo parameters used for the time-domain upmixing process, perform the time-domain upmixing process on the primary channel signal and the secondary channel signal, and obtain the time domain upmixing process; A left channel signal obtained by domain upmix processing and a right channel signal obtained by time domain upmix processing are obtained.

(3)ステレオ符号化ビットストリームに基づいてチャネル間時間差の符号化インデックスを得、時間領域アップミックス処理によって得られる左チャネル信号および時間領域アップミックス処理によって得られる右チャネル信号に対して遅延調整を行って、ステレオ信号を得る。 (3) obtaining a coding index for the inter-channel time difference based on the stereo coded bitstream, and performing delay adjustment on the left channel signal obtained by the time domain upmixing process and the right channel signal obtained by the time domain upmixing process; Go and get a stereo signal.

任意選択で、符号化構成要素110と復号構成要素120とは、同じデバイスに配置されてもよく、または異なるデバイスに配置されてもよい。デバイスは、携帯電話、タブレットコンピュータ、ラップトップポータブルコンピュータ、デスクトップコンピュータ、ブルートゥース(登録商標)スピーカ、ペンレコーダ、もしくはウェアラブルデバイスなどの、オーディオ信号処理機能を有する移動端末であり得るか、またはコアネットワークもしくは無線ネットワーク内のオーディオ信号処理能力を有するネットワーク要素であり得る。これは本実施形態では限定されない。 Optionally, encoding component 110 and decoding component 120 may be located on the same device or may be located on different devices. The device can be a mobile terminal with audio signal processing capabilities, such as a mobile phone, tablet computer, laptop portable computer, desktop computer, Bluetooth® speaker, pen recorder, or wearable device, or a core network or It may be a network element with audio signal processing capabilities in a wireless network. This is not limited in this embodiment.

例えば、図2に示されるように、本実施形態では、符号化構成要素110が移動端末130に配置され、復号構成要素120が移動端末140に配置され、移動端末130と移動端末140とが、オーディオ信号処理能力を有する相互に独立した機器であり、例えば、携帯電話、ウェアラブルデバイス、仮想現実(VR:virtual reality)デバイス、拡張現実(AR:augmented reality)デバイスなどであってもよく、移動端末130が無線または有線ネットワークを使用して移動端末140に接続される例を使用して説明が行われる。 For example, as shown in FIG. 2, in this embodiment encoding component 110 is located at mobile terminal 130, decoding component 120 is located at mobile terminal 140, and mobile terminal 130 and mobile terminal 140 are: Mutually independent devices with audio signal processing capabilities, such as mobile phones, wearable devices, virtual reality (VR) devices, augmented reality (AR) devices, etc. Mobile terminals Description is made using an example where 130 is connected to mobile terminal 140 using a wireless or wired network.

任意選択で、移動端末130は、収集構成要素131と、符号化構成要素110と、チャネル符号化構成要素132とを含む。収集構成要素131は符号化構成要素110に接続され、符号化構成要素110は符号化構成要素132に接続される。 Optionally, mobile terminal 130 includes collection component 131 , encoding component 110 and channel encoding component 132 . Collection component 131 is connected to encoding component 110 and encoding component 110 is connected to encoding component 132 .

任意選択で、移動端末140は、オーディオ再生構成要素141と、復号構成要素120と、チャネル復号構成要素142とを含む。オーディオ再生構成要素141は復号構成要素110に接続され、復号構成要素110はチャネル復号構成要素132に接続される。 Optionally, mobile terminal 140 includes audio reproduction component 141 , decoding component 120 and channel decoding component 142 . Audio playback component 141 is connected to decoding component 110 , which is connected to channel decoding component 132 .

収集構成要素131を使用してステレオ信号を収集した後、移動端末130は、符号化構成要素110を使用してステレオ信号を符号化して、ステレオ符号化ビットストリームを得、次いで、チャネル符号化構成要素132を使用してステレオ符号化ビットストリームを符号化して、送信信号を得る。 After acquiring the stereo signal using the acquisition component 131, the mobile terminal 130 encodes the stereo signal using the encoding component 110 to obtain a stereo encoded bitstream, and then a channel encoding configuration. Encode the stereo-encoded bitstream using element 132 to obtain the transmitted signal.

移動端末130は無線または有線ネットワークを使用して移動端末140に送信信号を送信する。 Mobile terminal 130 transmits transmission signals to mobile terminal 140 using a wireless or wired network.

送信信号を受信した後、移動端末140は、チャネル復号構成要素142を使用して送信信号を復号して、ステレオ符号化ビットストリームを得、復号構成要素110を使用してステレオ符号化ビットストリームを復号して、ステレオ信号を得、オーディオ再生構成要素を使用してステレオ信号を再生する。 After receiving the transmitted signal, mobile terminal 140 decodes the transmitted signal using channel decoding component 142 to obtain a stereo-encoded bitstream, and uses decoding component 110 to obtain a stereo-encoded bitstream. Decode to obtain a stereo signal and reproduce the stereo signal using an audio reproduction component.

例えば、図3に示されるように、本実施形態では、符号化構成要素110および復号構成要素120が、同じコアネットワークまたは無線ネットワーク内のオーディオ信号処理能力を有するネットワーク要素150に配置される例を使用して説明が行われる。 For example, as shown in FIG. 3, this embodiment provides an example in which encoding component 110 and decoding component 120 are located in network element 150 with audio signal processing capability within the same core network or wireless network. is used to explain.

任意選択で、ネットワーク要素150は、チャネル復号構成要素151と、復号構成要素120と、符号化構成要素110と、チャネル符号化構成要素152とを含む。チャネル復号構成要素151は復号構成要素120に接続され、復号構成要素120は符号化構成要素110に接続され、符号化構成要素110はチャネル符号化構成要素152に接続される。 Optionally, network element 150 includes channel decoding component 151 , decoding component 120 , encoding component 110 and channel encoding component 152 . Channel decoding component 151 is connected to decoding component 120 , decoding component 120 is connected to encoding component 110 , and encoding component 110 is connected to channel encoding component 152 .

他の機器によって送信された送信信号を受信した後、チャネル復号構成要素151は送信信号を復号して第1のステレオ符号化ビットストリームを得、復号構成要素120はステレオ符号化ビットストリームを復号してステレオ信号を得、符号化構成要素110はステレオ信号を符号化して第2のステレオ符号化ビットストリームを得、チャネル符号化構成要素152は第2のステレオ符号化ビットストリームを符号化して送信信号を得る。 After receiving a transmission transmitted by another device, channel decoding component 151 decodes the transmission to obtain a first stereo-encoded bitstream, and decoding component 120 decodes the stereo-encoded bitstream. to obtain a stereo signal, encoding component 110 encodes the stereo signal to obtain a second stereo coded bitstream, and channel coding component 152 encodes the second stereo coded bitstream to obtain a transmit signal. get

他の装置は、オーディオ信号処理能力を有する移動端末であり得るか、またはオーディオ信号処理能力を有する他のネットワーク要素であり得る。これは本実施形態では限定されない。 The other device may be a mobile terminal with audio signal processing capability or other network element with audio signal processing capability. This is not limited in this embodiment.

任意選択で、ネットワーク要素内の符号化構成要素110および復号構成要素120は、移動端末によって送信されたステレオ符号化ビットストリームをコード変換し得る。 Optionally, encoding component 110 and decoding component 120 within the network element may transcode the stereo-encoded bitstream transmitted by the mobile terminal.

任意選択で、本実施形態では、符号化構成要素110がインストールされた装置がオーディオ符号化装置と呼ばれる。実際の実装に際して、オーディオ符号化装置は、オーディオ復号機能も有し得る。これは本実施形態では限定されない。 Optionally, in this embodiment, the device in which encoding component 110 is installed is referred to as an audio encoding device. In actual implementation, the audio encoding device may also have audio decoding functionality. This is not limited in this embodiment.

任意選択で、本実施形態は、例としてステレオ信号のみを使用して説明される。本出願では、オーディオ符号化装置はマルチチャネル信号をさらに処理してもよく、マルチチャネル信号は少なくとも2つのチャネルの信号を含む。 Optionally, this embodiment is described using only stereo signals as an example. In the present application, the audio encoding device may further process a multi-channel signal, the multi-channel signal comprising signals of at least two channels.

本出願の実施形態におけるステレオ信号符号化方法の理解を容易にするために、以下ではまず、図4および図5をそれぞれ参照して、周波数領域のステレオ符号化方法および時間周波数領域のステレオ符号化方法の全符号化プロセスを一般的に説明する。 In order to facilitate understanding of the stereo signal encoding method in the embodiments of the present application, the following will first refer to FIG. 4 and FIG. The entire encoding process of the method is generally described.

図4は、周波数領域のステレオ信号符号化方法の概略的な流れ図である。この符号化方法は、具体的には、101から107を含む。 FIG. 4 is a schematic flow diagram of a stereo signal encoding method in the frequency domain. This encoding method specifically includes 101-107.

101:時間領域のステレオ信号を周波数領域のステレオ信号に変換する。 101: Convert the time-domain stereo signal into a frequency-domain stereo signal.

102:周波数領域で周波数領域のステレオパラメータを抽出する。 102: Extract the frequency domain stereo parameters in the frequency domain.

103:ダウンミックス信号および残差信号を得るために周波数領域のステレオ信号に対してダウンミックス処理を行う。 103: Downmix processing is performed on the stereo signal in the frequency domain to obtain a downmix signal and a residual signal.

ダウンミックス信号は、セントラルチャネル信号またはプライマリチャネル信号とも呼ばれ、パラメータ信号は、サイドチャネル信号またはセカンダリチャネル信号と呼ばれ得る。 Downmix signals may also be referred to as central channel signals or primary channel signals, and parameter signals may be referred to as side channel signals or secondary channel signals.

104:ダウンミックス信号に対応する符号化パラメータを得るためにダウンミックス信号を符号化し、符号化パラメータを符号化ビットストリームに書き込む。 104: Encoding the downmix signal to obtain encoding parameters corresponding to the downmix signal, and writing the encoding parameters into the encoded bitstream.

106:周波数領域のステレオパラメータに対応する符号化パラメータを得るために周波数領域のステレオパラメータを符号化し、符号化パラメータを符号化ビットストリームに書き込む。 106: Encode the stereo parameters in the frequency domain to obtain encoding parameters corresponding to the stereo parameters in the frequency domain, and write the encoding parameters into the encoded bitstream.

任意選択の実施態様では、この方法は、105:残差信号に対応する符号化パラメータを得るために残差信号を符号化し、符号化パラメータを符号化ビットストリームに書き込む、をさらに含み得る。 In an optional implementation, the method may further include 105: encoding the residual signal to obtain encoding parameters corresponding to the residual signal, and writing the encoding parameters to the encoded bitstream.

107:ビットストリームを多重化する。 107: Multiplex the bitstream.

図5は、時間周波数領域のステレオ信号符号化方法の概略的な流れ図である。この符号化方法は、具体的には、201から208を含む。 FIG. 5 is a schematic flow chart of a stereo signal encoding method in the time-frequency domain. This encoding method specifically includes 201-208.

201:ステレオ信号に対して時間領域解析を行い、時間領域のステレオパラメータを抽出する。 201: Perform time domain analysis on the stereo signal and extract time domain stereo parameters.

202:時間領域のステレオ信号を周波数領域のステレオ信号に変換する。 202: Transform the time-domain stereo signal into a frequency-domain stereo signal.

203:周波数領域で周波数領域のステレオパラメータを抽出する。 203: Extract the frequency domain stereo parameters in the frequency domain.

204:ダウンミックス信号および残差信号を得るために周波数領域のステレオ信号に対してダウンミックス処理を行う。 204: Perform downmix processing on the stereo signal in the frequency domain to obtain a downmix signal and a residual signal.

205:ダウンミックス信号に対応する符号化パラメータを得るためにダウンミックス信号を符号化し、符号化パラメータを符号化ビットストリームに書き込む。 205: Encoding the downmix signal to obtain encoding parameters corresponding to the downmix signal, and writing the encoding parameters into the encoded bitstream.

207:時間領域のステレオパラメータに対応する符号化パラメータおよび周波数領域のステレオパラメータに対応する符号化パラメータを得るために時間領域のステレオパラメータおよび周波数領域のステレオパラメータを符号化し、符号化パラメータを符号化ビットストリームに書き込む。 207: Encoding the time-domain stereo parameters and the frequency-domain stereo parameters to obtain encoding parameters corresponding to the time-domain stereo parameters and encoding parameters corresponding to the frequency-domain stereo parameters, and encoding the encoding parameters Write to bitstream.

任意選択で、この方法は、206:残差信号に対応する符号化パラメータを得るために残差信号を符号化し、符号化パラメータを符号化ビットストリームに書き込む、をさらに含む。 Optionally, the method further comprises 206: encoding the residual signal to obtain encoding parameters corresponding to the residual signal, and writing the encoding parameters to the encoded bitstream.

208:ビットストリームを多重化する。 208: Multiplex the bitstream.

符号化レートが比較的低い場合、例えば、符号化帯域幅が広帯域(Wideband)であるときに、符号化レートが比較的低く、26キロバイト毎秒(Kilo-bytes per second、kbps)、16.4kbps、24.4kbps、または32kbpsなどである場合、ステレオ信号の再生中の空間感覚および安定性を改善し、ステレオ信号の高周波歪みを低減するために、ステレオ信号の各フレームのダウンミックス信号が符号化されるときに、事前設定された帯域幅範囲を満足するサブバンドのすべての残差信号が符号化される。あるいは、符号化レートが比較的低い場合、ステレオパラメータおよびダウンミックス信号のみが符号化される。残差信号の一部または全部は、符号化レートが比較的高く、48kbps、64kbps、または96kbpsなどである場合にのみ符号化される。本出願は、ステレオ信号符号化方法を提供する。この方法では、復号されたステレオ信号の空間感覚および音像安定性が改善されると同時に復号されたステレオ信号の高周波歪みを可能な限り低減することができ、それによって全体的な符号化品質が改善される。 When the coding rate is relatively low, for example, when the coding bandwidth is Wideband, the coding rate is relatively low, Kilo-bytes per second (kbps), 16.4 kbps, 24. When it is 4kbps, or 32kbps, etc., the downmix signal of each frame of the stereo signal is coded to improve the sense of space and stability during playback of the stereo signal and to reduce the high frequency distortion of the stereo signal. Then, all residual signals in subbands satisfying a preset bandwidth range are coded. Alternatively, if the coding rate is relatively low, only the stereo parameters and the downmix signal are coded. Part or all of the residual signal is encoded only if the encoding rate is relatively high, such as 48 kbps, 64 kbps, or 96 kbps. The present application provides a stereo signal encoding method. In this way, the spatial perception and sound image stability of the decoded stereo signal can be improved, and at the same time, the high frequency distortion of the decoded stereo signal can be reduced as much as possible, thereby improving the overall coding quality. be done.

図6は、本出願の一実施形態によるステレオ信号符号化方法300の概略的な流れ図である。方法300は、符号器側によって実行されてもよく、符号器側は、符号器またはステレオ信号符号化機能を有するデバイスであり得る。方法300は以下のステップを含む。 FIG. 6 is a schematic flow diagram of a stereo signal encoding method 300 according to one embodiment of the present application. Method 300 may be performed by an encoder side, which may be an encoder or a device with stereo signal encoding capabilities. Method 300 includes the following steps.

本出願のステレオ信号符号化方法は、独立して適用することができるステレオ符号化方法であり得るか、またはマルチチャネル信号符号化に適用されるステレオ符号化方法であり得る。符号器側は、ステレオ信号をフレームごとに処理する。以下では、各フレームの信号長が20msである広帯域ステレオ信号を例として使用し、符号器側によって処理されているフレーム(例えば、現在のフレーム)を例として使用して、方法300のステレオ信号符号化方法を詳細に説明する。 The stereo signal encoding method of the present application may be a stereo encoding method that can be applied independently, or a stereo encoding method that is applied to multi-channel signal encoding. The encoder side processes the stereo signal frame by frame. In the following, using a wideband stereo signal where the signal length of each frame is 20ms as an example, and using the frame being processed by the encoder side (e.g. the current frame) as an example, the stereo signal encoding of the method 300 A detailed description will be given of the conversion method.

301:ステレオ信号の現在のフレームの残差信号符号化パラメータを、現在のフレームのM個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定し、現在のフレームの残差信号符号化パラメータが、M個のサブバンドの残差信号を符号化するかどうかを示すために使用され、M個のサブバンドがN個のサブバンドの少なくとも一部であり、Nが1より大きい正の整数であり、M≦N、Mが正の整数である。 301: Determine a residual signal coding parameter of the current frame of the stereo signal based on the downmix signal energy and the residual signal energy of each of the M subbands of the current frame, and determine the residual signal of the current frame A signal coding parameter is used to indicate whether to code the residual signal of M subbands, where M subbands are at least part of the N subbands and N is greater than 1. A large positive integer, M≤N, where M is a positive integer.

具体的には、符号器側は、N個のサブバンドを得るためにステレオ信号の現在のフレームのスペクトル係数を分割し、N個のサブバンドの少なくとも一部(例えば、N個のサブバンド内のM個のサブバンド、M≦N)の各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて現在のフレームの残差信号符号化パラメータを決定し、符号器側は現在のフレームの残差信号符号化パラメータを使用して、M個のサブバンドの各々の残差信号を符号化するかどうかを決定することができる。 Specifically, the encoder side divides the spectral coefficients of the current frame of the stereo signal to obtain N subbands, and divides the spectral coefficients of the current frame of the stereo signal into at least some of the N subbands (e.g., based on the downmix signal energy and the residual signal energy of each of the M subbands of M ≤ N), the encoder side determines the residual signal coding parameters of the current frame A signal coding parameter may be used to determine whether to code the residual signal for each of the M subbands.

302:現在のフレームの残差信号符号化パラメータに基づいて、現在のフレームのM個のサブバンドの残差信号を符号化するかどうかを決定する。 302: Determine whether to code the residual signals of the M subbands of the current frame according to the residual signal coding parameters of the current frame.

具体的には、符号器側は、現在のフレームの、ステップ301で決定された残差信号符号化パラメータに基づいて、現在のフレームのM個のサブバンドの各々の残差信号を符号化するかどうかを決定する。 Specifically, the encoder side encodes the residual signal of each of the M subbands of the current frame based on the residual signal coding parameters of the current frame determined in step 301. to decide whether

M個のサブバンドの各々の残差信号を符号化すると決定されると、M個のサブバンドの各々のダウンミックス信号および残差信号が符号化される。 Upon determining to encode the residual signal of each of the M subbands, the downmix signal and residual signal of each of the M subbands are encoded.

M個のサブバンドの各々の残差信号を符号化しないと決定されると、M個のサブバンドの各々のダウンミックス信号が符号化される。 If it is determined not to encode the residual signal for each of the M subbands, then the downmix signal for each of the M subbands is encoded.

一実施態様では、限定ではなく例として、M個のサブバンドは、N個のサブバンド内の、サブバンドインデックス番号が事前設定された最大サブバンドインデックス番号より小さいM個のサブバンドである。言い換えると、M個のサブバンドは、N個のサブバンド内の比較的低い周波数を有するサブバンドであり、具体的には、M個のサブバンドの周波数は、N個のサブバンド内のM個のサブバンド以外のN-M個のサブバンドの周波数よりも低い。 In one implementation, by way of example and not limitation, the M subbands are the M subbands within the N subbands whose subband index numbers are less than a preset maximum subband index number. In other words, the M subbands are subbands with relatively low frequencies within the N subbands, specifically, the frequencies of the M subbands are equal to M lower than the frequencies of the NM subbands other than the subbands.

具体的には、異なる最大サブバンドインデックス番号が異なる符号化レートに基づいて事前設定されるので、サブバンドインデックス番号が事前設定された最大サブバンドインデックス番号以下であるM個のサブバンドが、事前設定された最大サブバンドインデックス番号に基づいてN個のサブバンドの中から選択され、現在のフレームの残差信号符号化パラメータはM個のサブバンドに基づいて決定される。 Specifically, since different maximum subband index numbers are preconfigured based on different coding rates, M subbands whose subband index numbers are less than or equal to the preconfigured maximum subband index number are preconfigured. One of the N subbands is selected based on the configured maximum subband index number, and the residual signal coding parameters of the current frame are determined based on the M subbands.

例えば、符号化レートが26kbpsであり、N=10、M=5、事前設定された最大サブバンドインデックス番号が4に設定される場合、これは、現在のフレームの残差信号符号化パラメータが、10個のサブバンド内の、サブバンドインデックス番号が0から4である5つのサブバンドに基づいて決定されることを示す。 For example, if the coding rate is 26 kbps, N=10, M=5, and the preset maximum subband index number is set to 4, this means that the residual signal coding parameters of the current frame are It is determined based on 5 subbands with subband index numbers 0 to 4 in 10 subbands.

他の例では、符号化レートが44kbpsであり、N=12、M=6、事前設定された最大サブバンドインデックス番号が5に設定される場合、これは、現在のフレームの残差信号符号化パラメータが、12個のサブバンド内の、サブバンドインデックス番号が0から5である6つのサブバンドに基づいて決定されることを示す。 In another example, if the coding rate is 44 kbps, N=12, M=6, and the preset maximum subband index number is set to 5, this is the residual signal coding for the current frame. It shows that the parameters are determined based on 6 subbands with subband index numbers 0 to 5 in 12 subbands.

他の例では、符号化レートが56kbpsであり、N=12、M=7、事前設定された最大サブバンドインデックス番号が6に設定される場合、これは、現在のフレームの残差信号符号化パラメータが、12個のサブバンド内の、サブバンドインデックス番号が0から6である7つのサブバンドに基づいて決定されることを示す。 In another example, if the coding rate is 56 kbps, N=12, M=7, and the preset maximum subband index number is set to 6, this is the residual signal coding for the current frame. It shows that the parameters are determined based on 7 subbands with subband index numbers 0 to 6 in 12 subbands.

他の実施態様では、異なる符号化レートについて、異なる符号化レートにおけるM個のサブバンドの最大サブバンドインデックス番号および最小サブバンドインデックス番号が事前設定され得るので、サブバンドインデックス番号が事前設定された最小サブバンドインデックス番号以上、事前設定された最大サブバンドインデックス番号以下であるM個のサブバンドが、事前設定された最大サブバンドインデックス番号および事前設定された最小サブバンドインデックス番号に基づいてN個のサブバンドの中から選択され、現在のフレームの残差信号符号化パラメータはM個のサブバンドに基づいて決定される。 In other implementations, for different coding rates, the maximum subband index number and the minimum subband index number of the M subbands at different coding rates can be preset, so the subband index numbers are preset N subbands that are greater than or equal to the minimum subband index number and less than or equal to the preset maximum subband index number are N based on the preset maximum subband index number and the preset minimum subband index number , and the residual signal coding parameters for the current frame are determined based on the M subbands.

例えば、符号化レートが26kbpsであり、N=10、M=4、事前設定された最小サブバンドインデックス番号が4に設定され、事前設定された最大サブバンドインデックス番号が7に設定される場合、これは、現在のフレームの残差信号符号化パラメータが、10個のサブバンド内の、サブバンドインデックス番号が4から7である4つのサブバンドに基づいて決定されることを示す。 For example, if the coding rate is 26 kbps, N=10, M=4, the preset minimum subband index number is set to 4, and the preset maximum subband index number is set to 7, This indicates that the residual signal coding parameters of the current frame are determined based on four subbands with subband index numbers 4 to 7 among the ten subbands.

限定ではなく例として、現在のフレームの残差信号符号化パラメータに基づいて、M個のサブバンドの各々の残差信号を符号化するかどうかを決定するステップは、M個のサブバンドの各々の残差信号を符号化するかどうかを、現在のフレームの残差信号符号化パラメータと事前設定された第1の閾値との比較結果に基づいて決定するステップであって、第1の閾値が0より大きく1.0より小さい、ステップと、現在のフレームの残差信号符号化パラメータが第1の閾値以下である場合、M個のサブバンドの各々の残差信号を符号化しないと決定するステップ、または残差信号符号化パラメータが第1の閾値より大きい場合、M個のサブバンドの各々の残差信号を符号化すると決定するステップとを含む。 By way of example and not limitation, determining whether to encode the residual signal of each of the M subbands based on the residual signal coding parameters of the current frame comprises: determining whether to encode the residual signal of based on the result of comparing the residual signal coding parameter of the current frame with a preset first threshold, wherein the first threshold is A step greater than 0 and less than 1.0, and determining not to encode the residual signal of each of the M subbands if the residual signal coding parameter of the current frame is less than or equal to the first threshold. or determining to encode the residual signal of each of the M subbands if the residual signal coding parameter is greater than a first threshold.

具体的には、符号器側は、現在のフレームの残差信号符号化パラメータを事前設定された第1の閾値と比較し、現在のフレームの残差信号符号化パラメータが第1の閾値より大きい場合、M個のサブバンドの各々の残差信号を符号化すると決定するか、または現在のフレームの残差信号符号化パラメータが第1の閾値以下である場合、M個のサブバンドの各々の残差信号を符号化しないと決定する。 Specifically, the encoder side compares the residual signal coding parameter of the current frame with a preset first threshold, and the residual signal coding parameter of the current frame is greater than the first threshold. If so, determine to encode the residual signal of each of the M subbands, or if the residual signal encoding parameter of the current frame is less than or equal to the first threshold, determine to encode the residual signal of each of the M subbands. Decide not to encode the residual signal.

例えば、一実施態様では、第1の閾値は0.075である。現在のフレームの残差信号符号化パラメータの値が0.06である場合、符号器側は、M個のサブバンドの各々の残差信号を符号化しない。 For example, in one implementation, the first threshold is 0.075. If the value of the residual signal coding parameter of the current frame is 0.06, the encoder side does not code the residual signal of each of the M subbands.

第1の閾値の値は一例にすぎず、第1の閾値は代替として、0より大きく1.0より小さい他の値であってもよいことを理解されたい。例えば、第1の閾値は、0.55、0.46、0.86、または0.9である。 It should be appreciated that the value of the first threshold is only an example and that the first threshold may alternatively be other values greater than 0 and less than 1.0. For example, the first threshold is 0.55, 0.46, 0.86, or 0.9.

他の任意選択の実施態様では、符号器側は、現在のフレームの残差信号符号化パラメータと第1の閾値との比較結果を、0または1を使用してさらに示し得る。例えば、0は、M個のサブバンドの各々の残差信号が符号化されるべきではないことを示すために使用され、1は、M個のサブバンドの各々の残差信号が符号化されるべきであることを示すために使用される。当然ながら、1は、代替として、M個のサブバンドの各々の残差信号が符号化されるべきではないことを示すために使用されてもよく、0は、代替として、M個のサブバンドの各々の残差信号が符号化されるべきであることを示すために使用されてもよい。 In another optional implementation, the encoder side may use 0 or 1 to further indicate the comparison result between the residual signal coding parameter of the current frame and the first threshold. For example, 0 is used to indicate that the residual signal of each of the M subbands should not be coded, and 1 is used to indicate that the residual signal of each of the M subbands is coded. Used to indicate that something should be done. Of course, 1 may alternatively be used to indicate that the residual signal in each of the M subbands should not be encoded, and 0 alternatively may be used to indicate that each residual signal of is to be encoded.

以下では、符号器側が現在のフレームの残差信号符号化パラメータを決定する方法を詳細に説明するために、M個のサブバンドが、サブバンドインデックス番号が事前設定された最大サブバンドインデックス番号(例えば、最大サブバンドインデックス番号はM-1である)以下のサブバンドである例を使用する。 In the following, in order to explain in detail how the encoder side determines the residual signal coding parameters of the current frame, M subbands are assigned the maximum subband index number ( For example, the maximum subband index number is M−1).

方法1 Method 1

符号器側は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて現在のフレームの残差信号符号化パラメータを決定する。 The encoder side determines the residual signal coding parameters of the current frame based on the downmix signal energy, residual signal energy and side gain of each of the M subbands.

1つの可能な実施態様では、符号器側は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて第1のパラメータを決定し、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示し、
M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第2のパラメータを決定し、第2のパラメータが第1のエネルギー和と第2のエネルギー和との間の値関係を示し、第1のエネルギー和がM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、第2のエネルギー和が、現在のフレームの前のフレームの周波数領域信号におけるM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、現在のフレームのM個のサブバンドが前のフレームのM個のサブバンドと同じサブバンドインデックス番号を有し、
第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて現在のフレームの残差信号符号化パラメータを最終的に決定する。
In one possible implementation, the encoder side determines the first parameter based on the downmix signal energy, the residual signal energy, and the side gain for each of the M subbands, the first parameter being , denoting the value relationship between the downmix signal energy and the residual signal energy for each of the M subbands,
determining a second parameter based on the downmix signal energy and the residual signal energy for each of the M subbands, the second parameter being a value relationship between the first energy sum and the second energy sum where the first energy sum is the sum of the residual signal energies and the downmix signal energies of the M subbands, and the second energy sum is the M is the sum of the residual signal energy and the downmix signal energy of the subbands of , where the M subbands of the current frame have the same subband index numbers as the M subbands of the previous frame, and
A residual signal coding parameter of the current frame is finally determined based on the first parameter, the second parameter, and the long-term smoothing parameter of the frame before the current frame.

具体的には、第1のパラメータを決定するとき、符号器側は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいてM個のエネルギーパラメータを決定し、M個のエネルギーパラメータが、それぞれ、M個のサブバンドのうちの1つのダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応し、符号器側は、M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを第1のパラメータとして最終的に決定する。 Specifically, when determining the first parameter, the encoder side determines M energy parameters based on the downmix signal energy, residual signal energy, and side gain of each of the M subbands. and M energy parameters each indicating a value relationship between the downmix signal energy of one of the M subbands and the residual signal energy, and the M energy parameters representing the M subbands. In one-to-one correspondence with the band, the encoder side finally determines the energy parameter having the maximum value among the M energy parameters as the first parameter.

任意選択で、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは、以下の関数を使用して決定されてもよく、
res_dmx_ratio[b]=f(g(b),res_cod_NRG_M[b],res_cod_NRG_S[b])(1)
式中、res_dmx_ratio[b]は、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表し、g(b)は、サブバンドインデックス番号がbであるサブバンドのサイドゲインside_gain[b]の関数を表す。
Optionally, the energy parameter of the subband with subband index number b among the M energy parameters may be determined using the function:
res_dmx_ratio[b] = f(g(b), res_cod_NRG_M[b], res_cod_NRG_S[b]) (1)
where res_dmx_ratio[b] represents the energy parameter of the subband whose subband index number is b among the M energy parameters, b is greater than or equal to 0, and is the preset maximum subband index number. where res_cod_NRG_S[b] represents the residual signal energy of the subband with subband index number b, and res_cod_NRG_M[b] represents the downmix signal energy of the subband with subband index number b. where g(b) represents the function of the side gain side_gain[b] of the subband with subband index number b.

具体的には、一実施態様では、M個のエネルギーパラメータのうちの、サブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは以下の式を満たす。
res_dmx_ratio[b]=res_cod_NRG_S[b]/(res_cod_NRG_S[b]+(1-g(b))・(1-g(b))・res_cod_NRG_M[b]+1)(2)
Specifically, in one embodiment, among the M energy parameters, the energy parameter of the subband whose subband index number is b satisfies the following equation.
res_dmx_ratio[b] = res_cod_NRG_S[b] / (res_cod_NRG_S[b] + (1-g(b)) (1-g(b)) res_cod_NRG_M[b] + 1) (2)

第1のパラメータはres_dmx_ratioと表記され、res_dmx_ratioは以下の式を満たす。
res_dmx_ratio=max(res_dmx_ratio[0],res_dmx_ratio[1],…,res_dmx_ratio[M-1])(3)
The first parameter is denoted res_dmx_ratio, where res_dmx_ratio satisfies the following equation.
res_dmx_ratio = max(res_dmx_ratio[0], res_dmx_ratio[1], ..., res_dmx_ratio[M-1]) (3)

第2のパラメータを決定するとき、符号器側はまず、M個のサブバンドの残差信号の和とM個のサブバンドのダウンミックス信号の和とを別々の決定し、M個のサブバンドのダウンミックス信号の和をdmx_nrg_all_currと、M個のサブバンドの残差信号の和をres_nrg_all_currと表記する。 When determining the second parameter, the encoder side first separately determines the sum of the residual signals of the M subbands and the sum of the downmix signals of the M subbands; dmx_nrg_all_curr and the sum of residual signals of M subbands is denoted as res_nrg_all_curr.

任意選択で、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currは以下の式を満たし、

Figure 2022163058000005
式中、res_cod_NRG_M_prev[b]は、現在のフレームの前のフレームにおけるサブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表し、γ1は、平滑化係数を表し、γ1は、0以上1以下の実数であり、例えば、γ1=0.1である。 Optionally, the sum dmx_nrg_all_curr of the downmix signal energies of the M subbands satisfies the formula:
Figure 2022163058000005
where res_cod_NRG_M_prev [b] represents the downmix signal energy of the subband with subband index number b in the frame previous to the current frame, γ1 represents the smoothing factor, and γ1 is 0 It is a real number greater than or equal to 1 and less than or equal to 1, for example, γ 1 =0.1.

γ1の値は一例にすぎず、γ1の値は代替として、0以上1以下の他の値であってもよいことを理解されたい。例えば、γ1は、0.3、0.5、0.6、または0.8である。 It should be appreciated that the value of γ 1 is only an example and that the value of γ 1 may alternatively be other values between 0 and 1 inclusive. For example, γ 1 is 0.3, 0.5, 0.6, or 0.8.

任意選択で、M個のサブバンドの残差信号エネルギーの和res_nrg_all_currは以下の式を満たし、

Figure 2022163058000006
式中、res_cod_NRG_S_prev[b]は、現在のフレームの前のフレームにおけるサブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、γ2は、平滑化係数を表し、γ2は、0以上1以下の実数であり、例えば、γ2=0.1である。 Optionally, the sum res_nrg_all_curr of the residual signal energies of the M subbands satisfies the formula:
Figure 2022163058000006
where res_cod_NRG_S_prev[ b ] represents the residual signal energy of the subband with subband index number b in the frame previous to the current frame, γ2 represents the smoothing factor, and γ2 is 0 It is a real number greater than or equal to 1 and less than or equal to 1. For example, γ 2 =0.1.

γ2の値は一例にすぎず、γ2の値は代替として、0以上1以下の他の値であってもよいことを理解されたい。例えば、γ2は、0.2、0.5、0.7、または0.9である。 It should be appreciated that the value of γ 2 is only an example and that the value of γ 2 may alternatively be other values between 0 and 1 inclusive. For example, γ2 is 0.2, 0.5, 0.7, or 0.9.

符号器側は、dmx_nrg_all_currおよびres_nrg_all_currに基づいて現在のフレームのM個のサブバンドのダウンミックス信号エネルギーと残差信号エネルギーの和(すなわち、第1のエネルギー和)を決定する。第1のエネルギー和はdmx_res_allと表記される。 The encoder side determines the sum of the downmix signal energy and the residual signal energy (ie, the first energy sum) of the M subbands of the current frame based on dmx_nrg_all_curr and res_nrg_all_curr. The first energy sum is denoted dmx_res_all.

任意選択で、dmx_res_allは、以下の式を満たす。
dmx_res_all=res_nrg_all_curr+dmx_nrg_all_curr(6)
Optionally, dmx_res_all satisfies the following formula.
dmx_res_all = res_nrg_all_curr + dmx_nrg_all_curr(6)

符号器側は、現在のフレームの前のフレームの周波数領域信号内のM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和(すなわち、第2のエネルギー和)をさらに決定してもよく、現在のフレームの前のフレームのM個のサブバンドは、M個のサブバンドと同じサブバンドインデックス番号を有する。第2のエネルギー和はdmx_res_all_prevと表記される。 The encoder side may further determine the sum of the residual signal energy and the downmix signal energy of the M subbands in the frequency domain signal of the frame previous to the current frame (i.e., the second energy sum). Well, the M subbands of the frame before the current frame have the same subband index number as the M subbands. The second energy sum is denoted dmx_res_all_prev.

第2のエネルギー和dmx_res_all_prevの決定については、前述の第1のエネルギー和dmx_res_allを決定するための方法を参照されたい。簡潔にするために、本明細書では詳細を繰り返さない。 For the determination of the second energy sum dmx_res_all_prev, please refer to the method for determining the first energy sum dmx_res_all described above. For the sake of brevity, the details are not repeated here.

第1のエネルギー和および第2のエネルギー和を決定した後、符号器側は、第1のエネルギー和および第2のエネルギー和に基づいて第2のパラメータを決定し得る。 After determining the first energy sum and the second energy sum, the encoder side may determine a second parameter based on the first energy sum and the second energy sum.

任意選択で、第2のパラメータは、フレーム間エネルギー変動率であり、フレーム間エネルギー変動率はframe_nrg_ratioと表記される。 Optionally, the second parameter is the frame-to-frame energy variation rate, and the frame-to-frame energy variation rate is denoted as frame_nrg_ratio.

任意選択で、一実施態様では、フレーム間エネルギー変動率frame_nrg_ratioは以下の式を満たす。
frame_nrg_ratio=dmx_res_all/dmx_res_all_prev(7)
Optionally, in one implementation, the frame-to-frame energy variation rate frame_nrg_ratio satisfies the following equation.
frame_nrg_ratio = dmx_res_all/dmx_res_all_prev(7)

任意選択で、他の実施態様では、フレーム間エネルギー変動率frame_nrg_ratioは以下の式を満たす。
frame_nrg_ratio=min(5.0,max(0.2,dmx_res_all/dmx_res_all_prev))(8)
Optionally, in other implementations, the frame-to-frame energy variation rate frame_nrg_ratio satisfies the following equation.
frame_nrg_ratio = min(5.0, max(0.2, dmx_res_all/dmx_res_all_prev)) (8)

max関数は、所与のパラメータ(0.2,frame_nrg_ratio_prev)における大きい方の値を返すために使用され、min関数は、所与のパラメータ(5.0,max(0.2,frame_nrg_ratio_prev))における最小値を返すために使用される。式(7)と比較すると、式(8)は補正操作をさらに有するので、式(8)を使用して決定されたframe_nrg_ratioは、現在のフレームと前のフレームとの間のフレーム間エネルギー変動をより適切に反映することができる。 The max function is used to return the larger value at the given parameters (0.2, frame_nrg_ratio_prev) and the min function is used to return the larger value at the given parameters (5.0, max(0.2, frame_nrg_ratio_prev)) Used to return the minimum value. Compared to Eq. (7), Eq. (8) has an additional correction operation, so the frame_nrg_ratio determined using Eq. (8) represents the inter-frame energy variation between the current and previous frames. can be better reflected.

第1のパラメータおよび第2のパラメータを決定した後、符号器側は、第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて現在のフレームの残差信号符号化パラメータを決定し得る。 After determining the first parameter and the second parameter, the encoder side calculates the residual of the current frame based on the first parameter, the second parameter, and the long-term smoothing parameter of the frame before the current frame. Difference signal encoding parameters may be determined.

限定ではなく例として、現在のフレームの残差信号符号化パラメータは、現在のフレームの長期平滑化パラメータであり得る。言い換えると、符号器側は、第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて現在のフレームの長期平滑化パラメータを決定し、次いで、M個のサブバンドの各々の残差信号を符号化するかどうかを決定するために、現在のフレームの長期平滑化パラメータを事前設定された第1の閾値と比較し得る。 By way of example and not limitation, the residual signal coding parameters for the current frame may be long-term smoothing parameters for the current frame. In other words, the encoder side determines the long-term smoothing parameter of the current frame based on the first parameter, the second parameter, and the long-term smoothing parameter of the frame before the current frame, and then M A long-term smoothing parameter of the current frame may be compared to a preset first threshold to determine whether to code the residual signal of each of the subbands of .

例えば、現在のフレームの長期平滑化パラメータは以下の式を満たし、
res_dmx_ratio_lt=res_dmx_ratio α+res_dmx_ratio_lt_prev・(1-α)(9)
式中、res_dmx_ratio_ltは、現在のフレームの長期平滑化パラメータを表し、res_dmx_ratioは、第1のパラメータを表し、res_dmx_ratio_lt_prevは、現在のフレームの前のフレームの長期平滑化パラメータを表し、0<α<1である。
For example, the long-term smoothing parameter for the current frame satisfies
res_dmx_ratio_lt = res_dmx_ratio α + res_dmx_ratio_lt_prev (1 - α) (9)
where res_dmx_ratio_lt represents the long-term smoothing parameter of the current frame, res_dmx_ratio represents the first parameter, res_dmx_ratio_lt_prev represents the long-term smoothing parameter of the frame before the current frame, 0<α<1 is.

式(9)に従ってres_dmx_ratio_ltが計算されるとき、第1のパラメータの値および/または第2のパラメータの値が変化すると、式(9)におけるパラメータαの値もそれに応じて変化し得る。言い換えると、第1のパラメータの値および/または第2のパラメータの値が変化する際に、式(9)における現在のフレームの前のフレームの長期平滑化パラメータの重みもそれに応じて変化し得る。 When res_dmx_ratio_lt is calculated according to equation (9), if the value of the first parameter and/or the value of the second parameter changes, the value of parameter α in equation (9) may change accordingly. In other words, when the value of the first parameter and/or the value of the second parameter change, the weight of the long-term smoothing parameter of the frame before the current frame in equation (9) may change accordingly. .

例えば、第2のパラメータが事前設定された第3の閾値より大きい場合、第1のパラメータが事前設定された第2の閾値より小さい場合のαの値は、第1のパラメータが事前設定された第2の閾値以上の場合のαの値より大きく、第2の閾値は0以上0.6以下であり、第3の閾値は2.7以上3.7以下であるか、または
第2のパラメータが事前設定された第5の閾値より小さい場合、第1のパラメータが事前設定された第4の閾値より大きい場合のαの値は、第1のパラメータが事前設定された第4の閾値以下の場合のαの値より大きく、第4の閾値は0以上0.9以下であり、第5の閾値は0以上0.71以下であるか、または
第1のパラメータが事前設定された第2の閾値より小さく、第2のパラメータが事前設定された第3の閾値より大きい場合のαの値は、第2のパラメータが事前設定された第5の閾値以上であり、事前設定された第3の閾値以下である場合のαの値より大きく、第2の閾値は0以上0.6以下であり、第3の閾値は2.7以上3.7以下であり、第5の閾値は0以上0.71以下である。
For example, if the second parameter is greater than the preset third threshold, the value of α if the first parameter is less than the preset second threshold is equal to the preset value of the first parameter. greater than the value of α for greater than or equal to the second threshold, where the second threshold is between 0 and 0.6, and the third threshold is between 2.7 and 3.7, or the second parameter is less than a preset fifth threshold, the value of α if the first parameter is greater than a preset fourth threshold is less than or equal to the preset fourth threshold the fourth threshold is between 0 and 0.9 inclusive, the fifth threshold is between 0 and 0.71 inclusive, or the second threshold with the first parameter preset If the value of α is less than the threshold and the second parameter is greater than the preset third threshold, the second parameter is greater than or equal to the preset fifth threshold and the preset third is greater than the value of α when it is less than or equal to the threshold, the second threshold is 0 or more and 0.6 or less, the third threshold is 2.7 or more and 3.7 or less, and the fifth threshold is 0 or more and 0 .71 or less.

例えば、第2の閾値の値が0.1であり、第3の閾値の値が3.2であってもよく、具体的には、第2のパラメータframe_nrg_ratioが3.2より大きい場合、第1のパラメータres_dmx_ratioが0.1より小さい場合のαの値はres_dmx_ratioが0.1以上の場合のαの値より大きいか、または
第4の閾値の値が0.4であり、第5の閾値の値が0.21であってもよく、具体的には、frame_nrg_ratioが0.21より小さい場合、res_dmx_ratioが0.4より大きい場合のαの値はres_dmx_ratioが0.4以下の場合のαの値より大きいか、または
第2の閾値の値が0.1であり、第3の閾値の値が3.2であり、第5の閾値の値が0.21であってもよく、具体的には、res_dmx_ratioが0.1より小さく、frame_nrg_ratioが3.2より大きい場合のαの値は、frame_nrg_ratioが0.21以上3.2以下の場合のαの値より大きいか、または
第4の閾値の値が0.4であり、第5の閾値の値が0.21であってもよく、具体的には、res_dmx_ratioが0.4より大きく、frame_nrg_ratioが0.21より小さい場合のαの値は、frame_nrg_ratioが0.21以上3.2以下の場合のαの値より大きい。
For example, the value of the second threshold may be 0.1 and the value of the third threshold may be 3.2. Specifically, if the second parameter frame_nrg_ratio is greater than 3.2, the The value of α when the parameter res_dmx_ratio of 1 is less than 0.1 is greater than the value of α when res_dmx_ratio is greater than or equal to 0.1, or the value of the fourth threshold is 0.4 and the value of the fifth threshold may be 0.21. Specifically, when frame_nrg_ratio is less than 0.21, the value of α when res_dmx_ratio is greater than 0.4 is the value of α when res_dmx_ratio is 0.4 or less. or the second threshold value is 0.1, the third threshold value is 3.2, and the fifth threshold value is 0.21, specifically the value of α when res_dmx_ratio is less than 0.1 and frame_nrg_ratio is greater than 3.2 is greater than the value of α when frame_nrg_ratio is between 0.21 and 3.2, or the fourth threshold may be 0.4 and the value of the fifth threshold may be 0.21, specifically, the value of α when res_dmx_ratio is greater than 0.4 and frame_nrg_ratio is less than 0.21 is greater than the value of α when frame_nrg_ratio is 0.21 or more and 3.2 or less.

さらに、例えば、res_dmx_ratioが0.1より小さく、frame_nrg_ratioが3.2より大きい場合、αの値は0.5であるか、またはframe_nrg_ratioが0.21以上3.2以下である場合、αの値は0.1である。 Further, for example, when res_dmx_ratio is less than 0.1 and frame_nrg_ratio is greater than 3.2, the value of α is 0.5, or when frame_nrg_ratio is between 0.21 and 3.2, the value of α is 0.1.

記載の第2の閾値から第5の閾値の値およびαの値は説明のための例にすぎず、本出願に対するいかなる限定も構成するものではないことに留意されたい。第2の閾値から第5の閾値の値およびαの値は、代替として、所与の間隔における他の値であってもよい。 Note that the stated second through fifth threshold values and α values are illustrative examples only and do not constitute any limitations on the present application. The second through fifth threshold values and the value of α may alternatively be other values in a given interval.

現在のフレームが符号器側によって処理される最初のフレームである場合、現在のフレームには前のフレームがないことにさらに留意されたい。この場合には、現在のフレームの長期平滑化パラメータが決定されるとき、前述の式における現在のフレームの前のフレームの長期平滑化パラメータは事前設定された長期平滑化パラメータである。限定ではなく例として、事前設定された長期平滑化パラメータの値は1.0であってもよく、または当然ながら、0.9や1.1などの他の値であってもよい。 Note further that the current frame has no previous frame if it is the first frame processed by the encoder side. In this case, when the long-term smoothing parameter of the current frame is determined, the long-term smoothing parameter of the frame before the current frame in the above formula is the preset long-term smoothing parameter. By way of example and not limitation, the value of the preset long-term smoothing parameter may be 1.0, or of course other values such as 0.9 or 1.1.

方法2 Method 2

方法2における残差信号符号化パラメータを決定するための方法は方法1の方法と同様であり、違いは、第1のパラメータを決定するための方法が異なることにあるしたがって、方法1の残差信号符号化パラメータの決定の関連説明を参照し得る。簡潔にするために、本明細書では、方法2における第1のパラメータを決定するための方法のみを説明する。 The method for determining the residual signal coding parameter in Method 2 is similar to the method in Method 1, the difference being that the method for determining the first parameter is different. Reference may be made to the related discussion of determining signal coding parameters. For the sake of brevity, only the method for determining the first parameter in Method 2 is described herein.

限定ではなく例として、符号器側は、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第1のパラメータを決定し、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示す。 By way of example and not limitation, the encoder side determines a first parameter based on the downmix signal energy and the residual signal energy for each of the M subbands, the first parameter being the 2 shows the value relationship between the downmix signal energy and the residual signal energy for each of .

具体的には、第1のパラメータを決定するとき、符号器側は、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいてM個のエネルギーパラメータを決定し、M個のエネルギーパラメータが、それぞれ、M個のサブバンドのうちの1つのダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応し、符号器側は、M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを第1のパラメータとして最終的に決定する。 Specifically, when determining the first parameter, the encoder side determines M energy parameters based on the downmix signal energy and the residual signal energy of each of the M subbands; energy parameters each indicate a value relationship between the downmix signal energy of one of the M subbands and the residual signal energy, and the M energy parameters are paired with the M subbands. 1, and the encoder side finally determines the energy parameter having the maximum value among the M energy parameters as the first parameter.

任意選択で、符号器側によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは、以下の関数を使用して決定されてもよく、
res_dmx_ratio[b]=f(res_cod_NRG_M[b],res_cod_NRG_S[b])(10)
式中、res_dmx_ratio[b]は、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表す。
Optionally, the energy parameter of the subband whose subband index number is b among the M energy parameters determined by the encoder side may be determined using the following function:
res_dmx_ratio[b] = f(res_cod_NRG_M[b], res_cod_NRG_S[b]) (10)
where res_dmx_ratio[b] represents the energy parameter of the subband whose subband index number is b among the M energy parameters, b is greater than or equal to 0, and is the preset maximum subband index number. where res_cod_NRG_S[b] represents the residual signal energy of the subband with subband index number b, and res_cod_NRG_M[b] represents the downmix signal energy of the subband with subband index number b. show.

例えば、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは以下の式を満たす。
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b](11)
For example, among the M energy parameters, the energy parameter of the subband whose subband index number is b satisfies the following equation.
res_dmx_ratio[b] = res_cod_NRG_S[b]/res_cod_NRG_M[b] (11)

第1のパラメータはres_dmx_ratioと表記され、res_dmx_ratioは以下の式を満たす。
res_dmx_ratio=max(res_dmx_ratio[0],res_dmx_ratio[1],…,res_dmx_ratio[M-1])(12)
The first parameter is denoted res_dmx_ratio, where res_dmx_ratio satisfies the following equation.
res_dmx_ratio = max(res_dmx_ratio[0], res_dmx_ratio[1], ..., res_dmx_ratio[M-1]) (12)

第1のパラメータを決定した後、符号器側は、方法1に記載の方法に従って第2のパラメータを決定し、方法1に記載の方法に従って残差信号符号化パラメータを最終的に決定し、残差信号符号化パラメータに基づいて、M個のサブバンドの各々の残差信号を符号化するかどうかを決定し得る。 After determining the first parameter, the encoder side determines the second parameter according to the method described in Method 1, finally determines the residual signal coding parameter according to the method described in Method 1, and Based on the difference signal coding parameters, it may be determined whether to code the residual signal for each of the M subbands.

方法3 Method 3

方法3における残差信号符号化パラメータを決定するための方法は方法1の方法と同様であり、違いは、第1のパラメータを決定するための方法が異なることにあるしたがって、方法1の残差信号符号化パラメータの決定の関連説明を参照し得る。簡潔にするために、本明細書では、方法3における第1のパラメータを決定するための方法のみを説明する。 The method for determining the residual signal coding parameter in method 3 is similar to the method in method 1, the difference being that the method for determining the first parameter is different. Reference may be made to the related discussion of determining signal coding parameters. For the sake of brevity, only the method for determining the first parameter in Method 3 is described herein.

限定ではなく例として、符号器側は、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第1のパラメータを決定し、第1のパラメータを補正し、最終的な第1のパラメータとして、補正によって得られた第1のパラメータを決定し、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示す。 By way of example and not limitation, the encoder side determines a first parameter based on downmix signal energy and residual signal energy for each of the M subbands, corrects the first parameter, and final As the first parameter, determine the first parameter obtained by the correction, the first parameter indicating the value relationship between the downmix signal energy and the residual signal energy for each of the M subbands .

具体的には、第1のパラメータを決定するとき、符号器側は、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいてM個のエネルギーパラメータを決定し、M個のエネルギーパラメータが、それぞれ、M個のサブバンドのうちの1つのダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応し、符号器側は、M個のエネルギーパラメータの和を第1のパラメータとして決定する。 Specifically, when determining the first parameter, the encoder side determines M energy parameters based on the downmix signal energy and the residual signal energy of each of the M subbands; energy parameters each indicate a value relationship between the downmix signal energy of one of the M subbands and the residual signal energy, and the M energy parameters are paired with the M subbands. 1, and the encoder side determines the sum of M energy parameters as the first parameter.

任意選択で、符号器側によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは、関数(1)を使用して決定され得る。 Optionally, the energy parameter of the subband whose subband index number is b among the M energy parameters determined by the encoder side may be determined using function (1).

例えば、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは式(2)を満たす。 For example, among the M energy parameters, the energy parameter of the subband whose subband index number is b satisfies Equation (2).

任意選択で、符号器側によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは、関数(11)を使用して決定され得る。 Optionally, the energy parameter of the subband whose subband index number is b among the M energy parameters determined by the encoder side may be determined using function (11).

例えば、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは式(11)を満たす。 For example, among the M energy parameters, the energy parameter of the subband whose subband index number is b satisfies Equation (11).

例えば、M個のエネルギーパラメータに基づいて符号器側によって決定された第1のパラメータres_dmx_ratio1は以下の式を満たす。

Figure 2022163058000007
For example, the first parameter res_dmx_ratio 1 determined by the encoder side based on M energy parameters satisfies the following equation.
Figure 2022163058000007

加えて、符号器側は、M個のエネルギーパラメータのうちの最大値res_dmx_ratio_maxをさらに決定してもよく、res_dmx_ratio_maxは式(12)を満たす。 In addition, the encoder side may further determine the maximum value res_dmx_ratio_max among the M energy parameters, where res_dmx_ratio_max satisfies Equation (12).

符号器側は、M個のサブバンドの各々のres_dmx_ratio_maxおよびダウンミックス信号エネルギーres_cod_NRG_M[b]に基づいてres_dmx_ratio1を補正し、補正によって得られたres_dmx_ratio2を決定する。 The encoder side corrects res_dmx_ratio 1 based on res_dmx_ratio_max of each of the M subbands and downmix signal energy res_cod_NRG_M[b], and determines res_dmx_ratio 2 obtained by the correction.

例えば、符号器側はres_dmx_ratio1を以下の式に従って補正し、式中、M=5であり、
補正によって得られたres_dmx_ratio2は以下の式を満たす。

Figure 2022163058000008
For example, the encoder side corrects res_dmx_ratio 1 according to the following formula, where M=5,
res_dmx_ratio 2 obtained by correction satisfies the following equation.
Figure 2022163058000008

任意選択で、補正によって得られたres_dmx_ratio2はさらに補正され得る。 Optionally, res_dmx_ratio 2 obtained by correction may be further corrected.

例えば、補正によって最終的に得られたres_dmx_ratio3は以下の式を満たし、
res_dmx_ratio3=pow(res_dmx_ratio2,1.2)(15)
式中、pow()関数は、指数関数を表し、pow(res_dmx_ratio2,1.2)は、res_dmx_ratio2の1.2乗を表す。
For example, res_dmx_ratio 3 finally obtained by correction satisfies the following formula,
res_dmx_ratio3 = pow( res_dmx_ratio2 , 1.2) (15)
In the formula, the pow() function represents an exponential function, and pow( res_dmx_ratio2 , 1.2 ) represents res_dmx_ratio2 raised to the power of 1.2.

補正によって得られた第1のパラメータ(補正によって得られたres_dmx_ratio3)を決定した後、符号器側は、方法1に記載の方法に従って第2のパラメータを決定し、方法1に記載の方法に従って残差信号符号化パラメータを最終的に決定し、残差信号符号化パラメータに基づいて、M個のサブバンドの各々の残差信号を符号化するかどうかを決定し得る。 After determining the first parameter obtained by correction (res_dmx_ratio 3 obtained by correction), the encoder side determines the second parameter according to the method described in Method 1, and determines the second parameter according to the method described in Method 1. A residual signal coding parameter may be finally determined, and whether to code the residual signal for each of the M subbands may be determined based on the residual signal coding parameter.

方法4 Method 4

方法4における残差信号符号化パラメータを決定するための方法は方法1の方法と同様であり、違いは、第1のパラメータを決定するための方法が異なることにあるしたがって、方法1の残差信号符号化パラメータの決定の関連説明を参照し得る。簡潔にするために、本明細書では、方法4における第1のパラメータを決定するための方法のみを説明する。 The method for determining the residual signal coding parameter in method 4 is similar to the method in method 1, the difference being that the method for determining the first parameter is different. Reference may be made to the related discussion of determining signal coding parameters. For the sake of brevity, only the method for determining the first parameter in method 4 is described herein.

限定ではなく例として、符号器側は第1のパラメータを、M個のサブバンドの残差信号エネルギーの和およびM個のサブバンドのダウンミックス信号エネルギーの和に基づいて決定する。 By way of example and not limitation, the encoder side determines the first parameter based on the sum of the residual signal energies of the M subbands and the sum of the downmix signal energies of the M subbands.

具体的には、符号器側は、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currとM個のサブバンドの残差信号エネルギーの和res_nrg_all_currとを別々に決定し、dmx_nrg_all_currおよびres_nrg_all_currに基づいて第1のパラメータを決定する。 Specifically, the encoder side separately determines the sum dmx_nrg_all_curr of the downmix signal energies of the M subbands and the sum res_nrg_all_curr of the residual signal energies of the M subbands, and based on dmx_nrg_all_curr and res_nrg_all_curr Determine the first parameter.

任意選択で、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currは式(4)を満たす。インデックス番号 Optionally, the sum dmx_nrg_all_curr of the downmix signal energies of the M subbands satisfies equation (4). index number

任意選択で、M個のサブバンドの残差信号エネルギーの和res_nrg_all_currは式(5)を満たす。インデックス番号 Optionally, the sum res_nrg_all_curr of the residual signal energies of the M subbands satisfies equation (5). index number

符号器側は、dmx_nrg_all_currおよびres_nrg_all_currに基づいて第1のパラメータres_dmx_ratioを決定する。 The encoder side determines the first parameter res_dmx_ratio based on dmx_nrg_all_curr and res_nrg_all_curr.

例えば、符号器側によって最終的に決定された第1のパラメータres_dmx_ratioは以下の式を満たす。
res_dmx_ratio=res_nrg_all_curr/dmx_nrg_all_curr(16)
For example, the first parameter res_dmx_ratio finally determined by the encoder side satisfies the following equation.
res_dmx_ratio = res_nrg_all_curr/dmx_nrg_all_curr(16)

第1のパラメータを決定した後、符号器側は、方法1に記載の方法に従って第2のパラメータを決定し、方法1に記載の方法に従って残差信号符号化パラメータを最終的に決定し、残差信号符号化パラメータに基づいて、M個のサブバンドの各々の残差信号を符号化するかどうかを決定し得る。 After determining the first parameter, the encoder side determines the second parameter according to the method described in Method 1, finally determines the residual signal coding parameter according to the method described in Method 1, and Based on the difference signal coding parameters, it may be determined whether to code the residual signal for each of the M subbands.

ステレオ信号の符号化全体をより良く理解するために、以下では、各フレームの信号長が20msである広帯域ステレオ信号を例として使用し、符号器側によって処理されているフレーム(例えば、現在のフレーム)を例として使用し、本出願の本実施形態のステレオ信号符号化方法300を、図7を参照して説明する。図7に示されるステレオ信号符号化方法は少なくとも以下のステップを含む。 In order to better understand the whole encoding of stereo signals, in the following, we will use a wideband stereo signal as an example where the signal length of each frame is 20ms, and the frame being processed by the encoder side (e.g. the current frame ) as an example, the stereo signal encoding method 300 of this embodiment of the present application will be described with reference to FIG. The stereo signal encoding method shown in FIG. 7 includes at least the following steps.

401:時間領域前処理によって得られる左チャネル時間領域信号および右チャネル時間領域信号を得るために、左チャネル時間領域信号および右チャネル時間領域信号に対して時間領域前処理を行う。 401: Perform time domain preprocessing on the left channel time domain signal and the right channel time domain signal to obtain a left channel time domain signal and a right channel time domain signal obtained by the time domain preprocessing.

具体的には、現在のフレームの信号長は20msである。サンプリング周波数が16kHz(KHz)である場合、サンプリングの後、現在のフレームのフレーム長H=320であり、言い換えると、現在のフレームは320個のサンプリング点を含む。 Specifically, the signal length of the current frame is 20 ms. If the sampling frequency is 16 kHz (KHz), after sampling, the frame length of the current frame H=320, in other words the current frame contains 320 sampling points.

現在のフレームのステレオ信号は、現在のフレームの左チャネル時間領域信号および現在のフレームの右チャネル時間領域信号を含む。現在のフレームの左チャネル時間領域信号はとxL(n)と表記され、現在のフレームの右チャネル時間領域信号はとxR(n)と表記される。nは、サンプリング点のシーケンス番号であり、n=0,1,…,およびH-1である。左チャネル時間領域信号および右チャネル時間領域信号は、左および右チャネル時間領域信号と呼ばれ得る。 The current frame stereo signal includes a current frame left channel time domain signal and a current frame right channel time domain signal. The left channel time domain signal of the current frame is denoted as x L (n) and the right channel time domain signal of the current frame is denoted as x R (n). n is the sequence number of sampling points, n=0, 1, . . . , and H−1. Left channel time domain signals and right channel time domain signals may be referred to as left and right channel time domain signals.

現在のフレームの左チャネル時間領域信号および右チャネル時間領域信号に対して時間領域前処理を行うステップは、時間領域前処理によって得られる現在のフレームの左チャネル時間領域信号および右チャネル時間領域信号を得るために、現在のフレームの左チャネル時間領域信号および右チャネル時間領域信号に対して高域フィルタリング処理をそれぞれ行うステップ、を含み得る。前処理によって得られる現在のフレームの左チャネル時間領域信号はxL_HP(n)と表記され、前処理によって得られる現在のフレームの右チャネル時間領域信号はxR_HP(n)と表記される。nは、サンプリング点のシーケンス番号であり、n=0,1,…,およびH-1である。時間領域前処理によって得られる現在のフレームの左チャネル時間領域信号および時間領域前処理によって得られる現在のフレームの右チャネル時間領域信号は、時間領域前処理によって得られる現在のフレームの左および右チャネル時間領域信号と呼ばれ得る。高域フィルタリング処理中には、カットオフ周波数が20Hz(Hz)である無限インパルス応答(Infinite Impulse Response、IIR)デジタルフィルタが使用され得るか、または他のタイプのフィルタが使用され得る。 The step of performing time-domain preprocessing on the left-channel time-domain signal and the right-channel time-domain signal of the current frame includes converting the left-channel time-domain signal and the right-channel time-domain signal of the current frame obtained by the time-domain preprocessing into: performing high-pass filtering on the left and right channel time-domain signals of the current frame, respectively, to obtain. The left channel time domain signal of the current frame obtained by preprocessing is denoted as x L_HP (n), and the right channel time domain signal of the current frame obtained by preprocessing is denoted as x R_HP (n). n is the sequence number of sampling points, n=0, 1, . . . , and H−1. The left channel time domain signal of the current frame obtained by time domain preprocessing and the right channel time domain signal of the current frame obtained by time domain preprocessing are the left and right channels of the current frame obtained by time domain preprocessing. It can be called a time domain signal. An Infinite Impulse Response (IIR) digital filter with a cutoff frequency of 20 Hz (Hz) may be used during the high-pass filtering process, or other types of filters may be used.

例えば、ステレオ信号のサンプリングレートが16kHzであるとき、カットオフ周波数が20Hzである高域フィルタの対応する伝達関数は以下の式であり得る。

Figure 2022163058000009
For example, when the sampling rate of a stereo signal is 16kHz, the corresponding transfer function of a high-pass filter with a cutoff frequency of 20Hz can be:
Figure 2022163058000009

b0=0.994461788958195、b1=-1.988923577916390、b2=0.994461788958195、a1=1.98892905899653、a2=-0.988954249933127であり、zは、Z変換の変換係数を表す。対応する時間領域フィルタは以下のとおりである。
xL_HP(n)=b0・xL(n)+b1・xL(n-1)+b2・xL(n-2)-a1・xL_HP(n-1)-a2・xL_HP(n-2)(18)
b0 = 0.994461788958195, b1 = -1.988923577916390, b2 = 0.994461788958195 , a1 = 1.98892905899653 , a2 = -0.988954249933127, and z represents the transform coefficient of the Z transform. The corresponding time domain filters are:
x L_HP (n) = b 0 x L (n) + b 1 x L (n-1) + b 2 x L (n-2) - a 1 x L_HP (n-1) - a 2 x L_HP (n-2) (18)

402:時間領域前処理によって得られる左チャネル時間領域信号および右チャネル時間領域信号に対して時間領域解析を行う。 402: Perform time domain analysis on the left channel time domain signal and the right channel time domain signal obtained by the time domain preprocessing.

具体的には、時間領域解析は、過渡検出などを含み得る。過渡検出は、現在のフレームでエネルギーバーストが発生するかどうかを検出するために、前処理によって得られる現在のフレームの左チャネル時間領域信号および右チャネル時間領域信号に対してエネルギー検出を別々に行うことであり得る。 Specifically, time domain analysis may include transient detection and the like. Transient detection separately performs energy detection on the left channel time domain signal and right channel time domain signal of the current frame obtained by preprocessing to detect whether an energy burst occurs in the current frame. It can be

例えば、前処理によって得られる現在のフレームの左チャネル時間領域信号のエネルギーEcur_Lが計算される。過渡検出は、前処理によって得られる現在のフレームの左チャネル時間領域信号の過渡検出結果を得るために、前処理によって得られる現在のフレームの前のフレームの左チャネル時間領域信号のエネルギーEpre_Lと前処理によって得られる現在のフレームの左チャネル時間領域信号のエネルギーEcur_Lとの差の絶対値に基づいて行われる。過渡検出は、同じ方法を使用して、前処理によって得られる現在のフレームの右チャネル時間領域信号に対して行われ得る。 For example, the energy E cur_L of the left channel time domain signal of the current frame obtained by preprocessing is calculated. Transient detection uses the energy E pre_L of the left channel time domain signal of the frame before the current frame obtained by preprocessing to obtain the transient detection result of the left channel time domain signal of the current frame obtained by preprocessing. It is based on the absolute value of the difference between the energy Ecur_L of the left channel time domain signal of the current frame obtained by preprocessing. Transient detection can be performed on the right channel time domain signal of the current frame obtained by preprocessing using the same method.

時間領域解析は、過渡検出に加えて先行技術の他の時間領域解析も含み得る。例えば、時間領域解析は、時間領域チャネル間時間差(Inter-channel Time Difference、ITD)パラメータ決定、時間領域遅延整合処理、および帯域拡張前処理を含み得る。 The time domain analysis may include other prior art time domain analyzes in addition to transient detection. For example, time domain analysis may include time domain Inter-channel Time Difference (ITD) parameter determination, time domain delay matching processing, and band extension preprocessing.

403:左チャネル周波数領域信号および右チャネル周波数領域信号を得るために、時間領域前処理によって得られる左チャネル時間領域信号および右チャネル時間領域信号に対して時間周波数変換を行う。 403: Perform a time-frequency transform on the left channel time domain signal and the right channel time domain signal obtained by the time domain preprocessing to obtain a left channel frequency domain signal and a right channel frequency domain signal.

具体的には、左チャネル周波数領域信号を得るために、時間領域前処理によって得られる左チャネル時間領域信号に対して離散フーリエ変換が行われてもよく、右チャネル周波数領域信号を得るために、時間領域前処理によって得られる右チャネル時間領域信号に対して離散フーリエ変換が行われる。 Specifically, a discrete Fourier transform may be performed on the left channel time domain signal obtained by the time domain preprocessing to obtain the left channel frequency domain signal, and to obtain the right channel frequency domain signal: A discrete Fourier transform is performed on the right channel time domain signal obtained by the time domain preprocessing.

スペクトルエイリアシングの問題を克服するために、離散フーリエ変換の2つの連続した時間の間での処理に重畳加算法が使用されてもよく、場合によっては、離散フーリエ変換の入力信号にゼロが加算され得る。 To overcome the problem of spectral aliasing, a convolution-add method may be used to process the Discrete Fourier Transform between two consecutive times, in some cases adding zeros to the input signal of the Discrete Fourier Transform. obtain.

離散フーリエ変換はフレームごとに1回行われてもよく、または信号の各フレームがP個(Pは2以上の正の整数)のサブフレームに分割されてもよく、離散フーリエ変換はサブフレームごとに1回行われる。 The discrete Fourier transform may be performed once per frame, or each frame of the signal may be divided into P subframes, where P is a positive integer greater than or equal to 2, and the discrete Fourier transform may be performed once per subframe. is performed once every

例えば、離散フーリエ変換は現在のフレームに対して1回行われ、離散フーリエ変換が行われる現在のフレームの左チャネル周波数領域信号がL(k)と表記され、離散フーリエ変換が行われる現在のフレームの右チャネル周波数領域信号がR(k)と表記される。kは、周波数ビンインデックス番号を表し、k=0,1,…,L-1であり、Lは、離散フーリエ変換が行われる現在のフレームのフレーム長を表し、言い換えると、離散フーリエ変換が行われる現在のフレームは、L個の周波数ビンを含む。 For example, the Discrete Fourier Transform is performed once for the current frame, the left channel frequency domain signal of the current frame on which the Discrete Fourier Transform is performed is denoted as L(k), and the current frame on which the Discrete Fourier Transform is performed is denoted R(k). k represents the frequency bin index number, k=0, 1, . The current frame being read contains L frequency bins.

他の例では、信号の現在のフレームがP個のサブフレームに分割され、Pは2以上の正の整数である。インデックス番号がiである、離散フーリエ変換が行われるサブフレームの左チャネル周波数領域信号がLi(k)と表記され、インデックス番号がiである、離散フーリエ変換が行われるサブフレームの右チャネル周波数領域信号がRi(k)と表記される。iは、サブフレームインデックス番号を表し、i=0,1,…,P-1であり、kは、周波数ビンインデックス番号を表し、k=0,1,…,L-1であり、Lは、離散フーリエ変換が行われる各サブフレームのフレーム長を表し、言い換えると、離散フーリエ変換が行われる各サブフレームは、L個の周波数ビンを含む。 In another example, the current frame of the signal is partitioned into P subframes, where P is a positive integer greater than or equal to 2. The left channel frequency domain signal of the subframe where the discrete Fourier transform is performed with index number i is denoted by Li(k), and the right channel frequency of the subframe where the discrete Fourier transform is performed with index number i The area signal is denoted R i (k). i represents the subframe index number, i = 0, 1, ..., P-1, k represents the frequency bin index number, k = 0, 1, ..., L-1, and L is , represents the frame length of each subframe on which the discrete Fourier transform is performed, in other words, each subframe on which the discrete Fourier transform is performed contains L frequency bins.

404:ITDパラメータを決定し、決定されたITDパラメータを符号化する。 404: Determine ITD parameters and encode the determined ITD parameters.

具体的には、ITDパラメータを決定するための複数の方法がある。ITDパラメータは、周波数領域でのみ決定されてもよく、または時間領域でのみ決定されてもよく、または時間周波数領域で決定されてもよい。これは本出願では限定されない。 Specifically, there are multiple methods for determining the ITD parameters. The ITD parameters may be determined only in the frequency domain, only in the time domain, or determined in the time-frequency domain. This is not a limitation in this application.

ITDパラメータは、相互相関係数を使用して時間領域で抽出され得る。例えば、0≦i≦Tmaxの範囲で、

Figure 2022163058000010
および
Figure 2022163058000011
が計算される。 ITD parameters can be extracted in the time domain using cross-correlation coefficients. For example, in the range 0≤i≤Tmax ,
Figure 2022163058000010
and
Figure 2022163058000011
is calculated.

Figure 2022163058000012
の場合、ITDパラメータ値は、max(cn(i))に対応するインデックス番号の反対の数である。
Figure 2022163058000013
の場合、ITDパラメータ値は、max(cp(i))に対応するインデックス番号である。iは、相互相関係数を計算するためのインデックス番号を表し、jは、サンプリング点のインデックス番号を表し、Tmaxは、異なるサンプリングレートにおけるITD値の最大値に対応し、Hは、現在のフレームのフレーム長を表す。
Figure 2022163058000012
, the ITD parameter value is the opposite number of the index number corresponding to max(c n (i)).
Figure 2022163058000013
, the ITD parameter value is the index number corresponding to max(c p (i)). i represents the index number for calculating the cross-correlation coefficient, j represents the index number of the sampling point, T max corresponds to the maximum ITD value at different sampling rates, H is the current Represents the frame length of the frame.

ITDパラメータは、代替として、左チャネル周波数領域信号および右チャネル周波数領域信号に基づいて周波数領域で決定されてもよい。例えば、離散フーリエ変換(Discrete Fourier Transform、DFT)、高速フーリエ変換(Fast Fourier Transformation、FFT)、および修正離散コサイン変換(Modified Discrete Cosine Transform、MDCT)などの時間周波数変換技術を使用して、時間領域信号が周波数領域信号に変換され得る。 The ITD parameters may alternatively be determined in the frequency domain based on the left channel frequency domain signal and the right channel frequency domain signal. For example, time-domain A signal may be transformed into a frequency domain signal.

本出願の本実施形態では、インデックス番号がiであり、離散フーリエ変換が行われるサブフレームの左チャネル周波数領域信号は、Li(k)と表記され、k=0,1,…,L/2-1であり、インデックス番号がiであり、変換が行われるサブフレームの右チャネル周波数領域信号は、Ri(k)と表記され、k=0,1,…,L/2-1およびi=0,1,…,P-1である。インデックス番号がiであるサブフレームの周波数領域相関係数は、XCORRi(k)=Li(k)・R i(k)に従って計算され、R i(k)は、変換が行われる第iのサブフレームの右チャネル周波数領域信号の共役を表す。 In this embodiment of the present application, the left channel frequency domain signal of the subframe whose index number is i and the discrete Fourier transform is performed is denoted as L i (k), where k=0, 1, . . . , L/ 2−1, the index number is i, and the right channel frequency domain signal of the subframe under transformation is denoted R i (k), where k=0, 1, . . . , L/2−1 and i=0, 1, . . . , P−1. The frequency-domain correlation coefficient of the subframe with index number i is calculated according to XCORR i (k) = L i (k) R * i (k), where R * i (k) is transformed Represents the conjugate of the right channel frequency domain signal for the ith subframe.

周波数領域相互相関係数は時間領域xcorri(n)に変換され、n=0,1,…,L-1であり、インデックス番号がiであるサブフレームのITDパラメータ値が

Figure 2022163058000014
であることを得るために、L/2-Tmax≦n≦L/2+Tmaxの範囲でxcorri(n)の最大値が探索される。 The frequency domain cross-correlation coefficients are transformed to the time domain xcorr i (n), where n=0, 1, .
Figure 2022163058000014
The maximum value of xcorr i (n) is searched for in the range L/2-T max ≤ n ≤ L/2 + T max to obtain that .

加えて、インデックス番号がiであり、DFT変換が行われるサブフレームの左チャネル周波数領域信号および右チャネル周波数領域信号に基づいて、探索範囲-Tmax≦j≦Tmaxにおいて

Figure 2022163058000015
に従って振幅値がさらに計算されてもよく、ITDパラメータ値は
Figure 2022163058000016
であり、具体的には、ITDパラメータ値は、最大振幅値に対応するインデックス番号である。 In addition, in the search range −T max ≤ j ≤ T max , based on the left channel frequency domain signal and the right channel frequency domain signal of the subframe where the index number is i and the DFT transformation is performed
Figure 2022163058000015
Amplitude values may be further calculated according to and the ITD parameter value is
Figure 2022163058000016
and specifically, the ITD parameter value is the index number corresponding to the maximum amplitude value.

ITDパラメータが決定された後、ITDパラメータは符号化パラメータを得るために符号化されてもよく、符号化パラメータはステレオ符号化ビットストリームに書き込まれる。 After the ITD parameters are determined, the ITD parameters may be encoded to obtain the encoding parameters, which are written into the stereo encoded bitstream.

405:ITDパラメータに基づいて左周波数領域信号および右チャネル周波数領域信号に対して時間シフト調整を行う。 405: Perform time shift adjustment on the left frequency domain signal and the right channel frequency domain signal based on the ITD parameters.

具体的には、任意の技術に従って左チャネル周波数領域信号および右チャネル周波数領域信号に対して時間シフト調整が行われ得る。これは本出願の本実施形態では限定されない。 Specifically, time shift adjustments may be made to the left channel frequency domain signal and the right channel frequency domain signal according to any technique. This is not a limitation in this embodiment of the application.

例えば、信号の現在のフレームがP個のサブフレームに分割され、Pは2以上の正の整数である。インデックス番号がiであるサブフレームの、時間シフト調整によって得られた左チャネル周波数領域信号はL’i(k)と表記されてもよく、k=0,1,…,L/2-1であり、インデックス番号がiであるサブフレームの、時間シフト調整によって得られた右チャネル周波数領域信号はR’i(k)と表記されてもよく、kは、周波数ビンインデックス番号を表し、k=0,1,…,L/2-1であり、iは、サブフレームインデックス番号を表し、i=0,1,…,P-1である。

Figure 2022163058000017
For example, the current frame of the signal is divided into P subframes, where P is a positive integer greater than or equal to 2. The left channel frequency domain signal obtained by time shift adjustment of the subframe with index number i may be denoted as L' i (k), where k = 0, 1, ..., L/2-1. , and the right channel frequency domain signal obtained by time shift adjustment of the subframe with index number i may be denoted as R′ i (k), where k represents the frequency bin index number and k= 0, 1, . . . , L/2−1, i represents the subframe index number, and i=0, 1, .
Figure 2022163058000017

Tiは、インデックス番号がiであるサブフレームのITDパラメータ値を表し、Lは、離散フーリエ変換が行われるサブフレームの長さを表し、Li(k)は、インデックス番号がiであり、変換が行われる第iのサブフレームの左チャネル周波数領域信号を表し、Ri(k)は、インデックス番号がiであり、変換が行われるサブフレームの右チャネル周波数領域信号を表し、iは、サブフレームインデックス番号を表し、i=0,1,…,P-1である。 T i represents the ITD parameter value of the subframe with index number i, L represents the length of the subframe over which the discrete Fourier transform is performed, L i (k) is the index number i, R i (k) represents the left channel frequency domain signal of the ith subframe in which the transform is performed, R i (k) represents the right channel frequency domain signal of the subframe in which the index number is i, where i is Represents the subframe index number, i=0, 1, . . . , P−1.

406:時間シフト調整によって得られる左チャネル周波数領域信号および右チャネル周波数領域信号に基づいて他の周波数領域のステレオパラメータを計算し、他の周波数領域のステレオパラメータを符号化する。 406: Calculate another frequency domain stereo parameter based on the left channel frequency domain signal and the right channel frequency domain signal obtained by the time shift adjustment, and encode the other frequency domain stereo parameter.

具体的には、他の周波数領域のステレオパラメータは、チャネル間位相差(Inter-channel Phase Difference、IPD)パラメータ、および/またはチャネル間レベル差(Inter-channel Level Difference、ILD)パラメータ、および/またはサブバンドのサイドゲインなどを含み得るがこれに限定されない。ILDは、チャネル間振幅差とも呼ばれ得る。 Specifically, the other frequency-domain stereo parameters are Inter-channel Phase Difference (IPD) parameters, and/or Inter-channel Level Difference (ILD) parameters, and/or It may include, but is not limited to, sub-band side gains and the like. ILD may also be referred to as inter-channel amplitude difference.

計算によって他の周波数領域のステレオパラメータが得られた後、他の周波数領域のステレオパラメータは符号化パラメータを得るために符号化されてもよく、符号化パラメータはステレオ符号化ビットストリームに書き込まれる。 After obtaining the other frequency-domain stereo parameters by calculation, the other frequency-domain stereo parameters may be coded to obtain the coding parameters, and the coding parameters are written into the stereo-coded bitstream.

407:現在のフレームの周波数領域信号に含まれるN個のサブバンドから、事前設定条件を満たすM個のサブバンドを決定する。 407: Determine M subbands that satisfy a preset condition from the N subbands included in the frequency domain signal of the current frame.

具体的には、現在のフレームの、時間シフト調整によって得られた周波数領域信号がサブバンドに分割される。例えば、現在のフレームの周波数領域信号はN個の(Nは2以上の正の整数である)サブバンドに分割され、サブバンドインデックス番号がbであるサブバンドに含まれる周波数ビンはk∈[band_limits(b),band_limits(b+1)-1]であり、band_limits(b)は、サブバンドインデックス番号がbであるサブバンドに含まれる周波数ビンの最小インデックス番号を表し、band_limits(b+1)は、サブバンドインデックス番号がb+1であるサブバンドに含まれる周波数ビンの最小インデックス番号を表す。事前設定条件に従って、N個のサブバンドの中から事前設定条件を満たすM個のサブバンドが決定される。 Specifically, the frequency domain signal obtained by the time shift adjustment of the current frame is divided into subbands. For example, the frequency domain signal of the current frame is divided into N subbands (where N is a positive integer greater than or equal to 2), and the frequency bin contained in the subband with subband index number b is k ∈ [ band_limits(b), band_limits(b+1)−1], where band_limits(b) represents the minimum index number of frequency bins included in the subband whose subband index number is b, and band_limits(b+1) represents the subband It represents the minimum index number of the frequency bins included in the subband whose band index number is b+1. According to a preset condition, M subbands that satisfy the preset condition are determined among the N subbands.

例えば、事前設定条件は、サブバンドインデックス番号が事前設定された最大サブバンドインデックス番号以下であること、すなわち、b≦res_cod_band_max、式中res_cod_band_maxが、事前設定された最大サブバンドインデックス番号を表すこと、であり得る。 For example, the preset condition is that the subband index number is less than or equal to the preset maximum subband index number, i.e., b≤res_cod_band_max, where res_cod_band_max represents the preset maximum subband index number; can be

事前設定条件は、代替として、サブバンドインデックス番号が事前設定された最大サブバンドインデックス番号以下であり、事前設定された最小サブバンドインデックス番号以上であること、すなわち、res_cod_band_min≦b≦res_cod_band_max、res_cod_band_maxが、事前設定された最大サブバンドインデックス番号を表し、res_cod_band_minが事前設定された最小サブバンドインデックス番号を表すこと、であってもよい。 Alternatively, the preset condition is that the subband index number is less than or equal to the maximum preset subband index number and greater than or equal to the minimum preset subband index number, i.e. res_cod_band_min≤b≤res_cod_band_max, res_cod_band_max is , res_cod_band_min represents the preset maximum subband index number, and res_cod_band_min represents the preset minimum subband index number.

さらに、広帯域ステレオ信号では、異なる符号化レートに基づいて異なる事前設定条件が設定され得る。例えば、符号化レートが26kbpsであるとき、事前設定条件は、サブバンドインデックス番号b≦5、言い換えると、事前設定された最大サブバンドインデックス番号は5である。符号化レートが44kbpsであるとき、事前設定条件は、サブバンドインデックス番号b≦6、言い換えると、事前設定された最大サブバンドインデックス番号は6である。符号化レートが56kbpsであるとき、事前設定条件は、サブバンドインデックス番号b≦7、言い換えると、事前設定された最大サブバンドインデックス番号は7である。 Furthermore, for wideband stereo signals, different preset conditions may be set based on different coding rates. For example, when the coding rate is 26 kbps, the preset condition is subband index number b≦5, in other words, the preset maximum subband index number is 5. When the coding rate is 44 kbps, the preset condition is subband index number b≦6, in other words, the preset maximum subband index number is 6. When the coding rate is 56 kbps, the preset condition is subband index number b≦7, in other words, the preset maximum subband index number is 7.

例えば、事前設定条件がサブバンドインデックス番号b≦4である場合、インデックス番号が0から4である5つのサブバンドが、現在のフレームのN個のサブバンドの中から、事前設定条件を満たすサブバンドとして決定され得る。 For example, if the preset condition is subband index number b≤4, the 5 subbands with index numbers 0 to 4 are the subbands satisfying the preset condition among the N subbands of the current frame. can be determined as a band.

加えて、信号の現在のフレームがP個のサブフレームに分割される場合(Pは2以上の正の整数である)、時間シフト調整によって得られる各サブフレームはサブバンドに分割される。例えば、インデックス番号がiであるサブフレーム(i=0,1,…,P-1)がN個のサブバンドに分割され、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドに含まれる周波数ビンはki∈[band_limits(b),band_limits(b+1)-1]であり、band_limits(b)は、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドに含まれる周波数ビンの最小インデックス番号を表し、band_limits(b+1)は、インデックス番号がiであるサブフレーム内のインデックス番号がb+1であるサブバンドに含まれる周波数ビンの最小インデックス番号を表す。 In addition, if the current frame of the signal is divided into P subframes (P is a positive integer greater than or equal to 2), each subframe obtained by time shift adjustment is divided into subbands. For example, a subframe with an index number of i (i = 0, 1, ..., P-1) is divided into N subbands, and subbands with an index number of b in the subframe with an index number of i The frequency bins included in the band are k i ∈ [band_limits(b), band_limits(b+1)−1], where band_limits(b) is the subband with index number b in the subframe with index number i. and band_limits(b+1) represents the minimum index number of frequency bins included in the subband with index number b+1 in the subframe with index number i.

事前設定条件に従って、各フレームに含まれるN個のサブバンドの中から事前設定条件を満たすM個のサブバンドが決定される。 According to a preset condition, M subbands that satisfy the preset condition are determined from among the N subbands included in each frame.

事前設定条件は、サブバンドのインデックス番号が事前設定された最小サブバンドインデックス番号以上であり、事前設定された最大サブバンドインデックス番号以下であること、すなわち、res_cod_band_min≦b≦res_cod_band_max、であり得る。 The preset condition may be that the subband index number is greater than or equal to a preset minimum subband index number and less than or equal to a preset maximum subband index number, ie, res_cod_band_min≤b≤res_cod_band_max.

例えば、事前設定条件が4≦b≦8である場合、インデックス番号が4から8である5つのサブバンドが、各サブフレーム内のN個のサブバンドの中から、事前設定条件を満たすサブバンドとして決定される。 For example, if the preset condition is 4≤b≤8, the 5 subbands with index numbers 4 to 8 satisfy the preset condition among the N subbands in each subframe. is determined as

408:時間シフト調整によって得られる左チャネル周波数領域信号および右チャネル周波数領域信号に基づいて、事前設定条件を満たすサブバンドのダウンミックス信号および残差信号を計算する。 408: Based on the left channel frequency domain signal and the right channel frequency domain signal obtained by the time shift adjustment, calculate the sub-band downmix signal and the residual signal that satisfy the preset condition.

具体的には、事前設定条件を満たすサブバンドのダウンミックス信号および残差信号を計算するための方法は、現在のフレームがP個のサブフレーム(Pは2以上の正の整数である)に分割される(例えば、現在のフレームは2つのサブフレームまたは4つのサブフレームに分割され得る)例を使用して説明される。 Specifically, the method for calculating the subband downmix signal and residual signal satisfying the preset condition is that the current frame has P subframes (P is a positive integer greater than or equal to 2). It will be described using an example of partitioning (eg, the current frame may be partitioned into 2 subframes or 4 subframes).

例えば、事前設定条件が、サブバンドインデックス番号bが5以下であることである場合、各サブフレーム内の、インデックス番号が0から5であるサブバンドのダウンミックス信号および残差信号が計算される。 For example, if the preset condition is that the subband index number b is less than or equal to 5, the downmix signal and residual signal of the subbands with index numbers from 0 to 5 in each subframe are calculated. .

インデックス番号がiであるサブフレーム内のインデックス番号がb(b≦5)であるサブバンドのダウンミックス信号はDMXi(k)と表記され、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドの残差信号はRESi’(k)と表記され、DMXi(k)およびRESi’(k)は以下の式を満たす。

Figure 2022163058000018
RESi’(k)=RESi(k)-g_ILDi・DMXi(k)(21)
Figure 2022163058000019
Figure 2022163058000020
β=arctan(sin(IPDi(b)),cos(IPDi(b))+2・c)(24)、および
Figure 2022163058000021
A downmix signal of a subband whose index number is b (b≤5) in the subframe whose index number is i is denoted as DMX i (k), and the index number in the subframe whose index number is i is The residual signal of subband b is denoted RES i '(k), where DMX i (k) and RES i '(k) satisfy the following equations.
Figure 2022163058000018
RES i '(k) = RES i (k) - g_ILD i DMX i (k) (21)
Figure 2022163058000019
Figure 2022163058000020
β = arctan(sin(IPD i (b)), cos (IPD i (b)) + 2 c) (24), and
Figure 2022163058000021

IPDi(b)は、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドのIPDパラメータを表し、g_ILDiは、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドのサイドゲインを表し、L’i(k)は、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドの、時間シフト調整によって得られた、左チャネル周波数領域信号を表し、R’i(k)は、インデックス番号bが、インデックス番号がiであるサブフレーム内にあるサブバンドの、時間シフト調整によって得られた、右チャネル周波数領域信号を表し、L’’i(k)は、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドの、複数のステレオパラメータの調整によって得られた、左チャネル周波数領域信号を表し、R’’i(k)は、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドの、複数のステレオパラメータの調整によって得られた、右チャネル周波数領域信号を表し、iは、サブフレームインデックス番号を表し、i=0,1,…,P-1であり、kは、周波数ビンインデックス番号を表し、k∈[band_limits(b),band_limits(b+1)-1]であり、band_limits(b)は、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドに含まれる周波数ビンの最小インデックス番号を表し、band_limits(b+1)は、インデックス番号がiであるサブフレーム内のインデックス番号がb+1であるサブバンドに含まれる周波数ビンの最小インデックス番号を表す。 IPD i (b) represents the IPD parameters of the subband whose index number is b in the subframe whose index number is i, and g_ILD i is the index number of b in the subframe whose index number is i. represents the side gain of a subband, L' i (k) is the left channel frequency domain signal obtained by time shift adjustment of the subband with index number b in the subframe with index number i , R′ i (k) represents the right channel frequency domain signal obtained by time shift adjustment of the subband whose index number b is in the subframe whose index number is i, and L″ i (k) represents the left channel frequency domain signal obtained by adjusting multiple stereo parameters of the subband with index number b in the subframe with index number i, and R'' i ( k) represents the right channel frequency domain signal obtained by adjusting multiple stereo parameters of the subband with index number b in the subframe with index number i, where i is the subframe index number; , where i=0, 1, . , represents the minimum index number of frequency bins included in the subband with index number b in the subframe with index number i, and band_limits(b+1) represents the minimum index number of the frequency bin in the subframe with index number i. Represents the lowest index number of frequency bins contained in the subband that is b+1.

他の例では、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドのダウンミックス信号DMXi(k)は、代替として、以下の方法に従って計算され得る。
DMXi(k)=[L’’(k)+R’’(k)]・c(26)、および

Figure 2022163058000022
In another example, the downmix signal DMX i (k) for the subband with index number b in the subframe with index number i may alternatively be calculated according to the following method.
DMX i (k) = [L''(k) + R''(k)] c(26), and
Figure 2022163058000022

L’’i(k)は、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドの、複数のステレオパラメータの調整によって得られた、左チャネル周波数領域信号を表し、R’’i(k)は、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドの、複数のステレオパラメータの調整によって得られた、右チャネル周波数領域信号を表し、iは、サブフレームインデックス番号を表し、i=0,1,…,P-1であり、kは、周波数ビンインデックス番号を表し、k∈[band_limits(b),band_limits(b+1)-1]であり、band_limits(b)は、サブバンドインデックス番号がbであるサブバンドに含まれる周波数ビンの最小インデックス番号を表し、band_limits(b+1)は、インデックス番号がiであるサブフレーム内のインデックス番号がb+1であるサブバンドに含まれる周波数ビンの最小インデックス番号を表す。ダウンミックス信号エネルギーおよび残差信号エネルギーを計算するための方法は、本出願の本実施形態では限定されない。 L'' i (k) represents the left channel frequency domain signal obtained by adjusting multiple stereo parameters of the subband with index number b in the subframe with index number i, and R'' i (k) represents the right channel frequency domain signal obtained by adjusting multiple stereo parameters of the subband with index number b in the subframe with index number i, i is the sub represents the frame index number, i=0, 1, . b) represents the minimum index number of frequency bins included in the subband whose subband index number is b, and band_limits(b+1) is the subband whose index number is b+1 in the subframe whose index number is i. represents the lowest index number of the frequency bins contained in . The method for calculating downmix signal energy and residual signal energy is not limited in this embodiment of the application.

409:事前設定条件を満たすサブバンドのダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて残差信号符号化パラメータを決定する。 409: Determining residual signal coding parameters based on the downmix signal energy and the residual signal energy of the sub-bands satisfying a preset condition.

410:残差信号符号化パラメータに基づいて、現在のフレームのM個のサブバンドの各々の残差信号が符号化される必要があるかどうかを決定する。残差信号が符号化される必要があると決定される場合、412が行われる。残差信号が符号化される必要がないと決定される場合、411が行われる。 410: Determine whether the residual signal of each of the M subbands of the current frame needs to be coded based on the residual signal coding parameters. If it is determined that the residual signal needs to be encoded, 412 is performed. If it is determined that the residual signal does not need to be encoded, 411 is performed.

411:残差信号符号化パラメータに基づいて現在のフレームのM個のサブバンドの各々のダウンミックス信号を符号化する。この場合、残差信号は符号化される必要がない。 411: Encoding the downmix signal of each of the M subbands of the current frame based on the residual signal encoding parameters. In this case the residual signal does not need to be coded.

412:残差信号符号化パラメータに基づいて現在のフレームのM個のサブバンドの各々のダウンミックス信号および残差信号を符号化する。 412: Encode the downmix signal and the residual signal for each of the M subbands of the current frame based on the residual signal coding parameters.

ステップ409からステップ411の具体的な実施態様については、方法300の関連説明を参照されたい。簡潔にするために、本明細書では詳細を繰り返さない。 See the related description of method 300 for specific implementations of steps 409 through 411 . For the sake of brevity, the details are not repeated here.

方法400において、符号器側が現在のフレームをP個のサブフレームに分割し、Pが2以上の正の整数であり、P個のサブフレームの各々のスペクトル係数をN個のサブバンドに分割する場合、および残差信号符号化パラメータが、事前設定条件を満たす、各サブフレーム内のM個のサブバンド(M個のサブバンドは少なくともN個のサブバンドの一部である)のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定される場合、したがって、方法300では、現在のフレーム内のインデックス番号がbであるサブバンドの残差信号エネルギーres_cod_NRG_S[b]は、P個すべてのサブフレーム内のインデックス番号がbであるサブバンドの残差信号エネルギーの和であり、現在のフレーム内のインデックス番号がbであるサブバンドのダウンミックス信号エネルギーres_cod_NRG_M[b]は、P個すべてのサブフレーム内のインデックス番号がbであるサブバンドのダウンミックス信号エネルギーの和である、ことに留意されたい。 In method 400, the encoder side divides the current frame into P subframes, where P is a positive integer greater than or equal to 2, and divides the spectral coefficients of each of the P subframes into N subbands. , and a downmix signal of M subbands (the M subbands are part of at least the N subbands) in each subframe, where the residual signal coding parameter satisfies a preset condition energy and residual signal energy, then in method 300 the residual signal energy res_cod_NRG_S[b] for the subband with index number b in the current frame is is the sum of the residual signal energy of the subband with index number b in the current frame, and the downmix signal energy res_cod_NRG_M[b] of the subband with index number b in the current frame is the sum of all P subframes is the sum of the downmix signal energies of the subband whose index number is b.

例えば、現在のフレームは2つのサブフレームに分割され、2つのサブフレームの各のスペクトル係数はN個のサブバンドに分割される。したがって、方法300では、現在のフレーム内のインデックス番号がbであるサブバンドのダウンミックス信号エネルギーres_cod_NRG_M[b]は、サブフレーム1内のインデックス番号がbであるサブバンドのダウンミックス信号エネルギーとサブフレーム2内のインデックス番号がbであるサブバンドのダウンミックス信号エネルギーの和であり、現在のフレーム内のインデックス番号がbであるサブバンドの残差信号エネルギーres_cod_NRG_S[b]は、サブフレーム1内のインデックス番号がbであるサブバンドの残差信号エネルギーとサブフレーム2内のインデックス番号がbであるサブバンドの残差信号エネルギーの和である。 For example, the current frame is divided into two subframes and the spectral coefficients of each of the two subframes are divided into N subbands. Therefore, in method 300, the downmix signal energy res_cod_NRG_M[b] of the subband with index number b in the current frame is equal to the downmix signal energy of the subband with index number b in subframe 1. The sum of the downmix signal energy of the subband with index number b in frame 2, and the residual signal energy res_cod_NRG_S[b] of the subband with index number b in the current frame is is the sum of the residual signal energy of the subband with index number b in subframe 2 and the residual signal energy of the subband with index number b in subframe 2 .

以上では、図1から図7を用いて本出願の実施形態におけるステレオ信号符号化方法を詳細に説明している。以下では、図8および図9を参照して本出願の実施形態におけるステレオ信号符号化装置を説明する。図8および図9のいずれの装置も本出願の実施形態におけるステレオ信号符号化方法に対応していることを理解されたい。加えて、図8および図9のいずれの装置も、本出願の実施形態におけるステレオ信号符号化方法を行い得る。簡潔にするために、以下では繰り返しの説明を適宜省略する。 The stereo signal encoding method according to the embodiment of the present application has been described in detail above with reference to FIGS. 1 to 7. FIG. The stereo signal encoding device in the embodiment of the present application will be described below with reference to FIGS. 8 and 9. FIG. It should be understood that both the devices in FIGS. 8 and 9 correspond to the stereo signal encoding method in the embodiments of the present application. In addition, any of the devices in Figures 8 and 9 can perform the stereo signal encoding method in the embodiments of the present application. For the sake of brevity, repetitive descriptions are omitted where appropriate.

図8は、本出願の一実施形態によるステレオ信号符号化装置の概略的ブロック図である。図8の装置500は、
ステレオ信号の現在のフレームの残差信号符号化パラメータを、現在のフレームのM個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定するように構成された第1の決定モジュール501であって、現在のフレームの残差信号符号化パラメータが、M個のサブバンドの残差信号を符号化するかどうかを示すために使用され、M個のサブバンドがN個のサブバンドの少なくとも一部であり、Nが1より大きい正の整数であり、M≦N、Mが正の整数である、第1の決定モジュール501と、
現在のフレームの残差信号符号化パラメータに基づいて、現在のフレームのM個のサブバンドの残差信号を符号化するかどうかを決定するように構成された、第2の決定モジュール502と
を含む。
FIG. 8 is a schematic block diagram of a stereo signal encoding device according to one embodiment of the present application. Apparatus 500 of FIG.
A first determination configured to determine a residual signal coding parameter for the current frame of the stereo signal based on the downmix signal energy and the residual signal energy of each of the M subbands of the current frame. A module 501, wherein the residual signal coding parameter of the current frame is used to indicate whether to code the residual signal of M subbands, where M subbands are N subbands. a first determining module 501 that is at least part of a band, where N is a positive integer greater than 1, M≦N, where M is a positive integer;
a second decision module 502, configured to decide whether to code the residual signal of the M subbands of the current frame based on the residual signal coding parameters of the current frame; include.

本出願では、残差信号符号化パラメータは、N個のサブバンド内の、事前設定された帯域幅範囲を満足するM個のサブバンドのダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定され、M個のサブバンドの各々の残差信号を符号化するかどうかは、残差信号符号化パラメータに基づいて決定される。これにより、符号化レートが比較的低い場合にダウンミックス信号のみを符号化することが回避される。あるいは、事前設定された帯域幅範囲を満足するサブバンドのすべての残差信号を符号化するかどうかが、残差信号符号化パラメータに基づいて決定される。したがって、復号されたステレオ信号の空間感覚および音像安定性が改善されると同時に復号されたステレオ信号の高周波歪みを可能な限り低減することができ、それによって符号化品質が改善される。 In this application, the residual signal coding parameters are determined based on the downmix signal energy and the residual signal energy of M subbands within the N subbands that satisfy a preset bandwidth range. , whether to code the residual signal of each of the M subbands is determined based on the residual signal coding parameters. This avoids encoding only the downmix signal when the encoding rate is relatively low. Alternatively, whether to code all residual signals in subbands satisfying a preset bandwidth range is determined based on residual signal coding parameters. Therefore, the spatial sensation and sound image stability of the decoded stereo signal are improved, and at the same time, the high frequency distortion of the decoded stereo signal can be reduced as much as possible, thereby improving the coding quality.

任意選択で、一実施態様では、M個のサブバンドは、サブバンドインデックス番号がN個のサブバンドにおける事前設定された最大サブバンドインデックス番号以下であるM個のサブバンドである。 Optionally, in one implementation, the M subbands are the M subbands whose subband index numbers are less than or equal to a preset maximum subband index number in the N subbands.

任意選択で、一実施態様では、M個のサブバンドは、N個のサブバンド内の、サブバンドインデックス番号が事前設定された最小サブバンドインデックス番号以上、事前設定された最大サブバンドインデックス番号以下であるM個のサブバンドである。 Optionally, in one embodiment, the M subbands have a subband index number greater than or equal to a preset minimum subband index number and less than or equal to a preset maximum subband index number in the N subbands. are M subbands.

任意選択で、一実施態様では、第2の決定モジュール502は、残差信号符号化パラメータを事前設定された第1の閾値と比較し、第1の閾値が0より大きく1.0より小さく、残差信号符号化パラメータが第1の閾値以下である場合、M個のサブバンドの各々の残差信号を符号化しないと決定するか、または残差信号符号化パラメータが第1の閾値より大きい場合、M個のサブバンドの各々の残差信号を符号化すると決定する、ようにさらに構成される。 Optionally, in one implementation, the second determining module 502 compares the residual signal coding parameter to a preset first threshold, if the first threshold is greater than 0 and less than 1.0, determining not to encode the residual signal for each of the M subbands if the residual signal coding parameter is less than or equal to the first threshold, or the residual signal coding parameter is greater than the first threshold; If so, determine to encode the residual signal of each of the M subbands.

任意選択で、一実施態様では、第1の決定モジュール501は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて残差信号符号化パラメータを決定するようにさらに構成される。 Optionally, in one implementation, the first determining module 501 determines the residual signal coding parameters based on the downmix signal energy, the residual signal energy and the side gains for each of the M subbands. is further configured as

任意選択で、一実施態様では、第1の決定モジュール501は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて第1のパラメータを決定し、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示し、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第2のパラメータを決定し、第2のパラメータが第1のエネルギー和と第2のエネルギー和との間の値関係を示し、第1のエネルギー和がM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、第2のエネルギー和が、現在のフレームの前のフレームの周波数領域信号におけるM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、現在のフレームのM個のサブバンドが前のフレームのM個のサブバンドと同じサブバンドインデックス番号を有し、第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて残差信号符号化パラメータを決定するようにさらに構成される。 Optionally, in one implementation, the first determining module 501 determines the first parameter based on the downmix signal energy, the residual signal energy and the side gain for each of the M subbands; A parameter of 1 indicates a value relationship between the downmix signal energy and the residual signal energy of each of the M subbands, based on the downmix signal energy and the residual signal energy of each of the M subbands. to determine a second parameter, the second parameter indicating a value relationship between the first energy sum and the second energy sum, the first energy sum being the residual signal energy of the M subbands and the downmix signal energy, the second energy sum is the sum of the residual signal energy and the downmix signal energy of the M subbands in the frequency domain signal of the previous frame of the current frame, and the current where the M subbands of the frame have the same subband index numbers as the M subbands of the previous frame, and the long-term smoothing of the first parameter, the second parameter, and the frame before the current frame It is further configured to determine residual signal coding parameters based on the parameters.

任意選択で、一実施態様では、第1の決定モジュール501は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいてM個のエネルギーパラメータを決定し、M個のエネルギーパラメータが、それぞれ、M個のサブバンドのうちの1つのダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応し、M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを第1のパラメータとして決定するようにさらに構成される。 Optionally, in one implementation, the first determining module 501 determines M energy parameters based on downmix signal energy, residual signal energy, and side gain for each of the M subbands; The M energy parameters each indicate a value relationship between the downmix signal energy and the residual signal energy for one of the M subbands, and the M energy parameters correspond to the M subbands. It is further configured to determine the energy parameter having the largest value among the M energy parameters with a one-to-one correspondence as the first parameter.

任意選択で、一実施態様では、第1の決定モジュール501によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータが以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/(res_cod_NRG_S[b]+(1-g(b))・(1-g(b))・res_cod_NRG_M[b]+1)
式中、res_dmx_ratio[b]は、サブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表し、g(b)は、サブバンドインデックス番号がbであるサブバンドのサイドゲインside_gain[b]の関数を表す。
Optionally, in one embodiment, the energy parameter of the subband with subband index number b among the M energy parameters determined by the first determination module 501 satisfies the following equation:
res_dmx_ratio[b] = res_cod_NRG_S[b]/(res_cod_NRG_S[b] + (1-g(b)) (1-g(b)) res_cod_NRG_M[b]+1)
where res_dmx_ratio[b] represents the energy parameter of the subband whose subband index number is b, b is greater than or equal to 0 and less than or equal to the preset maximum subband index number, res_cod_NRG_S[b] represents the residual signal energy of the subband with subband index number b, res_cod_NRG_M[b] represents the downmix signal energy of the subband with subband index number b, and g(b) is 4 represents a function of the side gain side_gain[b] of the subband whose subband index number is b.

任意選択で、一実施態様では、第1の決定モジュール501は、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第1のパラメータを決定し、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示し、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第2のパラメータを決定し、第2のパラメータが第1のエネルギー和と第2のエネルギー和との間の値関係を示し、第1のエネルギー和がM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、第2のエネルギー和が、現在のフレームの前のフレームの周波数領域信号におけるM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、現在のフレームのM個のサブバンドが前のフレームのM個のサブバンドと同じサブバンドインデックス番号を有し、第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて残差信号符号化パラメータを決定するようにさらに構成される。 Optionally, in one implementation, the first determining module 501 determines the first parameter based on the downmix signal energy and the residual signal energy for each of the M subbands, the first parameter being , a value relationship between the downmix signal energy and the residual signal energy for each of the M subbands, and based on the downmix signal energy and the residual signal energy for each of the M subbands, a second determining a parameter, the second parameter indicating a value relationship between the first energy sum and the second energy sum, the first energy sum being the residual signal energy of the M subbands and the downmix signal; is the sum of the energies of the current frame, and the second energy sum is the sum of the residual signal energies and the downmix signal energies of the M subbands in the frequency-domain signal of the previous frame of the current frame, and the M subbands have the same subband index numbers as the M subbands of the previous frame, based on the first parameter, the second parameter, and the long-term smoothing parameter of the frame before the current frame It is further configured to determine residual signal coding parameters.

任意選択で、一実施態様では、第1の決定モジュール501は、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいてM個のエネルギーパラメータを決定し、M個のエネルギーパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応し、M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを第1のパラメータとして決定するようにさらに構成される。 Optionally, in one implementation, the first determining module 501 determines M energy parameters based on the downmix signal energy and the residual signal energy for each of the M subbands, and determines the M energy The parameters each indicate a value relationship between the downmix signal energy and the residual signal energy of each of the M subbands, the M energy parameters correspond one-to-one with the M subbands, and M It is further configured to determine the energy parameter having the maximum value of the energy parameters as the first parameter.

任意選択で、一実施態様では、第1の決定モジュール501によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータが以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b]
式中、res_dmx_ratio[b]は、サブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表す。
Optionally, in one embodiment, the energy parameter of the subband with subband index number b among the M energy parameters determined by the first determination module 501 satisfies the following equation:
res_dmx_ratio[b] = res_cod_NRG_S[b]/res_cod_NRG_M[b]
where res_dmx_ratio[b] represents the energy parameter of the subband whose subband index number is b, b is greater than or equal to 0 and less than or equal to the preset maximum subband index number, res_cod_NRG_S[b] res_cod_NRG_M[b] represents the residual signal energy of the subband with subband index number b, and res_cod_NRG_M[b] represents the downmix signal energy of the subband with subband index number b.

任意選択で、一実施態様では、第1の決定モジュール501は、M個のエネルギーパラメータの和を(補正されるべき)第1のパラメータres_dmx_ratio1として決定し、res_dmx_ratio1を、M個のエネルギーパラメータのうちの最大値res_dmx_ratio_maxおよびM個のサブバンドの各々のダウンミックス信号エネルギーres_cod_NRG_M[b]に基づいて補正し、補正によって得られたres_dmx_ratio2を決定するようにさらに構成される。 Optionally, in one implementation, the first determination module 501 determines the sum of the M energy parameters as the first parameter res_dmx_ratio 1 (to be corrected), res_dmx_ratio 1 being the sum of the M energy parameters of which res_dmx_ratio_max and the downmix signal energy res_cod_NRG_M[b] of each of the M sub-bands, and determining res_dmx_ratio 2 obtained by the correction.

例えば、符号器側はres_dmx_ratio1を以下の式に従って補正し、式中、M=5であり、
補正によって得られたres_dmx_ratio2は以下の式を満たす。

Figure 2022163058000023
For example, the encoder side corrects res_dmx_ratio 1 according to the following formula, where M=5,
res_dmx_ratio 2 obtained by correction satisfies the following equation.
Figure 2022163058000023

任意選択で、一実施態様では、補正によって得られたres_dmx_ratio2がさらに補正され得る。 Optionally, in one implementation, the res_dmx_ratio 2 obtained by correction may be further corrected.

例えば、補正によって最終的に得られたres_dmx_ratio3は以下の式を満たし、
res_dmx_ratio3=pow(res_dmx_ratio2,1.2)
式中、pow()関数は、指数関数を表し、pow(res_dmx_ratio2,1.2)は、res_dmx_ratio2の1.2乗を表す。
For example, res_dmx_ratio 3 finally obtained by correction satisfies the following formula,
res_dmx_ratio3 = pow( res_dmx_ratio2 , 1.2)
In the formula, the pow() function represents an exponential function, and pow( res_dmx_ratio2 , 1.2 ) represents res_dmx_ratio2 raised to the power of 1.2.

任意選択で、一実施態様では、第1の決定モジュール501は、第1のパラメータを、M個のサブバンドの残差信号エネルギーの和およびM個のサブバンドのダウンミックス信号エネルギーの和に基づいて決定するようにさらに構成される。 Optionally, in one implementation, the first determining module 501 bases the first parameter on the sum of the residual signal energies of the M subbands and the sum of the downmix signal energies of the M subbands. further configured to determine the

具体的には、符号器側は、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currとM個のサブバンドの残差信号エネルギーの和res_nrg_all_currとを別々に決定し、dmx_nrg_all_currおよびres_nrg_all_currに基づいて第1のパラメータを決定する。 Specifically, the encoder side separately determines the sum dmx_nrg_all_curr of the downmix signal energies of the M subbands and the sum res_nrg_all_curr of the residual signal energies of the M subbands, and based on dmx_nrg_all_curr and res_nrg_all_curr Determine the first parameter.

任意選択で、一実施態様では、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currは以下の式を満たし、

Figure 2022163058000024
式中、res_cod_NRG_M_prev[b]は、現在のフレームの前のフレームにおけるサブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表し、γ1は、平滑化係数を表し、γ1は、0以上1以下の実数であり、例えば、γ1=0.1である。 Optionally, in one implementation, the sum dmx_nrg_all_curr of the downmix signal energies of the M subbands satisfies the following equation:
Figure 2022163058000024
where res_cod_NRG_M_prev [b] represents the downmix signal energy of the subband with subband index number b in the frame previous to the current frame, γ1 represents the smoothing factor, and γ1 is 0 It is a real number greater than or equal to 1 and less than or equal to 1, for example, γ 1 =0.1.

任意選択で、一実施態様では、M個のサブバンドの残差信号エネルギーの和res_nrg_all_currは以下の式を満たし、

Figure 2022163058000025
式中、res_cod_NRG_S_prev[b]は、現在のフレームの前のフレームにおけるサブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、γ2は、平滑化係数を表し、γ2は、0以上1以下の実数であり、例えば、γ2=0.1である。 Optionally, in one implementation, the sum res_nrg_all_curr of the residual signal energies of the M subbands satisfies the following equation:
Figure 2022163058000025
where res_cod_NRG_S_prev[ b ] represents the residual signal energy of the subband with subband index number b in the frame previous to the current frame, γ2 represents the smoothing factor, and γ2 is 0 It is a real number greater than or equal to 1 and less than or equal to 1. For example, γ 2 =0.1.

符号器側は、dmx_nrg_all_currおよびres_nrg_all_currに基づいて第1のパラメータres_dmx_ratioを決定する。 The encoder side determines the first parameter res_dmx_ratio based on dmx_nrg_all_curr and res_nrg_all_curr.

例えば、符号器側によって最終的に決定された第1のパラメータres_dmx_ratioは以下の式を満たす。
res_dmx_ratio=res_nrg_all_curr/dmx_nrg_all_curr
For example, the first parameter res_dmx_ratio finally determined by the encoder side satisfies the following equation.
res_dmx_ratio = res_nrg_all_curr/dmx_nrg_all_curr

任意選択で、一実施態様では、第1の決定モジュール501によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータが以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b]
式中、res_dmx_ratio[b]は、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表す。
Optionally, in one embodiment, the energy parameter of the subband with subband index number b among the M energy parameters determined by the first determination module 501 satisfies the following equation:
res_dmx_ratio[b] = res_cod_NRG_S[b]/res_cod_NRG_M[b]
where res_dmx_ratio[b] represents the energy parameter of the subband whose subband index number is b among the M energy parameters, b is greater than or equal to 0, and is the preset maximum subband index number. where res_cod_NRG_S[b] represents the residual signal energy of the subband with subband index number b, and res_cod_NRG_M[b] represents the downmix signal energy of the subband with subband index number b. show.

任意選択で、一実施形態では、現在のフレームの、第1の決定モジュール501によって決定された残差信号符号化パラメータは、現在のフレームの長期平滑化パラメータであり、現在のフレームの長期平滑化パラメータは以下の式を満たし、
res_dmx_ratio_lt=res_dmx_ratio・α+res_dmx_ratio_lt_prev・(1-α)
式中、res_dmx_ratio_ltは、現在のフレームの長期平滑化パラメータを表し、res_dmx_ratioは、第1のパラメータを表し、res_dmx_ratio_lt_prevは、現在のフレームの前のフレームの長期平滑化パラメータを表し、0<α<1であり、
第2のパラメータが事前設定された第3の閾値より大きい場合、第1のパラメータが事前設定された第2の閾値より小さい場合のαの値は、第1のパラメータが事前設定された第2の閾値以上の場合のαの値より大きく、第2の閾値は0以上0.6以下であり、第3の閾値は2.7以上3.7以下であるか、または
第2のパラメータが事前設定された第5の閾値より大きい場合、第1のパラメータが事前設定された第4の閾値より大きい場合のαの値は、第1のパラメータが事前設定された第4の閾値以下の場合のαの値より大きく、第4の閾値は0以上0.9以下であり、第5の閾値は0以上0.71以下であるか、または
第1のパラメータが事前設定された第2の閾値より小さく、第2のパラメータが事前設定された第3の閾値より大きい場合のαの値は、第2のパラメータが事前設定された第5の閾値以上であり、事前設定された第3の閾値以下である場合のαの値より大きく、第2の閾値は0以上0.6以下であり、第3の閾値は2.7以上3.7以下であり、第5の閾値は0以上0.71以下である。
Optionally, in one embodiment, the residual signal coding parameter of the current frame determined by the first determination module 501 is the long-term smoothing parameter of the current frame, and the long-term smoothing parameter of the current frame is The parameters satisfy the following formula,
res_dmx_ratio_lt = res_dmx_ratio · α + res_dmx_ratio_lt_prev · (1 - α)
where res_dmx_ratio_lt represents the long-term smoothing parameter of the current frame, res_dmx_ratio represents the first parameter, res_dmx_ratio_lt_prev represents the long-term smoothing parameter of the frame before the current frame, 0<α<1 and
If the second parameter is greater than the preset third threshold, the value of α if the first parameter is less than the preset second threshold is the same as the preset second is greater than the value of α for greater than or equal to the threshold of , the second threshold is between 0 and 0.6 inclusive, the third threshold is between 2.7 and 3.7 inclusive, or the second parameter is prior to The value of α when the first parameter is greater than the preset fourth threshold, if greater than the preset fifth threshold is is greater than the value of α, the fourth threshold is between 0 and 0.9, the fifth threshold is between 0 and 0.71, or the first parameter is preset above the second threshold The value of α is small and the second parameter is greater than the preset third threshold, the second parameter is greater than or equal to the preset fifth threshold and is less than or equal to the preset third threshold , the second threshold is 0 or more and 0.6 or less, the third threshold is 2.7 or more and 3.7 or less, and the fifth threshold is 0 or more and 0.71 It is below.

任意選択で、一実施形態では、第2の決定モジュール502は、M個のサブバンドの残差信号を符号化すると決定されるときに、M個のサブバンドのダウンミックス信号および残差信号を符号化するか、またはM個のサブバンドの残差信号を符号化しないと決定されるときに、M個のサブバンドのダウンミックス信号を符号化するようにさらに構成される。 Optionally, in one embodiment, the second determining module 502, when it is determined to encode the M subband residual signals, encodes the M subband downmix signals and the residual signals. It is further configured to encode the downmix signal of the M subbands when it is determined to encode or not to encode the residual signal of the M subbands.

図9は、本出願の一実施形態によるステレオ信号符号化装置の概略的ブロック図である。図9の装置600は、
プログラムを格納するように構成された、メモリ601と、
メモリ601に格納されたプログラムを実行するように構成されたプロセッサ602であって、メモリ内のプログラムが実行されると、プロセッサ602が、ステレオ信号の現在のフレームの残差信号符号化パラメータを、現在のフレームのM個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定し、現在のフレームの残差信号符号化パラメータが、M個のサブバンドの残差信号を符号化するかどうかを示すために使用され、M個のサブバンドがN個のサブバンドの少なくとも一部であり、Nが1より大きい正の整数であり、M≦N、Nが正の整数であり、残差信号符号化パラメータに基づいて、現在のフレームのM個のサブバンドの残差信号を符号化するかどうかを決定する、ように特に構成される、プロセッサ602と
を含む。
FIG. 9 is a schematic block diagram of a stereo signal encoding device according to one embodiment of the present application. Apparatus 600 of FIG.
a memory 601 configured to store a program;
A processor 602 configured to execute a program stored in a memory 601, wherein when the program in the memory is executed, the processor 602 converts residual signal coding parameters of a current frame of a stereo signal into: determined based on the downmix signal energy and the residual signal energy of each of the M subbands of the current frame, wherein the residual signal coding parameters of the current frame encode the residual signals of the M subbands is used to indicate whether the M subbands are at least a portion of the N subbands, N is a positive integer greater than 1, M ≤ N, where N is a positive integer A processor 602, specifically configured to determine whether to encode the residual signal of the M subbands of the current frame based on the residual signal coding parameters.

任意選択で、一実施態様では、M個のサブバンドは、サブバンドインデックス番号がN個のサブバンドにおける事前設定された最大サブバンドインデックス番号以下であるM個のサブバンドである。 Optionally, in one implementation, the M subbands are the M subbands whose subband index numbers are less than or equal to a preset maximum subband index number in the N subbands.

任意選択で、一実施態様では、M個のサブバンドは、N個のサブバンド内の、サブバンドインデックス番号が事前設定された最小サブバンドインデックス番号以上、事前設定された最大サブバンドインデックス番号以下であるM個のサブバンドである。 Optionally, in one embodiment, the M subbands have a subband index number greater than or equal to a preset minimum subband index number and less than or equal to a preset maximum subband index number in the N subbands. are M subbands.

任意選択の一実施態様では、プロセッサ602は、残差信号符号化パラメータを事前設定された第1の閾値と比較し、第1の閾値が0より大きく1.0より小さく、残差信号符号化パラメータが第1の閾値より小さい場合、M個のサブバンドの各々の残差信号を符号化しないと決定するか、または残差信号符号化パラメータが第1の閾値より大きい場合、M個のサブバンドの各々の残差信号を符号化すると決定する、ようにさらに構成される。 In one optional implementation, the processor 602 compares the residual signal coding parameter to a preset first threshold, and if the first threshold is greater than 0 and less than 1.0, the residual signal coding If the parameter is less than the first threshold, determine not to code the residual signal in each of the M subbands; or if the residual signal coding parameter is greater than the first threshold, the M subbands It is further configured to determine to encode the residual signal of each of the bands.

任意選択の一実施態様では、プロセッサ602は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて残差信号符号化パラメータを決定するようにさらに構成される。 In an optional implementation, the processor 602 is further configured to determine residual signal coding parameters based on downmix signal energy, residual signal energy, and side gains for each of the M subbands. be.

任意選択の一実施態様では、プロセッサ602は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて第1のパラメータを決定し、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示し、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第2のパラメータを決定し、第2のパラメータが第1のエネルギー和と第2のエネルギー和との間の値関係を示し、第1のエネルギー和がM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、第2のエネルギー和が、現在のフレームの前のフレームの周波数領域信号におけるM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、現在のフレームのM個のサブバンドが前のフレームのM個のサブバンドと同じサブバンドインデックス番号を有し、第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて残差信号符号化パラメータを決定するようにさらに構成される。 In one optional implementation, processor 602 determines a first parameter based on the downmix signal energy, residual signal energy, and side gain for each of the M subbands, the first parameter being: indicating a value relationship between the downmix signal energy and the residual signal energy for each of the M subbands, a second parameter based on the downmix signal energy and the residual signal energy for each of the M subbands; , where the second parameter indicates a value relationship between the first energy sum and the second energy sum, and the first energy sum is the residual signal energy and the downmix signal energy of the M subbands and the second energy sum is the sum of the residual signal energies and the downmix signal energies of M subbands in the frequency domain signal of the previous frame of the current frame, and the M has the same subband index number as the M subbands of the previous frame, and the residual is calculated based on the first parameter, the second parameter, and the long-term smoothing parameter of the frame before the current frame. It is further configured to determine difference signal encoding parameters.

任意選択の一実施態様では、プロセッサ602は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいてM個のエネルギーパラメータを決定し、M個のエネルギーパラメータが、それぞれ、M個のサブバンドのうちの1つのダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応し、M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを第1のパラメータとして決定するようにさらに構成される。 In one optional implementation, the processor 602 determines M energy parameters based on the downmix signal energy, the residual signal energy, and the side gains for each of the M subbands; respectively denote the value relationship between the downmix signal energy of one of the M subbands and the residual signal energy, and the M energy parameters correspond one-to-one with the M subbands and determining the energy parameter having the maximum value among the M energy parameters as the first parameter.

任意選択で、一実施態様では、プロセッサ602によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータが以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/(res_cod_NRG_S[b]+(1-g(b))・(1-g(b))・res_cod_NRG_M[b]+1)
式中、res_dmx_ratio[b]は、サブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表し、g(b)は、サブバンドインデックス番号がbであるサブバンドのサイドゲインside_gain[b]の関数を表す。
Optionally, in one embodiment, the energy parameter of the subband with subband index number b among the M energy parameters determined by processor 602 satisfies the following equation:
res_dmx_ratio[b] = res_cod_NRG_S[b]/(res_cod_NRG_S[b] + (1-g(b)) (1-g(b)) res_cod_NRG_M[b]+1)
where res_dmx_ratio[b] represents the energy parameter of the subband whose subband index number is b, b is greater than or equal to 0 and less than or equal to the preset maximum subband index number, res_cod_NRG_S[b] represents the residual signal energy of the subband with subband index number b, res_cod_NRG_M[b] represents the downmix signal energy of the subband with subband index number b, and g(b) is 4 represents a function of the side gain side_gain[b] of the subband whose subband index number is b.

任意選択の一実施態様では、プロセッサ602は、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第1のパラメータを決定し、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示し、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第2のパラメータを決定し、第2のパラメータが第1のエネルギー和と第2のエネルギー和との間の値関係を示し、第1のエネルギー和がM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、第2のエネルギー和が、現在のフレームの前のフレームの周波数領域信号におけるM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、現在のフレームのM個のサブバンドが前のフレームのM個のサブバンドと同じサブバンドインデックス番号を有し、第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて残差信号符号化パラメータを決定するようにさらに構成される。 In one optional implementation, the processor 602 determines the first parameter based on the downmix signal energy and the residual signal energy for each of the M subbands, the first parameter being the indicating a value relationship between the downmix signal energy and the residual signal energy for each of the bands, determining a second parameter based on the downmix signal energy and the residual signal energy for each of the M subbands; A second parameter indicates a value relationship between the first energy sum and the second energy sum, the first energy sum being the sum of the residual signal energy and the downmix signal energy of the M subbands. , the second energy sum is the sum of the residual signal energy and the downmix signal energy of the M subbands in the frequency domain signal of the previous frame of the current frame, and the M subbands of the current frame are Residual signal encoding based on the first parameter, the second parameter, and the long-term smoothing parameter of the frame before the current frame, with the same subband index number as the M subbands of the previous frame It is further configured to determine parameters.

任意選択の一実施態様では、プロセッサ602は、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいてM個のエネルギーパラメータを決定し、M個のエネルギーパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応し、M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを第1のパラメータとして決定するようにさらに構成される。 In one optional implementation, the processor 602 determines M energy parameters based on the downmix signal energy and the residual signal energy for each of the M subbands, the M energy parameters being equal to the M and the residual signal energy of each of the subbands of the M energy parameters corresponding one-to-one with the M subbands, and the M energy parameters of It is further configured to determine the energy parameter having the maximum value thereof as the first parameter.

任意選択で、一実施態様では、プロセッサ602によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータが以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b]
式中、res_dmx_ratio[b]は、サブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表す。
Optionally, in one embodiment, the energy parameter of the subband with subband index number b among the M energy parameters determined by processor 602 satisfies the following equation:
res_dmx_ratio[b] = res_cod_NRG_S[b]/res_cod_NRG_M[b]
where res_dmx_ratio[b] represents the energy parameter of the subband whose subband index number is b, b is greater than or equal to 0 and less than or equal to the preset maximum subband index number, res_cod_NRG_S[b] res_cod_NRG_M[b] represents the residual signal energy of the subband with subband index number b, and res_cod_NRG_M[b] represents the downmix signal energy of the subband with subband index number b.

任意選択の一実施態様では、プロセッサ602は、M個のエネルギーパラメータの和を(補正されるべき)第1のパラメータres_dmx_ratio1として決定し、res_dmx_ratio1を、M個のエネルギーパラメータのうちの最大値res_dmx_ratio_maxおよびM個のサブバンドの各々のダウンミックス信号エネルギーres_cod_NRG_M[b]に基づいて補正し、補正によって得られたres_dmx_ratio2を決定するようにさらに構成される。 In one optional implementation, the processor 602 determines the sum of the M energy parameters as the first parameter res_dmx_ratio 1 (to be corrected), where res_dmx_ratio 1 is the maximum value of the M energy parameters. It is further configured to correct based on the res_dmx_ratio_max and the downmix signal energy res_cod_NRG_M[b] of each of the M subbands and determine a res_dmx_ratio 2 obtained by the correction.

例えば、符号器側はres_dmx_ratio1を以下の式に従って補正し、式中、M=5であり、
補正によって得られたres_dmx_ratio2は以下の式を満たす。

Figure 2022163058000026
For example, the encoder side corrects res_dmx_ratio 1 according to the following formula, where M=5,
res_dmx_ratio 2 obtained by correction satisfies the following equation.
Figure 2022163058000026

任意選択で、一実施態様では、補正によって得られたres_dmx_ratio2がさらに補正され得る。 Optionally, in one implementation, the res_dmx_ratio 2 obtained by correction may be further corrected.

例えば、補正によって最終的に得られたres_dmx_ratio3は以下の式を満たし、
res_dmx_ratio3=pow(res_dmx_ratio2,1.2)
式中、pow()関数は、指数関数を表し、pow(res_dmx_ratio2,1.2)は、res_dmx_ratio2の1.2乗を表す。
For example, res_dmx_ratio 3 finally obtained by correction satisfies the following formula,
res_dmx_ratio3 = pow( res_dmx_ratio2 , 1.2)
In the formula, the pow() function represents an exponential function, and pow( res_dmx_ratio2 , 1.2 ) represents res_dmx_ratio2 raised to the power of 1.2.

任意選択で、一実施態様では、プロセッサ602は、第1のパラメータを、M個のサブバンドの残差信号エネルギーの和およびM個のサブバンドのダウンミックス信号エネルギーの和に基づいて決定するようにさらに構成される。 Optionally, in one implementation, the processor 602 determines the first parameter based on the sum of the residual signal energies of the M subbands and the sum of the downmix signal energies of the M subbands. further configured to

具体的には、符号器側は、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currとM個のサブバンドの残差信号エネルギーの和res_nrg_all_currとを別々に決定し、dmx_nrg_all_currおよびres_nrg_all_currに基づいて第1のパラメータを決定する。 Specifically, the encoder side separately determines the sum dmx_nrg_all_curr of the downmix signal energies of the M subbands and the sum res_nrg_all_curr of the residual signal energies of the M subbands, and based on dmx_nrg_all_curr and res_nrg_all_curr Determine the first parameter.

任意選択で、一実施態様では、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currは以下の式を満たし、

Figure 2022163058000027
式中、res_cod_NRG_M_prev[b]は、現在のフレームの前のフレームにおけるサブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表し、γ1は、平滑化係数を表し、γ1は、0以上1以下の実数であり、例えば、γ1=0.1である。 Optionally, in one implementation, the sum dmx_nrg_all_curr of the downmix signal energies of the M subbands satisfies the following equation:
Figure 2022163058000027
where res_cod_NRG_M_prev [b] represents the downmix signal energy of the subband with subband index number b in the frame previous to the current frame, γ1 represents the smoothing factor, and γ1 is 0 It is a real number greater than or equal to 1 and less than or equal to 1, for example, γ 1 =0.1.

任意選択で、一実施態様では、M個のサブバンドの残差信号エネルギーの和res_nrg_all_currは以下の式を満たし、

Figure 2022163058000028
式中、res_cod_NRG_S_prev[b]は、現在のフレームの前のフレームにおけるサブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、γ2は、平滑化係数を表し、γ2は、0以上1以下の実数であり、例えば、γ2=0.1である。 Optionally, in one implementation, the sum res_nrg_all_curr of the residual signal energies of the M subbands satisfies the following equation:
Figure 2022163058000028
where res_cod_NRG_S_prev[ b ] represents the residual signal energy of the subband with subband index number b in the frame previous to the current frame, γ2 represents the smoothing factor, and γ2 is 0 It is a real number greater than or equal to 1 and less than or equal to 1. For example, γ 2 =0.1.

符号器側は、dmx_nrg_all_currおよびres_nrg_all_currに基づいて第1のパラメータres_dmx_ratioを決定する。 The encoder side determines the first parameter res_dmx_ratio based on dmx_nrg_all_curr and res_nrg_all_curr.

例えば、符号器側によって最終的に決定された第1のパラメータres_dmx_ratioは以下の式を満たす。
res_dmx_ratio=res_nrg_all_curr/dmx_nrg_all_curr
For example, the first parameter res_dmx_ratio finally determined by the encoder side satisfies the following equation.
res_dmx_ratio = res_nrg_all_curr/dmx_nrg_all_curr

任意選択で、一実施態様では、プロセッサ602によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータが以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b]
式中、res_dmx_ratio[b]は、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表す。
Optionally, in one embodiment, the energy parameter of the subband with subband index number b among the M energy parameters determined by processor 602 satisfies the following equation:
res_dmx_ratio[b] = res_cod_NRG_S[b]/res_cod_NRG_M[b]
where res_dmx_ratio[b] represents the energy parameter of the subband whose subband index number is b among the M energy parameters, b is greater than or equal to 0, and is the preset maximum subband index number. where res_cod_NRG_S[b] represents the residual signal energy of the subband with subband index number b, and res_cod_NRG_M[b] represents the downmix signal energy of the subband with subband index number b. show.

任意選択で、一実施態様では、プロセッサ602によって決定される残差信号符号化パラメータは、現在のフレームの長期平滑化パラメータである。 Optionally, in one implementation, the residual signal coding parameter determined by processor 602 is the long-term smoothing parameter of the current frame.

第1のパラメータが事前設定された第2の閾値より小さく、第2のパラメータが事前設定された第3の閾値より大きい場合、現在のフレームの、プロセッサ602によって決定される残差信号符号化パラメータは現在のフレームの長期平滑化パラメータであり、現在のフレームの長期平滑化パラメータは以下の式を満たし、
res_dmx_ratio_lt=res_dmx_ratio・α+res_dmx_ratio_lt_prev・(1-α)
式中、res_dmx_ratio_ltは、現在のフレームの長期平滑化パラメータを表し、res_dmx_ratioは、第1のパラメータを表し、res_dmx_ratio_lt_prevは、現在のフレームの前のフレームの長期平滑化パラメータを表し、0<α<1であり、
第2のパラメータが事前設定された第3の閾値より大きい場合、第1のパラメータが事前設定された第2の閾値より小さい場合のαの値は、第1のパラメータが事前設定された第2の閾値以上の場合のαの値より大きく、第2の閾値は0以上0.6以下であり、第3の閾値は2.7以上3.7以下であるか、または
第2のパラメータが事前設定された第5の閾値より大きい場合、第1のパラメータが事前設定された第4の閾値より大きい場合のαの値は、第1のパラメータが事前設定された第4の閾値以下の場合のαの値より大きく、第4の閾値は0以上0.9以下であり、第5の閾値は0以上0.71以下であるか、または
第1のパラメータが事前設定された第2の閾値より小さく、第2のパラメータが事前設定された第3の閾値より大きい場合のαの値は、第2のパラメータが事前設定された第5の閾値以上であり、事前設定された第3の閾値以下である場合のαの値より大きく、第2の閾値は0以上0.6以下であり、第3の閾値は2.7以上3.7以下であり、第5の閾値は0以上0.71以下である。
a residual signal coding parameter of the current frame determined by the processor 602 if the first parameter is less than a preset second threshold and the second parameter is greater than a preset third threshold; is the long-term smoothing parameter of the current frame, and the long-term smoothing parameter of the current frame satisfies the following equation,
res_dmx_ratio_lt = res_dmx_ratio · α + res_dmx_ratio_lt_prev · (1 - α)
where res_dmx_ratio_lt represents the long-term smoothing parameter of the current frame, res_dmx_ratio represents the first parameter, res_dmx_ratio_lt_prev represents the long-term smoothing parameter of the frame before the current frame, 0<α<1 and
If the second parameter is greater than the preset third threshold, the value of α if the first parameter is less than the preset second threshold is the same as the preset second is greater than the value of α for greater than or equal to the threshold of , the second threshold is between 0 and 0.6 inclusive, the third threshold is between 2.7 and 3.7 inclusive, or the second parameter is prior to The value of α when the first parameter is greater than the preset fourth threshold, if greater than the preset fifth threshold is is greater than the value of α, the fourth threshold is between 0 and 0.9, the fifth threshold is between 0 and 0.71, or the first parameter is preset above the second threshold The value of α is small and the second parameter is greater than the preset third threshold, the second parameter is greater than or equal to the preset fifth threshold and is less than or equal to the preset third threshold , the second threshold is 0 or more and 0.6 or less, the third threshold is 2.7 or more and 3.7 or less, and the fifth threshold is 0 or more and 0.71 It is below.

任意選択で、一実施形態では、プロセッサ602は、M個のサブバンドの残差信号を符号化すると決定されるときに、M個のサブバンドのダウンミックス信号および残差信号を符号化するか、またはM個のサブバンドの残差信号を符号化しないと決定されるときに、M個のサブバンドのダウンミックス信号を符号化するようにさらに構成される。 Optionally, in one embodiment, the processor 602 encodes the M subband downmix and residual signals when it is determined to encode the M subband residual signals. , or is further configured to encode the downmix signal of the M subbands when it is determined not to encode the residual signal of the M subbands.

本出願はチップをさらに提供する。本チップは、プロセッサと通信インターフェースとを含む。通信インターフェースは、外部デバイスと通信するように構成され、プロセッサは、本出願の実施形態におけるステレオ信号符号化方法を行うように構成される。 The present application further provides chips. The chip includes a processor and communication interface. The communication interface is configured to communicate with an external device, and the processor is configured to perform the stereo signal encoding method in the embodiments of the present application.

任意選択で、一実施態様では、本チップはメモリをさらに含み得る。メモリは、命令を格納し、プロセッサは、メモリに格納された命令を実行するように構成される。命令が実行されると、プロセッサは、本出願の実施形態におけるステレオ信号符号化方法を行うように構成される。 Optionally, in one implementation, the chip may further include memory. The memory stores instructions and the processor is configured to execute the instructions stored in the memory. When the instructions are executed, the processor is configured to perform the stereo signal encoding method in the embodiments of the present application.

任意選択で、一実施態様では、本チップは、端末機器またはネットワーク機器に組み込まれる。 Optionally, in one embodiment, the chip is incorporated into terminal equipment or network equipment.

本出願は、コンピュータ可読記憶媒体を提供する。本コンピュータ可読記憶媒体は、デバイスによって実行されるべきプログラムコードを格納する。プログラムコードは、本出願の実施形態におけるステレオ信号符号化方法を行うための命令を含む。 The present application provides a computer-readable storage medium. The computer-readable storage medium stores program code to be executed by the device. The program code includes instructions for performing the stereo signal encoding method in the embodiments of the present application.

本発明の実施形態で言及されたプロセッサは、中央処理装置(Central Processing Unit、CPU)であってもよく、または他の汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor、DSP)、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA)もしくは他のプログラマブルロジックデバイス、ディスクリートゲートもしくはトランジスタ論理デバイス、ディスクリートハードウェアコンポーネントなどであってもよいことを理解されたい。汎用プロセッサはマイクロプロセッサであってもよく、またはプロセッサは任意の従来のプロセッサなどであってもよい。 The processors referred to in the embodiments of the present invention may be Central Processing Units (CPUs), or other general purpose processors, Digital Signal Processors (DSPs), application specific integrated circuits. (Application Specific Integrated Circuit, ASIC), Field Programmable Gate Array (FPGA) or other programmable logic device, discrete gate or transistor logic device, discrete hardware component, etc. . A general-purpose processor may be a microprocessor, or the processor may be any conventional processor, and so on.

本発明の実施形態で言及されたメモリは、揮発性メモリまたは不揮発性メモリであってもよく、揮発性メモリおよび不揮発性メモリを含んでいてもよいことが理解されよう。不揮発性メモリは、読取り専用メモリ(Read-Only Memory、ROM)、プログラマブル読取り専用メモリ(Programmable ROM、PROM)、消去プログラマブル読取り専用メモリ(Erasable PROM、EPROM)、電気的消去可能 ログラマブル読取り専用メモリ(Electrically EPROM、EEPROM)、またはフラッシュメモリであり得る。揮発性メモリは、外部キャッシュとして使用されるランダムアクセスメモリ(Random Access Memory、RAM)であり得る。限定ではなく例として挙げると、多くの形態のRAM、例えば、スタティックランダムアクセスメモリ(Static RAM、SRAM)、ダイナミックランダムアクセスメモリ(Dynamic RAM、DRAM)、シンクロナス・ダイナミック・ランダム・アクセス・メモリ(Synchronous DRAM、SDRAM)、ダブル・データ・レート・シンクロナス・ダイナミック・ランダム・アクセス・メモリ(Double Data Rate SDRAM、DDR SDRAM)、拡張シンクロナス・ダイナミック・ランダム・アクセス・メモリ(Enhanced SDRAM、ESDRAM)、シンクリンク・ダイナミック・ランダム・アクセス・メモリ(Synchlink DRAM、SLDRAM)、ダイレクト・ラムバス・ランダム・アクセス・メモリ(Direct Rambus RAM、DR RAM)が使用され得る。 It will be appreciated that the memory referred to in embodiments of the present invention may be volatile memory or non-volatile memory, and may include volatile and non-volatile memory. Nonvolatile memory includes Read-Only Memory (ROM), Programmable Read-Only Memory (Programmable ROM, PROM), Erasable Programmable Read-Only Memory (Erasable PROM, EPROM), Electrically Erasable Programmable Read-Only Memory (Electrically EPROM, EEPROM), or flash memory. Volatile memory can be random access memory (RAM), used as an external cache. By way of example and not limitation, many forms of RAM such as Static Random Access Memory (Static RAM, SRAM), Dynamic Random Access Memory (Dynamic RAM, DRAM), Synchronous Dynamic Random Access Memory (Synchronous DRAM, SDRAM), double data rate synchronous dynamic random access memory (Double Data Rate SDRAM, DDR SDRAM), enhanced synchronous dynamic random access memory (Enhanced SDRAM, ESDRAM), sync Link Dynamic Random Access Memory (Synchlink DRAM, SLDRAM), Direct Rambus Random Access Memory (Direct Rambus RAM, DR RAM) may be used.

プロセッサが、汎用プロセッサ、DSP、ASIC、FPGA、もしくは他のプログラマブルロジックデバイス、ディスクリートゲート、トランジスタ論理回路、またはディスクリートハードウェアコンポーネントである場合、メモリ(記憶モジュール)はプロセッサに統合されることに留意されたい。 Note that if the processor is a general-purpose processor, DSP, ASIC, FPGA, or other programmable logic device, discrete gates, transistor logic circuits, or discrete hardware components, memory (storage module) is integrated into the processor. sea bream.

本明細書に記載されるメモリは、これらのメモリおよび任意の他の適切なタイプのメモリを含むが、これに限定されないことに留意されたい。 Note that the memory described herein includes, but is not limited to, these memories and any other suitable types of memory.

本明細書で開示される実施形態に記載される例と組み合わせて、各ユニットおよびアルゴリズムステップが、電子ハードウェアによって、またはコンピュータソフトウェアと電子ハードウェアの組み合わせによって実現され得ることを、当業者は理解するであろう。機能が果たされるのがハードウェアによってかそれともソフトウェアによってかは、技術的解決策の個々の用途および設計上の制約条件に依存する。当業者であれば、特定の用途ごとに様々な方法を使用して記載の機能を実施し得るが、その実施態様は本出願の範囲を超えるものと見なされるべきではない。 Those skilled in the art will understand that each unit and algorithm step can be realized by electronic hardware or by a combination of computer software and electronic hardware in combination with the examples described in the embodiments disclosed herein. would do. Whether the function is performed by hardware or by software depends on the particular application and design constraints of the technical solution. Skilled artisans may implement the described functionality using varying methods for each particular application, but such implementations should not be considered beyond the scope of this application.

説明を簡便にするために、前述のシステム、装置、およびユニットの詳細な動作プロセスについては、前述の方法実施形態における対応するプロセスを参照するものとし、本明細書には詳細が記載されていないことが、当業者には明確に理解されよう。 For convenience of explanation, the detailed operation processes of the aforementioned systems, devices, and units shall refer to the corresponding processes in the aforementioned method embodiments, and are not described in detail herein. This will be clearly understood by those skilled in the art.

本出願で提供されるいくつかの実施形態においては、開示のシステム、装置、および方法が他のやり方で実現され得ることを理解されたい。例えば、記載の装置実施形態は単なる例にすぎない。例えば、ユニットへの分割は単なる論理的機能分割にすぎず、実際の実装に際しては他の分割も可能である。例えば、複数のユニットまたはコンポーネントが組み合わされ、または統合して他のシステムとされる場合もあり、いくつかの特徴が無視され、または実行されない場合もある。加えて、図示され、または記述された相互結合または直接結合または通信接続は、いくつかのインターフェースを使用して実現されてもよい。装置間またはユニット間の間接結合または通信接続は、電子的形態、機械的形態、または他の形態で実現されてもよい。 It should be appreciated that in some of the embodiments provided in this application, the disclosed systems, devices, and methods may be implemented in other ways. For example, the described apparatus embodiment is merely exemplary. For example, the division into units is merely a logical functional division, and other divisions are possible in actual implementation. For example, multiple units or components may be combined or integrated into other systems, and some features may be ignored or not implemented. Additionally, the mutual couplings or direct couplings or communication connections shown or described may be implemented using some interfaces. Indirect couplings or communicative connections between devices or units may be realized in electronic, mechanical, or other form.

別々の部品として記載されたユニットは物理的に分離している場合もそうではない場合もあり、ユニットとして図示された部品は物理的ユニットである場合もそうではない場合もあり、一箇所に位置する場合もあり、複数のネットワークユニット上に分散されている場合もある。ユニットの一部または全部が、各実施形態の解決策の目的を達成するための実際の要件に基づいて選択されてもよい。 Units described as separate parts may or may not be physically separate and parts illustrated as units may or may not be physical units and may or may not be located together. may be distributed over multiple network units. Part or all of the units may be selected based on actual requirements to achieve the purpose of each embodiment's solution.

加えて、本出願の実施形態における機能ユニットは1つの処理ユニットに統合されてもよく、またはユニットの各々が物理的に独立して存在していてもよく、または2つ以上のユニットが1つのユニットに統合される。 In addition, the functional units in the embodiments of the present application may be integrated into one processing unit, or each of the units may exist physically independently, or two or more units may be combined into one integrated into the unit.

各機能がソフトウェア機能ユニットの形態で実現され、独立した製品として販売または使用される場合に、それらの機能は、コンピュータ可読記憶媒体に格納され得る。そうした理解に基づき、本出願の技術的解決策は本質的に、または先行技術に寄与する部分が、または技術的解決策の一部がソフトウェア製品の形態で実現され得る。コンピュータソフトウェア製品は記憶媒体に格納されており、(パーソナルコンピュータ、サーバ、ネットワーク機器などとし得る)コンピュータデバイスに、本出願の実施形態に記載されている方法のステップの全部または一部を実行するよう命令するためのいくつかの命令を含む。前述の記憶媒体は、USBフラッシュドライブ、リムーバブルハードディスク、読取り専用メモリ(Read-Only Memory、ROM)、ランダムアクセスメモリ(Random Access Memory、RAM)、磁気ディスク、または光ディスクなどの、プログラムコードを格納することができる任意の媒体を含む。 When each function is implemented in the form of software functional units and sold or used as an independent product, the functions can be stored in a computer-readable storage medium. Based on such an understanding, the technical solutions of the present application may be realized in the form of software products essentially or part of which contributes to the prior art, or part of the technical solutions. The computer software product is stored in a storage medium and instructs a computing device (which may be a personal computer, server, network appliance, etc.) to perform all or part of the method steps described in the embodiments of the present application. Including some commands to command. The aforementioned storage medium may store the program code, such as a USB flash drive, removable hard disk, read-only memory (ROM), random access memory (RAM), magnetic disk, or optical disk. including any medium capable of

以上の説明は、本出願の特定に実施態様にすぎず、本出願の保護範囲を限定するためのものではない。本出願で開示された技術範囲内で当業者が容易に思いつく一切の変形または置換は、本出願の保護範囲内であるものとする。したがって、本出願の保護範囲は、特許請求の範囲の保護範囲に従うものとする。 The above descriptions are only specific embodiments of the present application and are not intended to limit the protection scope of the present application. Any variation or replacement readily figured out by a person skilled in the art within the technical scope disclosed in the present application shall fall within the protection scope of the present application. Therefore, the protection scope of this application shall be subject to the protection scope of the claims.

110 符号化構成要素
120 復号構成要素
130 移動端末
131 収集構成要素
132 チャネル符号化構成要素
140 移動端末
141 オーディオ再生構成要素
142 チャネル復号構成要素
150 ネットワーク要素
151 チャネル復号構成要素
152 チャネル符号化構成要素
300 ステレオ信号符号化方法
500 装置
501 第1の決定モジュール
502 第2の決定モジュール
600 装置
601 メモリ
602 プロセッサ
110 Encoding Components
120 decoding component
130 mobile terminals
131 collection components
132 channel coding components
140 mobile terminals
141 Audio Playback Components
142 channel decoding component
150 network elements
151 channel decoding component
152 channel coding components
300 stereo signal encoding method
500 devices
501 First Decision Module
502 second decision module
600 devices
601 memory
602 processor

本出願は、参照によりその全体が本明細書に組み入れられる、2018年5月31日付で中国特許庁に出願された、「STEREO SIGNAL ENCODING METHOD AND APPARATUS」という名称の中国特許出願第201810549237.3号に基づく優先権を主張するものである。 This application is based on Chinese Patent Application No. 201810549237.3 entitled "STEREO SIGNAL ENCODING METHOD AND APPARATUS" filed with the Chinese Patent Office on May 31, 2018, which is incorporated herein by reference in its entirety. priority based on

本出願はオーディオ分野に関し、より具体的には、ステレオ信号符号化方法およびステレオ信号符号化装置に関する。 The present application relates to the audio field, and more particularly to a stereo signal encoding method and stereo signal encoding apparatus.

時間領域または時間周波数領域のステレオ符号化技術を使用してステレオ信号を符号化する一般的なプロセスは以下のとおりである。
左チャネル時間領域信号および右チャネル時間領域信号に対して時間領域前処理を行い、
時間領域前処理によって得られる左チャネル時間領域信号および右チャネル時間領域信号に対して時間領域解析を行い、
時間領域前処理によって得られる左チャネル時間領域信号および右チャネル時間領域信号に対して時間周波数領域変換を行って、左チャネル周波数領域信号および右チャネル周波数領域信号を得、
時間領域におけるチャネル間時間差(Inter-channel Time Difference、ITD)パラメータを決定し、
ITDパラメータに基づいて左周波数領域信号および右チャネル周波数領域信号に対して時間シフト調整を行い、
時間シフト調整によって得られる左チャネル周波数領域信号および右チャネル周波数領域信号に基づいてステレオパラメータ、ダウンミックス信号、および残差信号を計算し、ステレオパラメータ、ダウンミックス信号、および残差信号を符号化する。
The general process of encoding a stereo signal using time domain or time frequency domain stereo encoding techniques is as follows.
performing time-domain preprocessing on the left-channel time-domain signal and the right-channel time-domain signal;
performing time domain analysis on the left channel time domain signal and the right channel time domain signal obtained by the time domain preprocessing;
performing time frequency domain transformation on the left channel time domain signal and the right channel time domain signal obtained by the time domain preprocessing to obtain a left channel frequency domain signal and a right channel frequency domain signal;
determining the Inter-channel Time Difference (ITD) parameter in the time domain;
performing time shift adjustments to the left frequency domain signal and the right channel frequency domain signal based on the ITD parameters;
Compute stereo parameters, a downmix signal and a residual signal based on the left channel frequency domain signal and the right channel frequency domain signal obtained by time shift adjustment, and encode the stereo parameters, the downmix signal and the residual signal. .

先行技術では、符号化レートが比較的低い場合、ステレオパラメータおよびダウンミックス信号のみが一般に符号化され、符号化レートが比較的高い場合にのみ残差信号の一部または全部が符号化されることが知られている。この場合には、復号されたステレオ信号の空間感覚が比較的低く、復号されたステレオ信号の音像安定性が比較的低い。 In the prior art, only the stereo parameters and the downmix signal are generally coded when the coding rate is relatively low, and part or all of the residual signal is coded only when the coding rate is relatively high. It has been known. In this case, the spatial sensation of the decoded stereo signal is relatively low, and the sound image stability of the decoded stereo signal is relatively low.

他の先行技術では、符号化レートが比較的低い場合、ダウンミックス信号に加えて、事前設定された帯域幅範囲を満足するサブバンドの残差信号も符号化されることが知られている。この符号化方法は復号されたステレオ信号の空間感覚および音像安定性を改善することができるが、残差信号の符号化およびダウンミックス信号の符号化のために使用される符号化ビットの総数が固定され、ダウンミックス信号符号化中に低周波数情報が優先的に符号化されるので、ダウンミックス信号が符号化されるべきときに、一部の信号をダウンミックス信号中のより豊富な高周波数情報で符号化するのに十分なビット数がない可能性がある。したがって、復号されたステレオ信号の高周波歪みが比較的大きく、それによって符号化品質に影響が及ぶ。 In other prior art, it is known that when the coding rate is relatively low, in addition to the downmix signal, residual signals of subbands satisfying a preset bandwidth range are also coded. Although this coding method can improve the spatial perception and sound image stability of the decoded stereo signal, the total number of coding bits used for coding the residual signal and coding the downmix signal is Fixed, the low frequency information is preferentially encoded during downmix signal encoding, so that when the downmix signal is to be encoded, some signals are replaced with more abundant high frequencies in the downmix signal. There may not be enough bits to encode the information. Therefore, the high frequency distortion of the decoded stereo signal is relatively large, which affects the coding quality.

本出願は、復号されたステレオ信号の空間感覚および音像安定性が改善されるとともに復号されたステレオ信号の高周波歪みを可能な限り低減することができ、それによって符号化品質が改善されるような、ステレオ信号符号化方法を提供する。 The present application aims to improve the spatial sensation and sound image stability of the decoded stereo signal and to reduce the high frequency distortion of the decoded stereo signal as much as possible, thereby improving the coding quality. , to provide a stereo signal encoding method.

第1の態様によれば、ステレオ信号符号化方法が提供される。本方法は、ステレオ信号の現在のフレームの残差信号符号化パラメータを、現在のフレームのM個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定するステップであって、現在のフレームの残差信号符号化パラメータが、M個のサブバンドの残差信号を符号化するかどうかを示すために使用され、M個のサブバンドがN個のサブバンドの少なくとも一部であり、Nが1より大きい正の整数であり、M≦N、Mが正の整数である、ステップと、現在のフレームの残差信号符号化パラメータに基づいて、現在のフレームのM個のサブバンドの残差信号を符号化するかどうかを決定するステップとを含む。 According to a first aspect, a stereo signal encoding method is provided. The method comprises determining residual signal coding parameters for a current frame of a stereo signal based on downmix signal energy and residual signal energy for each of M subbands of the current frame, comprising: The residual signal coding parameter of the current frame is used to indicate whether to code the residual signal of the M subbands, where the M subbands are at least part of the N subbands. , where N is a positive integer greater than 1, M ≤ N, M is a positive integer, and the M subs of the current frame based on the residual signal coding parameters of the current frame and determining whether to encode the band's residual signal.

残差信号符号化パラメータは、N個のサブバンド内の、事前設定された帯域幅範囲を満足するM個のサブバンドのダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定され、M個のサブバンドの各々の残差信号を符号化するかどうかは、残差信号符号化パラメータに基づいて決定される。これにより、符号化レートが比較的低い場合にダウンミックス信号のみを符号化することが回避される。あるいは、事前設定された帯域幅範囲を満足するサブバンドのすべての残差信号を符号化するかどうかが、残差信号符号化パラメータに基づいて決定される。したがって、復号されたステレオ信号の空間感覚および音像安定性が改善されると同時に復号されたステレオ信号の高周波歪みを可能な限り低減することができ、それによって符号化品質が改善される。 The residual signal coding parameters are determined based on the downmix signal energy and the residual signal energy of the M subbands within the N subbands, satisfying a preset bandwidth range; Whether to code the residual signal of each subband is determined based on the residual signal coding parameters. This avoids encoding only the downmix signal when the encoding rate is relatively low. Alternatively, whether to code all residual signals in subbands satisfying a preset bandwidth range is determined based on residual signal coding parameters. Therefore, the spatial sensation and sound image stability of the decoded stereo signal are improved, and at the same time, the high frequency distortion of the decoded stereo signal can be reduced as much as possible, thereby improving the coding quality.

第1の態様を参照すると、第1の態様の1つの可能な実施態様において、M個のサブバンドは、N個のサブバンド内の、サブバンドインデックス番号が事前設定された最大サブバンドインデックス番号以下であるM個のサブバンドである。 Referring to the first aspect, in one possible implementation of the first aspect, the M subbands are the preset maximum subband index number among the N subbands. Here are the M subbands:

任意選択で、一実施態様では、M個のサブバンドは、N個のサブバンド内の、サブバンドインデックス番号が事前設定された最小サブバンドインデックス番号以上、事前設定された最大サブバンドインデックス番号以下であるM個のサブバンドである。 Optionally, in one embodiment, the M subbands have a subband index number greater than or equal to a preset minimum subband index number and less than or equal to a preset maximum subband index number in the N subbands. are M subbands.

最小サブバンドインデックス番号および/または最大サブバンドインデックス番号は、異なる符号化レートに基づいて設定される。残差信号符号化パラメータは、異なる符号化レートと、N個のサブバンド内の複数の特定のサブバンドのダウンミックス信号エネルギーおよび残差信号エネルギーとに基づいて決定され、M個のサブバンドの各々の残差信号を符号化するかどうかは、残差信号符号化パラメータに基づいて決定される。これにより、符号化レートが比較的低い場合にダウンミックス信号のみを符号化することが回避される。あるいは、事前設定された帯域幅範囲を満足するサブバンドのすべての残差信号を符号化するかどうかが、残差信号符号化パラメータに基づいて決定される。したがって、復号されたステレオ信号の空間感覚および音像安定性が改善されると同時に復号されたステレオ信号の高周波歪みを可能な限り低減することができ、それによって符号化品質が改善される。 The minimum subband index number and/or maximum subband index number are set based on different coding rates. The residual signal coding parameters are determined based on the different coding rates and the downmix signal energy and residual signal energy of multiple specific subbands within the N subbands, and Whether to code each residual signal is determined based on the residual signal coding parameters. This avoids encoding only the downmix signal when the encoding rate is relatively low. Alternatively, whether to code all residual signals in subbands satisfying a preset bandwidth range is determined based on residual signal coding parameters. Therefore, the spatial sensation and sound image stability of the decoded stereo signal are improved, and at the same time, the high frequency distortion of the decoded stereo signal can be reduced as much as possible, thereby improving the coding quality.

第1の態様を参照すると、第1の態様の1つの可能な実施態様において、現在のフレームの残差信号符号化パラメータに基づいて、M個のサブバンドの各々の残差信号を符号化するかどうかを決定するステップは、現在のフレームの残差信号符号化パラメータを事前設定された第1の閾値と比較するステップであって、第1の閾値が0より大きく1.0より小さい、ステップと、現在のフレームの残差信号符号化パラメータが第1の閾値以下である場合、M個のサブバンドの各々の残差信号を符号化しないと決定するステップ、または現在のフレームの残差信号符号化パラメータが第1の閾値より大きい場合、M個のサブバンドの各々の残差信号を符号化すると決定するステップとを含む。 Referring to the first aspect, in one possible implementation of the first aspect, the residual signal of each of the M subbands is encoded based on the residual signal coding parameters of the current frame. The step of determining whether the residual signal coding parameter of the current frame is compared to a preset first threshold, wherein the first threshold is greater than 0 and less than 1.0, the step and determining not to encode the residual signal of each of the M subbands if the residual signal coding parameter of the current frame is less than or equal to the first threshold; or and determining to encode the residual signal of each of the M subbands if the encoding parameter is greater than a first threshold.

第1の閾値が設定され、決定された残差信号符号化パラメータが、第1の閾値と比較される。M個のサブバンドの各々の残差信号を符号化するかどうかは、残差信号符号化パラメータと第1の閾値との比較結果に基づいて決定される。これにより、符号化レートが比較的低い場合にダウンミックス信号のみを符号化することが回避される。あるいは、事前設定された帯域幅範囲を満足するサブバンドのすべての残差信号を符号化するかどうかが、残差信号符号化パラメータと第1の閾値との比較結果に基づいて決定される。したがって、復号されたステレオ信号の空間感覚および音像安定性が改善されると同時に復号されたステレオ信号の高周波歪みを可能な限り低減することができ、それによって符号化品質が改善される。 A first threshold is set and the determined residual signal coding parameter is compared to the first threshold. Whether to encode the residual signal of each of the M subbands is determined based on the result of comparing the residual signal encoding parameter with the first threshold. This avoids encoding only the downmix signal when the encoding rate is relatively low. Alternatively, whether to encode all residual signals in subbands that satisfy a preset bandwidth range is determined based on the result of comparing the residual signal coding parameter with the first threshold. Therefore, the spatial sensation and sound image stability of the decoded stereo signal are improved, and at the same time, the high frequency distortion of the decoded stereo signal can be reduced as much as possible, thereby improving the coding quality.

第1の態様を参照すると、第1の態様の1つの可能な実施態様において、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて現在のフレームの残差信号符号化パラメータを決定するステップは、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて残差信号符号化パラメータを決定するステップ、を含む。 Referring to the first aspect, in one possible implementation of the first aspect, residual signal encoding of the current frame based on downmix signal energy and residual signal energy for each of the M subbands Determining the parameters includes determining residual signal coding parameters based on the downmix signal energy, the residual signal energy, and the side gains for each of the M subbands.

M個のサブバンドの各々の残差信号符号化パラメータは、ダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて決定され、M個のサブバンドの各々の残差信号を符号化するかどうかは、残差信号符号化パラメータに基づいて決定される。これにより、符号化レートが比較的低い場合にダウンミックス信号のみを符号化することが回避される。あるいは、事前設定された帯域幅範囲を満足するサブバンドのすべての残差信号を符号化するかどうかが、残差信号符号化パラメータに基づいて決定される。したがって、復号されたステレオ信号の空間感覚および音像安定性が改善されると同時に復号されたステレオ信号の高周波歪みを可能な限り低減することができ、それによって符号化品質が改善される。 A residual signal coding parameter for each of the M subbands is determined based on the downmix signal energy, the residual signal energy, and the side gain to encode the residual signal for each of the M subbands. is determined based on the residual signal coding parameters. This avoids encoding only the downmix signal when the encoding rate is relatively low. Alternatively, whether to code all residual signals in subbands satisfying a preset bandwidth range is determined based on residual signal coding parameters. Therefore, the spatial sensation and sound image stability of the decoded stereo signal are improved, and at the same time, the high frequency distortion of the decoded stereo signal can be reduced as much as possible, thereby improving the coding quality.

第1の態様を参照すると、第1の態様の1つの可能な実施態様において、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて残差信号符号化パラメータを決定するステップは、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて第1のパラメータを決定するステップであって、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示す、ステップと、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第2のパラメータを決定するステップであって、第2のパラメータが第1のエネルギー和と第2のエネルギー和との間の値関係を示し、第1のエネルギー和がM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、第2のエネルギー和が、現在のフレームの前のフレームの周波数領域信号におけるM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、現在のフレームのM個のサブバンドが前のフレームのM個のサブバンドと同じサブバンドインデックス番号を有する、ステップと、第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて現在のフレームの残差信号符号化パラメータを決定するステップとを含む。 Referring to the first aspect, in one possible implementation of the first aspect, residual signal encoding based on downmix signal energy, residual signal energy, and side gain for each of the M subbands Determining the parameters includes determining a first parameter based on the downmix signal energy, residual signal energy, and side gain for each of the M subbands, wherein the first parameter is M second step based on the downmix signal energy and the residual signal energy for each of the M subbands, indicating a value relationship between the downmix signal energy and the residual signal energy for each of the M subbands; wherein the second parameter indicates a value relationship between the first energy sum and the second energy sum, and the first energy sum is the residual signal of the M subbands a sum of the energy and the downmix signal energy, a second energy sum being the sum of the residual signal energy and the downmix signal energy of the M subbands in the frequency-domain signal of the previous frame of the current frame; a step in which the M subbands of the current frame have the same subband index numbers as the M subbands of the previous frame; determining residual signal coding parameters for the current frame based on the long-term smoothing parameters.

第1の態様を参照すると、第1の態様の1つの可能な実施態様において、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて第1のパラメータを決定するステップは、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいてM個のエネルギーパラメータを決定するステップであって、M個のエネルギーパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応する、ステップと、M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを第1のパラメータとして決定するステップとを含む。 Referring to the first aspect, in one possible implementation of the first aspect, the first parameter is determined based on the downmix signal energy, the residual signal energy, and the side gain of each of the M subbands. The determining step is determining M energy parameters based on the downmix signal energy, residual signal energy, and side gain for each of the M subbands, wherein the M energy parameters are equal to M step, respectively showing a value relationship between the downmix signal energy and the residual signal energy of each of the subbands, the M energy parameters corresponding one-to-one with the M subbands; and determining as the first parameter the energy parameter having the maximum value among the energy parameters of .

第1の態様を参照すると、第1の態様の1つの可能な実施態様において、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータが以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/(res_cod_NRG_S[b]+(1-g(b))・(1-g(b))・res_cod_NRG_M[b]+1)
式中、res_dmx_ratio[b]は、サブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表し、g(b)は、サブバンドインデックス番号がbであるサブバンドのサイドゲインside_gain[b]の関数を表す。
Referring to the first aspect, in one possible implementation of the first aspect, the energy parameter of the subband with subband index number b among the M energy parameters satisfies the following equation:
res_dmx_ratio[b] = res_cod_NRG_S[b]/(res_cod_NRG_S[b] + (1-g(b)) (1-g(b)) res_cod_NRG_M[b]+1)
where res_dmx_ratio[b] represents the energy parameter of the subband whose subband index number is b, b is greater than or equal to 0 and less than or equal to the preset maximum subband index number, res_cod_NRG_S[b] represents the residual signal energy of the subband with subband index number b, res_cod_NRG_M[b] represents the downmix signal energy of the subband with subband index number b, and g(b) is 4 represents a function of the side gain side_gain[b] of the subband whose subband index number is b.

第1の態様を参照すると、第1の態様の1つの可能な実施態様において、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて現在のフレームの残差信号符号化パラメータを決定するステップは、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第1のパラメータを決定するステップであって、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示す、ステップと、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第2のパラメータを決定するステップであって、第2のパラメータが第1のエネルギー和と第2のエネルギー和との間の値関係を示し、第1のエネルギー和がM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、第2のエネルギー和が、現在のフレームの前のフレームの周波数領域信号におけるM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、現在のフレームのM個のサブバンドが前のフレームのM個のサブバンドと同じサブバンドインデックス番号を有する、ステップと、第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて現在のフレームの残差信号符号化パラメータを決定するステップとを含む。 Referring to the first aspect, in one possible implementation of the first aspect, residual signal encoding of the current frame based on downmix signal energy and residual signal energy for each of the M subbands Determining the parameter is determining a first parameter based on the downmix signal energy and the residual signal energy for each of the M subbands, the first parameter being the and determining a second parameter based on the downmix signal energy and the residual signal energy for each of the M subbands. wherein the second parameter indicates a value relationship between the first energy sum and the second energy sum, the first energy sum being the residual signal energy of the M subbands and the downmix is the sum of the signal energies, the second energy sum is the sum of the residual signal energies and the downmix signal energies of the M subbands in the frequency domain signal of the frame before the current frame, and the sum of the downmix signal energies of the current frame; A step in which the M subbands have the same subband index number as the M subbands of the previous frame, and the first parameter, the second parameter, and the long-term smoothing parameter of the frame before the current frame. determining the residual signal coding parameters for the current frame based on .

第1の態様を参照すると、第1の態様の1つの可能な実施態様において、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第1のパラメータを決定するステップは、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいてM個のエネルギーパラメータを決定するステップであって、M個のエネルギーパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応する、ステップと、M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを第1のパラメータとして決定するステップとを含む。 Referring to the first aspect, in one possible implementation of the first aspect, determining the first parameter based on the downmix signal energy and the residual signal energy for each of the M subbands comprises: , determining M energy parameters based on the downmix signal energy and the residual signal energy for each of the M subbands, wherein the M energy parameters are based on the downmix signal energy and the residual signal energy for each of the M subbands. Steps and maximum values among the M energy parameters, each showing a value relationship between the mix signal energy and the residual signal energy, wherein the M energy parameters correspond one-to-one with the M subbands; as the first parameter.

任意選択で、一実施態様では、M個のエネルギーパラメータの和が、(補正されるべき)第1のパラメータres_dmx_ratio1として決定され、res_dmx_ratio1は、M個のエネルギーパラメータのうちの最大値res_dmx_ratio_maxおよびM個のサブバンドの各々のダウンミックス信号エネルギーres_cod_NRG_M[b]に基づいて補正され、補正によって得られたres_dmx_ratio2が決定される。 Optionally, in one implementation, the sum of the M energy parameters is determined as the first parameter res_dmx_ratio 1 (to be corrected), where res_dmx_ratio 1 is the maximum of the M energy parameters res_dmx_ratio_max and Corrected based on the downmix signal energy res_cod_NRG_M[b] of each of the M subbands to determine res_dmx_ratio 2 obtained by correction.

例えば、符号器側はres_dmx_ratio1を以下の式に従って補正し、式中、M=5であり、
補正によって得られたres_dmx_ratio2は以下の式を満たす。

Figure 2022163058000038
For example, the encoder side corrects res_dmx_ratio 1 according to the following formula, where M=5,
res_dmx_ratio 2 obtained by correction satisfies the following equation.
Figure 2022163058000038

任意選択で、一実施態様では、補正によって得られたres_dmx_ratio2がさらに補正され得る。 Optionally, in one implementation, the res_dmx_ratio 2 obtained by correction may be further corrected.

例えば、補正によって最終的に得られたres_dmx_ratio3は以下の式を満たし、
res_dmx_ratio3=pow(res_dmx_ratio2,1.2)
式中、pow()関数は、指数関数を表し、pow(res_dmx_ratio2,1.2)は、res_dmx_ratio2の1.2乗を表す。
For example, res_dmx_ratio 3 finally obtained by correction satisfies the following formula,
res_dmx_ratio3 = pow( res_dmx_ratio2 , 1.2)
In the formula, the pow() function represents an exponential function, and pow( res_dmx_ratio2 , 1.2 ) represents res_dmx_ratio2 raised to the power of 1.2.

任意選択で、一実施態様では、符号器側は第1のパラメータを、M個のサブバンドの残差信号エネルギーの和およびM個のサブバンドのダウンミックス信号エネルギーの和に基づいて決定する。 Optionally, in one embodiment, the encoder side determines the first parameter based on the sum of the residual signal energies of the M subbands and the sum of the downmix signal energies of the M subbands.

具体的には、符号器側は、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currとM個のサブバンドの残差信号エネルギーの和res_nrg_all_currとを別々に決定し、dmx_nrg_all_currおよびres_nrg_all_currに基づいて第1のパラメータを決定する。 Specifically, the encoder side separately determines the sum dmx_nrg_all_curr of the downmix signal energies of the M subbands and the sum res_nrg_all_curr of the residual signal energies of the M subbands, and based on dmx_nrg_all_curr and res_nrg_all_curr Determine the first parameter.

任意選択で、一実施態様では、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currは以下の式を満たし、

Figure 2022163058000039
式中、res_cod_NRG_M_prev[b]は、現在のフレームの前のフレームにおけるサブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表し、γ1は、平滑化係数を表し、γ1は、0以上1以下の実数であり、例えば、γ1=0.1である。 Optionally, in one implementation, the sum dmx_nrg_all_curr of the downmix signal energies of the M subbands satisfies the following equation:
Figure 2022163058000039
where res_cod_NRG_M_prev [b] represents the downmix signal energy of the subband with subband index number b in the frame previous to the current frame, γ1 represents the smoothing factor, and γ1 is 0 It is a real number greater than or equal to 1 and less than or equal to 1, for example, γ 1 =0.1.

任意選択で、一実施態様では、M個のサブバンドの残差信号エネルギーの和res_nrg_all_currは以下の式を満たし、

Figure 2022163058000040
式中、res_cod_NRG_S_prev[b]は、現在のフレームの前のフレームにおけるサブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、γ2は、平滑化係数を表し、γ2は、0以上1以下の実数であり、例えば、γ2=0.1である。 Optionally, in one implementation, the sum res_nrg_all_curr of the residual signal energies of the M subbands satisfies the following equation:
Figure 2022163058000040
where res_cod_NRG_S_prev[ b ] represents the residual signal energy of the subband with subband index number b in the frame previous to the current frame, γ2 represents the smoothing factor, and γ2 is 0 It is a real number greater than or equal to 1 and less than or equal to 1. For example, γ 2 =0.1.

符号器側は、dmx_nrg_all_currおよびres_nrg_all_currに基づいて第1のパラメータres_dmx_ratioを決定する。 The encoder side determines the first parameter res_dmx_ratio based on dmx_nrg_all_curr and res_nrg_all_curr.

例えば、符号器側によって最終的に決定された第1のパラメータres_dmx_ratioは以下の式を満たす。
res_dmx_ratio=res_nrg_all_curr/dmx_nrg_all_curr
For example, the first parameter res_dmx_ratio finally determined by the encoder side satisfies the following equation.
res_dmx_ratio = res_nrg_all_curr/dmx_nrg_all_curr

第1の態様を参照すると、第1の態様の1つの可能な実施態様において、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b]
式中、res_dmx_ratio[b]は、サブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表す。
Referring to the first aspect, in one possible implementation of the first aspect, the energy parameter of the subband with subband index number b among the M energy parameters satisfies the following equation:
res_dmx_ratio[b] = res_cod_NRG_S[b]/res_cod_NRG_M[b]
where res_dmx_ratio[b] represents the energy parameter of the subband whose subband index number is b, b is greater than or equal to 0 and less than or equal to the preset maximum subband index number, res_cod_NRG_S[b] res_cod_NRG_M[b] represents the residual signal energy of the subband with subband index number b, and res_cod_NRG_M[b] represents the downmix signal energy of the subband with subband index number b.

第1の態様を参照すると、第1の態様の1つの可能な実施態様において、現在のフレームの残差信号符号化パラメータは、現在のフレームの長期平滑化パラメータであり、現在のフレームの長期平滑化パラメータは以下の式を満たし、
res_dmx_ratio_lt=res_dmx_ratio・α+res_dmx_ratio_lt_prev・(1-α)
式中、res_dmx_ratio_ltは、現在のフレームの長期平滑化パラメータを表し、res_dmx_ratioは、第1のパラメータを表し、res_dmx_ratio_lt_prevは、現在のフレームの前のフレームの長期平滑化パラメータを表し、0<α<1であり、
第2のパラメータが事前設定された第3の閾値より大きい場合、第1のパラメータが事前設定された第2の閾値より小さい場合のαの値は、第1のパラメータが事前設定された第2の閾値以上の場合のαの値より大きく、第2の閾値は0以上0.6以下であり、第3の閾値は2.7以上3.7以下であるか、または
第2のパラメータが事前設定された第5の閾値より小さい場合、第1のパラメータが事前設定された第4の閾値より大きい場合のαの値は、第1のパラメータが事前設定された第4の閾値以下の場合のαの値より大きく、第4の閾値は0以上0.9以下であり、第5の閾値は0以上0.71以下であるか、または
第2のパラメータが事前設定された第5の閾値以上であり、事前設定された第3の閾値以下である場合、αの値は、第1のパラメータが事前設定された第2の閾値より小さく、第2のパラメータが事前設定された第3の閾値より大きい場合のαの値より小さく、第2の閾値は0以上0.6以下であり、第3の閾値は2.7以上3.7以下であり、第5の閾値は0以上0.71以下である。
Referring to the first aspect, in one possible implementation of the first aspect, the current frame residual signal coding parameter is the current frame long-term smoothing parameter, and the current frame long-term smoothing parameter parameter satisfies the following equation,
res_dmx_ratio_lt = res_dmx_ratio · α + res_dmx_ratio_lt_prev · (1 - α)
where res_dmx_ratio_lt represents the long-term smoothing parameter of the current frame, res_dmx_ratio represents the first parameter, res_dmx_ratio_lt_prev represents the long-term smoothing parameter of the frame before the current frame, 0<α<1 and
If the second parameter is greater than the preset third threshold, the value of α if the first parameter is less than the preset second threshold is the same as the preset second is greater than the value of α for greater than or equal to the threshold of , the second threshold is between 0 and 0.6 inclusive, the third threshold is between 2.7 and 3.7 inclusive, or the second parameter is prior to The value of α when the first parameter is greater than the preset fourth threshold is less than the preset fifth threshold, and the value of α when the first parameter is less than or equal to the preset fourth threshold. greater than the value of α and the fourth threshold is between 0 and 0.9 and the fifth threshold is between 0 and 0.71 or the second parameter is greater than or equal to the preset fifth threshold and is less than or equal to a preset third threshold, then the value of α is less than the first parameter preset second threshold and the second parameter is preset third threshold less than the value of α if greater than, the second threshold is 0 or more and 0.6 or less, the third threshold is 2.7 or more and 3.7 or less, and the fifth threshold is 0 or more and 0.71 It is below.

第1の態様を参照すると、第1の態様の1つの可能な実施態様において、本方法は、M個のサブバンドの残差信号を符号化すると決定されるときに、M個のサブバンドのダウンミックス信号および残差信号を符号化するステップ、またはM個のサブバンドの残差信号を符号化しないと決定されるときに、M個のサブバンドのダウンミックス信号を符号化するステップ、をさらに含む。 Referring to the first aspect, in one possible implementation of the first aspect, when it is determined to encode the residual signal of M subbands, the method comprises: encoding the downmix signal and the residual signal, or encoding the downmix signal for the M subbands when it is determined not to encode the residual signal for the M subbands; Including further.

第2の態様によれば、符号化装置が提供される。本装置は、ステレオ信号の現在のフレームの残差信号符号化パラメータを、現在のフレームのM個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定するように構成された第1の決定モジュールであって、現在のフレームの残差信号符号化パラメータが、M個のサブバンドの残差信号を符号化するかどうかを示すために使用され、M個のサブバンドがN個のサブバンドの少なくとも一部であり、Nが1より大きい正の整数であり、M≦N、Mが正の整数である、第1の決定モジュールと、現在のフレームの残差信号符号化パラメータに基づいて、M個のサブバンドの残差信号を符号化するかどうかを決定するように構成された、第2の決定モジュールと、を含む。 According to a second aspect, an encoding device is provided. The apparatus is configured to determine residual signal coding parameters for a current frame of the stereo signal based on the downmix signal energy and the residual signal energy of each of the M subbands of the current frame. A first determining module, wherein the residual signal coding parameters of the current frame are used to indicate whether to code the residual signal of M subbands, wherein the M subbands are N a first determining module, wherein N is a positive integer greater than 1 and M≤N, where M is a positive integer; and residual signal encoding of the current frame. and a second decision module configured to decide whether to encode the M subband residual signals based on the parameters.

第3の態様によれば、符号化装置が提供される。本装置はメモリとプロセッサとを含み、メモリは、プログラムを格納するように構成され、プロセッサは、プログラムを実行するように構成され、プログラムが実行されると、プロセッサは、第1の態様または第1の態様の可能な実施態様のいずれか1つによる方法を行う。 According to a third aspect, an encoding device is provided. The apparatus includes a memory and a processor, the memory configured to store the program, the processor configured to execute the program, and when the program is executed, the processor performs the first aspect or the first aspect. A method according to any one of the possible embodiments of aspect 1 is carried out.

第4の態様によれば、コンピュータ可読記憶媒体が提供される。本コンピュータ可読記憶媒体は、デバイスによって実行されるべきプログラムコードを格納し、プログラムコードは、第1の態様または第1の態様の様々な実施態様による方法を行うために使用される命令を含む。 According to a fourth aspect, a computer-readable storage medium is provided. The computer-readable storage medium stores program code to be executed by the device, the program code including instructions used to perform the method according to the first aspect or various implementations of the first aspect.

第5の態様によれば、チップが提供される。本チップは、プロセッサと通信インターフェースとを含む。通信インターフェースは、外部デバイスと通信するように構成される。プロセッサは、第1の態様または第1の態様の可能な実施態様のいずれか1つによる方法を行うように構成される。 According to a fifth aspect, a chip is provided. The chip includes a processor and communication interface. A communication interface is configured to communicate with an external device. The processor is configured to perform the method according to the first aspect or any one of the possible implementations of the first aspect.

任意選択で、一実施態様では、本チップはメモリをさらに含み得る。メモリは、命令を格納し、プロセッサは、メモリに格納された命令を実行するように構成される。命令が実行されると、プロセッサは、第1の態様または第1の態様の可能な実施態様のいずれか1つによる方法を行うように構成される。 Optionally, in one implementation, the chip may further include memory. The memory stores instructions and the processor is configured to execute the instructions stored in the memory. When the instructions are executed, the processor is configured to perform the method according to the first aspect or any one of the possible implementations of the first aspect.

任意選択で、一実施態様では、本チップは、端末機器またはネットワーク機器に組み込まれる。 Optionally, in one embodiment, the chip is incorporated into terminal equipment or network equipment.

本出願の一実施形態による時間領域におけるステレオ符号化および復号の概略的構造図である。1 is a schematic structural diagram of stereo encoding and decoding in the time domain according to an embodiment of the present application; FIG. 本出願の一実施形態による移動端末の概略図である。1 is a schematic diagram of a mobile terminal according to an embodiment of the present application; FIG. 本出願の一実施形態によるネットワーク要素の概略図である。1 is a schematic diagram of a network element according to an embodiment of the application; FIG. 周波数領域のステレオ信号符号化方法の概略的な流れ図である。1 is a schematic flow diagram of a stereo signal encoding method in the frequency domain; 時間周波数領域のステレオ信号符号化方法の概略的な流れ図である。1 is a schematic flow diagram of a stereo signal encoding method in the time-frequency domain; 本出願の一実施形態によるステレオ信号符号化方法の概略的な流れ図である。1 is a schematic flow diagram of a stereo signal encoding method according to an embodiment of the present application; 本出願の一実施形態によるステレオ信号符号化方法の他の概略的な流れ図である。Fig. 4 is another schematic flow diagram of a stereo signal encoding method according to an embodiment of the present application; 本出願の一実施形態によるステレオ信号符号化装置の概略的ブロック図である。1 is a schematic block diagram of a stereo signal encoding device according to an embodiment of the present application; FIG. 本出願の一実施形態によるステレオ信号符号化装置の他の概略的ブロック図である。Fig. 3 is another schematic block diagram of a stereo signal encoding device according to an embodiment of the present application;

以下で、添付の図面を参照して本出願の技術的解決策を説明する。 The technical solutions of the present application are described below with reference to the accompanying drawings.

図1は、本出願の一例示的実施形態による時間領域におけるステレオ符号化および復号システムの概略的構造図である。ステレオ符号化および復号システムは、符号化構成要素110と復号構成要素120とを含む。 FIG. 1 is a schematic structural diagram of a stereo encoding and decoding system in the time domain according to an exemplary embodiment of the present application. Stereo encoding and decoding system includes encoding component 110 and decoding component 120 .

符号化構成要素110は、時間領域でステレオ信号を符号化するように構成される。任意選択で、符号化構成要素110は、ソフトウェアを使用して実施されてもよく、またはハードウェアを使用して実施されてもよく、またはソフトウェアとハードウェアの組み合わせの形態で実施されてもよい。これは本実施形態では限定されない。 Encoding component 110 is configured to encode the stereo signal in the time domain. Optionally, encoding component 110 may be implemented using software, or may be implemented using hardware, or may be implemented in the form of a combination of software and hardware. . This is not limited in this embodiment.

符号化構成要素110は、時間領域でステレオ信号を符号化し、以下の複数のステップを含む。 Encoding component 110 encodes the stereo signal in the time domain and includes the following steps.

(1)得られたステレオ信号に対して時間領域前処理を行って、時間領域前処理によって得られる左チャネル信号および時間領域前処理によって得られる右チャネル信号を得る。 (1) Performing time domain preprocessing on the obtained stereo signal to obtain a left channel signal obtained by the time domain preprocessing and a right channel signal obtained by the time domain preprocessing.

ステレオ信号は、収集構成要素によって収集され、符号化構成要素110に送られる。任意選択で、収集構成要素と符号化構成要素110とは同じデバイスに配置され得る。あるいは、収集構成要素と符号化構成要素110とは異なるデバイスに配置され得る。 A stereo signal is collected by the collection component and sent to the encoding component 110 . Optionally, the collection component and encoding component 110 may be located on the same device. Alternatively, the collection component and encoding component 110 may be located on different devices.

前処理によって得られる左チャネル信号および前処理によって得られる右チャネル信号は、前処理によって得られるステレオ信号の2つのチャネルの信号である。 The left channel signal obtained by preprocessing and the right channel signal obtained by preprocessing are signals of two channels of the stereo signal obtained by preprocessing.

任意選択で、前処理は、高域フィルタリング処理、プリエンファシス処理、サンプリングレート変換、およびチャネル変換のうちの少なくとも1つを含む。これは本実施形態では限定されない。 Optionally, pre-processing includes at least one of high-pass filtering, pre-emphasis, sampling rate conversion, and channel conversion. This is not limited in this embodiment.

(2)前処理によって得られる左チャネル信号および前処理によって得られる右チャネル信号に基づいて遅延推定を行って、前処理によって得られる左チャネル信号と前処理によって得られる右チャネル信号との間のチャネル間時間差を得る。 (2) Perform delay estimation based on the left channel signal obtained by preprocessing and the right channel signal obtained by preprocessing, and calculate the difference between the left channel signal obtained by preprocessing and the right channel signal obtained by preprocessing. Get the inter-channel time difference.

(3)チャネル間時間差に基づいて、前処理によって得られる左チャネル信号および前処理によって得られる右チャネル信号に対して遅延調整処理を行って、遅延整合処理によって得られる左チャネル信号および遅延整合処理によって得られる右チャネル信号を得る。 (3) performing delay adjustment processing on the left channel signal obtained by preprocessing and the right channel signal obtained by preprocessing based on the inter-channel time difference, and obtaining the left channel signal and delay matching processing obtained by delay matching processing; Obtain the right channel signal obtained by

(4)チャネル間時間差を符号化してチャネル間時間差の符号化インデックスを得る。 (4) encoding the inter-channel time difference to obtain an encoding index of the inter-channel time difference;

(5)時間領域ダウンミックス処理に使用されるステレオパラメータを計算し、時間領域ダウンミックス処理に使用されるステレオパラメータを符号化して、時間領域ダウンミックス処理に使用されるステレオパラメータの符号化インデックスを得る。 (5) calculating the stereo parameters used in the time-domain downmixing process, encoding the stereo parameters used in the time-domain downmixing process, and obtaining the encoding index of the stereo parameters used in the time-domain downmixing process as obtain.

時間領域ダウンミックス処理に使用されるステレオパラメータは、遅延整合処理によって得られる左チャネル信号および遅延整合処理によって得られる右チャネル信号に対して時間領域ダウンミックス処理を行うために使用される。 The stereo parameters used for time-domain downmix processing are used to perform time-domain downmix processing on the left channel signal obtained by delay matching processing and the right channel signal obtained by delay matching processing.

(6)時間領域ダウンミックス処理に使用されるステレオパラメータに基づいて、遅延整合処理によって得られる左チャネル信号および遅延整合処理によって得られる右チャネル信号に対して時間領域ダウンミックス処理を行って、プライマリチャネル信号およびセカンダリチャネル信号を得る。 (6) performing time-domain downmix processing on the left channel signal obtained by delay matching processing and the right channel signal obtained by delay matching processing, based on the stereo parameters used in the time domain downmix processing, to obtain a primary Obtain a channel signal and a secondary channel signal.

プライマリチャネル信号は、チャネル間の相関に関する情報を表すために使用される。セカンダリチャネル信号は、チャネル間の差に関する情報に使用される。遅延整合処理によって得られる左チャネル信号と遅延整合処理によって得られる右チャネル信号とが時間領域において整合されるとき、セカンダリチャネル信号は最小である。この場合、ステレオ信号は最善の効果を有する。 A primary channel signal is used to represent information about the correlation between channels. Secondary channel signals are used for information about differences between channels. The secondary channel signal is minimal when the left channel signal obtained by the delay matching process and the right channel signal obtained by the delay matching process are matched in the time domain. In this case the stereo signal has the best effect.

(7)プライマリチャネル信号とセカンダリチャネル信号とを別々に符号化して、プライマリチャネル信号に対応する第1のモノラル符号化ビットストリーム、およびセカンダリチャネル信号に対応する第2のモノラル符号化ビットストリームを得る。 (7) separately encode the primary channel signal and the secondary channel signal to obtain a first mono-encoded bitstream corresponding to the primary channel signal and a second mono-encoded bitstream corresponding to the secondary channel signal; .

(8)チャネル間時間差の符号化インデックス、ステレオパラメータの符号化インデックス、第1のモノラル符号化ビットストリーム、および第2のモノラル符号化ビットストリームをステレオ符号化ビットストリームに書き込む。 (8) Write the encoding index of the inter-channel time difference, the encoding index of the stereo parameter, the first mono-encoded bitstream, and the second mono-encoded bitstream into the stereo-encoded bitstream.

復号構成要素120は、ステレオ信号を得るために符号化構成要素110によって生成されたステレオ符号化ビットストリームを復号するように構成される。 Decoding component 120 is configured to decode the stereo-encoded bitstream produced by encoding component 110 to obtain a stereo signal.

任意選択で、符号化構成要素110は復号構成要素120に有線または無線で接続され、復号構成要素120は、この接続上で、符号化構成要素110によって生成されたステレオ符号化ビットストリームを取得する。あるいは、符号化構成要素110は、生成されたステレオ符号化ビットストリームをメモリに格納し、復号構成要素120はメモリ内のステレオ符号化ビットストリームを読み取る。 Optionally, encoding component 110 is wired or wirelessly connected to decoding component 120, over which decoding component 120 obtains the stereo-encoded bitstream produced by encoding component 110. . Alternatively, encoding component 110 stores the generated stereo-encoded bitstream in memory, and decoding component 120 reads the stereo-encoded bitstream in memory.

任意選択で、復号構成要素120は、ソフトウェアを使用して実施されてもよく、またはハードウェアを使用して実施されてもよく、またはソフトウェアとハードウェアの組み合わせの形態で実施されてもよい。これは本実施形態では限定されない。 Optionally, decoding component 120 may be implemented using software, or may be implemented using hardware, or may be implemented in the form of a combination of software and hardware. This is not limited in this embodiment.

復号構成要素120は、ステレオ信号を得るためにステレオ符号化ビットストリームを復号し、これは以下の複数のステップを含む。 Decoding component 120 decodes the stereo-encoded bitstream to obtain a stereo signal, which includes the following steps.

(1)ステレオ符号化ビットストリーム内の第1のモノラル符号化ビットストリームおよび第2のモノラル符号化ビットストリームを復号して、プライマリチャネル信号およびセカンダリチャネル信号を得る。 (1) Decoding the first mono-encoded bitstream and the second mono-encoded bitstream in the stereo-encoded bitstream to obtain a primary channel signal and a secondary channel signal.

(2)ステレオ符号化ビットストリームに基づいて、時間領域アップミックス処理に使用されるステレオパラメータの符号化インデックスを得、プライマリチャネル信号およびセカンダリチャネル信号に対して時間領域アップミックス処理を行って、時間領域アップミックス処理によって得られる左チャネル信号および時間領域アップミックス処理によって得られる右チャネル信号を得る。 (2) based on the stereo-encoded bitstream, obtain the coding indices of the stereo parameters used for the time-domain upmixing process, perform the time-domain upmixing process on the primary channel signal and the secondary channel signal, and obtain the time domain upmixing process; A left channel signal obtained by domain upmix processing and a right channel signal obtained by time domain upmix processing are obtained.

(3)ステレオ符号化ビットストリームに基づいてチャネル間時間差の符号化インデックスを得、時間領域アップミックス処理によって得られる左チャネル信号および時間領域アップミックス処理によって得られる右チャネル信号に対して遅延調整を行って、ステレオ信号を得る。 (3) obtaining a coding index for the inter-channel time difference based on the stereo coded bitstream, and performing delay adjustment on the left channel signal obtained by the time domain upmixing process and the right channel signal obtained by the time domain upmixing process; Go and get a stereo signal.

任意選択で、符号化構成要素110と復号構成要素120とは、同じデバイスに配置されてもよく、または異なるデバイスに配置されてもよい。デバイスは、携帯電話、タブレットコンピュータ、ラップトップポータブルコンピュータ、デスクトップコンピュータ、ブルートゥース(登録商標)スピーカ、ペンレコーダ、もしくはウェアラブルデバイスなどの、オーディオ信号処理機能を有する移動端末であり得るか、またはコアネットワークもしくは無線ネットワーク内のオーディオ信号処理能力を有するネットワーク要素であり得る。これは本実施形態では限定されない。 Optionally, encoding component 110 and decoding component 120 may be located on the same device or may be located on different devices. The device can be a mobile terminal with audio signal processing capabilities, such as a mobile phone, tablet computer, laptop portable computer, desktop computer, Bluetooth® speaker, pen recorder, or wearable device, or a core network or It may be a network element with audio signal processing capabilities in a wireless network. This is not limited in this embodiment.

例えば、図2に示されるように、本実施形態では、符号化構成要素110が移動端末130に配置され、復号構成要素120が移動端末140に配置され、移動端末130と移動端末140とが、オーディオ信号処理能力を有する相互に独立した機器であり、例えば、携帯電話、ウェアラブルデバイス、仮想現実(VR:virtual reality)デバイス、拡張現実(AR:augmented reality)デバイスなどであってもよく、移動端末130が無線または有線ネットワークを使用して移動端末140に接続される例を使用して説明が行われる。 For example, as shown in FIG. 2, in this embodiment encoding component 110 is located at mobile terminal 130, decoding component 120 is located at mobile terminal 140, and mobile terminal 130 and mobile terminal 140 are: Mutually independent devices with audio signal processing capabilities, such as mobile phones, wearable devices, virtual reality (VR) devices, augmented reality (AR) devices, etc. Mobile terminals Description is made using an example where 130 is connected to mobile terminal 140 using a wireless or wired network.

任意選択で、移動端末130は、収集構成要素131と、符号化構成要素110と、チャネル符号化構成要素132とを含む。収集構成要素131は符号化構成要素110に接続され、符号化構成要素110はチャネル符号化構成要素132に接続される。 Optionally, mobile terminal 130 includes collection component 131 , encoding component 110 and channel encoding component 132 . Collection component 131 is connected to encoding component 110 and encoding component 110 is connected to channel encoding component 132 .

任意選択で、移動端末140は、オーディオ再生構成要素141と、復号構成要素120と、チャネル復号構成要素142とを含む。オーディオ再生構成要素141は復号構成要素120に接続され、復号構成要素120はチャネル復号構成要素142に接続される。 Optionally, mobile terminal 140 includes audio reproduction component 141 , decoding component 120 and channel decoding component 142 . The audio reproduction component 141 is connected to the decoding component 120 and the decoding component 120 is connected to the channel decoding component 142 .

収集構成要素131を使用してステレオ信号を収集した後、移動端末130は、符号化構成要素110を使用してステレオ信号を符号化して、ステレオ符号化ビットストリームを得、次いで、チャネル符号化構成要素132を使用してステレオ符号化ビットストリームを符号化して、送信信号を得る。 After acquiring the stereo signal using the acquisition component 131, the mobile terminal 130 encodes the stereo signal using the encoding component 110 to obtain a stereo encoded bitstream, and then a channel encoding configuration. Encode the stereo-encoded bitstream using element 132 to obtain the transmitted signal.

移動端末130は無線または有線ネットワークを使用して移動端末140に送信信号を送信する。 Mobile terminal 130 transmits transmission signals to mobile terminal 140 using a wireless or wired network.

送信信号を受信した後、移動端末140は、チャネル復号構成要素142を使用して送信信号を復号して、ステレオ符号化ビットストリームを得、復号構成要素120を使用してステレオ符号化ビットストリームを復号して、ステレオ信号を得、オーディオ再生構成要素141を使用してステレオ信号を再生する。 After receiving the transmitted signal, mobile terminal 140 decodes the transmitted signal using channel decoding component 142 to obtain a stereo-encoded bitstream, and decodes the stereo-encoded bitstream using decoding component 120 . Decode to obtain a stereo signal and reproduce the stereo signal using audio reproduction component 141 .

例えば、図3に示されるように、本実施形態では、符号化構成要素110および復号構成要素120が、同じコアネットワークまたは無線ネットワーク内のオーディオ信号処理能力を有するネットワーク要素150に配置される例を使用して説明が行われる。 For example, as shown in FIG. 3, this embodiment provides an example in which encoding component 110 and decoding component 120 are located in network element 150 with audio signal processing capability within the same core network or wireless network. is used to explain.

任意選択で、ネットワーク要素150は、チャネル復号構成要素151と、復号構成要素120と、符号化構成要素110と、チャネル符号化構成要素152とを含む。チャネル復号構成要素151は復号構成要素120に接続され、復号構成要素120は符号化構成要素110に接続され、符号化構成要素110はチャネル符号化構成要素152に接続される。 Optionally, network element 150 includes channel decoding component 151 , decoding component 120 , encoding component 110 and channel encoding component 152 . Channel decoding component 151 is connected to decoding component 120 , decoding component 120 is connected to encoding component 110 , and encoding component 110 is connected to channel encoding component 152 .

他の機器によって送信された送信信号を受信した後、チャネル復号構成要素151は送信信号を復号して第1のステレオ符号化ビットストリームを得、復号構成要素120は第1のステレオ符号化ビットストリームを復号してステレオ信号を得、符号化構成要素110はステレオ信号を符号化して第2のステレオ符号化ビットストリームを得、チャネル符号化構成要素152は第2のステレオ符号化ビットストリームを符号化して送信信号を得る。 After receiving a transmission transmitted by another device, channel decoding component 151 decodes the transmission to obtain a first stereo-encoded bitstream, and decoding component 120 decodes the first stereo-encoded bitstream. to obtain a stereo signal, encoding component 110 encodes the stereo signal to obtain a second stereo-encoded bitstream, and channel encoding component 152 encodes the second stereo-encoded bitstream. to obtain the transmitted signal.

他の装置は、オーディオ信号処理能力を有する移動端末であり得るか、またはオーディオ信号処理能力を有する他のネットワーク要素であり得る。これは本実施形態では限定されない。 The other device may be a mobile terminal with audio signal processing capability or other network element with audio signal processing capability. This is not limited in this embodiment.

任意選択で、ネットワーク要素内の符号化構成要素110および復号構成要素120は、移動端末によって送信されたステレオ符号化ビットストリームをコード変換し得る。 Optionally, encoding component 110 and decoding component 120 within the network element may transcode the stereo-encoded bitstream transmitted by the mobile terminal.

任意選択で、本実施形態では、符号化構成要素110がインストールされた装置がオーディオ符号化装置と呼ばれる。実際の実装に際して、オーディオ符号化装置は、オーディオ復号機能も有し得る。これは本実施形態では限定されない。 Optionally, in this embodiment, the device in which encoding component 110 is installed is referred to as an audio encoding device. In actual implementation, the audio encoding device may also have audio decoding functionality. This is not limited in this embodiment.

任意選択で、本実施形態は、例としてステレオ信号のみを使用して説明される。本出願では、オーディオ符号化装置はマルチチャネル信号をさらに処理してもよく、マルチチャネル信号は少なくとも2つのチャネルの信号を含む。 Optionally, this embodiment is described using only stereo signals as an example. In the present application, the audio encoding device may further process a multi-channel signal, the multi-channel signal comprising signals of at least two channels.

本出願の実施形態におけるステレオ信号符号化方法の理解を容易にするために、以下ではまず、図4および図5をそれぞれ参照して、周波数領域のステレオ符号化方法および時間周波数領域のステレオ符号化方法の全符号化プロセスを一般的に説明する。 In order to facilitate understanding of the stereo signal encoding method in the embodiments of the present application, the following will first refer to FIG. 4 and FIG. The entire encoding process of the method is generally described.

図4は、周波数領域のステレオ信号符号化方法の概略的な流れ図である。この符号化方法は、具体的には、101から107を含む。 FIG. 4 is a schematic flow diagram of a stereo signal encoding method in the frequency domain. This encoding method specifically includes 101-107.

101:時間領域のステレオ信号を周波数領域のステレオ信号に変換する。 101: Convert the time-domain stereo signal into a frequency-domain stereo signal.

102:周波数領域で周波数領域のステレオパラメータを抽出する。 102: Extract the frequency domain stereo parameters in the frequency domain.

103:ダウンミックス信号および残差信号を得るために周波数領域のステレオ信号に対してダウンミックス処理を行う。 103: Downmix processing is performed on the stereo signal in the frequency domain to obtain a downmix signal and a residual signal.

ダウンミックス信号は、セントラルチャネル信号またはプライマリチャネル信号とも呼ばれ、残差信号は、サイドチャネル信号またはセカンダリチャネル信号と呼ばれ得る。 A downmix signal may also be referred to as a central channel signal or primary channel signal, and a residual signal may be referred to as a side channel signal or secondary channel signal.

104:ダウンミックス信号に対応する符号化パラメータを得るためにダウンミックス信号を符号化し、符号化パラメータを符号化ビットストリームに書き込む。 104: Encoding the downmix signal to obtain encoding parameters corresponding to the downmix signal, and writing the encoding parameters into the encoded bitstream.

106:周波数領域のステレオパラメータに対応する符号化パラメータを得るために周波数領域のステレオパラメータを符号化し、符号化パラメータを符号化ビットストリームに書き込む。 106: Encode the stereo parameters in the frequency domain to obtain encoding parameters corresponding to the stereo parameters in the frequency domain, and write the encoding parameters into the encoded bitstream.

任意選択の実施態様では、この方法は、105:残差信号に対応する符号化パラメータを得るために残差信号を符号化し、符号化パラメータを符号化ビットストリームに書き込む、をさらに含み得る。 In an optional implementation, the method may further include 105: encoding the residual signal to obtain encoding parameters corresponding to the residual signal, and writing the encoding parameters to the encoded bitstream.

107:ビットストリームを多重化する。 107: Multiplex the bitstream.

図5は、時間周波数領域のステレオ信号符号化方法の概略的な流れ図である。この符号化方法は、具体的には、201から208を含む。 FIG. 5 is a schematic flow chart of a stereo signal encoding method in the time-frequency domain. This encoding method specifically includes 201-208.

201:ステレオ信号に対して時間領域解析を行い、時間領域のステレオパラメータを抽出する。 201: Perform time domain analysis on the stereo signal and extract time domain stereo parameters.

202:時間領域のステレオ信号を周波数領域のステレオ信号に変換する。 202: Transform the time-domain stereo signal into a frequency-domain stereo signal.

203:周波数領域で周波数領域のステレオパラメータを抽出する。 203: Extract the frequency domain stereo parameters in the frequency domain.

204:ダウンミックス信号および残差信号を得るために周波数領域のステレオ信号に対してダウンミックス処理を行う。 204: Perform downmix processing on the stereo signal in the frequency domain to obtain a downmix signal and a residual signal.

205:ダウンミックス信号に対応する符号化パラメータを得るためにダウンミックス信号を符号化し、符号化パラメータを符号化ビットストリームに書き込む。 205: Encoding the downmix signal to obtain encoding parameters corresponding to the downmix signal, and writing the encoding parameters into the encoded bitstream.

207:時間領域のステレオパラメータに対応する符号化パラメータおよび周波数領域のステレオパラメータに対応する符号化パラメータを得るために時間領域のステレオパラメータおよび周波数領域のステレオパラメータを符号化し、符号化パラメータを符号化ビットストリームに書き込む。 207: Encoding the time-domain stereo parameters and the frequency-domain stereo parameters to obtain encoding parameters corresponding to the time-domain stereo parameters and encoding parameters corresponding to the frequency-domain stereo parameters, and encoding the encoding parameters Write to bitstream.

任意選択で、この方法は、206:残差信号に対応する符号化パラメータを得るために残差信号を符号化し、符号化パラメータを符号化ビットストリームに書き込む、をさらに含む。 Optionally, the method further comprises 206: encoding the residual signal to obtain encoding parameters corresponding to the residual signal, and writing the encoding parameters to the encoded bitstream.

208:ビットストリームを多重化する。 208: Multiplex the bitstream.

符号化レートが比較的低い場合、例えば、符号化帯域幅が広帯域(Wideband)であるときに、符号化レートが比較的低く、26キロバイト毎秒(Kilo-bytes per second、kbps)、16.4kbps、24.4kbps、または32kbpsなどである場合、ステレオ信号の再生中の空間感覚および安定性を改善し、ステレオ信号の高周波歪みを低減するために、ステレオ信号の各フレームのダウンミックス信号が符号化されるときに、事前設定された帯域幅範囲を満足するサブバンドのすべての残差信号が符号化される。あるいは、符号化レートが比較的低い場合、ステレオパラメータおよびダウンミックス信号のみが符号化される。残差信号の一部または全部は、符号化レートが比較的高く、48kbps、64kbps、または96kbpsなどである場合にのみ符号化される。本出願は、ステレオ信号符号化方法を提供する。この方法では、復号されたステレオ信号の空間感覚および音像安定性が改善されると同時に復号されたステレオ信号の高周波歪みを可能な限り低減することができ、それによって全体的な符号化品質が改善される。 When the coding rate is relatively low, for example, when the coding bandwidth is Wideband, the coding rate is relatively low, Kilo-bytes per second (kbps), 16.4 kbps, 24. When it is 4kbps, or 32kbps, etc., the downmix signal of each frame of the stereo signal is coded to improve the sense of space and stability during playback of the stereo signal and to reduce the high frequency distortion of the stereo signal. Then, all residual signals in subbands satisfying a preset bandwidth range are coded. Alternatively, if the coding rate is relatively low, only the stereo parameters and the downmix signal are coded. Part or all of the residual signal is encoded only if the encoding rate is relatively high, such as 48 kbps, 64 kbps, or 96 kbps. The present application provides a stereo signal encoding method. In this way, the spatial perception and sound image stability of the decoded stereo signal can be improved, and at the same time, the high frequency distortion of the decoded stereo signal can be reduced as much as possible, thereby improving the overall coding quality. be done.

図6は、本出願の一実施形態によるステレオ信号符号化方法300の概略的な流れ図である。方法300は、符号器側によって実行されてもよく、符号器側は、符号器またはステレオ信号符号化機能を有するデバイスであり得る。方法300は以下のステップを含む。 FIG. 6 is a schematic flow diagram of a stereo signal encoding method 300 according to one embodiment of the present application. Method 300 may be performed by an encoder side, which may be an encoder or a device with stereo signal encoding capabilities. Method 300 includes the following steps.

本出願のステレオ信号符号化方法は、独立して適用することができるステレオ符号化方法であり得るか、またはマルチチャネル信号符号化に適用されるステレオ符号化方法であり得る。符号器側は、ステレオ信号をフレームごとに処理する。以下では、各フレームの信号長が20msである広帯域ステレオ信号を例として使用し、符号器側によって処理されているフレーム(例えば、現在のフレーム)を例として使用して、方法300のステレオ信号符号化方法を詳細に説明する。 The stereo signal encoding method of the present application may be a stereo encoding method that can be applied independently, or a stereo encoding method that is applied to multi-channel signal encoding. The encoder side processes the stereo signal frame by frame. In the following, using a wideband stereo signal where the signal length of each frame is 20ms as an example, and using the frame being processed by the encoder side (e.g. the current frame) as an example, the stereo signal encoding of the method 300 A detailed description will be given of the conversion method.

301:ステレオ信号の現在のフレームの残差信号符号化パラメータを、現在のフレームのM個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定し、現在のフレームの残差信号符号化パラメータが、M個のサブバンドの残差信号を符号化するかどうかを示すために使用され、M個のサブバンドがN個のサブバンドの少なくとも一部であり、Nが1より大きい正の整数であり、M≦N、Mが正の整数である。 301: Determine a residual signal coding parameter of the current frame of the stereo signal based on the downmix signal energy and the residual signal energy of each of the M subbands of the current frame, and determine the residual signal of the current frame A signal coding parameter is used to indicate whether to code the residual signal of M subbands, where M subbands are at least part of the N subbands and N is greater than 1. A large positive integer, M≤N, where M is a positive integer.

具体的には、符号器側は、N個のサブバンドを得るためにステレオ信号の現在のフレームのスペクトル係数を分割し、N個のサブバンドの少なくとも一部(例えば、N個のサブバンド内のM個のサブバンド、M≦N)の各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて現在のフレームの残差信号符号化パラメータを決定し、符号器側は現在のフレームの残差信号符号化パラメータを使用して、M個のサブバンドの各々の残差信号を符号化するかどうかを決定することができる。 Specifically, the encoder side divides the spectral coefficients of the current frame of the stereo signal to obtain N subbands, and divides the spectral coefficients of the current frame of the stereo signal into at least some of the N subbands (e.g., based on the downmix signal energy and the residual signal energy of each of the M subbands of M ≤ N), the encoder side determines the residual signal coding parameters of the current frame A signal coding parameter may be used to determine whether to code the residual signal for each of the M subbands.

302:現在のフレームの残差信号符号化パラメータに基づいて、現在のフレームのM個のサブバンドの残差信号を符号化するかどうかを決定する。 302: Determine whether to code the residual signals of the M subbands of the current frame according to the residual signal coding parameters of the current frame.

具体的には、符号器側は、現在のフレームの、ステップ301で決定された残差信号符号化パラメータに基づいて、現在のフレームのM個のサブバンドの各々の残差信号を符号化するかどうかを決定する。 Specifically, the encoder side encodes the residual signal of each of the M subbands of the current frame based on the residual signal coding parameters of the current frame determined in step 301. to decide whether

M個のサブバンドの各々の残差信号を符号化すると決定されると、M個のサブバンドの各々のダウンミックス信号および残差信号が符号化される。 Upon determining to encode the residual signal of each of the M subbands, the downmix signal and residual signal of each of the M subbands are encoded.

M個のサブバンドの各々の残差信号を符号化しないと決定されると、M個のサブバンドの各々のダウンミックス信号が符号化される。 If it is determined not to encode the residual signal for each of the M subbands, then the downmix signal for each of the M subbands is encoded.

一実施態様では、限定ではなく例として、M個のサブバンドは、N個のサブバンド内の、サブバンドインデックス番号が事前設定された最大サブバンドインデックス番号より小さいM個のサブバンドである。言い換えると、M個のサブバンドは、N個のサブバンド内の比較的低い周波数を有するサブバンドであり、具体的には、M個のサブバンドの周波数は、N個のサブバンド内のM個のサブバンド以外のN-M個のサブバンドの周波数よりも低い。 In one implementation, by way of example and not limitation, the M subbands are the M subbands within the N subbands whose subband index numbers are less than a preset maximum subband index number. In other words, the M subbands are subbands with relatively low frequencies within the N subbands, specifically, the frequencies of the M subbands are equal to M lower than the frequencies of the NM subbands other than the subbands.

具体的には、異なる最大サブバンドインデックス番号が異なる符号化レートに基づいて事前設定されるので、サブバンドインデックス番号が事前設定された最大サブバンドインデックス番号以下であるM個のサブバンドが、事前設定された最大サブバンドインデックス番号に基づいてN個のサブバンドの中から選択され、現在のフレームの残差信号符号化パラメータはM個のサブバンドに基づいて決定される。 Specifically, since different maximum subband index numbers are preconfigured based on different coding rates, M subbands whose subband index numbers are less than or equal to the preconfigured maximum subband index number are preconfigured. One of the N subbands is selected based on the configured maximum subband index number, and the residual signal coding parameters of the current frame are determined based on the M subbands.

例えば、符号化レートが26kbpsであり、N=10、M=5、事前設定された最大サブバンドインデックス番号が4に設定される場合、これは、現在のフレームの残差信号符号化パラメータが、10個のサブバンド内の、サブバンドインデックス番号が0から4である5つのサブバンドに基づいて決定されることを示す。 For example, if the coding rate is 26 kbps, N=10, M=5, and the preset maximum subband index number is set to 4, this means that the residual signal coding parameters of the current frame are It is determined based on 5 subbands with subband index numbers 0 to 4 in 10 subbands.

他の例では、符号化レートが44kbpsであり、N=12、M=6、事前設定された最大サブバンドインデックス番号が5に設定される場合、これは、現在のフレームの残差信号符号化パラメータが、12個のサブバンド内の、サブバンドインデックス番号が0から5である6つのサブバンドに基づいて決定されることを示す。 In another example, if the coding rate is 44 kbps, N=12, M=6, and the preset maximum subband index number is set to 5, this is the residual signal coding for the current frame. It shows that the parameters are determined based on 6 subbands with subband index numbers 0 to 5 in 12 subbands.

他の例では、符号化レートが56kbpsであり、N=12、M=7、事前設定された最大サブバンドインデックス番号が6に設定される場合、これは、現在のフレームの残差信号符号化パラメータが、12個のサブバンド内の、サブバンドインデックス番号が0から6である7つのサブバンドに基づいて決定されることを示す。 In another example, if the coding rate is 56 kbps, N=12, M=7, and the preset maximum subband index number is set to 6, this is the residual signal coding for the current frame. It shows that the parameters are determined based on 7 subbands with subband index numbers 0 to 6 in 12 subbands.

他の実施態様では、異なる符号化レートについて、異なる符号化レートにおけるM個のサブバンドの最大サブバンドインデックス番号および最小サブバンドインデックス番号が事前設定され得るので、サブバンドインデックス番号が事前設定された最小サブバンドインデックス番号以上、事前設定された最大サブバンドインデックス番号以下であるM個のサブバンドが、事前設定された最大サブバンドインデックス番号および事前設定された最小サブバンドインデックス番号に基づいてN個のサブバンドの中から選択され、現在のフレームの残差信号符号化パラメータはM個のサブバンドに基づいて決定される。 In other implementations, for different coding rates, the maximum subband index number and the minimum subband index number of the M subbands at different coding rates can be preset, so the subband index numbers are preset N subbands that are greater than or equal to the minimum subband index number and less than or equal to the preset maximum subband index number are N based on the preset maximum subband index number and the preset minimum subband index number , and the residual signal coding parameters for the current frame are determined based on the M subbands.

例えば、符号化レートが26kbpsであり、N=10、M=4、事前設定された最小サブバンドインデックス番号が4に設定され、事前設定された最大サブバンドインデックス番号が7に設定される場合、これは、現在のフレームの残差信号符号化パラメータが、10個のサブバンド内の、サブバンドインデックス番号が4から7である4つのサブバンドに基づいて決定されることを示す。 For example, if the coding rate is 26 kbps, N=10, M=4, the preset minimum subband index number is set to 4, and the preset maximum subband index number is set to 7, This indicates that the residual signal coding parameters of the current frame are determined based on four subbands with subband index numbers 4 to 7 among the ten subbands.

限定ではなく例として、現在のフレームの残差信号符号化パラメータに基づいて、M個のサブバンドの各々の残差信号を符号化するかどうかを決定するステップは、M個のサブバンドの各々の残差信号を符号化するかどうかを、現在のフレームの残差信号符号化パラメータと事前設定された第1の閾値との比較結果に基づいて決定するステップであって、第1の閾値が0より大きく1.0より小さい、ステップと、現在のフレームの残差信号符号化パラメータが第1の閾値以下である場合、M個のサブバンドの各々の残差信号を符号化しないと決定するステップ、または残差信号符号化パラメータが第1の閾値より大きい場合、M個のサブバンドの各々の残差信号を符号化すると決定するステップとを含む。 By way of example and not limitation, determining whether to encode the residual signal of each of the M subbands based on the residual signal coding parameters of the current frame comprises: determining whether to encode the residual signal of based on the result of comparing the residual signal coding parameter of the current frame with a preset first threshold, wherein the first threshold is A step greater than 0 and less than 1.0, and determining not to encode the residual signal of each of the M subbands if the residual signal coding parameter of the current frame is less than or equal to the first threshold. or determining to encode the residual signal of each of the M subbands if the residual signal coding parameter is greater than a first threshold.

具体的には、符号器側は、現在のフレームの残差信号符号化パラメータを事前設定された第1の閾値と比較し、現在のフレームの残差信号符号化パラメータが第1の閾値より大きい場合、M個のサブバンドの各々の残差信号を符号化すると決定するか、または現在のフレームの残差信号符号化パラメータが第1の閾値以下である場合、M個のサブバンドの各々の残差信号を符号化しないと決定する。 Specifically, the encoder side compares the residual signal coding parameter of the current frame with a preset first threshold, and the residual signal coding parameter of the current frame is greater than the first threshold. If so, determine to encode the residual signal of each of the M subbands, or if the residual signal encoding parameter of the current frame is less than or equal to the first threshold, determine to encode the residual signal of each of the M subbands. Decide not to encode the residual signal.

例えば、一実施態様では、第1の閾値は0.075である。現在のフレームの残差信号符号化パラメータの値が0.06である場合、符号器側は、M個のサブバンドの各々の残差信号を符号化しない。 For example, in one implementation, the first threshold is 0.075. If the value of the residual signal coding parameter of the current frame is 0.06, the encoder side does not code the residual signal of each of the M subbands.

第1の閾値の値は一例にすぎず、第1の閾値は代替として、0より大きく1.0より小さい他の値であってもよいことを理解されたい。例えば、第1の閾値は、0.55、0.46、0.86、または0.9である。 It should be appreciated that the value of the first threshold is only an example and that the first threshold may alternatively be other values greater than 0 and less than 1.0. For example, the first threshold is 0.55, 0.46, 0.86, or 0.9.

他の任意選択の実施態様では、符号器側は、現在のフレームの残差信号符号化パラメータと第1の閾値との比較結果を、0または1を使用してさらに示し得る。例えば、0は、M個のサブバンドの各々の残差信号が符号化されるべきではないことを示すために使用され、1は、M個のサブバンドの各々の残差信号が符号化されるべきであることを示すために使用される。当然ながら、1は、代替として、M個のサブバンドの各々の残差信号が符号化されるべきではないことを示すために使用されてもよく、0は、代替として、M個のサブバンドの各々の残差信号が符号化されるべきであることを示すために使用されてもよい。 In another optional implementation, the encoder side may use 0 or 1 to further indicate the comparison result between the residual signal coding parameter of the current frame and the first threshold. For example, 0 is used to indicate that the residual signal of each of the M subbands should not be coded, and 1 is used to indicate that the residual signal of each of the M subbands is coded. Used to indicate that something should be done. Of course, 1 may alternatively be used to indicate that the residual signal in each of the M subbands should not be encoded, and 0 alternatively may be used to indicate that each residual signal of is to be encoded.

以下では、符号器側が現在のフレームの残差信号符号化パラメータを決定する方法を詳細に説明するために、M個のサブバンドが、サブバンドインデックス番号が事前設定された最大サブバンドインデックス番号(例えば、最大サブバンドインデックス番号はM-1である)以下のサブバンドである例を使用する。 In the following, in order to explain in detail how the encoder side determines the residual signal coding parameters of the current frame, M subbands are assigned the maximum subband index number ( For example, the maximum subband index number is M−1).

方法1 Method 1

符号器側は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて現在のフレームの残差信号符号化パラメータを決定する。 The encoder side determines the residual signal coding parameters of the current frame based on the downmix signal energy, residual signal energy and side gain of each of the M subbands.

1つの可能な実施態様では、符号器側は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて第1のパラメータを決定し、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示し、
M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第2のパラメータを決定し、第2のパラメータが第1のエネルギー和と第2のエネルギー和との間の値関係を示し、第1のエネルギー和がM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、第2のエネルギー和が、現在のフレームの前のフレームの周波数領域信号におけるM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、現在のフレームのM個のサブバンドが前のフレームのM個のサブバンドと同じサブバンドインデックス番号を有し、
第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて現在のフレームの残差信号符号化パラメータを最終的に決定する。
In one possible implementation, the encoder side determines the first parameter based on the downmix signal energy, the residual signal energy, and the side gain for each of the M subbands, the first parameter being , denoting the value relationship between the downmix signal energy and the residual signal energy for each of the M subbands,
determining a second parameter based on the downmix signal energy and the residual signal energy for each of the M subbands, the second parameter being a value relationship between the first energy sum and the second energy sum where the first energy sum is the sum of the residual signal energies and the downmix signal energies of the M subbands, and the second energy sum is the M is the sum of the residual signal energy and the downmix signal energy of the subbands of , where the M subbands of the current frame have the same subband index numbers as the M subbands of the previous frame, and
A residual signal coding parameter of the current frame is finally determined based on the first parameter, the second parameter, and the long-term smoothing parameter of the frame before the current frame.

具体的には、第1のパラメータを決定するとき、符号器側は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいてM個のエネルギーパラメータを決定し、M個のエネルギーパラメータが、それぞれ、M個のサブバンドのうちの1つのダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応し、符号器側は、M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを第1のパラメータとして最終的に決定する。 Specifically, when determining the first parameter, the encoder side determines M energy parameters based on the downmix signal energy, residual signal energy, and side gain of each of the M subbands. and M energy parameters each indicating a value relationship between the downmix signal energy of one of the M subbands and the residual signal energy, and the M energy parameters representing the M subbands. In one-to-one correspondence with the band, the encoder side finally determines the energy parameter having the maximum value among the M energy parameters as the first parameter.

任意選択で、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは、以下の関数を使用して決定されてもよく、
res_dmx_ratio[b]=f(g(b),res_cod_NRG_M[b],res_cod_NRG_S[b])(1)
式中、res_dmx_ratio[b]は、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表し、g(b)は、サブバンドインデックス番号がbであるサブバンドのサイドゲインside_gain[b]の関数を表す。
Optionally, the energy parameter of the subband with subband index number b among the M energy parameters may be determined using the function:
res_dmx_ratio[b] = f(g(b), res_cod_NRG_M[b], res_cod_NRG_S[b]) (1)
where res_dmx_ratio[b] represents the energy parameter of the subband whose subband index number is b among the M energy parameters, b is greater than or equal to 0, and is the preset maximum subband index number. where res_cod_NRG_S[b] represents the residual signal energy of the subband with subband index number b, and res_cod_NRG_M[b] represents the downmix signal energy of the subband with subband index number b. where g(b) represents the function of the side gain side_gain[b] of the subband with subband index number b.

具体的には、一実施態様では、M個のエネルギーパラメータのうちの、サブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは以下の式を満たす。
res_dmx_ratio[b]=res_cod_NRG_S[b]/(res_cod_NRG_S[b]+(1-g(b))・(1-g(b))・res_cod_NRG_M[b]+1)(2)
Specifically, in one embodiment, among the M energy parameters, the energy parameter of the subband whose subband index number is b satisfies the following equation.
res_dmx_ratio[b] = res_cod_NRG_S[b] / (res_cod_NRG_S[b] + (1-g(b)) (1-g(b)) res_cod_NRG_M[b] + 1) (2)

第1のパラメータはres_dmx_ratioと表記され、res_dmx_ratioは以下の式を満たす。
res_dmx_ratio=max(res_dmx_ratio[0],res_dmx_ratio[1],…,res_dmx_ratio[M-1])(3)
The first parameter is denoted res_dmx_ratio, where res_dmx_ratio satisfies the following equation.
res_dmx_ratio = max(res_dmx_ratio[0], res_dmx_ratio[1], ..., res_dmx_ratio[M-1]) (3)

第2のパラメータを決定するとき、符号器側はまず、M個のサブバンドの残差信号エネルギーの和とM個のサブバンドのダウンミックス信号エネルギーの和とを別々の決定し、M個のサブバンドのダウンミックス信号の和をdmx_nrg_all_currと、M個のサブバンドの残差信号エネルギーの和をres_nrg_all_currと表記する。 When determining the second parameter, the encoder side first separately determines the sum of the residual signal energies of the M subbands and the sum of the downmix signal energies of the M subbands; Let dmx_nrg_all_curr be the sum of the downmix signals of the subbands, and res_nrg_all_curr be the sum of the residual signal energies of the M subbands.

任意選択で、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currは以下の式を満たし、

Figure 2022163058000041
式中、res_cod_NRG_M_prev[b]は、現在のフレームの前のフレームにおけるサブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表し、γ1は、平滑化係数を表し、γ1は、0以上1以下の実数であり、例えば、γ1=0.1である。 Optionally, the sum dmx_nrg_all_curr of the downmix signal energies of the M subbands satisfies the formula:
Figure 2022163058000041
where res_cod_NRG_M_prev [b] represents the downmix signal energy of the subband with subband index number b in the frame previous to the current frame, γ1 represents the smoothing factor, and γ1 is 0 It is a real number greater than or equal to 1 and less than or equal to 1, for example, γ 1 =0.1.

γ1の値は一例にすぎず、γ1の値は代替として、0以上1以下の他の値であってもよいことを理解されたい。例えば、γ1は、0.3、0.5、0.6、または0.8である。 It should be appreciated that the value of γ 1 is only an example and that the value of γ 1 may alternatively be other values between 0 and 1 inclusive. For example, γ 1 is 0.3, 0.5, 0.6, or 0.8.

任意選択で、M個のサブバンドの残差信号エネルギーの和res_nrg_all_currは以下の式を満たし、

Figure 2022163058000042
式中、res_cod_NRG_S_prev[b]は、現在のフレームの前のフレームにおけるサブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、γ2は、平滑化係数を表し、γ2は、0以上1以下の実数であり、例えば、γ2=0.1である。 Optionally, the sum res_nrg_all_curr of the residual signal energies of the M subbands satisfies the formula:
Figure 2022163058000042
where res_cod_NRG_S_prev[ b ] represents the residual signal energy of the subband with subband index number b in the frame previous to the current frame, γ2 represents the smoothing factor, and γ2 is 0 It is a real number greater than or equal to 1 and less than or equal to 1. For example, γ 2 =0.1.

γ2の値は一例にすぎず、γ2の値は代替として、0以上1以下の他の値であってもよいことを理解されたい。例えば、γ2は、0.2、0.5、0.7、または0.9である。 It should be appreciated that the value of γ 2 is only an example and that the value of γ 2 may alternatively be other values between 0 and 1 inclusive. For example, γ2 is 0.2, 0.5, 0.7, or 0.9.

符号器側は、dmx_nrg_all_currおよびres_nrg_all_currに基づいて現在のフレームのM個のサブバンドのダウンミックス信号エネルギーと残差信号エネルギーの和(すなわち、第1のエネルギー和)を決定する。第1のエネルギー和はdmx_res_allと表記される。 The encoder side determines the sum of the downmix signal energy and the residual signal energy (ie, the first energy sum) of the M subbands of the current frame based on dmx_nrg_all_curr and res_nrg_all_curr. The first energy sum is denoted dmx_res_all.

任意選択で、dmx_res_allは、以下の式を満たす。
dmx_res_all=res_nrg_all_curr+dmx_nrg_all_curr(6)
Optionally, dmx_res_all satisfies the following formula.
dmx_res_all = res_nrg_all_curr + dmx_nrg_all_curr(6)

符号器側は、現在のフレームの前のフレームの周波数領域信号内のM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和(すなわち、第2のエネルギー和)をさらに決定してもよく、現在のフレームの前のフレームのM個のサブバンドは、現在フレームのM個のサブバンドと同じサブバンドインデックス番号を有する。第2のエネルギー和はdmx_res_all_prevと表記される。 The encoder side may further determine the sum of the residual signal energy and the downmix signal energy of the M subbands in the frequency domain signal of the frame previous to the current frame (i.e., the second energy sum). Well, the M subbands of the frame before the current frame have the same subband index numbers as the M subbands of the current frame . The second energy sum is denoted dmx_res_all_prev.

第2のエネルギー和dmx_res_all_prevの決定については、前述の第1のエネルギー和dmx_res_allを決定するための方法を参照されたい。簡潔にするために、本明細書では詳細を繰り返さない。 For the determination of the second energy sum dmx_res_all_prev, please refer to the method for determining the first energy sum dmx_res_all described above. For the sake of brevity, the details are not repeated here.

第1のエネルギー和および第2のエネルギー和を決定した後、符号器側は、第1のエネルギー和および第2のエネルギー和に基づいて第2のパラメータを決定し得る。 After determining the first energy sum and the second energy sum, the encoder side may determine a second parameter based on the first energy sum and the second energy sum.

任意選択で、第2のパラメータは、フレーム間エネルギー変動率であり、フレーム間エネルギー変動率はframe_nrg_ratioと表記される。 Optionally, the second parameter is the frame-to-frame energy variation rate, and the frame-to-frame energy variation rate is denoted as frame_nrg_ratio.

任意選択で、一実施態様では、フレーム間エネルギー変動率frame_nrg_ratioは以下の式を満たす。
frame_nrg_ratio=dmx_res_all/dmx_res_all_prev(7)
Optionally, in one implementation, the frame-to-frame energy variation rate frame_nrg_ratio satisfies the following equation.
frame_nrg_ratio = dmx_res_all/dmx_res_all_prev(7)

任意選択で、他の実施態様では、フレーム間エネルギー変動率frame_nrg_ratioは以下の式を満たす。
frame_nrg_ratio=min(5.0,max(0.2,dmx_res_all/dmx_res_all_prev))(8)
Optionally, in other implementations, the frame-to-frame energy variation rate frame_nrg_ratio satisfies the following equation.
frame_nrg_ratio = min(5.0, max(0.2, dmx_res_all/dmx_res_all_prev)) (8)

max関数は、所与のパラメータ(0.2,frame_nrg_ratio_prev)における大きい方の値を返すために使用され、min関数は、所与のパラメータ(5.0,max(0.2,frame_nrg_ratio_prev))における最小値を返すために使用される。式(7)と比較すると、式(8)は補正操作をさらに有するので、式(8)を使用して決定されたframe_nrg_ratioは、現在のフレームと前のフレームとの間のフレーム間エネルギー変動をより適切に反映することができる。 The max function is used to return the larger value at the given parameters (0.2, frame_nrg_ratio_prev) and the min function is used to return the larger value at the given parameters (5.0, max(0.2, frame_nrg_ratio_prev)) Used to return the minimum value. Compared to Eq. (7), Eq. (8) has an additional correction operation, so the frame_nrg_ratio determined using Eq. (8) represents the interframe energy variation between the current frame and the previous frame. can be better reflected.

第1のパラメータおよび第2のパラメータを決定した後、符号器側は、第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて現在のフレームの残差信号符号化パラメータを決定し得る。 After determining the first parameter and the second parameter, the encoder side calculates the residual of the current frame based on the first parameter, the second parameter, and the long-term smoothing parameter of the frame before the current frame. Difference signal encoding parameters may be determined.

限定ではなく例として、現在のフレームの残差信号符号化パラメータは、現在のフレームの長期平滑化パラメータであり得る。言い換えると、符号器側は、第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて現在のフレームの長期平滑化パラメータを決定し、次いで、M個のサブバンドの各々の残差信号を符号化するかどうかを決定するために、現在のフレームの長期平滑化パラメータを事前設定された第1の閾値と比較し得る。 By way of example and not limitation, the residual signal coding parameters for the current frame may be long-term smoothing parameters for the current frame. In other words, the encoder side determines the long-term smoothing parameter of the current frame based on the first parameter, the second parameter, and the long-term smoothing parameter of the frame before the current frame, and then M A long-term smoothing parameter of the current frame may be compared to a preset first threshold to determine whether to code the residual signal of each of the subbands of .

例えば、現在のフレームの長期平滑化パラメータは以下の式を満たし、
res_dmx_ratio_lt=res_dmx_ratio α+res_dmx_ratio_lt_prev・(1-α)(9)
式中、res_dmx_ratio_ltは、現在のフレームの長期平滑化パラメータを表し、res_dmx_ratioは、第1のパラメータを表し、res_dmx_ratio_lt_prevは、現在のフレームの前のフレームの長期平滑化パラメータを表し、0<α<1である。
For example, the long-term smoothing parameter for the current frame satisfies
res_dmx_ratio_lt = res_dmx_ratio α + res_dmx_ratio_lt_prev (1 - α) (9)
where res_dmx_ratio_lt represents the long-term smoothing parameter of the current frame, res_dmx_ratio represents the first parameter, res_dmx_ratio_lt_prev represents the long-term smoothing parameter of the frame before the current frame, 0<α<1 is.

式(9)に従ってres_dmx_ratio_ltが計算されるとき、第1のパラメータの値および/または第2のパラメータの値が変化すると、式(9)におけるパラメータαの値もそれに応じて変化し得る。言い換えると、第1のパラメータの値および/または第2のパラメータの値が変化する際に、式(9)における現在のフレームの前のフレームの長期平滑化パラメータの重みもそれに応じて変化し得る。 When res_dmx_ratio_lt is calculated according to equation (9), if the value of the first parameter and/or the value of the second parameter changes, the value of parameter α in equation (9) may change accordingly. In other words, when the value of the first parameter and/or the value of the second parameter change, the weight of the long-term smoothing parameter of the frame before the current frame in equation (9) may change accordingly. .

例えば、第2のパラメータが事前設定された第3の閾値より大きい場合、第1のパラメータが事前設定された第2の閾値より小さい場合のαの値は、第1のパラメータが事前設定された第2の閾値以上の場合のαの値より大きく、第2の閾値は0以上0.6以下であり、第3の閾値は2.7以上3.7以下であるか、または
第2のパラメータが事前設定された第5の閾値より小さい場合、第1のパラメータが事前設定された第4の閾値より大きい場合のαの値は、第1のパラメータが事前設定された第4の閾値以下の場合のαの値より大きく、第4の閾値は0以上0.9以下であり、第5の閾値は0以上0.71以下であるか、または
第1のパラメータが事前設定された第2の閾値より小さく、第2のパラメータが事前設定された第3の閾値より大きい場合のαの値は、第2のパラメータが事前設定された第5の閾値以上であり、事前設定された第3の閾値以下である場合のαの値より大きく、第2の閾値は0以上0.6以下であり、第3の閾値は2.7以上3.7以下であり、第5の閾値は0以上0.71以下である。
For example, if the second parameter is greater than the preset third threshold, the value of α if the first parameter is less than the preset second threshold is equal to the preset value of the first parameter. greater than the value of α for greater than or equal to the second threshold, where the second threshold is between 0 and 0.6, and the third threshold is between 2.7 and 3.7, or the second parameter is less than a preset fifth threshold, the value of α if the first parameter is greater than a preset fourth threshold is less than or equal to the preset fourth threshold the fourth threshold is between 0 and 0.9 inclusive, the fifth threshold is between 0 and 0.71 inclusive, or the second threshold with the first parameter preset If the value of α is less than the threshold and the second parameter is greater than the preset third threshold, the second parameter is greater than or equal to the preset fifth threshold and the preset third is greater than the value of α when it is less than or equal to the threshold, the second threshold is 0 or more and 0.6 or less, the third threshold is 2.7 or more and 3.7 or less, and the fifth threshold is 0 or more and 0 .71 or less.

例えば、第2の閾値の値が0.1であり、第3の閾値の値が3.2であってもよく、具体的には、第2のパラメータframe_nrg_ratioが3.2より大きい場合、第1のパラメータres_dmx_ratioが0.1より小さい場合のαの値はres_dmx_ratioが0.1以上の場合のαの値より大きいか、または
第4の閾値の値が0.4であり、第5の閾値の値が0.21であってもよく、具体的には、frame_nrg_ratioが0.21より小さい場合、res_dmx_ratioが0.4より大きい場合のαの値はres_dmx_ratioが0.4以下の場合のαの値より大きいか、または
第2の閾値の値が0.1であり、第3の閾値の値が3.2であり、第5の閾値の値が0.21であってもよく、具体的には、res_dmx_ratioが0.1より小さく、frame_nrg_ratioが3.2より大きい場合のαの値は、frame_nrg_ratioが0.21以上3.2以下の場合のαの値より大きいか、または
第4の閾値の値が0.4であり、第5の閾値の値が0.21であってもよく、具体的には、res_dmx_ratioが0.4より大きく、frame_nrg_ratioが0.21より小さい場合のαの値は、frame_nrg_ratioが0.21以上3.2以下の場合のαの値より大きい。
For example, the value of the second threshold may be 0.1 and the value of the third threshold may be 3.2. Specifically, if the second parameter frame_nrg_ratio is greater than 3.2, the The value of α when the parameter res_dmx_ratio of 1 is less than 0.1 is greater than the value of α when res_dmx_ratio is greater than or equal to 0.1, or the value of the fourth threshold is 0.4 and the value of the fifth threshold may be 0.21. Specifically, when frame_nrg_ratio is less than 0.21, the value of α when res_dmx_ratio is greater than 0.4 is the value of α when res_dmx_ratio is 0.4 or less. or the second threshold value is 0.1, the third threshold value is 3.2, and the fifth threshold value is 0.21, specifically the value of α when res_dmx_ratio is less than 0.1 and frame_nrg_ratio is greater than 3.2 is greater than the value of α when frame_nrg_ratio is between 0.21 and 3.2, or the fourth threshold may be 0.4 and the value of the fifth threshold may be 0.21, specifically, the value of α when res_dmx_ratio is greater than 0.4 and frame_nrg_ratio is less than 0.21 is greater than the value of α when frame_nrg_ratio is 0.21 or more and 3.2 or less.

さらに、例えば、res_dmx_ratioが0.1より小さく、frame_nrg_ratioが3.2より大きい場合、αの値は0.5であるか、またはframe_nrg_ratioが0.21以上3.2以下である場合、αの値は0.1である。 Further, for example, when res_dmx_ratio is less than 0.1 and frame_nrg_ratio is greater than 3.2, the value of α is 0.5, or when frame_nrg_ratio is between 0.21 and 3.2, the value of α is 0.1.

記載の第2の閾値から第5の閾値の値およびαの値は説明のための例にすぎず、本出願に対するいかなる限定も構成するものではないことに留意されたい。第2の閾値から第5の閾値の値およびαの値は、代替として、所与の間隔における他の値であってもよい。 Note that the stated second through fifth threshold values and α values are illustrative examples only and do not constitute any limitations on the present application. The second through fifth threshold values and the value of α may alternatively be other values in a given interval.

現在のフレームが符号器側によって処理される最初のフレームである場合、現在のフレームには前のフレームがないことにさらに留意されたい。この場合には、現在のフレームの長期平滑化パラメータが決定されるとき、前述の式における現在のフレームの前のフレームの長期平滑化パラメータは事前設定された長期平滑化パラメータである。限定ではなく例として、事前設定された長期平滑化パラメータの値は1.0であってもよく、または当然ながら、0.9や1.1などの他の値であってもよい。 Note further that the current frame has no previous frame if it is the first frame processed by the encoder side. In this case, when the long-term smoothing parameter of the current frame is determined, the long-term smoothing parameter of the frame before the current frame in the above formula is the preset long-term smoothing parameter. By way of example and not limitation, the value of the preset long-term smoothing parameter may be 1.0, or of course other values such as 0.9 or 1.1.

方法2 Method 2

方法2における残差信号符号化パラメータを決定するための方法は方法1の方法と同様であり、違いは、第1のパラメータを決定するための方法が異なることにあるしたがって、方法1の残差信号符号化パラメータの決定の関連説明を参照し得る。簡潔にするために、本明細書では、方法2における第1のパラメータを決定するための方法のみを説明する。 The method for determining the residual signal coding parameter in Method 2 is similar to the method in Method 1, the difference being that the method for determining the first parameter is different. Reference may be made to the related discussion of determining signal coding parameters. For the sake of brevity, only the method for determining the first parameter in Method 2 is described herein.

限定ではなく例として、符号器側は、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第1のパラメータを決定し、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示す。 By way of example and not limitation, the encoder side determines a first parameter based on the downmix signal energy and the residual signal energy for each of the M subbands, the first parameter being the 2 shows the value relationship between the downmix signal energy and the residual signal energy for each of .

具体的には、第1のパラメータを決定するとき、符号器側は、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいてM個のエネルギーパラメータを決定し、M個のエネルギーパラメータが、それぞれ、M個のサブバンドのうちの1つのダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応し、符号器側は、M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを第1のパラメータとして最終的に決定する。 Specifically, when determining the first parameter, the encoder side determines M energy parameters based on the downmix signal energy and the residual signal energy of each of the M subbands; energy parameters each indicate a value relationship between the downmix signal energy of one of the M subbands and the residual signal energy, and the M energy parameters are paired with the M subbands. 1, and the encoder side finally determines the energy parameter having the maximum value among the M energy parameters as the first parameter.

任意選択で、符号器側によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは、以下の関数を使用して決定されてもよく、
res_dmx_ratio[b]=f(res_cod_NRG_M[b],res_cod_NRG_S[b])(10)
式中、res_dmx_ratio[b]は、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表す。
Optionally, the energy parameter of the subband whose subband index number is b among the M energy parameters determined by the encoder side may be determined using the following function:
res_dmx_ratio[b] = f(res_cod_NRG_M[b], res_cod_NRG_S[b]) (10)
where res_dmx_ratio[b] represents the energy parameter of the subband whose subband index number is b among the M energy parameters, b is greater than or equal to 0, and is the preset maximum subband index number. where res_cod_NRG_S[b] represents the residual signal energy of the subband with subband index number b, and res_cod_NRG_M[b] represents the downmix signal energy of the subband with subband index number b. show.

例えば、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは以下の式を満たす。
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b](11)
For example, among the M energy parameters, the energy parameter of the subband whose subband index number is b satisfies the following equation.
res_dmx_ratio[b] = res_cod_NRG_S[b]/res_cod_NRG_M[b] (11)

第1のパラメータはres_dmx_ratioと表記され、res_dmx_ratioは以下の式を満たす。
res_dmx_ratio=max(res_dmx_ratio[0],res_dmx_ratio[1],…,res_dmx_ratio[M-1])(12)
The first parameter is denoted res_dmx_ratio, where res_dmx_ratio satisfies the following equation.
res_dmx_ratio = max(res_dmx_ratio[0], res_dmx_ratio[1], ..., res_dmx_ratio[M-1]) (12)

第1のパラメータを決定した後、符号器側は、方法1に記載の方法に従って第2のパラメータを決定し、方法1に記載の方法に従って残差信号符号化パラメータを最終的に決定し、残差信号符号化パラメータに基づいて、M個のサブバンドの各々の残差信号を符号化するかどうかを決定し得る。 After determining the first parameter, the encoder side determines the second parameter according to the method described in Method 1, finally determines the residual signal coding parameter according to the method described in Method 1, and Based on the difference signal coding parameters, it may be determined whether to code the residual signal for each of the M subbands.

方法3 Method 3

方法3における残差信号符号化パラメータを決定するための方法は方法1の方法と同様であり、違いは、第1のパラメータを決定するための方法が異なることにあるしたがって、方法1の残差信号符号化パラメータの決定の関連説明を参照し得る。簡潔にするために、本明細書では、方法3における第1のパラメータを決定するための方法のみを説明する。 The method for determining the residual signal coding parameter in method 3 is similar to the method in method 1, the difference being that the method for determining the first parameter is different. Reference may be made to the related discussion of determining signal coding parameters. For the sake of brevity, only the method for determining the first parameter in Method 3 is described herein.

限定ではなく例として、符号器側は、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第1のパラメータを決定し、第1のパラメータを補正し、最終的な第1のパラメータとして、補正によって得られた第1のパラメータを決定し、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示す。 By way of example and not limitation, the encoder side determines a first parameter based on downmix signal energy and residual signal energy for each of the M subbands, corrects the first parameter, and final As the first parameter, determine the first parameter obtained by the correction, the first parameter indicating the value relationship between the downmix signal energy and the residual signal energy for each of the M subbands .

具体的には、第1のパラメータを決定するとき、符号器側は、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいてM個のエネルギーパラメータを決定し、M個のエネルギーパラメータが、それぞれ、M個のサブバンドのうちの1つのダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応し、符号器側は、M個のエネルギーパラメータの和を第1のパラメータとして決定する。 Specifically, when determining the first parameter, the encoder side determines M energy parameters based on the downmix signal energy and the residual signal energy of each of the M subbands; energy parameters each indicate a value relationship between the downmix signal energy of one of the M subbands and the residual signal energy, and the M energy parameters are paired with the M subbands. 1, and the encoder side determines the sum of M energy parameters as the first parameter.

任意選択で、符号器側によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは、関数(1)を使用して決定され得る。 Optionally, the energy parameter of the subband whose subband index number is b among the M energy parameters determined by the encoder side may be determined using function (1).

例えば、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは式(2)を満たす。 For example, among the M energy parameters, the energy parameter of the subband whose subband index number is b satisfies Equation (2).

任意選択で、符号器側によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは、関数(11)を使用して決定され得る。 Optionally, the energy parameter of the subband whose subband index number is b among the M energy parameters determined by the encoder side may be determined using function (11).

例えば、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは式(11)を満たす。 For example, among the M energy parameters, the energy parameter of the subband whose subband index number is b satisfies Equation (11).

例えば、M個のエネルギーパラメータに基づいて符号器側によって決定された第1のパラメータres_dmx_ratio1は以下の式を満たす。

Figure 2022163058000043
For example, the first parameter res_dmx_ratio 1 determined by the encoder side based on M energy parameters satisfies the following equation.
Figure 2022163058000043

加えて、符号器側は、M個のエネルギーパラメータのうちの最大値res_dmx_ratio_maxをさらに決定してもよく、res_dmx_ratio_maxは式(12)を満たす。 In addition, the encoder side may further determine the maximum value res_dmx_ratio_max among the M energy parameters, where res_dmx_ratio_max satisfies Equation (12).

符号器側は、M個のサブバンドの各々のres_dmx_ratio_maxおよびダウンミックス信号エネルギーres_cod_NRG_M[b]に基づいてres_dmx_ratio1を補正し、補正によって得られたres_dmx_ratio2を決定する。 The encoder side corrects res_dmx_ratio 1 based on res_dmx_ratio_max of each of the M subbands and downmix signal energy res_cod_NRG_M[b], and determines res_dmx_ratio 2 obtained by the correction.

例えば、符号器側はres_dmx_ratio1を以下の式に従って補正し、式中、M=5であり、
補正によって得られたres_dmx_ratio2は以下の式を満たす。

Figure 2022163058000044
For example, the encoder side corrects res_dmx_ratio 1 according to the following formula, where M=5,
res_dmx_ratio 2 obtained by correction satisfies the following equation.
Figure 2022163058000044

任意選択で、補正によって得られたres_dmx_ratio2はさらに補正され得る。 Optionally, res_dmx_ratio 2 obtained by correction may be further corrected.

例えば、補正によって最終的に得られたres_dmx_ratio3は以下の式を満たし、
res_dmx_ratio3=pow(res_dmx_ratio2,1.2)(15)
式中、pow()関数は、指数関数を表し、pow(res_dmx_ratio2,1.2)は、res_dmx_ratio2の1.2乗を表す。
For example, res_dmx_ratio 3 finally obtained by correction satisfies the following formula,
res_dmx_ratio3 = pow( res_dmx_ratio2 , 1.2) (15)
In the formula, the pow() function represents an exponential function, and pow( res_dmx_ratio2 , 1.2 ) represents res_dmx_ratio2 raised to the power of 1.2.

補正によって得られた第1のパラメータ(補正によって得られたres_dmx_ratio3)を決定した後、符号器側は、方法1に記載の方法に従って第2のパラメータを決定し、方法1に記載の方法に従って残差信号符号化パラメータを最終的に決定し、残差信号符号化パラメータに基づいて、M個のサブバンドの各々の残差信号を符号化するかどうかを決定し得る。 After determining the first parameter obtained by correction (res_dmx_ratio 3 obtained by correction), the encoder side determines the second parameter according to the method described in Method 1, and determines the second parameter according to the method described in Method 1. A residual signal coding parameter may be finally determined, and whether to code the residual signal for each of the M subbands may be determined based on the residual signal coding parameter.

方法4 Method 4

方法4における残差信号符号化パラメータを決定するための方法は方法1の方法と同様であり、違いは、第1のパラメータを決定するための方法が異なることにあるしたがって、方法1の残差信号符号化パラメータの決定の関連説明を参照し得る。簡潔にするために、本明細書では、方法4における第1のパラメータを決定するための方法のみを説明する。 The method for determining the residual signal coding parameter in method 4 is similar to the method in method 1, the difference being that the method for determining the first parameter is different. Reference may be made to the related discussion of determining signal coding parameters. For the sake of brevity, only the method for determining the first parameter in method 4 is described herein.

限定ではなく例として、符号器側は第1のパラメータを、M個のサブバンドの残差信号エネルギーの和およびM個のサブバンドのダウンミックス信号エネルギーの和に基づいて決定する。 By way of example and not limitation, the encoder side determines the first parameter based on the sum of the residual signal energies of the M subbands and the sum of the downmix signal energies of the M subbands.

具体的には、符号器側は、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currとM個のサブバンドの残差信号エネルギーの和res_nrg_all_currとを別々に決定し、dmx_nrg_all_currおよびres_nrg_all_currに基づいて第1のパラメータを決定する。 Specifically, the encoder side separately determines the sum dmx_nrg_all_curr of the downmix signal energies of the M subbands and the sum res_nrg_all_curr of the residual signal energies of the M subbands, and based on dmx_nrg_all_curr and res_nrg_all_curr Determine the first parameter.

任意選択で、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currは式(4)を満たす Optionally, the sum dmx_nrg_all_curr of the downmix signal energies of the M subbands satisfies equation (4) .

任意選択で、M個のサブバンドの残差信号エネルギーの和res_nrg_all_currは式(5)を満たす Optionally, the sum res_nrg_all_curr of the residual signal energies of the M subbands satisfies equation (5) .

符号器側は、dmx_nrg_all_currおよびres_nrg_all_currに基づいて第1のパラメータres_dmx_ratioを決定する。 The encoder side determines the first parameter res_dmx_ratio based on dmx_nrg_all_curr and res_nrg_all_curr.

例えば、符号器側によって最終的に決定された第1のパラメータres_dmx_ratioは以下の式を満たす。
res_dmx_ratio=res_nrg_all_curr/dmx_nrg_all_curr(16)
For example, the first parameter res_dmx_ratio finally determined by the encoder side satisfies the following equation.
res_dmx_ratio = res_nrg_all_curr/dmx_nrg_all_curr(16)

第1のパラメータを決定した後、符号器側は、方法1に記載の方法に従って第2のパラメータを決定し、方法1に記載の方法に従って残差信号符号化パラメータを最終的に決定し、残差信号符号化パラメータに基づいて、M個のサブバンドの各々の残差信号を符号化するかどうかを決定し得る。 After determining the first parameter, the encoder side determines the second parameter according to the method described in Method 1, finally determines the residual signal coding parameter according to the method described in Method 1, and Based on the difference signal coding parameters, it may be determined whether to code the residual signal for each of the M subbands.

ステレオ信号の符号化全体をより良く理解するために、以下では、各フレームの信号長が20msである広帯域ステレオ信号を例として使用し、符号器側によって処理されているフレーム(例えば、現在のフレーム)を例として使用し、本出願の本実施形態のステレオ信号符号化方法300を、図7を参照して説明する。図7に示されるステレオ信号符号化方法は少なくとも以下のステップを含む。 In order to better understand the whole encoding of stereo signals, in the following, we will use a wideband stereo signal as an example where the signal length of each frame is 20ms, and the frame being processed by the encoder side (e.g. the current frame ) as an example, the stereo signal encoding method 300 of this embodiment of the present application will be described with reference to FIG. The stereo signal encoding method shown in FIG. 7 includes at least the following steps.

401:時間領域前処理によって得られる左チャネル時間領域信号および右チャネル時間領域信号を得るために、左チャネル時間領域信号および右チャネル時間領域信号に対して時間領域前処理を行う。 401: Perform time domain preprocessing on the left channel time domain signal and the right channel time domain signal to obtain a left channel time domain signal and a right channel time domain signal obtained by the time domain preprocessing.

具体的には、現在のフレームの信号長は20msである。サンプリング周波数が16kHz(kHz)である場合、サンプリングの後、現在のフレームのフレーム長H=320であり、言い換えると、現在のフレームは320個のサンプリング点を含む。 Specifically, the signal length of the current frame is 20ms. If the sampling frequency is 16 kHz ( kHz ), after sampling, the frame length of the current frame H=320, in other words the current frame contains 320 sampling points.

現在のフレームのステレオ信号は、現在のフレームの左チャネル時間領域信号および現在のフレームの右チャネル時間領域信号を含む。現在のフレームの左チャネル時間領域信号はとxL(n)と表記され、現在のフレームの右チャネル時間領域信号はとxR(n)と表記される。nは、サンプリング点のシーケンス番号であり、n=0,1,…,およびH-1である。左チャネル時間領域信号および右チャネル時間領域信号は、左および右チャネル時間領域信号と呼ばれ得る。 The current frame stereo signal includes a current frame left channel time domain signal and a current frame right channel time domain signal. The left channel time domain signal of the current frame is denoted as x L (n) and the right channel time domain signal of the current frame is denoted as x R (n). n is the sequence number of sampling points, n=0, 1, . . . , and H−1. Left channel time domain signals and right channel time domain signals may be referred to as left and right channel time domain signals.

現在のフレームの左チャネル時間領域信号および右チャネル時間領域信号に対して時間領域前処理を行うステップは、時間領域前処理によって得られる現在のフレームの左チャネル時間領域信号および右チャネル時間領域信号を得るために、現在のフレームの左チャネル時間領域信号および右チャネル時間領域信号に対して高域フィルタリング処理をそれぞれ行うステップ、を含み得る。前処理によって得られる現在のフレームの左チャネル時間領域信号はxL_HP(n)と表記され、前処理によって得られる現在のフレームの右チャネル時間領域信号はxR_HP(n)と表記される。nは、サンプリング点のシーケンス番号であり、n=0,1,…,およびH-1である。時間領域前処理によって得られる現在のフレームの左チャネル時間領域信号および時間領域前処理によって得られる現在のフレームの右チャネル時間領域信号は、時間領域前処理によって得られる現在のフレームの左および右チャネル時間領域信号と呼ばれ得る。高域フィルタリング処理中には、カットオフ周波数が20Hz(Hz)である無限インパルス応答(Infinite Impulse Response、IIR)デジタルフィルタが使用され得るか、または他のタイプのフィルタが使用され得る。 The step of performing time-domain preprocessing on the left-channel time-domain signal and the right-channel time-domain signal of the current frame includes converting the left-channel time-domain signal and the right-channel time-domain signal of the current frame obtained by the time-domain preprocessing into: performing high-pass filtering on the left and right channel time-domain signals of the current frame, respectively, to obtain. The left channel time domain signal of the current frame obtained by preprocessing is denoted as x L_HP (n), and the right channel time domain signal of the current frame obtained by preprocessing is denoted as x R_HP (n). n is the sequence number of sampling points, n=0, 1, . . . , and H−1. The left channel time domain signal of the current frame obtained by time domain preprocessing and the right channel time domain signal of the current frame obtained by time domain preprocessing are the left and right channels of the current frame obtained by time domain preprocessing. It can be called a time domain signal. An Infinite Impulse Response (IIR) digital filter with a cutoff frequency of 20 Hz (Hz) may be used during the high-pass filtering process, or other types of filters may be used.

例えば、ステレオ信号のサンプリングレートが16kHzであるとき、カットオフ周波数が20Hzである高域フィルタの対応する伝達関数は以下の式であり得る。

Figure 2022163058000045
For example, when the sampling rate of a stereo signal is 16kHz, the corresponding transfer function of a high-pass filter with a cutoff frequency of 20Hz can be:
Figure 2022163058000045

b0=0.994461788958195、b1=-1.988923577916390、b2=0.994461788958195、a1=1.98892905899653、a2=-0.988954249933127であり、zは、Z変換の変換係数を表す。対応する時間領域フィルタは以下のとおりである。
xL_HP(n)=b0・xL(n)+b1・xL(n-1)+b2・xL(n-2)-a1・xL_HP(n-1)-a2・xL_HP(n-2)(18)
b0 = 0.994461788958195, b1 = -1.988923577916390, b2 = 0.994461788958195 , a1 = 1.98892905899653 , a2 = -0.988954249933127, and z represents the transform coefficient of the Z transform. The corresponding time domain filters are:
x L_HP (n) = b 0 x L (n) + b 1 x L (n-1) + b 2 x L (n-2) - a 1 x L_HP (n-1) - a 2 x L_HP (n-2) (18)

402:時間領域前処理によって得られる左チャネル時間領域信号および右チャネル時間領域信号に対して時間領域解析を行う。 402: Perform time domain analysis on the left channel time domain signal and the right channel time domain signal obtained by the time domain preprocessing.

具体的には、時間領域解析は、過渡検出などを含み得る。過渡検出は、現在のフレームでエネルギーバーストが発生するかどうかを検出するために、前処理によって得られる現在のフレームの左チャネル時間領域信号および右チャネル時間領域信号に対してエネルギー検出を別々に行うことであり得る。 Specifically, time domain analysis may include transient detection and the like. Transient detection separately performs energy detection on the left channel time domain signal and right channel time domain signal of the current frame obtained by preprocessing to detect whether an energy burst occurs in the current frame. It can be

例えば、前処理によって得られる現在のフレームの左チャネル時間領域信号のエネルギーEcur_Lが計算される。過渡検出は、前処理によって得られる現在のフレームの左チャネル時間領域信号の過渡検出結果を得るために、前処理によって得られる現在のフレームの前のフレームの左チャネル時間領域信号のエネルギーEpre_Lと前処理によって得られる現在のフレームの左チャネル時間領域信号のエネルギーEcur_Lとの差の絶対値に基づいて行われる。過渡検出は、同じ方法を使用して、前処理によって得られる現在のフレームの右チャネル時間領域信号に対して行われ得る。 For example, the energy E cur_L of the left channel time domain signal of the current frame obtained by preprocessing is calculated. Transient detection uses the energy E pre_L of the left channel time domain signal of the frame before the current frame obtained by preprocessing to obtain the transient detection result of the left channel time domain signal of the current frame obtained by preprocessing. It is based on the absolute value of the difference between the energy Ecur_L of the left channel time domain signal of the current frame obtained by preprocessing. Transient detection can be performed on the right channel time domain signal of the current frame obtained by preprocessing using the same method.

時間領域解析は、過渡検出に加えて先行技術の他の時間領域解析も含み得る。例えば、時間領域解析は、時間領域チャネル間時間差(Inter-channel Time Difference、ITD)パラメータ決定、時間領域遅延整合処理、および帯域拡張前処理を含み得る。 The time domain analysis may include other prior art time domain analyzes in addition to transient detection. For example, time domain analysis may include time domain Inter-channel Time Difference (ITD) parameter determination, time domain delay matching processing, and band extension preprocessing.

403:左チャネル周波数領域信号および右チャネル周波数領域信号を得るために、時間領域前処理によって得られる左チャネル時間領域信号および右チャネル時間領域信号に対して時間周波数変換を行う。 403: Perform a time-frequency transform on the left channel time domain signal and the right channel time domain signal obtained by the time domain preprocessing to obtain a left channel frequency domain signal and a right channel frequency domain signal.

具体的には、左チャネル周波数領域信号を得るために、時間領域前処理によって得られる左チャネル時間領域信号に対して離散フーリエ変換が行われてもよく、右チャネル周波数領域信号を得るために、時間領域前処理によって得られる右チャネル時間領域信号に対して離散フーリエ変換が行われる。 Specifically, a discrete Fourier transform may be performed on the left channel time domain signal obtained by the time domain preprocessing to obtain the left channel frequency domain signal, and to obtain the right channel frequency domain signal: A discrete Fourier transform is performed on the right channel time domain signal obtained by the time domain preprocessing.

スペクトルエイリアシングの問題を克服するために、離散フーリエ変換の2つの連続した時間の間での処理に重畳加算法が使用されてもよく、場合によっては、離散フーリエ変換の入力信号にゼロが加算され得る。 To overcome the problem of spectral aliasing, a convolution-add method may be used to process the Discrete Fourier Transform between two consecutive times, in some cases adding zeros to the input signal of the Discrete Fourier Transform. obtain.

離散フーリエ変換はフレームごとに1回行われてもよく、または信号の各フレームがP個(Pは2以上の正の整数)のサブフレームに分割されてもよく、離散フーリエ変換はサブフレームごとに1回行われる。 The discrete Fourier transform may be performed once per frame, or each frame of the signal may be divided into P subframes, where P is a positive integer greater than or equal to 2, and the discrete Fourier transform may be performed once per subframe. is performed once every

例えば、離散フーリエ変換は現在のフレームに対して1回行われ、離散フーリエ変換が行われる現在のフレームの左チャネル周波数領域信号がL(k)と表記され、離散フーリエ変換が行われる現在のフレームの右チャネル周波数領域信号がR(k)と表記される。kは、周波数ビンインデックス番号を表し、k=0,1,…,L-1であり、Lは、離散フーリエ変換が行われる現在のフレームのフレーム長を表し、言い換えると、離散フーリエ変換が行われる現在のフレームは、L個の周波数ビンを含む。 For example, the Discrete Fourier Transform is performed once for the current frame, the left channel frequency domain signal of the current frame on which the Discrete Fourier Transform is performed is denoted as L(k), and the current frame on which the Discrete Fourier Transform is performed is denoted R(k). k represents the frequency bin index number, k=0, 1, . The current frame being read contains L frequency bins.

他の例では、現在のフレームがP個のサブフレームに分割され、Pは2以上の正の整数である。インデックス番号がiである、離散フーリエ変換が行われるサブフレームの左チャネル周波数領域信号がLi(k)と表記され、インデックス番号がiである、離散フーリエ変換が行われるサブフレームの右チャネル周波数領域信号がRi(k)と表記される。iは、サブフレームインデックス番号を表し、i=0,1,…,P-1であり、kは、周波数ビンインデックス番号を表し、k=0,1,…,L-1であり、Lは、離散フーリエ変換が行われる各サブフレームのフレーム長を表し、言い換えると、離散フーリエ変換が行われる各サブフレームは、L個の周波数ビンを含む。 In another example, the current frame is partitioned into P subframes, where P is a positive integer greater than or equal to 2. The left channel frequency domain signal of the subframe where the discrete Fourier transform is performed with index number i is denoted by Li(k), and the right channel frequency of the subframe where the discrete Fourier transform is performed with index number i The area signal is denoted R i (k). i represents the subframe index number, i = 0, 1, ..., P-1, k represents the frequency bin index number, k = 0, 1, ..., L-1, and L is , represents the frame length of each subframe on which the discrete Fourier transform is performed, in other words, each subframe on which the discrete Fourier transform is performed contains L frequency bins.

404:ITDパラメータを決定し、決定されたITDパラメータを符号化する。 404: Determine ITD parameters and encode the determined ITD parameters.

具体的には、ITDパラメータを決定するための複数の方法がある。ITDパラメータは、周波数領域でのみ決定されてもよく、または時間領域でのみ決定されてもよく、または時間周波数領域で決定されてもよい。これは本出願では限定されない。 Specifically, there are multiple methods for determining the ITD parameters. The ITD parameters may be determined only in the frequency domain, only in the time domain, or determined in the time-frequency domain. This is not a limitation in this application.

ITDパラメータは、相互相関係数を使用して時間領域で抽出され得る。例えば、0≦i≦Tmaxの範囲で、

Figure 2022163058000046
および
Figure 2022163058000047
が計算される。 ITD parameters can be extracted in the time domain using cross-correlation coefficients. For example, in the range 0≤i≤Tmax ,
Figure 2022163058000046
and
Figure 2022163058000047
is calculated.

Figure 2022163058000048
の場合、ITDパラメータ値は、max(cn(i))に対応するインデックス番号の反対の数である。
Figure 2022163058000049
の場合、ITDパラメータ値は、max(cp(i))に対応するインデックス番号である。iは、相互相関係数を計算するためのインデックス番号を表し、jは、サンプリング点のインデックス番号を表し、Tmaxは、異なるサンプリングレートにおけるITDパラメータ値の最大値に対応し、Hは、現在のフレームのフレーム長を表す。
Figure 2022163058000048
, the ITD parameter value is the opposite number of the index number corresponding to max(c n (i)).
Figure 2022163058000049
, the ITD parameter value is the index number corresponding to max(c p (i)). i represents the index number for calculating the cross-correlation coefficient, j represents the index number of the sampling point, T max corresponds to the maximum value of the ITD parameter values at different sampling rates, H is the current represents the frame length of the frame.

ITDパラメータは、代替として、左チャネル周波数領域信号および右チャネル周波数領域信号に基づいて周波数領域で決定されてもよい。例えば、離散フーリエ変換(Discrete Fourier Transform、DFT)、高速フーリエ変換(Fast Fourier Transformation、FFT)、および修正離散コサイン変換(Modified Discrete Cosine Transform、MDCT)などの時間周波数変換技術を使用して、時間領域信号が周波数領域信号に変換され得る。 The ITD parameters may alternatively be determined in the frequency domain based on the left channel frequency domain signal and the right channel frequency domain signal. For example, time-domain A signal may be transformed into a frequency domain signal.

本出願の本実施形態では、インデックス番号がiであり、離散フーリエ変換が行われるサブフレームの左チャネル周波数領域信号は、Li(k)と表記され、k=0,1,…,L/2-1であり、インデックス番号がiであり、変換が行われるサブフレームの右チャネル周波数領域信号は、Ri(k)と表記され、k=0,1,…,L/2-1およびi=0,1,…,P-1である。インデックス番号がiであるサブフレームの周波数領域相互相関係数は、XCORRi(k)=Li(k)・R i(k)に従って計算され、R i(k)は、変換が行われる第iのサブフレームの右チャネル周波数領域信号の共役を表す。 In this embodiment of the present application, the left channel frequency domain signal of the subframe whose index number is i and the discrete Fourier transform is performed is denoted as L i (k), where k=0, 1, . . . , L/ 2−1, the index number is i, and the right channel frequency domain signal of the subframe under transformation is denoted R i (k), where k=0, 1, . . . , L/2−1 and i=0, 1, . . . , P−1. The frequency-domain cross -correlation coefficient of the subframe with index number i is calculated according to XCORRi(k)=Li(k) R * i (k ) , where R * i (k) is the transform performed. represents the conjugate of the right channel frequency-domain signal for the i-th subframe where

周波数領域相互相関係数は時間領域xcorri(n)に変換され、n=0,1,…,L-1であり、インデックス番号がiであるサブフレームのITDパラメータ値が

Figure 2022163058000050
であることを得るために、L/2-Tmax≦n≦L/2+Tmaxの範囲でxcorri(n)の最大値が探索される。 The frequency domain cross-correlation coefficients are transformed to the time domain xcorr i (n), where n=0, 1, .
Figure 2022163058000050
The maximum value of xcorr i (n) is searched for in the range L/2-T max ≤ n ≤ L/2 + T max to obtain that .

加えて、インデックス番号がiであり、DFT変換が行われるサブフレームの左チャネル周波数領域信号および右チャネル周波数領域信号に基づいて、探索範囲-Tmax≦j≦Tmaxにおいて

Figure 2022163058000051
に従って振幅値がさらに計算されてもよく、ITDパラメータ値は
Figure 2022163058000052
であり、具体的には、ITDパラメータ値は、最大振幅値に対応するインデックス番号である。 In addition, in the search range −T max ≤ j ≤ T max , based on the left channel frequency domain signal and the right channel frequency domain signal of the subframe where the index number is i and the DFT transformation is performed
Figure 2022163058000051
Amplitude values may be further calculated according to and the ITD parameter value is
Figure 2022163058000052
and specifically, the ITD parameter value is the index number corresponding to the maximum amplitude value.

ITDパラメータが決定された後、ITDパラメータは符号化パラメータを得るために符号化されてもよく、符号化パラメータはステレオ符号化ビットストリームに書き込まれる。 After the ITD parameters are determined, the ITD parameters may be encoded to obtain the encoding parameters, which are written into the stereo encoded bitstream.

405:ITDパラメータに基づいて左周波数領域信号および右チャネル周波数領域信号に対して時間シフト調整を行う。 405: Perform time shift adjustment on the left frequency domain signal and the right channel frequency domain signal based on the ITD parameters.

具体的には、任意の技術に従って左チャネル周波数領域信号および右チャネル周波数領域信号に対して時間シフト調整が行われ得る。これは本出願の本実施形態では限定されない。 Specifically, time shift adjustments may be made to the left channel frequency domain signal and the right channel frequency domain signal according to any technique. This is not a limitation in this embodiment of the application.

例えば、信号の現在のフレームがP個のサブフレームに分割され、Pは2以上の正の整数である。インデックス番号がiであるサブフレームの、時間シフト調整によって得られた左チャネル周波数領域信号はL’i(k)と表記されてもよく、k=0,1,…,L/2-1であり、インデックス番号がiであるサブフレームの、時間シフト調整によって得られた右チャネル周波数領域信号はR’i(k)と表記されてもよく、kは、周波数ビンインデックス番号を表し、k=0,1,…,L/2-1であり、iは、サブフレームインデックス番号を表し、i=0,1,…,P-1である。

Figure 2022163058000053
For example, the current frame of the signal is divided into P subframes, where P is a positive integer greater than or equal to 2. The left channel frequency domain signal obtained by time shift adjustment of the subframe with index number i may be denoted as L' i (k), where k = 0, 1, ..., L/2-1. , and the right channel frequency domain signal obtained by time shift adjustment of the subframe with index number i may be denoted as R′ i (k), where k represents the frequency bin index number and k= 0, 1, . . . , L/2−1, i represents the subframe index number, and i=0, 1, .
Figure 2022163058000053

Tiは、インデックス番号がiであるサブフレームのITDパラメータ値を表し、Lは、離散フーリエ変換が行われるサブフレームの長さを表し、Li(k)は、インデックス番号がiであり、変換が行われる第iのサブフレームの左チャネル周波数領域信号を表し、Ri(k)は、インデックス番号がiであり、変換が行われるサブフレームの右チャネル周波数領域信号を表し、iは、サブフレームインデックス番号を表し、i=0,1,…,P-1である。 T i represents the ITD parameter value of the subframe with index number i, L represents the length of the subframe over which the discrete Fourier transform is performed, L i (k) is the index number i, R i (k) represents the left channel frequency domain signal of the ith subframe in which the transform is performed, R i (k) represents the right channel frequency domain signal of the subframe in which the index number is i, where i is Represents the subframe index number, i=0, 1, . . . , P−1.

406:時間シフト調整によって得られる左チャネル周波数領域信号および右チャネル周波数領域信号に基づいて他の周波数領域のステレオパラメータを計算し、他の周波数領域のステレオパラメータを符号化する。 406: Calculate another frequency domain stereo parameter based on the left channel frequency domain signal and the right channel frequency domain signal obtained by the time shift adjustment, and encode the other frequency domain stereo parameter.

具体的には、他の周波数領域のステレオパラメータは、チャネル間位相差(Inter-channel Phase Difference、IPD)パラメータ、および/またはチャネル間レベル差(Inter-channel Level Difference、ILD)パラメータ、および/またはサブバンドのサイドゲインなどを含み得るがこれに限定されない。ILDは、チャネル間振幅差とも呼ばれ得る。 Specifically, the other frequency-domain stereo parameters are Inter-channel Phase Difference (IPD) parameters, and/or Inter-channel Level Difference (ILD) parameters, and/or It may include, but is not limited to, sub-band side gains and the like. ILD may also be referred to as inter-channel amplitude difference.

計算によって他の周波数領域のステレオパラメータが得られた後、他の周波数領域のステレオパラメータは符号化パラメータを得るために符号化されてもよく、符号化パラメータはステレオ符号化ビットストリームに書き込まれる。 After obtaining the other frequency-domain stereo parameters by calculation, the other frequency-domain stereo parameters may be coded to obtain the coding parameters, and the coding parameters are written into the stereo-coded bitstream.

407:現在のフレームの周波数領域信号に含まれるN個のサブバンドから、事前設定条件を満たすM個のサブバンドを決定する。 407: Determine M subbands that satisfy a preset condition from the N subbands included in the frequency domain signal of the current frame.

具体的には、現在のフレームの、時間シフト調整によって得られた周波数領域信号がサブバンドに分割される。例えば、現在のフレームの周波数領域信号はN個の(Nは2以上の正の整数である)サブバンドに分割され、サブバンドインデックス番号がbであるサブバンドに含まれる周波数ビンはk∈[band_limits(b),band_limits(b+1)-1]であり、band_limits(b)は、サブバンドインデックス番号がbであるサブバンドに含まれる周波数ビンの最小インデックス番号を表し、band_limits(b+1)は、サブバンドインデックス番号がb+1であるサブバンドに含まれる周波数ビンの最小インデックス番号を表す。事前設定条件に従って、N個のサブバンドの中から事前設定条件を満たすM個のサブバンドが決定される。 Specifically, the frequency domain signal obtained by the time shift adjustment of the current frame is divided into subbands. For example, the frequency domain signal of the current frame is divided into N subbands (where N is a positive integer greater than or equal to 2), and the frequency bin contained in the subband with subband index number b is k ∈ [ band_limits(b), band_limits(b+1)−1], where band_limits(b) represents the minimum index number of frequency bins included in the subband whose subband index number is b, and band_limits(b+1) represents the subband It represents the minimum index number of the frequency bins included in the subband whose band index number is b+1. According to a preset condition, M subbands that satisfy the preset condition are determined among the N subbands.

例えば、事前設定条件は、サブバンドインデックス番号が事前設定された最大サブバンドインデックス番号以下であること、すなわち、b≦res_cod_band_max、式中res_cod_band_maxが、事前設定された最大サブバンドインデックス番号を表すこと、であり得る。 For example, the preset condition is that the subband index number is less than or equal to the preset maximum subband index number, i.e., b≤res_cod_band_max, where res_cod_band_max represents the preset maximum subband index number; can be

事前設定条件は、代替として、サブバンドインデックス番号が事前設定された最大サブバンドインデックス番号以下であり、事前設定された最小サブバンドインデックス番号以上であること、すなわち、res_cod_band_min≦b≦res_cod_band_max、res_cod_band_maxが、事前設定された最大サブバンドインデックス番号を表し、res_cod_band_minが事前設定された最小サブバンドインデックス番号を表すこと、であってもよい。 Alternatively, the preset condition is that the subband index number is less than or equal to the maximum preset subband index number and greater than or equal to the minimum preset subband index number, i.e. res_cod_band_min≤b≤res_cod_band_max, res_cod_band_max is , res_cod_band_min represents the preset maximum subband index number, and res_cod_band_min represents the preset minimum subband index number.

さらに、広帯域ステレオ信号では、異なる符号化レートに基づいて異なる事前設定条件が設定され得る。例えば、符号化レートが26kbpsであるとき、事前設定条件は、サブバンドインデックス番号b≦5、言い換えると、事前設定された最大サブバンドインデックス番号は5である。符号化レートが44kbpsであるとき、事前設定条件は、サブバンドインデックス番号b≦6、言い換えると、事前設定された最大サブバンドインデックス番号は6である。符号化レートが56kbpsであるとき、事前設定条件は、サブバンドインデックス番号b≦7、言い換えると、事前設定された最大サブバンドインデックス番号は7である。 Furthermore, for wideband stereo signals, different preset conditions may be set based on different coding rates. For example, when the coding rate is 26 kbps, the preset condition is subband index number b≦5, in other words, the preset maximum subband index number is 5. When the coding rate is 44 kbps, the preset condition is subband index number b≦6, in other words, the preset maximum subband index number is 6. When the coding rate is 56 kbps, the preset condition is subband index number b≦7, in other words, the preset maximum subband index number is 7.

例えば、事前設定条件がサブバンドインデックス番号b≦4である場合、インデックス番号が0から4である5つのサブバンドが、現在のフレームのN個のサブバンドの中から、事前設定条件を満たすサブバンドとして決定され得る。 For example, if the preset condition is subband index number b≤4, the 5 subbands with index numbers 0 to 4 are the subbands satisfying the preset condition among the N subbands of the current frame. can be determined as a band.

加えて、信号の現在のフレームがP個のサブフレームに分割される場合(Pは2以上の正の整数である)、時間シフト調整によって得られる各サブフレームはサブバンドに分割される。例えば、インデックス番号がiであるサブフレーム(i=0,1,…,P-1)がN個のサブバンドに分割され、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドに含まれる周波数ビンはki∈[band_limits(b),band_limits(b+1)-1]であり、band_limits(b)は、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドに含まれる周波数ビンの最小インデックス番号を表し、band_limits(b+1)は、インデックス番号がiであるサブフレーム内のインデックス番号がb+1であるサブバンドに含まれる周波数ビンの最小インデックス番号を表す。 In addition, if the current frame of the signal is divided into P subframes (P is a positive integer greater than or equal to 2), each subframe obtained by time shift adjustment is divided into subbands. For example, a subframe with an index number of i (i = 0, 1, ..., P-1) is divided into N subbands, and subbands with an index number of b in the subframe with an index number of i The frequency bins included in the band are k i ∈ [band_limits(b), band_limits(b+1)−1], where band_limits(b) is the subband with index number b in the subframe with index number i. and band_limits(b+1) represents the minimum index number of frequency bins included in the subband with index number b+1 in the subframe with index number i.

事前設定条件に従って、各フレームに含まれるN個のサブバンドの中から事前設定条件を満たすM個のサブバンドが決定される。 According to a preset condition, M subbands that satisfy the preset condition are determined from among the N subbands included in each frame.

事前設定条件は、サブバンドのインデックス番号が事前設定された最小サブバンドインデックス番号以上であり、事前設定された最大サブバンドインデックス番号以下であること、すなわち、res_cod_band_min≦b≦res_cod_band_max、であり得る。 The preset condition may be that the subband index number is greater than or equal to a preset minimum subband index number and less than or equal to a preset maximum subband index number, ie, res_cod_band_min≤b≤res_cod_band_max.

例えば、事前設定条件が4≦b≦8である場合、インデックス番号が4から8である5つのサブバンドが、各サブフレーム内のN個のサブバンドの中から、事前設定条件を満たすサブバンドとして決定される。 For example, if the preset condition is 4≤b≤8, the 5 subbands with index numbers 4 to 8 satisfy the preset condition among the N subbands in each subframe. is determined as

408:時間シフト調整によって得られる左チャネル周波数領域信号および右チャネル周波数領域信号に基づいて、事前設定条件を満たすサブバンドのダウンミックス信号および残差信号を計算する。 408: Based on the left channel frequency domain signal and the right channel frequency domain signal obtained by the time shift adjustment, calculate the sub-band downmix signal and the residual signal that satisfy the preset condition.

具体的には、事前設定条件を満たすサブバンドのダウンミックス信号および残差信号を計算するための方法は、現在のフレームがP個のサブフレーム(Pは2以上の正の整数である)に分割される(例えば、現在のフレームは2つのサブフレームまたは4つのサブフレームに分割され得る)例を使用して説明される。 Specifically, the method for calculating the subband downmix signal and residual signal satisfying the preset condition is that the current frame has P subframes (P is a positive integer greater than or equal to 2). It will be described using an example of partitioning (eg, the current frame may be partitioned into 2 subframes or 4 subframes).

例えば、事前設定条件が、サブバンドインデックス番号bが5以下であることである場合、各サブフレーム内の、インデックス番号が0から5であるサブバンドのダウンミックス信号および残差信号が計算される。 For example, if the preset condition is that the subband index number b is less than or equal to 5, the downmix signal and residual signal of the subbands with index numbers from 0 to 5 in each subframe are calculated. .

インデックス番号がiであるサブフレーム内のインデックス番号がb(b≦5)であるサブバンドのダウンミックス信号はDMXi(k)と表記され、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドの残差信号はRESi’(k)と表記され、DMXi(k)およびRESi’(k)は以下の式を満たす。

Figure 2022163058000054
RESi’(k)=RESi(k)-g_ILDi・DMXi(k)(21)
Figure 2022163058000055
Figure 2022163058000056
β=arctan(sin(IPDi(b)),cos(IPDi(b))+2・c)(24)、および
Figure 2022163058000057
A downmix signal of a subband whose index number is b (b≤5) in the subframe whose index number is i is denoted as DMX i (k), and the index number in the subframe whose index number is i is The residual signal of subband b is denoted RES i '(k), where DMX i (k) and RES i '(k) satisfy the following equations.
Figure 2022163058000054
RES i '(k) = RES i (k) - g_ILD i DMX i (k) (21)
Figure 2022163058000055
Figure 2022163058000056
β = arctan(sin(IPD i (b)), cos (IPD i (b)) + 2 c) (24), and
Figure 2022163058000057

IPDi(b)は、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドのIPDパラメータを表し、g_ILDiは、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドのサイドゲインを表し、L’i(k)は、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドの、時間シフト調整によって得られた、左チャネル周波数領域信号を表し、R’i(k)は、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドの、時間シフト調整によって得られた、右チャネル周波数領域信号を表し、L’’i(k)は、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドの、複数のステレオパラメータの調整によって得られた、左チャネル周波数領域信号を表し、R’’i(k)は、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドの、複数のステレオパラメータの調整によって得られた、右チャネル周波数領域信号を表し、iは、サブフレームインデックス番号を表し、i=0,1,…,P-1であり、kは、周波数ビンインデックス番号を表し、k∈[band_limits(b),band_limits(b+1)-1]であり、band_limits(b)は、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドに含まれる周波数ビンの最小インデックス番号を表し、band_limits(b+1)は、インデックス番号がiであるサブフレーム内のインデックス番号がb+1であるサブバンドに含まれる周波数ビンの最小インデックス番号を表す。 IPD i (b) represents the IPD parameters of the subband whose index number is b in the subframe whose index number is i, and g_ILD i is the index number of b in the subframe whose index number is i. represents the side gain of a subband, L' i (k) is the left channel frequency domain signal obtained by time shift adjustment of the subband with index number b in the subframe with index number i , R′ i (k) represents the right channel frequency domain signal obtained by time shift adjustment of the subband with index number b in the subframe with index number i, and L′ ' i (k) represents the left channel frequency domain signal obtained by adjusting multiple stereo parameters of the subband with index number b in the subframe with index number i , and R''i (k) represents the right channel frequency domain signal obtained by adjusting multiple stereo parameters of the subband with index number b in the subframe with index number i, where i is the subframe index; number, i=0, 1, . represents the minimum index number of frequency bins included in the subband with index number b in the subframe with index number i, and band_limits(b+1) is the index number in the subframe with index number i. represents the lowest index number of the frequency bin contained in the subband where is b+1.

他の例では、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドのダウンミックス信号DMXi(k)は、代替として、以下の方法に従って計算され得る。
DMXi(k)=[L’’(k)+R’’(k)]・c(26)、および

Figure 2022163058000058
In another example, the downmix signal DMX i (k) for the subband with index number b in the subframe with index number i may alternatively be calculated according to the following method.
DMX i (k) = [L''(k) + R''(k)] c(26), and
Figure 2022163058000058

L’’i(k)は、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドの、複数のステレオパラメータの調整によって得られた、左チャネル周波数領域信号を表し、R’’i(k)は、インデックス番号がiであるサブフレーム内のインデックス番号がbであるサブバンドの、複数のステレオパラメータの調整によって得られた、右チャネル周波数領域信号を表し、iは、サブフレームインデックス番号を表し、i=0,1,…,P-1であり、kは、周波数ビンインデックス番号を表し、k∈[band_limits(b),band_limits(b+1)-1]であり、band_limits(b)は、サブバンドインデックス番号がbであるサブバンドに含まれる周波数ビンの最小インデックス番号を表し、band_limits(b+1)は、インデックス番号がiであるサブフレーム内のインデックス番号がb+1であるサブバンドに含まれる周波数ビンの最小インデックス番号を表す。ダウンミックス信号エネルギーおよび残差信号エネルギーを計算するための方法は、本出願の本実施形態では限定されない。 L'' i (k) represents the left channel frequency domain signal obtained by adjusting multiple stereo parameters of the subband with index number b in the subframe with index number i, and R'' i (k) represents the right channel frequency domain signal obtained by adjusting multiple stereo parameters of the subband with index number b in the subframe with index number i, i is the sub represents the frame index number, i=0, 1, . b) represents the minimum index number of frequency bins included in the subband whose subband index number is b, and band_limits(b+1) is the subband whose index number is b+1 in the subframe whose index number is i. represents the lowest index number of the frequency bins contained in . The method for calculating downmix signal energy and residual signal energy is not limited in this embodiment of the application.

409:事前設定条件を満たすサブバンドのダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて残差信号符号化パラメータを決定する。 409: Determining residual signal coding parameters based on the downmix signal energy and the residual signal energy of the sub-bands satisfying a preset condition.

410:残差信号符号化パラメータに基づいて、現在のフレームのM個のサブバンドの各々の残差信号が符号化される必要があるかどうかを決定する。残差信号が符号化される必要があると決定される場合、412が行われる。残差信号が符号化される必要がないと決定される場合、411が行われる。 410: Determine whether the residual signal of each of the M subbands of the current frame needs to be coded based on the residual signal coding parameters. If it is determined that the residual signal needs to be encoded, 412 is performed. If it is determined that the residual signal does not need to be encoded, 411 is performed.

411:残差信号符号化パラメータに基づいて現在のフレームのM個のサブバンドの各々のダウンミックス信号を符号化する。この場合、残差信号は符号化される必要がない。 411: Encoding the downmix signal of each of the M subbands of the current frame based on the residual signal encoding parameters. In this case the residual signal does not need to be coded.

412:残差信号符号化パラメータに基づいて現在のフレームのM個のサブバンドの各々のダウンミックス信号および残差信号を符号化する。 412: Encode the downmix signal and the residual signal for each of the M subbands of the current frame based on the residual signal coding parameters.

ステップ409からステップ411の具体的な実施態様については、方法300の関連説明を参照されたい。簡潔にするために、本明細書では詳細を繰り返さない。 See the related description of method 300 for specific implementations of steps 409 through 411 . For the sake of brevity, the details are not repeated here.

方法300において、符号器側が現在のフレームをP個のサブフレームに分割し、Pが2以上の正の整数であり、P個のサブフレームの各々のスペクトル係数をN個のサブバンドに分割する場合、および残差信号符号化パラメータが、事前設定条件を満たす、各サブフレーム内のM個のサブバンド(M個のサブバンドは少なくともN個のサブバンドの一部である)のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定される場合、したがって、方法300では、現在のフレーム内のインデックス番号がbであるサブバンドの残差信号エネルギーres_cod_NRG_S[b]は、P個すべてのサブフレーム内のインデックス番号がbであるサブバンドの残差信号エネルギーの和であり、現在のフレーム内のインデックス番号がbであるサブバンドのダウンミックス信号エネルギーres_cod_NRG_M[b]は、P個すべてのサブフレーム内のインデックス番号がbであるサブバンドのダウンミックス信号エネルギーの和である、ことに留意されたい。 In method 300 , the encoder side divides the current frame into P subframes, where P is a positive integer greater than or equal to 2, and divides the spectral coefficients of each of the P subframes into N subbands. , and a downmix signal of M subbands (the M subbands are part of at least the N subbands) in each subframe, where the residual signal coding parameter satisfies a preset condition energy and residual signal energy, then in method 300 the residual signal energy res_cod_NRG_S[b] for the subband with index number b in the current frame is is the sum of the residual signal energy of the subband with index number b in the current frame, and the downmix signal energy res_cod_NRG_M[b] of the subband with index number b in the current frame is the sum of all P subframes is the sum of the downmix signal energies of the subband whose index number is b.

例えば、現在のフレームは2つのサブフレームに分割され、2つのサブフレームの各のスペクトル係数はN個のサブバンドに分割される。したがって、方法300では、現在のフレーム内のインデックス番号がbであるサブバンドのダウンミックス信号エネルギーres_cod_NRG_M[b]は、サブフレーム1内のインデックス番号がbであるサブバンドのダウンミックス信号エネルギーとサブフレーム2内のインデックス番号がbであるサブバンドのダウンミックス信号エネルギーの和であり、現在のフレーム内のインデックス番号がbであるサブバンドの残差信号エネルギーres_cod_NRG_S[b]は、サブフレーム1内のインデックス番号がbであるサブバンドの残差信号エネルギーとサブフレーム2内のインデックス番号がbであるサブバンドの残差信号エネルギーの和である。 For example, the current frame is divided into two subframes and the spectral coefficients of each of the two subframes are divided into N subbands. Therefore, in method 300, the downmix signal energy res_cod_NRG_M[b] of the subband with index number b in the current frame is equal to the downmix signal energy of the subband with index number b in subframe 1. The sum of the downmix signal energy of the subband with index number b in frame 2, and the residual signal energy res_cod_NRG_S[b] of the subband with index number b in the current frame is is the sum of the residual signal energy of the subband with index number b in subframe 2 and the residual signal energy of the subband with index number b in subframe 2 .

以上では、図1から図7を用いて本出願の実施形態におけるステレオ信号符号化方法を詳細に説明している。以下では、図8および図9を参照して本出願の実施形態におけるステレオ信号符号化装置を説明する。図8および図9のいずれの装置も本出願の実施形態におけるステレオ信号符号化方法に対応していることを理解されたい。加えて、図8および図9のいずれの装置も、本出願の実施形態におけるステレオ信号符号化方法を行い得る。簡潔にするために、以下では繰り返しの説明を適宜省略する。 The stereo signal encoding method according to the embodiment of the present application has been described in detail above with reference to FIGS. 1 to 7. FIG. The stereo signal encoding device in the embodiment of the present application will be described below with reference to FIGS. 8 and 9. FIG. It should be understood that both the devices in FIGS. 8 and 9 correspond to the stereo signal encoding method in the embodiments of the present application. In addition, any of the devices in Figures 8 and 9 can perform the stereo signal encoding method in the embodiments of the present application. For the sake of brevity, repetitive descriptions are omitted where appropriate.

図8は、本出願の一実施形態によるステレオ信号符号化装置の概略的ブロック図である。図8の装置500は、
ステレオ信号の現在のフレームの残差信号符号化パラメータを、現在のフレームのM個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定するように構成された第1の決定モジュール501であって、現在のフレームの残差信号符号化パラメータが、M個のサブバンドの残差信号を符号化するかどうかを示すために使用され、M個のサブバンドがN個のサブバンドの少なくとも一部であり、Nが1より大きい正の整数であり、M≦N、Mが正の整数である、第1の決定モジュール501と、
現在のフレームの残差信号符号化パラメータに基づいて、現在のフレームのM個のサブバンドの残差信号を符号化するかどうかを決定するように構成された、第2の決定モジュール502と
を含む。
FIG. 8 is a schematic block diagram of a stereo signal encoding device according to one embodiment of the present application. Apparatus 500 of FIG.
A first determination configured to determine a residual signal coding parameter for the current frame of the stereo signal based on the downmix signal energy and the residual signal energy of each of the M subbands of the current frame. A module 501, wherein the residual signal coding parameter of the current frame is used to indicate whether to code the residual signal of M subbands, where M subbands are N subbands. a first determining module 501 that is at least part of a band, where N is a positive integer greater than 1, M≦N, where M is a positive integer;
a second decision module 502, configured to decide whether to code the residual signal of the M subbands of the current frame based on the residual signal coding parameters of the current frame; include.

本出願では、残差信号符号化パラメータは、N個のサブバンド内の、事前設定された帯域幅範囲を満足するM個のサブバンドのダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定され、M個のサブバンドの各々の残差信号を符号化するかどうかは、残差信号符号化パラメータに基づいて決定される。これにより、符号化レートが比較的低い場合にダウンミックス信号のみを符号化することが回避される。あるいは、事前設定された帯域幅範囲を満足するサブバンドのすべての残差信号を符号化するかどうかが、残差信号符号化パラメータに基づいて決定される。したがって、復号されたステレオ信号の空間感覚および音像安定性が改善されると同時に復号されたステレオ信号の高周波歪みを可能な限り低減することができ、それによって符号化品質が改善される。 In this application, the residual signal coding parameters are determined based on the downmix signal energy and the residual signal energy of M subbands within the N subbands that satisfy a preset bandwidth range. , whether to code the residual signal of each of the M subbands is determined based on the residual signal coding parameters. This avoids encoding only the downmix signal when the encoding rate is relatively low. Alternatively, whether to code all residual signals in subbands satisfying a preset bandwidth range is determined based on residual signal coding parameters. Therefore, the spatial sensation and sound image stability of the decoded stereo signal are improved, and at the same time, the high frequency distortion of the decoded stereo signal can be reduced as much as possible, thereby improving the coding quality.

任意選択で、一実施態様では、M個のサブバンドは、サブバンドインデックス番号がN個のサブバンドにおける事前設定された最大サブバンドインデックス番号以下であるM個のサブバンドである。 Optionally, in one implementation, the M subbands are the M subbands whose subband index numbers are less than or equal to a preset maximum subband index number in the N subbands.

任意選択で、一実施態様では、M個のサブバンドは、N個のサブバンド内の、サブバンドインデックス番号が事前設定された最小サブバンドインデックス番号以上、事前設定された最大サブバンドインデックス番号以下であるM個のサブバンドである。 Optionally, in one embodiment, the M subbands have a subband index number greater than or equal to a preset minimum subband index number and less than or equal to a preset maximum subband index number in the N subbands. are M subbands.

任意選択で、一実施態様では、第2の決定モジュール502は、残差信号符号化パラメータを事前設定された第1の閾値と比較し、第1の閾値が0より大きく1.0より小さく、残差信号符号化パラメータが第1の閾値以下である場合、M個のサブバンドの各々の残差信号を符号化しないと決定するか、または残差信号符号化パラメータが第1の閾値より大きい場合、M個のサブバンドの各々の残差信号を符号化すると決定する、ようにさらに構成される。 Optionally, in one implementation, the second determining module 502 compares the residual signal coding parameter to a preset first threshold, if the first threshold is greater than 0 and less than 1.0, determining not to encode the residual signal for each of the M subbands if the residual signal coding parameter is less than or equal to the first threshold, or the residual signal coding parameter is greater than the first threshold; If so, determine to encode the residual signal of each of the M subbands.

任意選択で、一実施態様では、第1の決定モジュール501は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて残差信号符号化パラメータを決定するようにさらに構成される。 Optionally, in one implementation, the first determining module 501 determines the residual signal coding parameters based on the downmix signal energy, the residual signal energy and the side gains for each of the M subbands. is further configured as

任意選択で、一実施態様では、第1の決定モジュール501は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて第1のパラメータを決定し、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示し、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第2のパラメータを決定し、第2のパラメータが第1のエネルギー和と第2のエネルギー和との間の値関係を示し、第1のエネルギー和がM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、第2のエネルギー和が、現在のフレームの前のフレームの周波数領域信号におけるM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、現在のフレームのM個のサブバンドが前のフレームのM個のサブバンドと同じサブバンドインデックス番号を有し、第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて残差信号符号化パラメータを決定するようにさらに構成される。 Optionally, in one implementation, the first determining module 501 determines the first parameter based on the downmix signal energy, the residual signal energy and the side gain for each of the M subbands; A parameter of 1 indicates a value relationship between the downmix signal energy and the residual signal energy of each of the M subbands, based on the downmix signal energy and the residual signal energy of each of the M subbands. to determine a second parameter, the second parameter indicating a value relationship between the first energy sum and the second energy sum, the first energy sum being the residual signal energy of the M subbands and the downmix signal energy, the second energy sum is the sum of the residual signal energy and the downmix signal energy of the M subbands in the frequency domain signal of the previous frame of the current frame, and the current where the M subbands of the frame have the same subband index numbers as the M subbands of the previous frame, and the long-term smoothing of the first parameter, the second parameter, and the frame before the current frame It is further configured to determine residual signal coding parameters based on the parameters.

任意選択で、一実施態様では、第1の決定モジュール501は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいてM個のエネルギーパラメータを決定し、M個のエネルギーパラメータが、それぞれ、M個のサブバンドのうちの1つのダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応し、M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを第1のパラメータとして決定するようにさらに構成される。 Optionally, in one implementation, the first determining module 501 determines M energy parameters based on downmix signal energy, residual signal energy, and side gain for each of the M subbands; The M energy parameters each indicate a value relationship between the downmix signal energy and the residual signal energy for one of the M subbands, and the M energy parameters correspond to the M subbands. It is further configured to determine the energy parameter having the largest value among the M energy parameters with a one-to-one correspondence as the first parameter.

任意選択で、一実施態様では、第1の決定モジュール501によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータが以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/(res_cod_NRG_S[b]+(1-g(b))・(1-g(b))・res_cod_NRG_M[b]+1)
式中、res_dmx_ratio[b]は、サブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表し、g(b)は、サブバンドインデックス番号がbであるサブバンドのサイドゲインside_gain[b]の関数を表す。
Optionally, in one embodiment, the energy parameter of the subband with subband index number b among the M energy parameters determined by the first determination module 501 satisfies the following equation:
res_dmx_ratio[b] = res_cod_NRG_S[b]/(res_cod_NRG_S[b] + (1-g(b)) (1-g(b)) res_cod_NRG_M[b]+1)
where res_dmx_ratio[b] represents the energy parameter of the subband whose subband index number is b, b is greater than or equal to 0 and less than or equal to the preset maximum subband index number, res_cod_NRG_S[b] represents the residual signal energy of the subband with subband index number b, res_cod_NRG_M[b] represents the downmix signal energy of the subband with subband index number b, and g(b) is 4 represents a function of the side gain side_gain[b] of the subband whose subband index number is b.

任意選択で、一実施態様では、第1の決定モジュール501は、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第1のパラメータを決定し、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示し、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第2のパラメータを決定し、第2のパラメータが第1のエネルギー和と第2のエネルギー和との間の値関係を示し、第1のエネルギー和がM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、第2のエネルギー和が、現在のフレームの前のフレームの周波数領域信号におけるM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、現在のフレームのM個のサブバンドが前のフレームのM個のサブバンドと同じサブバンドインデックス番号を有し、第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて残差信号符号化パラメータを決定するようにさらに構成される。 Optionally, in one implementation, the first determining module 501 determines the first parameter based on the downmix signal energy and the residual signal energy for each of the M subbands, the first parameter being , a value relationship between the downmix signal energy and the residual signal energy for each of the M subbands, and based on the downmix signal energy and the residual signal energy for each of the M subbands, a second determining a parameter, the second parameter indicating a value relationship between the first energy sum and the second energy sum, the first energy sum being the residual signal energy of the M subbands and the downmix signal; is the sum of the energies of the current frame, and the second energy sum is the sum of the residual signal energies and the downmix signal energies of the M subbands in the frequency-domain signal of the previous frame of the current frame, and the M subbands have the same subband index numbers as the M subbands of the previous frame, based on the first parameter, the second parameter, and the long-term smoothing parameter of the frame before the current frame It is further configured to determine residual signal coding parameters.

任意選択で、一実施態様では、第1の決定モジュール501は、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいてM個のエネルギーパラメータを決定し、M個のエネルギーパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応し、M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを第1のパラメータとして決定するようにさらに構成される。 Optionally, in one implementation, the first determining module 501 determines M energy parameters based on the downmix signal energy and the residual signal energy for each of the M subbands, and determines the M energy The parameters each indicate a value relationship between the downmix signal energy and the residual signal energy of each of the M subbands, the M energy parameters correspond one-to-one with the M subbands, and M It is further configured to determine the energy parameter having the maximum value of the energy parameters as the first parameter.

任意選択で、一実施態様では、第1の決定モジュール501によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータが以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b]
式中、res_dmx_ratio[b]は、サブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表す。
Optionally, in one embodiment, the energy parameter of the subband with subband index number b among the M energy parameters determined by the first determination module 501 satisfies the following equation:
res_dmx_ratio[b] = res_cod_NRG_S[b]/res_cod_NRG_M[b]
where res_dmx_ratio[b] represents the energy parameter of the subband whose subband index number is b, b is greater than or equal to 0 and less than or equal to the preset maximum subband index number, res_cod_NRG_S[b] res_cod_NRG_M[b] represents the residual signal energy of the subband with subband index number b, and res_cod_NRG_M[b] represents the downmix signal energy of the subband with subband index number b.

任意選択で、一実施態様では、第1の決定モジュール501は、M個のエネルギーパラメータの和を(補正されるべき)第1のパラメータres_dmx_ratio1として決定し、res_dmx_ratio1を、M個のエネルギーパラメータのうちの最大値res_dmx_ratio_maxおよびM個のサブバンドの各々のダウンミックス信号エネルギーres_cod_NRG_M[b]に基づいて補正し、補正によって得られたres_dmx_ratio2を決定するようにさらに構成される。 Optionally, in one implementation, the first determination module 501 determines the sum of the M energy parameters as the first parameter res_dmx_ratio 1 (to be corrected), res_dmx_ratio 1 being the sum of the M energy parameters of which res_dmx_ratio_max and the downmix signal energy res_cod_NRG_M[b] of each of the M sub-bands, and determining res_dmx_ratio 2 obtained by the correction.

例えば、符号器側はres_dmx_ratio1を以下の式に従って補正し、式中、M=5であり、
補正によって得られたres_dmx_ratio2は以下の式を満たす。

Figure 2022163058000059
For example, the encoder side corrects res_dmx_ratio 1 according to the following formula, where M=5,
res_dmx_ratio 2 obtained by correction satisfies the following equation.
Figure 2022163058000059

任意選択で、一実施態様では、補正によって得られたres_dmx_ratio2がさらに補正され得る。 Optionally, in one implementation, the res_dmx_ratio 2 obtained by correction may be further corrected.

例えば、補正によって最終的に得られたres_dmx_ratio3は以下の式を満たし、
res_dmx_ratio3=pow(res_dmx_ratio2,1.2)
式中、pow()関数は、指数関数を表し、pow(res_dmx_ratio2,1.2)は、res_dmx_ratio2の1.2乗を表す。
For example, res_dmx_ratio 3 finally obtained by correction satisfies the following formula,
res_dmx_ratio3 = pow( res_dmx_ratio2 , 1.2)
In the formula, the pow() function represents an exponential function, and pow( res_dmx_ratio2 , 1.2 ) represents res_dmx_ratio2 raised to the power of 1.2.

任意選択で、一実施態様では、第1の決定モジュール501は、第1のパラメータを、M個のサブバンドの残差信号エネルギーの和およびM個のサブバンドのダウンミックス信号エネルギーの和に基づいて決定するようにさらに構成される。 Optionally, in one implementation, the first determining module 501 bases the first parameter on the sum of the residual signal energies of the M subbands and the sum of the downmix signal energies of the M subbands. further configured to determine the

具体的には、符号器側は、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currとM個のサブバンドの残差信号エネルギーの和res_nrg_all_currとを別々に決定し、dmx_nrg_all_currおよびres_nrg_all_currに基づいて第1のパラメータを決定する。 Specifically, the encoder side separately determines the sum dmx_nrg_all_curr of the downmix signal energies of the M subbands and the sum res_nrg_all_curr of the residual signal energies of the M subbands, and based on dmx_nrg_all_curr and res_nrg_all_curr Determine the first parameter.

任意選択で、一実施態様では、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currは以下の式を満たし、

Figure 2022163058000060
式中、res_cod_NRG_M_prev[b]は、現在のフレームの前のフレームにおけるサブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表し、γ1は、平滑化係数を表し、γ1は、0以上1以下の実数であり、例えば、γ1=0.1である。 Optionally, in one implementation, the sum dmx_nrg_all_curr of the downmix signal energies of the M subbands satisfies the following equation:
Figure 2022163058000060
where res_cod_NRG_M_prev [b] represents the downmix signal energy of the subband with subband index number b in the frame previous to the current frame, γ1 represents the smoothing factor, and γ1 is 0 It is a real number greater than or equal to 1 and less than or equal to 1, for example, γ 1 =0.1.

任意選択で、一実施態様では、M個のサブバンドの残差信号エネルギーの和res_nrg_all_currは以下の式を満たし、

Figure 2022163058000061
式中、res_cod_NRG_S_prev[b]は、現在のフレームの前のフレームにおけるサブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、γ2は、平滑化係数を表し、γ2は、0以上1以下の実数であり、例えば、γ2=0.1である。 Optionally, in one implementation, the sum res_nrg_all_curr of the residual signal energies of the M subbands satisfies the following equation:
Figure 2022163058000061
where res_cod_NRG_S_prev[ b ] represents the residual signal energy of the subband with subband index number b in the frame previous to the current frame, γ2 represents the smoothing factor, and γ2 is 0 It is a real number greater than or equal to 1 and less than or equal to 1. For example, γ 2 =0.1.

符号器側は、dmx_nrg_all_currおよびres_nrg_all_currに基づいて第1のパラメータres_dmx_ratioを決定する。 The encoder side determines the first parameter res_dmx_ratio based on dmx_nrg_all_curr and res_nrg_all_curr.

例えば、符号器側によって最終的に決定された第1のパラメータres_dmx_ratioは以下の式を満たす。
res_dmx_ratio=res_nrg_all_curr/dmx_nrg_all_curr
For example, the first parameter res_dmx_ratio finally determined by the encoder side satisfies the following equation.
res_dmx_ratio = res_nrg_all_curr/dmx_nrg_all_curr

任意選択で、一実施態様では、第1の決定モジュール501によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータが以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b]
式中、res_dmx_ratio[b]は、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表す。
Optionally, in one embodiment, the energy parameter of the subband with subband index number b among the M energy parameters determined by the first determination module 501 satisfies the following equation:
res_dmx_ratio[b] = res_cod_NRG_S[b]/res_cod_NRG_M[b]
where res_dmx_ratio[b] represents the energy parameter of the subband whose subband index number is b among the M energy parameters, b is greater than or equal to 0, and is the preset maximum subband index number. where res_cod_NRG_S[b] represents the residual signal energy of the subband with subband index number b, and res_cod_NRG_M[b] represents the downmix signal energy of the subband with subband index number b. show.

任意選択で、一実施形態では、現在のフレームの、第1の決定モジュール501によって決定された残差信号符号化パラメータは、現在のフレームの長期平滑化パラメータであり、現在のフレームの長期平滑化パラメータは以下の式を満たし、
res_dmx_ratio_lt=res_dmx_ratio・α+res_dmx_ratio_lt_prev・(1-α)
式中、res_dmx_ratio_ltは、現在のフレームの長期平滑化パラメータを表し、res_dmx_ratioは、第1のパラメータを表し、res_dmx_ratio_lt_prevは、現在のフレームの前のフレームの長期平滑化パラメータを表し、0<α<1であり、
第2のパラメータが事前設定された第3の閾値より大きい場合、第1のパラメータが事前設定された第2の閾値より小さい場合のαの値は、第1のパラメータが事前設定された第2の閾値以上の場合のαの値より大きく、第2の閾値は0以上0.6以下であり、第3の閾値は2.7以上3.7以下であるか、または
第2のパラメータが事前設定された第5の閾値より大きい場合、第1のパラメータが事前設定された第4の閾値より大きい場合のαの値は、第1のパラメータが事前設定された第4の閾値以下の場合のαの値より大きく、第4の閾値は0以上0.9以下であり、第5の閾値は0以上0.71以下であるか、または
第1のパラメータが事前設定された第2の閾値より小さく、第2のパラメータが事前設定された第3の閾値より大きい場合のαの値は、第2のパラメータが事前設定された第5の閾値以上であり、事前設定された第3の閾値以下である場合のαの値より大きく、第2の閾値は0以上0.6以下であり、第3の閾値は2.7以上3.7以下であり、第5の閾値は0以上0.71以下である。
Optionally, in one embodiment, the residual signal coding parameter of the current frame determined by the first determination module 501 is the long-term smoothing parameter of the current frame, and the long-term smoothing parameter of the current frame is The parameters satisfy the following formula,
res_dmx_ratio_lt = res_dmx_ratio · α + res_dmx_ratio_lt_prev · (1 - α)
where res_dmx_ratio_lt represents the long-term smoothing parameter of the current frame, res_dmx_ratio represents the first parameter, res_dmx_ratio_lt_prev represents the long-term smoothing parameter of the frame before the current frame, 0<α<1 and
If the second parameter is greater than the preset third threshold, the value of α if the first parameter is less than the preset second threshold is the same as the preset second is greater than the value of α for greater than or equal to the threshold of , the second threshold is between 0 and 0.6 inclusive, the third threshold is between 2.7 and 3.7 inclusive, or the second parameter is prior to The value of α when the first parameter is greater than the preset fourth threshold, if greater than the preset fifth threshold is is greater than the value of α, the fourth threshold is between 0 and 0.9, the fifth threshold is between 0 and 0.71, or the first parameter is preset above the second threshold The value of α is small and the second parameter is greater than the preset third threshold, the second parameter is greater than or equal to the preset fifth threshold and is less than or equal to the preset third threshold , the second threshold is 0 or more and 0.6 or less, the third threshold is 2.7 or more and 3.7 or less, and the fifth threshold is 0 or more and 0.71 It is below.

任意選択で、一実施形態では、第2の決定モジュール502は、M個のサブバンドの残差信号を符号化すると決定されるときに、M個のサブバンドのダウンミックス信号および残差信号を符号化するか、またはM個のサブバンドの残差信号を符号化しないと決定されるときに、M個のサブバンドのダウンミックス信号を符号化するようにさらに構成される。 Optionally, in one embodiment, the second determining module 502, when it is determined to encode the M subband residual signals, encodes the M subband downmix signals and the residual signals. It is further configured to encode the downmix signal of the M subbands when it is determined to encode or not to encode the residual signal of the M subbands.

図9は、本出願の一実施形態によるステレオ信号符号化装置の概略的ブロック図である。図9の装置600は、
プログラムを格納するように構成された、メモリ601と、
メモリ601に格納されたプログラムを実行するように構成されたプロセッサ602であって、メモリ内のプログラムが実行されると、プロセッサ602が、ステレオ信号の現在のフレームの残差信号符号化パラメータを、現在のフレームのM個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定し、現在のフレームの残差信号符号化パラメータが、M個のサブバンドの残差信号を符号化するかどうかを示すために使用され、M個のサブバンドがN個のサブバンドの少なくとも一部であり、Nが1より大きい正の整数であり、M≦N、Nが正の整数であり、残差信号符号化パラメータに基づいて、現在のフレームのM個のサブバンドの残差信号を符号化するかどうかを決定する、ように特に構成される、プロセッサ602と
を含む。
FIG. 9 is a schematic block diagram of a stereo signal encoding device according to one embodiment of the present application. Apparatus 600 of FIG.
a memory 601 configured to store a program;
A processor 602 configured to execute a program stored in a memory 601, wherein when the program in the memory is executed, the processor 602 converts residual signal coding parameters of a current frame of a stereo signal into: determined based on the downmix signal energy and the residual signal energy of each of the M subbands of the current frame, wherein the residual signal coding parameters of the current frame encode the residual signals of the M subbands is used to indicate whether the M subbands are at least a portion of the N subbands, N is a positive integer greater than 1, M ≤ N, where N is a positive integer A processor 602, specifically configured to determine whether to encode the residual signal of the M subbands of the current frame based on the residual signal coding parameters.

任意選択で、一実施態様では、M個のサブバンドは、サブバンドインデックス番号がN個のサブバンドにおける事前設定された最大サブバンドインデックス番号以下であるM個のサブバンドである。 Optionally, in one implementation, the M subbands are the M subbands whose subband index numbers are less than or equal to a preset maximum subband index number in the N subbands.

任意選択で、一実施態様では、M個のサブバンドは、N個のサブバンド内の、サブバンドインデックス番号が事前設定された最小サブバンドインデックス番号以上、事前設定された最大サブバンドインデックス番号以下であるM個のサブバンドである。 Optionally, in one embodiment, the M subbands have a subband index number greater than or equal to a preset minimum subband index number and less than or equal to a preset maximum subband index number in the N subbands. are M subbands.

任意選択の一実施態様では、プロセッサ602は、残差信号符号化パラメータを事前設定された第1の閾値と比較し、第1の閾値が0より大きく1.0より小さく、残差信号符号化パラメータが第1の閾値以下である場合、M個のサブバンドの各々の残差信号を符号化しないと決定するか、または残差信号符号化パラメータが第1の閾値より大きい場合、M個のサブバンドの各々の残差信号を符号化すると決定する、ようにさらに構成される。 In one optional implementation, the processor 602 compares the residual signal coding parameter to a preset first threshold, and if the first threshold is greater than 0 and less than 1.0, the residual signal coding If the parameter is less than or equal to the first threshold, determine not to code the residual signal for each of the M subbands; or if the residual signal coding parameter is greater than the first threshold, M It is further configured to determine to encode the residual signal of each of the subbands.

任意選択の一実施態様では、プロセッサ602は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて残差信号符号化パラメータを決定するようにさらに構成される。 In an optional implementation, the processor 602 is further configured to determine residual signal coding parameters based on downmix signal energy, residual signal energy, and side gains for each of the M subbands. be.

任意選択の一実施態様では、プロセッサ602は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいて第1のパラメータを決定し、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示し、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第2のパラメータを決定し、第2のパラメータが第1のエネルギー和と第2のエネルギー和との間の値関係を示し、第1のエネルギー和がM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、第2のエネルギー和が、現在のフレームの前のフレームの周波数領域信号におけるM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、現在のフレームのM個のサブバンドが前のフレームのM個のサブバンドと同じサブバンドインデックス番号を有し、第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて残差信号符号化パラメータを決定するようにさらに構成される。 In one optional implementation, processor 602 determines a first parameter based on the downmix signal energy, residual signal energy, and side gain for each of the M subbands, the first parameter being: indicating a value relationship between the downmix signal energy and the residual signal energy for each of the M subbands, a second parameter based on the downmix signal energy and the residual signal energy for each of the M subbands; , where the second parameter indicates a value relationship between the first energy sum and the second energy sum, and the first energy sum is the residual signal energy and the downmix signal energy of the M subbands and the second energy sum is the sum of the residual signal energies and the downmix signal energies of M subbands in the frequency domain signal of the previous frame of the current frame, and the M has the same subband index number as the M subbands of the previous frame, and the residual is calculated based on the first parameter, the second parameter, and the long-term smoothing parameter of the frame before the current frame. It is further configured to determine difference signal encoding parameters.

任意選択の一実施態様では、プロセッサ602は、M個のサブバンドの各々のダウンミックス信号エネルギー、残差信号エネルギー、およびサイドゲインに基づいてM個のエネルギーパラメータを決定し、M個のエネルギーパラメータが、それぞれ、M個のサブバンドのうちの1つのダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応し、M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを第1のパラメータとして決定するようにさらに構成される。 In one optional implementation, the processor 602 determines M energy parameters based on the downmix signal energy, the residual signal energy, and the side gains for each of the M subbands; respectively denote the value relationship between the downmix signal energy of one of the M subbands and the residual signal energy, and the M energy parameters correspond one-to-one with the M subbands and determining the energy parameter having the maximum value among the M energy parameters as the first parameter.

任意選択で、一実施態様では、プロセッサ602によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータが以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/(res_cod_NRG_S[b]+(1-g(b))・(1-g(b))・res_cod_NRG_M[b]+1)
式中、res_dmx_ratio[b]は、サブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表し、g(b)は、サブバンドインデックス番号がbであるサブバンドのサイドゲインside_gain[b]の関数を表す。
Optionally, in one embodiment, the energy parameter of the subband with subband index number b among the M energy parameters determined by processor 602 satisfies the following equation:
res_dmx_ratio[b] = res_cod_NRG_S[b]/(res_cod_NRG_S[b] + (1-g(b)) (1-g(b)) res_cod_NRG_M[b]+1)
where res_dmx_ratio[b] represents the energy parameter of the subband whose subband index number is b, b is greater than or equal to 0 and less than or equal to the preset maximum subband index number, res_cod_NRG_S[b] represents the residual signal energy of the subband with subband index number b, res_cod_NRG_M[b] represents the downmix signal energy of the subband with subband index number b, and g(b) is 4 represents a function of the side gain side_gain[b] of the subband whose subband index number is b.

任意選択の一実施態様では、プロセッサ602は、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第1のパラメータを決定し、第1のパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を示し、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて第2のパラメータを決定し、第2のパラメータが第1のエネルギー和と第2のエネルギー和との間の値関係を示し、第1のエネルギー和がM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、第2のエネルギー和が、現在のフレームの前のフレームの周波数領域信号におけるM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、現在のフレームのM個のサブバンドが前のフレームのM個のサブバンドと同じサブバンドインデックス番号を有し、第1のパラメータ、第2のパラメータ、および現在のフレームの前のフレームの長期平滑化パラメータに基づいて残差信号符号化パラメータを決定するようにさらに構成される。 In one optional implementation, the processor 602 determines the first parameter based on the downmix signal energy and the residual signal energy for each of the M subbands, the first parameter being the indicating a value relationship between the downmix signal energy and the residual signal energy for each of the bands, determining a second parameter based on the downmix signal energy and the residual signal energy for each of the M subbands; A second parameter indicates a value relationship between the first energy sum and the second energy sum, the first energy sum being the sum of the residual signal energy and the downmix signal energy of the M subbands. , the second energy sum is the sum of the residual signal energy and the downmix signal energy of the M subbands in the frequency domain signal of the previous frame of the current frame, and the M subbands of the current frame are Residual signal encoding based on the first parameter, the second parameter, and the long-term smoothing parameter of the frame before the current frame, with the same subband index number as the M subbands of the previous frame It is further configured to determine parameters.

任意選択の一実施態様では、プロセッサ602は、M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいてM個のエネルギーパラメータを決定し、M個のエネルギーパラメータが、M個のサブバンドの各々のダウンミックス信号エネルギーと残差信号エネルギーとの間の値関係を各々示し、M個のエネルギーパラメータがM個のサブバンドと1対1で対応し、M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを第1のパラメータとして決定するようにさらに構成される。 In one optional implementation, the processor 602 determines M energy parameters based on the downmix signal energy and the residual signal energy for each of the M subbands, the M energy parameters being equal to the M and the residual signal energy of each of the subbands of the M energy parameters corresponding one-to-one with the M subbands, and the M energy parameters of It is further configured to determine the energy parameter having the maximum value thereof as the first parameter.

任意選択で、一実施態様では、プロセッサ602によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータが以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b]
式中、res_dmx_ratio[b]は、サブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表す。
Optionally, in one embodiment, the energy parameter of the subband with subband index number b among the M energy parameters determined by processor 602 satisfies the following equation:
res_dmx_ratio[b] = res_cod_NRG_S[b]/res_cod_NRG_M[b]
where res_dmx_ratio[b] represents the energy parameter of the subband whose subband index number is b, b is greater than or equal to 0 and less than or equal to the preset maximum subband index number, res_cod_NRG_S[b] res_cod_NRG_M[b] represents the residual signal energy of the subband with subband index number b, and res_cod_NRG_M[b] represents the downmix signal energy of the subband with subband index number b.

任意選択の一実施態様では、プロセッサ602は、M個のエネルギーパラメータの和を(補正されるべき)第1のパラメータres_dmx_ratio1として決定し、res_dmx_ratio1を、M個のエネルギーパラメータのうちの最大値res_dmx_ratio_maxおよびM個のサブバンドの各々のダウンミックス信号エネルギーres_cod_NRG_M[b]に基づいて補正し、補正によって得られたres_dmx_ratio2を決定するようにさらに構成される。 In one optional implementation, the processor 602 determines the sum of the M energy parameters as the first parameter res_dmx_ratio 1 (to be corrected), where res_dmx_ratio 1 is the maximum value of the M energy parameters. It is further configured to correct based on the res_dmx_ratio_max and the downmix signal energy res_cod_NRG_M[b] of each of the M subbands and determine a res_dmx_ratio 2 obtained by the correction.

例えば、符号器側はres_dmx_ratio1を以下の式に従って補正し、式中、M=5であり、
補正によって得られたres_dmx_ratio2は以下の式を満たす。

Figure 2022163058000062
For example, the encoder side corrects res_dmx_ratio 1 according to the following formula, where M=5,
res_dmx_ratio 2 obtained by correction satisfies the following equation.
Figure 2022163058000062

任意選択で、一実施態様では、補正によって得られたres_dmx_ratio2がさらに補正され得る。 Optionally, in one implementation, the res_dmx_ratio 2 obtained by correction may be further corrected.

例えば、補正によって最終的に得られたres_dmx_ratio3は以下の式を満たし、
res_dmx_ratio3=pow(res_dmx_ratio2,1.2)
式中、pow()関数は、指数関数を表し、pow(res_dmx_ratio2,1.2)は、res_dmx_ratio2の1.2乗を表す。
For example, res_dmx_ratio 3 finally obtained by correction satisfies the following formula,
res_dmx_ratio3 = pow( res_dmx_ratio2 , 1.2)
In the formula, the pow() function represents an exponential function, and pow( res_dmx_ratio2 , 1.2 ) represents res_dmx_ratio2 raised to the power of 1.2.

任意選択で、一実施態様では、プロセッサ602は、第1のパラメータを、M個のサブバンドの残差信号エネルギーの和およびM個のサブバンドのダウンミックス信号エネルギーの和に基づいて決定するようにさらに構成される。 Optionally, in one implementation, the processor 602 determines the first parameter based on the sum of the residual signal energies of the M subbands and the sum of the downmix signal energies of the M subbands. further configured to

具体的には、符号器側は、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currとM個のサブバンドの残差信号エネルギーの和res_nrg_all_currとを別々に決定し、dmx_nrg_all_currおよびres_nrg_all_currに基づいて第1のパラメータを決定する。 Specifically, the encoder side separately determines the sum dmx_nrg_all_curr of the downmix signal energies of the M subbands and the sum res_nrg_all_curr of the residual signal energies of the M subbands, and based on dmx_nrg_all_curr and res_nrg_all_curr Determine the first parameter.

任意選択で、一実施態様では、M個のサブバンドのダウンミックス信号エネルギーの和dmx_nrg_all_currは以下の式を満たし、

Figure 2022163058000063
式中、res_cod_NRG_M_prev[b]は、現在のフレームの前のフレームにおけるサブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表し、γ1は、平滑化係数を表し、γ1は、0以上1以下の実数であり、例えば、γ1=0.1である。 Optionally, in one implementation, the sum dmx_nrg_all_curr of the downmix signal energies of the M subbands satisfies the following equation:
Figure 2022163058000063
where res_cod_NRG_M_prev [b] represents the downmix signal energy of the subband with subband index number b in the frame previous to the current frame, γ1 represents the smoothing factor, and γ1 is 0 It is a real number greater than or equal to 1 and less than or equal to 1, for example, γ 1 =0.1.

任意選択で、一実施態様では、M個のサブバンドの残差信号エネルギーの和res_nrg_all_currは以下の式を満たし、

Figure 2022163058000064
式中、res_cod_NRG_S_prev[b]は、現在のフレームの前のフレームにおけるサブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、γ2は、平滑化係数を表し、γ2は、0以上1以下の実数であり、例えば、γ2=0.1である。 Optionally, in one implementation, the sum res_nrg_all_curr of the residual signal energies of the M subbands satisfies the following equation:
Figure 2022163058000064
where res_cod_NRG_S_prev[ b ] represents the residual signal energy of the subband with subband index number b in the frame previous to the current frame, γ2 represents the smoothing factor, and γ2 is 0 It is a real number greater than or equal to 1 and less than or equal to 1. For example, γ 2 =0.1.

符号器側は、dmx_nrg_all_currおよびres_nrg_all_currに基づいて第1のパラメータres_dmx_ratioを決定する。 The encoder side determines the first parameter res_dmx_ratio based on dmx_nrg_all_curr and res_nrg_all_curr.

例えば、符号器側によって最終的に決定された第1のパラメータres_dmx_ratioは以下の式を満たす。
res_dmx_ratio=res_nrg_all_curr/dmx_nrg_all_curr
For example, the first parameter res_dmx_ratio finally determined by the encoder side satisfies the following equation.
res_dmx_ratio = res_nrg_all_curr/dmx_nrg_all_curr

任意選択で、一実施態様では、プロセッサ602によって決定されたM個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータが以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b]
式中、res_dmx_ratio[b]は、M個のエネルギーパラメータのうちのサブバンドインデックス番号がbであるサブバンドのエネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbであるサブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbであるサブバンドのダウンミックス信号エネルギーを表す。
Optionally, in one embodiment, the energy parameter of the subband with subband index number b among the M energy parameters determined by processor 602 satisfies the following equation:
res_dmx_ratio[b] = res_cod_NRG_S[b]/res_cod_NRG_M[b]
where res_dmx_ratio[b] represents the energy parameter of the subband whose subband index number is b among the M energy parameters, b is greater than or equal to 0, and is the preset maximum subband index number. where res_cod_NRG_S[b] represents the residual signal energy of the subband with subband index number b, and res_cod_NRG_M[b] represents the downmix signal energy of the subband with subband index number b. show.

任意選択で、一実施態様では、第1のパラメータが事前設定された第2の閾値より小さく、第2のパラメータが事前設定された第3の閾値より大きい場合、現在のフレームの、プロセッサ602によって決定される残差信号符号化パラメータは現在のフレームの長期平滑化パラメータであり、現在のフレームの長期平滑化パラメータは以下の式を満たし、
res_dmx_ratio_lt=res_dmx_ratio・α+res_dmx_ratio_lt_prev・(1-α)
式中、res_dmx_ratio_ltは、現在のフレームの長期平滑化パラメータを表し、res_dmx_ratioは、第1のパラメータを表し、res_dmx_ratio_lt_prevは、現在のフレームの前のフレームの長期平滑化パラメータを表し、0<α<1であり、
第2のパラメータが事前設定された第3の閾値より大きい場合、第1のパラメータが事前設定された第2の閾値より小さい場合のαの値は、第1のパラメータが事前設定された第2の閾値以上の場合のαの値より大きく、第2の閾値は0以上0.6以下であり、第3の閾値は2.7以上3.7以下であるか、または
第2のパラメータが事前設定された第5の閾値より大きい場合、第1のパラメータが事前設定された第4の閾値より大きい場合のαの値は、第1のパラメータが事前設定された第4の閾値以下の場合のαの値より大きく、第4の閾値は0以上0.9以下であり、第5の閾値は0以上0.71以下であるか、または
第1のパラメータが事前設定された第2の閾値より小さく、第2のパラメータが事前設定された第3の閾値より大きい場合のαの値は、第2のパラメータが事前設定された第5の閾値以上であり、事前設定された第3の閾値以下である場合のαの値より大きく、第2の閾値は0以上0.6以下であり、第3の閾値は2.7以上3.7以下であり、第5の閾値は0以上0.71以下である。
Optionally, in one implementation , if the first parameter is less than a preset second threshold and the second parameter is greater than a preset third threshold, the processor 602 The residual signal coding parameter determined by is the long-term smoothing parameter of the current frame, and the long-term smoothing parameter of the current frame satisfies the following equation,
res_dmx_ratio_lt = res_dmx_ratio · α + res_dmx_ratio_lt_prev · (1 - α)
where res_dmx_ratio_lt represents the long-term smoothing parameter of the current frame, res_dmx_ratio represents the first parameter, res_dmx_ratio_lt_prev represents the long-term smoothing parameter of the frame before the current frame, 0<α<1 and
If the second parameter is greater than the preset third threshold, the value of α if the first parameter is less than the preset second threshold is the same as the preset second is greater than the value of α for greater than or equal to the threshold of , the second threshold is between 0 and 0.6 inclusive, the third threshold is between 2.7 and 3.7 inclusive, or the second parameter is prior to The value of α when the first parameter is greater than the preset fourth threshold, if greater than the preset fifth threshold is is greater than the value of α, the fourth threshold is between 0 and 0.9, the fifth threshold is between 0 and 0.71, or the first parameter is preset above the second threshold The value of α is small and the second parameter is greater than the preset third threshold, the second parameter is greater than or equal to the preset fifth threshold and is less than or equal to the preset third threshold , the second threshold is 0 or more and 0.6 or less, the third threshold is 2.7 or more and 3.7 or less, and the fifth threshold is 0 or more and 0.71 It is below.

任意選択で、一実施形態では、プロセッサ602は、M個のサブバンドの残差信号を符号化すると決定されるときに、M個のサブバンドのダウンミックス信号および残差信号を符号化するか、またはM個のサブバンドの残差信号を符号化しないと決定されるときに、M個のサブバンドのダウンミックス信号を符号化するようにさらに構成される。 Optionally, in one embodiment, the processor 602 encodes the M subband downmix and residual signals when it is determined to encode the M subband residual signals. , or is further configured to encode the downmix signal of the M subbands when it is determined not to encode the residual signal of the M subbands.

本出願はチップをさらに提供する。本チップは、プロセッサと通信インターフェースとを含む。通信インターフェースは、外部デバイスと通信するように構成され、プロセッサは、本出願の実施形態におけるステレオ信号符号化方法を行うように構成される。 The present application further provides chips. The chip includes a processor and communication interface. The communication interface is configured to communicate with an external device, and the processor is configured to perform the stereo signal encoding method in the embodiments of the present application.

任意選択で、一実施態様では、本チップはメモリをさらに含み得る。メモリは、命令を格納し、プロセッサは、メモリに格納された命令を実行するように構成される。命令が実行されると、プロセッサは、本出願の実施形態におけるステレオ信号符号化方法を行うように構成される。 Optionally, in one implementation, the chip may further include memory. The memory stores instructions and the processor is configured to execute the instructions stored in the memory. When the instructions are executed, the processor is configured to perform the stereo signal encoding method in the embodiments of the present application.

任意選択で、一実施態様では、本チップは、端末機器またはネットワーク機器に組み込まれる。 Optionally, in one embodiment, the chip is incorporated into terminal equipment or network equipment.

本出願は、コンピュータ可読記憶媒体を提供する。本コンピュータ可読記憶媒体は、デバイスによって実行されるべきプログラムコードを格納する。プログラムコードは、本出願の実施形態におけるステレオ信号符号化方法を行うための命令を含む。 The present application provides a computer-readable storage medium. The computer-readable storage medium stores program code to be executed by the device. The program code includes instructions for performing the stereo signal encoding method in the embodiments of the present application.

本発明の実施形態で言及されたプロセッサは、中央処理装置(Central Processing Unit、CPU)であってもよく、または他の汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Processor、DSP)、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA)もしくは他のプログラマブルロジックデバイス、ディスクリートゲートもしくはトランジスタ論理デバイス、ディスクリートハードウェアコンポーネントなどであってもよいことを理解されたい。汎用プロセッサはマイクロプロセッサであってもよく、またはプロセッサは任意の従来のプロセッサなどであってもよい。 The processors referred to in the embodiments of the present invention may be Central Processing Units (CPUs), or other general purpose processors, Digital Signal Processors (DSPs), application specific integrated circuits. (Application Specific Integrated Circuit, ASIC), Field Programmable Gate Array (FPGA) or other programmable logic device, discrete gate or transistor logic device, discrete hardware component, etc. . A general-purpose processor may be a microprocessor, or the processor may be any conventional processor, and so on.

本発明の実施形態で言及されたメモリは、揮発性メモリまたは不揮発性メモリであってもよく、揮発性メモリおよび不揮発性メモリを含んでいてもよいことが理解されよう。不揮発性メモリは、読取り専用メモリ(Read-Only Memory、ROM)、プログラマブル読取り専用メモリ(Programmable ROM、PROM)、消去プログラマブル読取り専用メモリ(Erasable PROM、EPROM)、電気的消去可能 ログラマブル読取り専用メモリ(Electrically EPROM、EEPROM)、またはフラッシュメモリであり得る。揮発性メモリは、外部キャッシュとして使用されるランダムアクセスメモリ(Random Access Memory、RAM)であり得る。限定ではなく例として挙げると、多くの形態のRAM、例えば、スタティックランダムアクセスメモリ(Static RAM、SRAM)、ダイナミックランダムアクセスメモリ(Dynamic RAM、DRAM)、シンクロナス・ダイナミック・ランダム・アクセス・メモリ(Synchronous DRAM、SDRAM)、ダブル・データ・レート・シンクロナス・ダイナミック・ランダム・アクセス・メモリ(Double Data Rate SDRAM、DDR SDRAM)、拡張シンクロナス・ダイナミック・ランダム・アクセス・メモリ(Enhanced SDRAM、ESDRAM)、シンクリンク・ダイナミック・ランダム・アクセス・メモリ(Synchlink DRAM、SLDRAM)、ダイレクト・ラムバス・ランダム・アクセス・メモリ(Direct Rambus RAM、DR RAM)が使用され得る。 It will be appreciated that the memory referred to in embodiments of the present invention may be volatile memory or non-volatile memory, and may include volatile and non-volatile memory. Nonvolatile memory includes Read-Only Memory (ROM), Programmable Read-Only Memory (Programmable ROM, PROM), Erasable Programmable Read-Only Memory (Erasable PROM, EPROM), Electrically Erasable Programmable Read-Only Memory (Electrically EPROM, EEPROM), or flash memory. Volatile memory can be random access memory (RAM), used as an external cache. By way of example and not limitation, many forms of RAM such as Static Random Access Memory (Static RAM, SRAM), Dynamic Random Access Memory (Dynamic RAM, DRAM), Synchronous Dynamic Random Access Memory (Synchronous DRAM, SDRAM), double data rate synchronous dynamic random access memory (Double Data Rate SDRAM, DDR SDRAM), enhanced synchronous dynamic random access memory (Enhanced SDRAM, ESDRAM), sync Link Dynamic Random Access Memory (Synchlink DRAM, SLDRAM), Direct Rambus Random Access Memory (Direct Rambus RAM, DR RAM) may be used.

プロセッサが、汎用プロセッサ、DSP、ASIC、FPGA、もしくは他のプログラマブルロジックデバイス、ディスクリートゲート、トランジスタ論理回路、またはディスクリートハードウェアコンポーネントである場合、メモリ(記憶モジュール)はプロセッサに統合されることに留意されたい。 Note that if the processor is a general-purpose processor, DSP, ASIC, FPGA, or other programmable logic device, discrete gates, transistor logic circuits, or discrete hardware components, memory (storage module) is integrated into the processor. sea bream.

本明細書に記載されるメモリは、これらのメモリおよび任意の他の適切なタイプのメモリを含むが、これに限定されないことに留意されたい。 Note that the memory described herein includes, but is not limited to, these memories and any other suitable types of memory.

本明細書で開示される実施形態に記載される例と組み合わせて、各ユニットおよびアルゴリズムステップが、電子ハードウェアによって、またはコンピュータソフトウェアと電子ハードウェアの組み合わせによって実現され得ることを、当業者は理解するであろう。機能が果たされるのがハードウェアによってかそれともソフトウェアによってかは、技術的解決策の個々の用途および設計上の制約条件に依存する。当業者であれば、特定の用途ごとに様々な方法を使用して記載の機能を実施し得るが、その実施態様は本出願の範囲を超えるものと見なされるべきではない。 Those skilled in the art will understand that each unit and algorithm step can be realized by electronic hardware or by a combination of computer software and electronic hardware in combination with the examples described in the embodiments disclosed herein. would do. Whether the function is performed by hardware or by software depends on the particular application and design constraints of the technical solution. Skilled artisans may implement the described functionality using varying methods for each particular application, but such implementations should not be considered beyond the scope of this application.

説明を簡便にするために、前述のシステム、装置、およびユニットの詳細な動作プロセスについては、前述の方法実施形態における対応するプロセスを参照するものとし、本明細書には詳細が記載されていないことが、当業者には明確に理解されよう。 For convenience of explanation, the detailed operation processes of the aforementioned systems, devices, and units shall refer to the corresponding processes in the aforementioned method embodiments, and are not described in detail herein. This will be clearly understood by those skilled in the art.

本出願で提供されるいくつかの実施形態においては、開示のシステム、装置、および方法が他のやり方で実現され得ることを理解されたい。例えば、記載の装置実施形態は単なる例にすぎない。例えば、ユニットへの分割は単なる論理的機能分割にすぎず、実際の実装に際しては他の分割も可能である。例えば、複数のユニットまたはコンポーネントが組み合わされ、または統合して他のシステムとされる場合もあり、いくつかの特徴が無視され、または実行されない場合もある。加えて、図示され、または記述された相互結合または直接結合または通信接続は、いくつかのインターフェースを使用して実現されてもよい。装置間またはユニット間の間接結合または通信接続は、電子的形態、機械的形態、または他の形態で実現されてもよい。 It should be appreciated that in some of the embodiments provided in this application, the disclosed systems, devices, and methods may be implemented in other ways. For example, the described apparatus embodiment is merely exemplary. For example, the division into units is merely a logical functional division, and other divisions are possible in actual implementation. For example, multiple units or components may be combined or integrated into other systems, and some features may be ignored or not implemented. Additionally, the mutual couplings or direct couplings or communication connections shown or described may be implemented using some interfaces. Indirect couplings or communicative connections between devices or units may be realized in electronic, mechanical, or other form.

別々の部品として記載されたユニットは物理的に分離している場合もそうではない場合もあり、ユニットとして図示された部品は物理的ユニットである場合もそうではない場合もあり、一箇所に位置する場合もあり、複数のネットワークユニット上に分散されている場合もある。ユニットの一部または全部が、各実施形態の解決策の目的を達成するための実際の要件に基づいて選択されてもよい。 Units described as separate parts may or may not be physically separate and parts illustrated as units may or may not be physical units and may or may not be located together. may be distributed over multiple network units. Part or all of the units may be selected based on actual requirements to achieve the purpose of each embodiment's solution.

加えて、本出願の実施形態における機能ユニットは1つの処理ユニットに統合されてもよく、またはユニットの各々が物理的に独立して存在していてもよく、または2つ以上のユニットが1つのユニットに統合される。 In addition, the functional units in the embodiments of the present application may be integrated into one processing unit, or each of the units may exist physically independently, or two or more units may be combined into one integrated into the unit.

各機能がソフトウェア機能ユニットの形態で実現され、独立した製品として販売または使用される場合に、それらの機能は、コンピュータ可読記憶媒体に格納され得る。そうした理解に基づき、本出願の技術的解決策は本質的に、または先行技術に寄与する部分が、または技術的解決策の一部がソフトウェア製品の形態で実現され得る。コンピュータソフトウェア製品は記憶媒体に格納されており、(パーソナルコンピュータ、サーバ、ネットワーク機器などとし得る)コンピュータデバイスに、本出願の実施形態に記載されている方法のステップの全部または一部を実行するよう命令するためのいくつかの命令を含む。前述の記憶媒体は、USBフラッシュドライブ、リムーバブルハードディスク、読取り専用メモリ(Read-Only Memory、ROM)、ランダムアクセスメモリ(Random Access Memory、RAM)、磁気ディスク、または光ディスクなどの、プログラムコードを格納することができる任意の媒体を含む。 When each function is implemented in the form of software functional units and sold or used as an independent product, the functions can be stored in a computer-readable storage medium. Based on such an understanding, the technical solutions of the present application may be realized in the form of software products essentially or part of which contributes to the prior art, or part of the technical solutions. The computer software product is stored in a storage medium and instructs a computing device (which may be a personal computer, server, network appliance, etc.) to perform all or part of the method steps described in the embodiments of the present application. Including some commands to command. The aforementioned storage medium may store the program code, such as a USB flash drive, removable hard disk, read-only memory (ROM), random access memory (RAM), magnetic disk, or optical disk. including any medium capable of

以上の説明は、本出願の特定に実施態様にすぎず、本出願の保護範囲を限定するためのものではない。本出願で開示された技術範囲内で当業者が容易に思いつく一切の変形または置換は、本出願の保護範囲内であるものとする。したがって、本出願の保護範囲は、特許請求の範囲の保護範囲に従うものとする。 The above descriptions are only specific embodiments of the present application and are not intended to limit the protection scope of the present application. Any variation or replacement readily figured out by a person skilled in the art within the technical scope disclosed in the present application shall fall within the protection scope of the present application. Therefore, the protection scope of this application shall be subject to the protection scope of the claims.

110 符号化構成要素
120 復号構成要素
130 移動端末
131 収集構成要素
132 チャネル符号化構成要素
140 移動端末
141 オーディオ再生構成要素
142 チャネル復号構成要素
150 ネットワーク要素
151 チャネル復号構成要素
152 チャネル符号化構成要素
300 ステレオ信号符号化方法
500 装置
501 第1の決定モジュール
502 第2の決定モジュール
600 装置
601 メモリ
602 プロセッサ
110 Encoding Components
120 decoding components
130 mobile terminals
131 collection components
132 channel coding components
140 mobile terminals
141 Audio Playback Components
142 channel decoding component
150 network elements
151 channel decoding component
152 channel coding components
300 stereo signal encoding method
500 devices
501 First Decision Module
502 second decision module
600 devices
601 memory
602 processor

Claims (22)

ステレオ信号符号化方法であって、
ステレオ信号の現在のフレームの残差信号符号化パラメータを、前記現在のフレームのM個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定するステップであって、前記現在のフレームの前記残差信号符号化パラメータは、前記M個のサブバンドの残差信号を符号化するかどうかを示すために使用され、前記M個のサブバンドはN個のサブバンドの少なくとも一部であり、Nは1より大きい正の整数であり、M≦N、Mは正の整数である、ステップと、
前記現在のフレームの前記残差信号符号化パラメータに基づいて、前記現在のフレームの前記M個のサブバンドの前記残差信号を符号化するかどうかを決定するステップと
を含む、ステレオ信号符号化方法。
A stereo signal encoding method comprising:
determining a residual signal coding parameter for a current frame of a stereo signal based on the downmix signal energy and the residual signal energy of each of the M subbands of the current frame; The residual signal coding parameter of a frame is used to indicate whether to code residual signals of the M subbands, the M subbands being at least part of the N subbands. where N is a positive integer greater than 1, M≤N, where M is a positive integer;
determining whether to code the residual signals of the M subbands of the current frame based on the residual signal coding parameters of the current frame. Method.
前記現在のフレームの前記残差信号符号化パラメータに基づいて、前記M個のサブバンドの前記残差信号を符号化するかどうかを決定する前記ステップは、
前記現在のフレームの前記残差信号符号化パラメータを事前設定された第1の閾値と比較するステップであって、前記第1の閾値が0より大きく1.0より小さい、ステップと、
前記現在のフレームの前記残差信号符号化パラメータが前記第1の閾値以下である場合、前記M個のサブバンドの前記残差信号を符号化しないと決定するステップ、または
前記残差信号符号化パラメータが前記第1の閾値より大きい場合、前記M個のサブバンドの前記残差信号を符号化すると決定するステップと
を含む、請求項1に記載の方法。
The step of determining whether to encode the residual signal of the M subbands based on the residual signal coding parameters of the current frame comprises:
comparing the residual signal coding parameter of the current frame with a preset first threshold, wherein the first threshold is greater than 0 and less than 1.0;
determining not to encode the residual signal of the M subbands if the residual signal coding parameter for the current frame is less than or equal to the first threshold; or and determining to encode the residual signals of the M subbands if a parameter is greater than the first threshold.
M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて現在のフレームの残差信号符号化パラメータを決定する前記ステップは、
前記M個のサブバンドの各々の前記ダウンミックス信号エネルギー、前記残差信号エネルギー、およびサイドゲインに基づいて前記現在のフレームの前記残差信号符号化パラメータを決定するステップ
を含む、請求項1または2に記載の方法。
The step of determining residual signal coding parameters for the current frame based on downmix signal energy and residual signal energy for each of the M subbands,
determining the residual signal coding parameters for the current frame based on the downmix signal energy, the residual signal energy, and side gains for each of the M subbands; The method described in 2.
前記M個のサブバンドの各々の前記ダウンミックス信号エネルギー、前記残差信号エネルギー、およびサイドゲインに基づいて前記現在のフレームの前記残差信号符号化パラメータを決定する前記ステップは、
前記M個のサブバンドの各々の前記ダウンミックス信号エネルギー、前記残差信号エネルギー、および前記サイドゲインに基づいて第1のパラメータを決定するステップであって、前記第1のパラメータは、前記M個のサブバンドの各々の前記ダウンミックス信号エネルギーと前記残差信号エネルギーとの間の値関係を示す、ステップと、
前記M個のサブバンドの各々の前記ダウンミックス信号エネルギーおよび前記残差信号エネルギーに基づいて第2のパラメータを決定するステップであって、前記第2のパラメータは第1のエネルギー和と第2のエネルギー和との間の値関係を示し、前記第1のエネルギー和は前記M個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、前記第2のエネルギー和は、前記現在のフレームの前のフレームの周波数領域信号におけるM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、前記現在のフレームの前記M個のサブバンドは前記前のフレームの前記M個のサブバンドと同じサブバンドインデックス番号を有する、ステップと、
前記第1のパラメータ、前記第2のパラメータ、および前記現在のフレームの前記前のフレームの長期平滑化パラメータに基づいて前記現在のフレームの前記残差信号符号化パラメータを決定するステップと
を含む、請求項3に記載の方法。
determining the residual signal coding parameters for the current frame based on the downmix signal energy, the residual signal energy, and the side gains for each of the M subbands;
determining a first parameter based on the downmix signal energy, the residual signal energy, and the side gains for each of the M subbands, the first parameter comprising the M indicating a value relationship between the downmix signal energy and the residual signal energy for each of the subbands of
determining a second parameter based on the downmix signal energy and the residual signal energy for each of the M subbands, the second parameter being a sum of a first energy and a second energy sum, wherein the first energy sum is the sum of residual signal energy and downmix signal energy of the M subbands, and the second energy sum is the current a sum of residual signal energy and downmix signal energy of M subbands in a frequency domain signal of a frame previous to the frame, wherein the M subbands of the current frame are the M subbands of the previous frame; having the same subband index number as the subbands of
determining the residual signal coding parameter for the current frame based on the first parameter, the second parameter, and a long-term smoothing parameter for the previous frame of the current frame; 4. The method of claim 3.
前記M個のサブバンドの各々の前記ダウンミックス信号エネルギー、前記残差信号エネルギー、および前記サイドゲインに基づいて第1のパラメータを決定する前記ステップは、
前記M個のサブバンドの各々の前記ダウンミックス信号エネルギー、前記残差信号エネルギー、および前記サイドゲインに基づいてM個のエネルギーパラメータを決定するステップであって、前記M個のエネルギーパラメータは、前記M個のサブバンドの各々の前記ダウンミックス信号エネルギーと前記残差信号エネルギーとの間の前記値関係を各々示し、前記M個のエネルギーパラメータは前記M個のサブバンドと1対1で対応する、ステップと、
前記M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを前記第1のパラメータとして決定するステップと
を含む、請求項4に記載の方法。
The step of determining a first parameter based on the downmix signal energy, the residual signal energy, and the side gain for each of the M subbands comprises:
determining M energy parameters based on the downmix signal energy, the residual signal energy, and the side gains for each of the M subbands, wherein the M energy parameters are the respectively denoting the value relationship between the downmix signal energy and the residual signal energy of each of M subbands, wherein the M energy parameters correspond one-to-one with the M subbands; , step and
5. The method of claim 4, comprising determining an energy parameter having the largest value among the M energy parameters as the first parameter.
前記M個のエネルギーパラメータのうちの、サブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/(res_cod_NRG_S[b]+(1-g(b))・(1-g(b))res_cod_NRG_M[b]+1)
式中、res_dmx_ratio[b]は、サブバンドインデックス番号がbである前記サブバンドの前記エネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbである前記サブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbである前記サブバンドのダウンミックス信号エネルギーを表し、g(b)は、サブバンドインデックス番号がbである前記サブバンドのサイドゲインside_gain[b]の関数を表す、請求項5に記載の方法。
Among the M energy parameters, the energy parameter of the subband whose subband index number is b satisfies the following equation,
res_dmx_ratio[b]=res_cod_NRG_S[b]/(res_cod_NRG_S[b]+(1-g(b))・(1-g(b))res_cod_NRG_M[b]+1)
where res_dmx_ratio[b] represents the energy parameter of the subband with subband index number b, b is greater than or equal to 0 and less than or equal to a preset maximum subband index number, and res_cod_NRG_S[ b] represents the residual signal energy of the subband with subband index number b, res_cod_NRG_M[b] represents the downmix signal energy of the subband with subband index number b, and g( 6. The method of claim 5, wherein b) represents a function of the side gain side_gain[b] of the subband with subband index number b.
M個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて現在のフレームの残差信号符号化パラメータを決定する前記ステップは、
前記M個のサブバンドの各々の前記ダウンミックス信号エネルギーおよび前記残差信号エネルギーに基づいて第1のパラメータを決定するステップであって、前記第1のパラメータは、前記M個のサブバンドの各々の前記ダウンミックス信号エネルギーと前記残差信号エネルギーとの間の値関係を示す、ステップと、
前記M個のサブバンドの各々の前記ダウンミックス信号エネルギーおよび前記残差信号エネルギーに基づいて第2のパラメータを決定するステップであって、前記第2のパラメータは第1のエネルギー和と第2のエネルギー和との間の値関係を示し、前記第1のエネルギー和は前記M個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、前記第2のエネルギー和は、前記現在のフレームの前のフレームの周波数領域信号におけるM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、前記現在のフレームの前記M個のサブバンドは前記前のフレームの前記M個のサブバンドと同じサブバンドインデックス番号を有する、ステップと、
前記第1のパラメータ、前記第2のパラメータ、および前記現在のフレームの前記前のフレームの長期平滑化パラメータに基づいて前記現在のフレームの前記残差信号符号化パラメータを決定するステップと
を含む、請求項1または2に記載の方法。
The step of determining residual signal coding parameters for the current frame based on downmix signal energy and residual signal energy for each of the M subbands,
determining a first parameter based on the downmix signal energy and the residual signal energy for each of the M subbands, wherein the first parameter is for each of the M subbands; indicating a value relationship between the downmix signal energy and the residual signal energy of
determining a second parameter based on the downmix signal energy and the residual signal energy for each of the M subbands, the second parameter being a sum of a first energy and a second energy sum, wherein the first energy sum is the sum of residual signal energy and downmix signal energy of the M subbands, and the second energy sum is the current a sum of residual signal energy and downmix signal energy of M subbands in a frequency domain signal of a frame previous to the frame, wherein the M subbands of the current frame are the M subbands of the previous frame; having the same subband index number as the subbands of
determining the residual signal coding parameter for the current frame based on the first parameter, the second parameter, and a long-term smoothing parameter for the previous frame of the current frame; 3. A method according to claim 1 or 2.
前記M個のサブバンドの各々の前記ダウンミックス信号エネルギーおよび前記残差信号エネルギーに基づいて第1のパラメータを決定する前記ステップは、
前記M個のサブバンドの各々の前記ダウンミックス信号エネルギーおよび前記残差信号エネルギーに基づいてM個のエネルギーパラメータを決定するステップであって、前記M個のエネルギーパラメータは、前記M個のサブバンドの各々の前記ダウンミックス信号エネルギーと前記残差信号エネルギーとの間の前記値関係を各々示し、前記M個のエネルギーパラメータは前記M個のサブバンドと1対1で対応する、ステップと、
前記M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを前記第1のパラメータとして決定するステップと
を含む、請求項7に記載の方法。
The step of determining a first parameter based on the downmix signal energy and the residual signal energy for each of the M subbands comprises:
determining M energy parameters based on the downmix signal energy and the residual signal energy for each of the M subbands, wherein the M energy parameters are respectively representing the value relationship between the downmix signal energy and the residual signal energy of each of the M energy parameters corresponding one-to-one with the M subbands;
8. The method of claim 7, comprising determining the energy parameter having the largest value among the M energy parameters as the first parameter.
前記M個のエネルギーパラメータのうちの、サブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b]
式中、res_dmx_ratio[b]は、サブバンドインデックス番号がbである前記サブバンドの前記エネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbである前記サブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbである前記サブバンドのダウンミックス信号エネルギーを表す、請求項8に記載の方法。
Among the M energy parameters, the energy parameter of the subband whose subband index number is b satisfies the following equation,
res_dmx_ratio[b] = res_cod_NRG_S[b]/res_cod_NRG_M[b]
where res_dmx_ratio[b] represents the energy parameter of the subband with subband index number b, b is greater than or equal to 0 and less than or equal to a preset maximum subband index number, and res_cod_NRG_S[ b] represents the residual signal energy of the subband with subband index number b, and res_cod_NRG_M[b] represents the downmix signal energy of the subband with subband index number b. The method described in 8.
前記現在のフレームの前記残差信号符号化パラメータは、前記現在のフレームの長期平滑化パラメータであり、前記現在のフレームの前記長期平滑化パラメータは以下の式を満たし、
res_dmx_ratio_lt=res_dmx_ratio・α+res_dmx_ratio_lt_prev・(1-α)
式中、res_dmx_ratio_ltは、前記現在のフレームの前記長期平滑化パラメータを表し、res_dmx_ratioは、前記第1のパラメータを表し、res_dmx_ratio_lt_prevは、前記現在のフレームの前記前のフレームの前記長期平滑化パラメータを表し、0<α<1であり、
前記第2のパラメータが事前設定された第3の閾値より大きい場合、前記第1のパラメータが事前設定された第2の閾値より小さい場合のαの値は、前記第1のパラメータが前記事前設定された第2の閾値以上の場合のαの値より大きく、前記第2の閾値が0以上0.6以下であり、前記第3の閾値が2.7以上3.7以下であるか、または
前記第2のパラメータが事前設定された第5の閾値より大きい場合、前記第1のパラメータが事前設定された第4の閾値より大きい場合のαの値は、前記第1のパラメータが前記事前設定された第4の閾値以下の場合のαの値より大きく、前記第4の閾値が0以上0.9以下であり、前記第5の閾値が0以上0.71以下であるか、または
前記第2のパラメータが事前設定された第5の閾値以上であり、事前設定された第3の閾値以下である場合、αの値は、前記第1のパラメータが事前設定された第2の閾値より小さく、前記第2のパラメータが前記事前設定された第3の閾値より大きい場合のαの値より小さく、前記第2の閾値が0以上0.6以下であり、前記第3の閾値が2.7以上3.7以下であり、前記第5の閾値が0以上0.71以下である、請求項4から9のいずれか一項に記載の方法。
the residual signal coding parameter of the current frame is a long-term smoothing parameter of the current frame, wherein the long-term smoothing parameter of the current frame satisfies the following equation:
res_dmx_ratio_lt = res_dmx_ratio · α + res_dmx_ratio_lt_prev · (1 - α)
where res_dmx_ratio_lt represents the long-term smoothing parameter of the current frame, res_dmx_ratio represents the first parameter, and res_dmx_ratio_lt_prev represents the long-term smoothing parameter of the previous frame of the current frame. , 0<α<1, and
If the second parameter is greater than the preset third threshold, the value of α if the first parameter is less than the preset second threshold is greater than the value of α when it is equal to or greater than the set second threshold, the second threshold is 0 or more and 0.6 or less, and the third threshold is 2.7 or more and 3.7 or less, or or if said second parameter is greater than a preset fifth threshold, the value of α if said first parameter is greater than a preset fourth threshold, then said first parameter is greater than said greater than the value of α when less than or equal to a pre-set fourth threshold, wherein said fourth threshold is 0 or more and 0.9 or less and said fifth threshold is 0 or more and 0.71 or less, or If the second parameter is greater than or equal to a preset fifth threshold and less than or equal to a preset third threshold, then the value of α is equal to or greater than the preset second threshold for the first parameter. is less than the value of α when the second parameter is greater than the preset third threshold, the second threshold is 0 or more and 0.6 or less, and the third threshold is 10. A method according to any one of claims 4 to 9, wherein the fifth threshold is between 0 and 0.71 and is between 2.7 and 3.7.
前記M個のサブバンドの前記残差信号を符号化すると決定されるときに、前記M個のサブバンドのダウンミックス信号および前記残差信号を符号化するステップ、または
前記M個のサブバンドの前記残差信号を符号化しないと決定されるときに、前記M個のサブバンドのダウンミックス信号を符号化するステップ
をさらに含む、請求項1から10のいずれか一項に記載の方法。
encoding downmix signals and the residual signals for the M subbands when determined to encode the residual signals for the M subbands; or 11. The method of any one of claims 1 to 10, further comprising: encoding downmix signals of the M subbands when it is determined not to encode the residual signal.
ステレオ信号符号化装置であって、
プログラムを格納するように構成された、メモリと、
前記メモリに格納された前記プログラムを実行するように構成されたプロセッサであって、前記メモリ内の前記プログラムが実行されると、前記プロセッサは、ステレオ信号の現在のフレームの残差信号符号化パラメータを、前記現在のフレームのM個のサブバンドの各々のダウンミックス信号エネルギーおよび残差信号エネルギーに基づいて決定し、前記現在のフレームの前記残差信号符号化パラメータは、前記M個のサブバンドの残差信号を符号化するかどうかを示すために使用され、前記M個のサブバンドはN個のサブバンドの少なくとも一部であり、Nは1より大きい正の整数であり、M≦N、Mは正の整数であり、前記現在のフレームの前記残差信号符号化パラメータに基づいて、前記現在のフレームの前記M個のサブバンドの前記残差信号を符号化するかどうかを決定する、ように構成される、プロセッサと
を含む、ステレオ信号符号化装置。
A stereo signal encoding device,
a memory configured to store a program;
A processor configured to execute the program stored in the memory, wherein when the program in the memory is executed, the processor outputs residual signal coding parameters of a current frame of a stereo signal based on the downmix signal energy and residual signal energy of each of the M subbands of the current frame, wherein the residual signal coding parameters of the current frame are the M subbands wherein the M subbands are at least part of N subbands, N is a positive integer greater than 1, and M≤N , M is a positive integer, and determines whether to code the residual signal of the M subbands of the current frame based on the residual signal coding parameters of the current frame. A stereo signal coding apparatus comprising a processor configured to: .
前記プロセッサは、
前記残差信号符号化パラメータを事前設定された第1の閾値と比較し、前記第1の閾値が0より大きく1.0より小さく、
前記現在のフレームの前記残差信号符号化パラメータが前記第1の閾値以下である場合、前記M個のサブバンドの前記残差信号を符号化しないと決定するか、または
前記現在のフレームの前記残差信号符号化パラメータが前記第1の閾値より大きい場合、前記M個のサブバンドの前記残差信号を符号化すると決定する
ようにさらに構成される、請求項12に記載の装置。
The processor
comparing the residual signal coding parameter to a preset first threshold, wherein the first threshold is greater than 0 and less than 1.0;
if the residual signal coding parameter of the current frame is less than or equal to the first threshold, determine not to code the residual signal of the M subbands; or 13. The apparatus of claim 12, further configured to determine to encode the residual signal of the M subbands if a residual signal coding parameter is greater than the first threshold.
前記プロセッサは、
前記M個のサブバンドの各々の前記ダウンミックス信号エネルギー、前記残差信号エネルギー、およびサイドゲインに基づいて前記現在のフレームの前記残差信号符号化パラメータを決定する
ようにさらに構成される、請求項12または13に記載の装置。
The processor
further configured to determine the residual signal coding parameters for the current frame based on the downmix signal energy, the residual signal energy, and side gains for each of the M subbands. 14. Apparatus according to paragraph 12 or 13.
前記プロセッサは、
前記M個のサブバンドの各々の前記ダウンミックス信号エネルギー、前記残差信号エネルギー、および前記サイドゲインに基づいて第1のパラメータを決定し、前記第1のパラメータは、前記M個のサブバンドの各々の前記ダウンミックス信号エネルギーと前記残差信号エネルギーとの間の値関係を示し、
前記M個のサブバンドの各々の前記ダウンミックス信号エネルギーおよび前記残差信号エネルギーに基づいて第2のパラメータを決定し、前記第2のパラメータは第1のエネルギー和と第2のエネルギー和との間の値関係を示し、前記第1のエネルギー和は前記M個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、前記第2のエネルギー和は、前記現在のフレームの前のフレームの周波数領域信号におけるM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、前記現在のフレームの前記M個のサブバンドは前記前のフレームの前記M個のサブバンドと同じサブバンドインデックス番号を有し、
前記第1のパラメータ、前記第2のパラメータ、および前記現在のフレームの前記前のフレームの長期平滑化パラメータに基づいて前記現在のフレームの前記残差信号符号化パラメータを決定する
ようにさらに構成される、請求項14に記載の装置。
The processor
determining a first parameter based on the downmix signal energy, the residual signal energy, and the side gain for each of the M subbands, wherein the first parameter is for each of the M subbands; indicating a value relationship between each of said downmix signal energy and said residual signal energy;
determining a second parameter based on the downmix signal energy and the residual signal energy for each of the M subbands, the second parameter being a ratio of a first energy sum and a second energy sum; wherein the first energy sum is the sum of residual signal energies and downmix signal energies of the M subbands, and the second energy sum is the a sum of residual signal energy and downmix signal energy of M subbands in a frequency domain signal of a frame, wherein the M subbands of the current frame are the M subbands of the previous frame; have the same subband index number,
further configured to determine the residual signal coding parameter for the current frame based on the first parameter, the second parameter, and a long-term smoothing parameter for the previous frame of the current frame. 15. The apparatus of claim 14, wherein
前記プロセッサは、
前記M個のサブバンドの各々の前記ダウンミックス信号エネルギー、前記残差信号エネルギー、および前記サイドゲインに基づいてM個のエネルギーパラメータを決定し、前記M個のエネルギーパラメータは、前記M個のサブバンドの各々の前記ダウンミックス信号エネルギーと前記残差信号エネルギーとの間の前記値関係を各々示し、前記M個のエネルギーパラメータは前記M個のサブバンドと1対1で対応し、
前記M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを前記第1のパラメータとして決定する
ようにさらに構成される、請求項15に記載の装置。
The processor
determining M energy parameters based on the downmix signal energy, the residual signal energy, and the side gains for each of the M subbands, the M energy parameters being equal to the M subbands; each representing the value relationship between the downmix signal energy and the residual signal energy for each of the bands, the M energy parameters corresponding one-to-one with the M sub-bands;
16. The apparatus of claim 15, further configured to determine an energy parameter having a maximum value among said M energy parameters as said first parameter.
前記プロセッサによって決定された前記M個のエネルギーパラメータのうちの、サブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/(res_cod_NRG_S[b]+(1-g(b))・(1-g(b))res_cod_NRG_M[b]+1)
式中、res_dmx_ratio[b]は、サブバンドインデックス番号がbである前記サブバンドの前記エネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbである前記サブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbである前記サブバンドのダウンミックス信号エネルギーを表し、g(b)は、サブバンドインデックス番号がbである前記サブバンドのサイドゲインside_gain[b]の関数を表す、請求項16に記載の装置。
Among the M energy parameters determined by the processor, the energy parameter of the subband whose subband index number is b satisfies the following equation:
res_dmx_ratio[b]=res_cod_NRG_S[b]/(res_cod_NRG_S[b]+(1-g(b))・(1-g(b))res_cod_NRG_M[b]+1)
where res_dmx_ratio[b] represents the energy parameter of the subband with subband index number b, b is greater than or equal to 0 and less than or equal to a preset maximum subband index number, and res_cod_NRG_S[ b] represents the residual signal energy of the subband with subband index number b, res_cod_NRG_M[b] represents the downmix signal energy of the subband with subband index number b, and g( 17. The apparatus of claim 16, wherein b) represents a function of side gain side_gain[b] for the subband with subband index number b.
前記プロセッサは、
前記M個のサブバンドの各々の前記ダウンミックス信号エネルギーおよび前記残差信号エネルギーに基づいて第1のパラメータを決定し、前記第1のパラメータは、前記M個のサブバンドの各々の前記ダウンミックス信号エネルギーと前記残差信号エネルギーとの間の値関係を示し、
前記M個のサブバンドの各々の前記ダウンミックス信号エネルギーおよび前記残差信号エネルギーに基づいて第2のパラメータを決定し、前記第2のパラメータは第1のエネルギー和と第2のエネルギー和との間の値関係を示し、前記第1のエネルギー和は前記M個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、前記第2のエネルギー和は、前記現在のフレームの前のフレームの周波数領域信号におけるM個のサブバンドの残差信号エネルギーとダウンミックス信号エネルギーの和であり、前記現在のフレームの前記M個のサブバンドは前記前のフレームの前記M個のサブバンドと同じサブバンドインデックス番号を有し、
前記第1のパラメータ、前記第2のパラメータ、および前記現在のフレームの前記前のフレームの長期平滑化パラメータに基づいて前記現在のフレームの前記残差信号符号化パラメータを決定する
ようにさらに構成される、請求項12または13に記載の装置。
The processor
determining a first parameter based on the downmix signal energy and the residual signal energy for each of the M subbands, wherein the first parameter is the downmix for each of the M subbands; indicating a value relationship between signal energy and said residual signal energy;
determining a second parameter based on the downmix signal energy and the residual signal energy for each of the M subbands, the second parameter being a ratio of a first energy sum and a second energy sum; wherein the first energy sum is the sum of residual signal energies and downmix signal energies of the M subbands, and the second energy sum is the a sum of residual signal energy and downmix signal energy of M subbands in a frequency domain signal of a frame, wherein the M subbands of the current frame are the M subbands of the previous frame; have the same subband index number,
further configured to determine the residual signal coding parameter for the current frame based on the first parameter, the second parameter, and a long-term smoothing parameter for the previous frame of the current frame. 14. Apparatus according to claim 12 or 13.
前記プロセッサは、
前記M個のサブバンドの各々の前記ダウンミックス信号エネルギーおよび前記残差信号エネルギーに基づいてM個のエネルギーパラメータを決定し、前記M個のエネルギーパラメータは、前記M個のサブバンドの各々の前記ダウンミックス信号エネルギーと前記残差信号エネルギーとの間の前記値関係を各々示し、前記M個のエネルギーパラメータは前記M個のサブバンドと1対1で対応し、
前記M個のエネルギーパラメータのうちの最大値を有するエネルギーパラメータを前記第1のパラメータとして決定する
ようにさらに構成される、請求項18に記載の装置。
The processor
determining M energy parameters based on the downmix signal energy and the residual signal energy for each of the M subbands, wherein the M energy parameters are for each of the M subbands; respectively indicating the value relationships between downmix signal energy and the residual signal energy, wherein the M energy parameters correspond one-to-one with the M subbands;
19. The apparatus of claim 18, further configured to determine an energy parameter having a maximum value among said M energy parameters as said first parameter.
前記プロセッサによって決定された前記M個のエネルギーパラメータのうちの、サブバンドインデックス番号がbであるサブバンドのエネルギーパラメータは以下の式を満たし、
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b]
式中、res_dmx_ratio[b]は、サブバンドインデックス番号がbである前記サブバンドの前記エネルギーパラメータを表し、bは、0以上であり、事前設定された最大サブバンドインデックス番号以下であり、res_cod_NRG_S[b]は、サブバンドインデックス番号がbである前記サブバンドの残差信号エネルギーを表し、res_cod_NRG_M[b]は、サブバンドインデックス番号がbである前記サブバンドのダウンミックス信号エネルギーを表す、請求項19に記載の装置。
Among the M energy parameters determined by the processor, the energy parameter of the subband whose subband index number is b satisfies the following equation:
res_dmx_ratio[b] = res_cod_NRG_S[b]/res_cod_NRG_M[b]
where res_dmx_ratio[b] represents the energy parameter of the subband with subband index number b, b is greater than or equal to 0 and less than or equal to a preset maximum subband index number, and res_cod_NRG_S[ b] represents the residual signal energy of the subband with subband index number b, and res_cod_NRG_M[b] represents the downmix signal energy of the subband with subband index number b. 19. Apparatus according to 19.
前記現在のフレームの前記残差信号符号化パラメータは、前記現在のフレームの長期平滑化パラメータであり、前記現在のフレームの前記長期平滑化パラメータは以下の式を満たし、
res_dmx_ratio_lt=res_dmx_ratio・α+res_dmx_ratio_lt_prev・(1-α)
式中、res_dmx_ratio_ltは、前記現在のフレームの前記長期平滑化パラメータを表し、res_dmx_ratioは、前記第1のパラメータを表し、res_dmx_ratio_lt_prevは、前記現在のフレームの前記前のフレームの前記長期平滑化パラメータを表し、0<α<1であり、
前記第2のパラメータが事前設定された第3の閾値より大きい場合、前記第1のパラメータが事前設定された第2の閾値より小さい場合のαの値は、前記第1のパラメータが前記事前設定された第2の閾値以上の場合のαの値より大きく、前記第2の閾値が0以上0.6以下であり、前記第3の閾値が2.7以上3.7以下であるか、または
前記第2のパラメータが事前設定された第5の閾値より大きい場合、前記第1のパラメータが事前設定された第4の閾値より大きい場合のαの値は、前記第1のパラメータが前記事前設定された第4の閾値以下の場合のαの値より大きく、前記第4の閾値が0以上0.9以下であり、前記第5の閾値が0以上0.71以下であるか、または
前記第2のパラメータが事前設定された第5の閾値以上であり、事前設定された第3の閾値以下である場合、αの値は、前記第1のパラメータが事前設定された第2の閾値より小さく、前記第2のパラメータが前記事前設定された第3の閾値より大きい場合のαの値より小さく、前記第2の閾値が0以上0.6以下であり、前記第3の閾値が2.7以上3.7以下であり、前記第5の閾値が0以上0.71以下である、請求項15から20のいずれか一項に記載の装置。
the residual signal coding parameter of the current frame is a long-term smoothing parameter of the current frame, wherein the long-term smoothing parameter of the current frame satisfies the following equation:
res_dmx_ratio_lt = res_dmx_ratio · α + res_dmx_ratio_lt_prev · (1 - α)
where res_dmx_ratio_lt represents the long-term smoothing parameter of the current frame, res_dmx_ratio represents the first parameter, and res_dmx_ratio_lt_prev represents the long-term smoothing parameter of the previous frame of the current frame. , 0<α<1, and
If the second parameter is greater than the preset third threshold, the value of α if the first parameter is less than the preset second threshold is greater than the value of α when it is equal to or greater than the set second threshold, the second threshold is 0 or more and 0.6 or less, and the third threshold is 2.7 or more and 3.7 or less, or or if said second parameter is greater than a preset fifth threshold, the value of α if said first parameter is greater than a preset fourth threshold, then said first parameter is greater than said greater than the value of α when less than or equal to a pre-set fourth threshold, wherein said fourth threshold is 0 or more and 0.9 or less and said fifth threshold is 0 or more and 0.71 or less, or If the second parameter is greater than or equal to a preset fifth threshold and less than or equal to a preset third threshold, then the value of α is equal to or greater than the preset second threshold for the first parameter. is less than the value of α when the second parameter is greater than the preset third threshold, the second threshold is 0 or more and 0.6 or less, and the third threshold is 21. Apparatus according to any one of claims 15 to 20, wherein the fifth threshold is between 0 and 0.71 and is between 2.7 and 3.7.
前記プロセッサは、
前記M個のサブバンドの前記残差信号を符号化すると決定されるときに、前記M個のサブバンドのダウンミックス信号および前記残差信号を符号化するか、または
前記M個のサブバンドの前記残差信号を符号化しないと決定されるときに、前記M個のサブバンドのダウンミックス信号を符号化する
ようにさらに構成される、請求項12から21のいずれか一項に記載の装置。
The processor
encoding a downmix signal and the residual signal for the M subbands when it is determined to encode the residual signal for the M subbands; or 22. The apparatus of any one of claims 12-21, further configured to encode downmix signals of the M subbands when it is determined not to encode the residual signal. .
JP2022115641A 2018-05-31 2022-07-20 Stereo signal coding method and stereo signal encoder Pending JP2022163058A (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201810549237.3A CN110556117B (en) 2018-05-31 2018-05-31 Coding method and device for stereo signal
CN201810549237.3 2018-05-31
JP2020566740A JP7110401B2 (en) 2018-05-31 2019-02-27 Stereo signal encoding method and stereo signal encoding device
PCT/CN2019/076341 WO2019227991A1 (en) 2018-05-31 2019-02-27 Method and apparatus for encoding stereophonic signal

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2020566740A Division JP7110401B2 (en) 2018-05-31 2019-02-27 Stereo signal encoding method and stereo signal encoding device

Publications (1)

Publication Number Publication Date
JP2022163058A true JP2022163058A (en) 2022-10-25

Family

ID=68697244

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020566740A Active JP7110401B2 (en) 2018-05-31 2019-02-27 Stereo signal encoding method and stereo signal encoding device
JP2022115641A Pending JP2022163058A (en) 2018-05-31 2022-07-20 Stereo signal coding method and stereo signal encoder

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2020566740A Active JP7110401B2 (en) 2018-05-31 2019-02-27 Stereo signal encoding method and stereo signal encoding device

Country Status (8)

Country Link
US (2) US11462224B2 (en)
EP (1) EP3783607B1 (en)
JP (2) JP7110401B2 (en)
KR (2) KR20230098708A (en)
CN (2) CN114708874A (en)
BR (1) BR112020024257A2 (en)
SG (1) SG11202011324RA (en)
WO (1) WO2019227991A1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110556118B (en) 2018-05-31 2022-05-10 华为技术有限公司 Coding method and device for stereo signal
CN117079657B (en) * 2023-10-16 2024-01-26 中国铁塔股份有限公司 Pressure limit processing method and device, electronic equipment and readable storage medium

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4245288B2 (en) * 2001-11-13 2009-03-25 パナソニック株式会社 Speech coding apparatus and speech decoding apparatus
EP1483759B1 (en) * 2002-03-12 2006-09-06 Nokia Corporation Scalable audio coding
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
US7646875B2 (en) * 2004-04-05 2010-01-12 Koninklijke Philips Electronics N.V. Stereo coding and decoding methods and apparatus thereof
MX2007005262A (en) 2004-11-04 2007-07-09 Koninkl Philips Electronics Nv Encoding and decoding of multi-channel audio signals.
US7835918B2 (en) * 2004-11-04 2010-11-16 Koninklijke Philips Electronics N.V. Encoding and decoding a set of signals
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US7751572B2 (en) 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
ATE442645T1 (en) * 2006-02-06 2009-09-15 France Telecom METHOD AND DEVICE FOR HIERARCHICAL CODING OF A SOURCE TONE SIGNAL AND CORRESPONDING DECODING METHOD AND DEVICE, PROGRAMS AND SIGNAL
US8571875B2 (en) * 2006-10-18 2013-10-29 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding multichannel audio signals
CN101067931B (en) * 2007-05-10 2011-04-20 芯晟(北京)科技有限公司 Efficient configurable frequency domain parameter stereo-sound and multi-sound channel coding and decoding method and system
CN101393743A (en) * 2007-09-19 2009-03-25 中兴通讯股份有限公司 Stereo encoding apparatus capable of parameter configuration and encoding method thereof
WO2009057327A1 (en) * 2007-10-31 2009-05-07 Panasonic Corporation Encoder and decoder
KR101428487B1 (en) * 2008-07-11 2014-08-08 삼성전자주식회사 Method and apparatus for encoding and decoding multi-channel
CN101635145B (en) * 2008-07-24 2012-06-06 华为技术有限公司 Method, device and system for coding and decoding
CA2754671C (en) * 2009-03-17 2017-01-10 Dolby International Ab Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding
FR2947944A1 (en) * 2009-07-07 2011-01-14 France Telecom PERFECTED CODING / DECODING OF AUDIONUMERIC SIGNALS
KR20110018107A (en) * 2009-08-17 2011-02-23 삼성전자주식회사 Residual signal encoding and decoding method and apparatus
KR101710113B1 (en) * 2009-10-23 2017-02-27 삼성전자주식회사 Apparatus and method for encoding/decoding using phase information and residual signal
CN102243876B (en) * 2010-05-12 2013-08-07 华为技术有限公司 Quantization coding method and quantization coding device of prediction residual signal
IN2014CN01270A (en) * 2011-09-29 2015-06-19 Dolby Int Ab
CN104170007B (en) * 2012-06-19 2017-09-26 深圳广晟信源技术有限公司 To monophonic or the stereo method encoded
EP2690621A1 (en) * 2012-07-26 2014-01-29 Thomson Licensing Method and Apparatus for downmixing MPEG SAOC-like encoded audio signals at receiver side in a manner different from the manner of downmixing at encoder side
EP2863657B1 (en) * 2012-07-31 2019-09-18 Intellectual Discovery Co., Ltd. Method and device for processing audio signal
US9711150B2 (en) * 2012-08-22 2017-07-18 Electronics And Telecommunications Research Institute Audio encoding apparatus and method, and audio decoding apparatus and method
US20150125023A1 (en) 2013-03-08 2015-05-07 Ideavillage Products Corp. Headset with variable acoustic impedance
EP2830053A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
EP2830051A3 (en) * 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
WO2017049397A1 (en) * 2015-09-25 2017-03-30 Voiceage Corporation Method and system using a long-term correlation difference between left and right channels for time domain down mixing a stereo sound signal into primary and secondary channels

Also Published As

Publication number Publication date
EP3783607A4 (en) 2021-06-30
EP3783607B1 (en) 2024-05-08
US20210082445A1 (en) 2021-03-18
EP3783607A1 (en) 2021-02-24
BR112020024257A2 (en) 2021-02-23
KR20230098708A (en) 2023-07-04
KR20210008091A (en) 2021-01-20
WO2019227991A1 (en) 2019-12-05
JP2021525390A (en) 2021-09-24
US11978463B2 (en) 2024-05-07
CN110556117A (en) 2019-12-10
CN114708874A (en) 2022-07-05
JP7110401B2 (en) 2022-08-01
CN110556117B (en) 2022-04-22
US11462224B2 (en) 2022-10-04
KR102548475B1 (en) 2023-06-26
US20220392470A1 (en) 2022-12-08
SG11202011324RA (en) 2020-12-30

Similar Documents

Publication Publication Date Title
JP6641018B2 (en) Apparatus and method for estimating time difference between channels
US9275648B2 (en) Method and apparatus for processing audio signal using spectral data of audio signal
CN108885876B (en) Optimized encoding and decoding of spatialization information for parametric encoding and decoding of a multi-channel audio signal
US20100274557A1 (en) Method and an apparatus for processing a signal
ES2808096T3 (en) Method and apparatus for adaptive control of decorrelation filters
CN110556118B (en) Coding method and device for stereo signal
JP2022163058A (en) Stereo signal coding method and stereo signal encoder
WO2018188424A1 (en) Multichannel signal encoding and decoding methods, and codec
US20200152209A1 (en) Apparatus for Encoding or Decoding an Encoded Multichannel Signal Using a Filling Signal Generated by a Broad Band Filter
WO2019170955A1 (en) Audio coding
KR20200027008A (en) Encoding and decoding method of stereo signal, and encoding and decoding device
US11961526B2 (en) Method and apparatus for calculating downmixed signal and residual signal
JP7159351B2 (en) Method and apparatus for calculating downmixed signal
EP3657499A1 (en) Time-domain stereo coding and decoding method and related product
CN112233682A (en) Stereo coding method, stereo decoding method and device
EP3657498A1 (en) Coding method for time-domain stereo parameter, and related product

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220818

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220818

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231002

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20231213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240328

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240610