RU2803142C1 - Audio upmixing device with possibility of operating in a mode with or without prediction - Google Patents

Audio upmixing device with possibility of operating in a mode with or without prediction Download PDF

Info

Publication number
RU2803142C1
RU2803142C1 RU2023105634A RU2023105634A RU2803142C1 RU 2803142 C1 RU2803142 C1 RU 2803142C1 RU 2023105634 A RU2023105634 A RU 2023105634A RU 2023105634 A RU2023105634 A RU 2023105634A RU 2803142 C1 RU2803142 C1 RU 2803142C1
Authority
RU
Russia
Prior art keywords
signal
frequency domain
stage
stereo
downmix
Prior art date
Application number
RU2023105634A
Other languages
Russian (ru)
Inventor
Понтус КАРЛЬССОН
Хейко ПУРНХАГЕН
Ларс ВИЛЛЕМОЕС
Original Assignee
Долби Интернешнл Аб
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Интернешнл Аб filed Critical Долби Интернешнл Аб
Application granted granted Critical
Publication of RU2803142C1 publication Critical patent/RU2803142C1/en

Links

Abstract

FIELD: computer technology.
SUBSTANCE: effect is achieved by calculating the second representation of the downmix signal in the frequency domain based on its first representation in the frequency domain, and the second representation in the frequency domain includes the second spectral components representing the spectral composition of the signal expressed in the second subspace of the multidimensional space, which includes a part of the multidimensional space not included in the first subspace, wherein the second spectral components of the downmix signal are determined by applying a finite impulse response (FIR) filter to the first spectral components of the downmix signal; calculating the side signal (S) based on the first and second representations of the downmix signal in the frequency domain, the first representation of the residual signal in the frequency domain, and the complex prediction factor (α) encoded in the bitstream signal; and calculating a stereo signal based on the first representation of the frequency domain downmix signal and the side signal.
EFFECT: increase in audio processing efficiency.
20 cl, 19 dwg, 2 tbl

Description

Область технического примененияField of technical application

Изобретение, раскрытое в данном документе, в общем, относится к стереофоническому кодированию и, точнее, к способам стереофонического кодирования с использованием комплексного предсказания в частотной области.The invention disclosed herein generally relates to stereo coding and, more specifically, to stereo coding methods using complex frequency domain prediction.

Предпосылки изобретенияBACKGROUND OF THE INVENTION

Совместное кодирование левого (L) и правого (R) каналов стереофонического сигнала делает возможным более эффективное кодирование по сравнению с независимым кодированием L и R. Общий подход для совместного стереофонического кодирования представляет собой среднее/побочное (M/S) кодирование. Здесь средний (М) сигнал формируется путем сложения сигналов L и R, например, сигнал М может иметь формуJoint encoding of the left (L) and right (R) channels of a stereo signal allows for more efficient encoding compared to independent L and R encoding. A common approach for joint stereo encoding is mid/side (M/S) encoding. Here the average (M) signal is formed by adding the L and R signals, for example, the M signal can have the form

M = (L+R)/2.M = (L+R)/2.

Также путем вычитания двух каналов L и R формируется побочный сигнал (S), например, сигнал S может иметь формуAlso, by subtracting two channels L and R, a side signal (S) is formed, for example, the signal S can be of the form

S = (L-R)/2.S = (L-R)/2.

В случае M/S-кодирования вместо сигналов L и R кодируются сигналы M и S.In the case of M/S encoding, M and S signals are encoded instead of L and R signals.

В стандарте MPEG (Экспертная группа по вопросам движущегося изображения) AAC (перспективное звуковое кодирование) (см. документ стандарта ISO/IEC 13818-7) L/R-стереофоническое кодирование и M/S-стереофоническое кодирование могут выбираться изменяющимся в зависимости от времени или изменяющимся в зависимости от частоты образом. Так, стереофонический кодер может применять L/R-кодирование для некоторых частотных полос стереофонического сигнала, в то время как для кодирования других частотных полос стереофонического сигнала используется M/S-кодирование (изменение в зависимости от частоты). Кроме того, кодер может переключаться между L/R- и M/S-кодированием с течением времени (изменение в зависимости от времени). В стандарте MPEG AAC стереофоническое кодирование осуществляется в частотной области, конкретнее, в области MDCT (модифицированного дискретного косинусного преобразования). Это позволяет адаптивно выбирать или L/R-, или M/S-кодирования изменяющимся в зависимости от частоты, а также изменяющимся в зависимости от времени образом.In the MPEG (Moving Picture Experts Group) AAC (advanced audio coding) standard (see ISO/IEC standard document 13818-7), L/R stereo coding and M/S stereo coding can be selected to vary with time or in a manner that varies with frequency. Thus, a stereo encoder may use L/R coding for some frequency bands of a stereo signal, while using M/S (varying with frequency) coding to encode other frequency bands of a stereo signal. In addition, the encoder can switch between L/R and M/S encoding over time (variation over time). In the MPEG AAC standard, stereo coding is performed in the frequency domain, more specifically in the MDCT (Modified Discrete Cosine Transform) domain. This allows either L/R or M/S encodings to be adaptively selected in a frequency-varying as well as time-varying manner.

Параметрическое стереофоническое кодирование представляет собой способ эффективного кодирования стереофонического звукового сигнала как монофонического сигнала плюс небольшое количество дополнительной информации для стереофонических параметров. Оно составляет часть стандарта MPEG-4 Audio (cм. документ стандарта ISO/IEC 14496-3). Монофонический сигнал может кодироваться с использованием любого кодера звука. Стереофонические параметры могут внедряться во вспомогательную часть монофонического битового потока, и, таким образом, достигается полная прямая и обратная совместимость. В декодере в первую очередь декодируется монофонический сигнал, после чего стереофонический сигнал реконструируется при помощи стереофонических параметров. Декоррелированная версия декодированного монофонического сигнала, которая имеет нулевую взаимную корреляцию с монофоническим сигналом, генерируется посредством декоррелятора, например, соответствующего фазового фильтра, который может включать одну или несколько линий задержки. По существу, декоррелированный сигнал имеет такое же спектральное и временное распределение энергии, как и монофонический сигнал. Монофонический сигнал совместно с декоррелированным сигналом являются входными в процесс повышающего микширования, который управляется стереофоническими параметрами и который реконструирует стереофонический сигнал. Для получения дополнительной информации см. статью "Low Complexity Parametric Stereo Coding in MPEG-4", H. Purnhagen, Proc. of the 7th Int. Conference on Digital Audio Effects (DAFx'04), Naples, Italy, October 5-8, 2004, pages 163-168.Parametric stereo coding is a method of efficiently encoding a stereo audio signal as a mono signal plus a small amount of additional information for the stereo parameters. It forms part of the MPEG-4 Audio standard (see document ISO/IEC 14496-3). A mono signal can be encoded using any audio encoder. Stereo parameters can be embedded in the auxiliary part of the mono bitstream, and thus full forward and backward compatibility is achieved. In the decoder, the mono signal is first decoded, after which the stereo signal is reconstructed using stereo parameters. A decorrelator version of the decoded mono signal, which has zero cross-correlation with the mono signal, is generated by a decorrelator, such as an appropriate phase filter, which may include one or more delay lines. Essentially, a decorrelated signal has the same spectral and temporal energy distribution as a monaural signal. The mono signal, together with the decorrelated signal, is input to an upmixing process that is controlled by stereo parameters and which reconstructs the stereo signal. For more information, see the article "Low Complexity Parametric Stereo Coding in MPEG-4", H. Purnhagen, Proc. of the 7th Int. Conference on Digital Audio Effects (DAFx'04), Naples, Italy, October 5-8, 2004, pages 163-168.

MPEG Surround (MPS; см. ISO/IEC 23003-1 и статью "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding", J. Herre et al., Audio Engineering Convention Paper 7084, 122nd Convention, May 5-8, 2007) позволяет объединять принципы параметрического стереофонического кодирования с остаточным кодированием, замещающим декоррелированный сигнал передаваемым остатком и, таким образом, улучшающим воспринимаемое качество. Остаточное кодирование может выполняться путем понижающего микширования многоканального сигнала и, необязательно, путем извлечения пространственных меток. В ходе процесса понижающего микширования вычисляются, а затем кодируются и передаются остаточные сигналы, представляющие сигнал ошибки. В декодере они могут замещать декоррелированные сигналы. При гибридном подходе они могут замещать декоррелированные сигналы в некоторых полосах частот, предпочтительно, в относительно низкочастотных полосах.MPEG Surround (MPS; see ISO/IEC 23003-1 and "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multi-Channel Audio Coding", J. Herre et al., Audio Engineering Convention Paper 7084, 122 nd Convention, May 5-8, 2007) allows the principles of parametric stereo coding to be combined with residual coding, which replaces the decorrelated signal with a transmitted residual and thus improves the perceived quality. Residual coding can be performed by downmixing the multi-channel signal and optionally by extracting spatial labels. During the downmixing process, residual signals representing the error signal are calculated, then encoded and transmitted. In the decoder they can replace decorrelated signals. In a hybrid approach, they can replace decorrelated signals in some frequency bands, preferably in relatively low frequency bands.

В соответствии с современной системой MPEG унифицированного кодирования речи и звука (USAC), два примера которой приведены на Фиг. 1A и Фиг. 1B, декодер включает блок комплекснозначных квадратурных зеркальных фильтров (QMF), расположенный в нисходящем направлении относительно базового декодера. QMF-представление, получаемое на выходе блока фильтров, является комплексным - и, таким образом, передискретизированным в два раза - и может быть организовано как сигнал понижающего микширования (или, эквивалентно, средний сигнал) М и остаточный сигнал D, к которым применяется матрица повышающего микширования с комплексными элементами. Сигналы L и R (в области QMF) получаются как:In accordance with the current MPEG Unified Speech and Audio Coding (USAC) system, two examples of which are shown in FIG. 1A and Fig. 1B, the decoder includes a complex-valued quadrature mirror filter (QMF) bank located downstream of the base decoder. The QMF representation resulting from the output of the filter bank is complex - and thus oversampled by a factor of two - and can be organized as a downmix signal (or equivalently an average signal) M and a residual signal D, to which an upmix matrix is applied mixing with complex elements. The L and R signals (in the QMF domain) are obtained as:

, ,

где g - действительнозначный коэффициент усиления, и α - комплекснозначный коэффициент предсказания. Предпочтительно, α выбирается так, чтобы минимизировать энергию остаточного сигнала D. Коэффициент усиления может определяться путем нормализации, т.е. так, чтобы обеспечить то, что мощность суммарного сигнала будет равна сумме мощностей левого и правого сигналов. Действительные и мнимые части каждого из сигналов L и R являются взаимно избыточными - в принципе, каждая из них может быть вычислена на основе другой, - но они являются полезными для того, чтобы сделать возможным последующее применение декодера с репликацией спектральной полосы (SBR) без возникновения слышимых артефактов из-за наложения спектров. По похожим причинам, использование передискретизированного представления сигнала также может выбираться с целью предотвращения появления артефактов, связанных с другой обработкой сигнала, адаптивной ко времени или к частоте (не показана), такой как, например, повышающее микширование монофонического сигнала в стереофонический сигнал. Последним этапом обработки в декодере является обратная QMF-фильтрация. Отмечается, что QMF-представление сигнала с ограниченной полосой допускает разностные способы с ограниченной полосой и способы «остаточного заполнения», которые могут интегрироваться в декодеры этого типа.where g is the real-valued gain and α is the complex-valued prediction coefficient. Preferably, α is chosen to minimize the energy of the residual signal D. The gain can be determined by normalization, i.e. so as to ensure that the power of the total signal is equal to the sum of the powers of the left and right signals. The real and imaginary parts of each of the L and R signals are mutually redundant—in principle, each can be calculated from the other—but they are useful in allowing subsequent application of a spectral band replication (SBR) decoder without causing audible artifacts due to aliasing. For similar reasons, the use of an oversampled signal representation may also be chosen to prevent artifacts associated with other time- or frequency-adaptive signal processing (not shown), such as, for example, upmixing a mono signal into a stereo signal. The last stage of processing in the decoder is inverse QMF filtering. It is noted that the QMF representation of a bandlimited signal allows for bandlimited difference and "residual padding" methods that can be integrated into decoders of this type.

Приведенная выше структура кодирования хорошо подходит для низких битовых скоростей передачи данных, как правило, ниже 80 Кбит/с, но не является оптимальной для более высоких битовых скоростей передачи данных в том, что касается вычислительной сложности. Точнее, при более высоких битовых скоростях передачи данных инструмент SBR, как правило, не применяется (поскольку он не будет повышать эффективность кодирования). Поэтому в декодере без ступени SBR только наличие комплекснозначной матрицы повышающего микширования оправдывает присутствие блока QMF-фильтров, который требует больших вычислительных ресурсов и вносит задержку (при длине кадра 1024 дискретных значений блок анализирующих/синтезирующих QMF-фильтров вносит задержку в 961 дискретных значений). Это ясно указывает на потребность в более эффективной структуре кодирования.The above encoding structure is well suited for low bit rates, typically below 80 Kbps, but is not optimal for higher bit rates in terms of computational complexity. More precisely, at higher bit rates the SBR tool is generally not used (since it will not improve encoding efficiency). Therefore, in a decoder without an SBR stage, only the presence of a complex-valued upmix matrix justifies the presence of a QMF filter bank, which is computationally expensive and introduces latency (with a frame length of 1024 samples, the analysis/synthesis QMF filter bank introduces a delay of 961 samples). This clearly indicates the need for a more efficient coding structure.

Краткое описание изобретенияBrief description of the invention

Целью настоящего изобретения является создание способов и устройства для стереофонического кодирования, которые являются эффективными в вычислительном отношении также и в диапазоне высоких битовых скоростей передачи данных.An object of the present invention is to provide methods and apparatus for stereo encoding that are computationally efficient also in the high bit rate range.

Изобретение исполняет указанную цель, предусматривая кодер и декодер, способы кодирования и декодирования и, соответственно, компьютерные программные продукты, предназначенные для кодирования и декодирования, что определено независимыми пунктами формулы изобретения. Зависимые пункты формулы изобретения определяют варианты осуществления изобретения.The invention accomplishes the stated purpose by providing an encoder and a decoder, encoding and decoding methods, and, accordingly, computer program products for encoding and decoding, as defined by the independent claims. Dependent claims define embodiments of the invention.

В первой особенности изобретение предусматривает систему декодера, предназначенную для создания стереофонического сигнала путем стереофонического кодирования с комплексным предсказанием, и система декодера включает: - повышающее микширование, адаптированное для генерирования стереофонического сигнала на основе первых представлений сигнала понижающего микширования (М) понижающего микширования и остаточного сигнала (D) в частотной области, где каждое из первых представлений в частотной области включает первые спектральные составляющие, представляющие спектральный состав соответствующего сигнала, выраженного в первом подпространстве многомерного пространства, и ступень повышающего микширования включает: - - модуль, предназначенный для вычисления второго представления сигнала понижающего микширования в частотной области на основе его первого представления в частотной области, где второе представление в частотной области включает вторые спектральные составляющие, представляющие спектральный состав сигнала, выраженного во втором подпространстве многомерного пространства, которое включает часть многомерного пространства, не включенную в первое подпространство; - - взвешенный сумматор, предназначенный для вычисления побочного сигнала (S) на основе первого и второго представлений сигнала понижающего микширования в частотной области, первого представления остаточного сигнала в частотной области и коэффициента (α) комплексного предсказания, закодированного в сигнале битового потока; и - суммарно-разностную ступень, предназначенную для вычисления стереофонического сигнала на основе первого представления сигнала понижающего микширования в частотной области и побочного сигнала, где ступень повышающего микширования также может действовать в режиме ретрансляции, в котором указанные сигнал понижающего микширования и остаточный сигнал подаются непосредственно на суммарно-разностную ступень.In a first feature, the invention provides a decoder system for generating a stereo signal by complex prediction stereo coding, and the decoder system includes: upmixing adapted to generate a stereo signal based on first representations of a downmix (M) signal and a residual signal (M). D) in the frequency domain, wherein each of the first frequency domain representations includes first spectral components representing the spectral composition of the corresponding signal expressed in a first subspace of the multidimensional space, and the upmixing stage includes: - - a module for computing a second representation of the downmixing signal in a frequency domain based on its first frequency domain representation, wherein the second frequency domain representation includes second spectral components representing the spectral composition of a signal expressed in a second subspace of the multidimensional space, which includes a portion of the multidimensional space not included in the first subspace; - - a weighted adder for calculating a side signal (S) based on the first and second frequency domain representations of the downmix signal, the first frequency domain representation of the residual signal, and the complex prediction coefficient (α) encoded in the bitstream signal; and - a sum-difference stage for calculating a stereo signal based on a first frequency domain representation of the downmix signal and the side signal, wherein the upmix stage may also operate in a relay mode in which said downmix signal and residual signal are applied directly to the summation signal. - difference stage.

Во второй особенности изобретение предусматривает систему кодера, предназначенную для кодирования стереофонического сигнала посредством сигнала битового потока путем стереофонического кодирования с комплексным предсказанием, которая включает: - оцениватель, предназначенный для оценки коэффициента комплексного предсказания; - ступень кодирования, действующая для: (a) преобразования стереофонического сигнала в представлений в частотной области сигнала понижающего микширования и остаточного сигнала во взаимосвязи, определяемой значением коэффициента комплексного предсказания; и мультиплексор, предназначенный для приема выходных данных ступени кодирования и оценивателя и для их кодирования посредством указанного сигнала битового потока.In a second aspect, the invention provides an encoder system for encoding a stereo signal by a bitstream signal by complex prediction stereo coding, which includes: an estimator for estimating a complex prediction coefficient; - an encoding stage operable to: (a) convert the stereo signal into frequency domain representations of the downmix signal and the residual signal in a relationship determined by the value of the complex prediction coefficient; and a multiplexer for receiving outputs of the encoding and estimator stages and encoding them using said bitstream signal.

В третьей и четвертой особенностях изобретения предусматриваются способы кодирования стереофонического сигнала в битовый поток и декодирования битового потока в, по меньшей мере, один стереофонический сигнал. Технические признаки каждого из способов аналогичны таковым, соответственно, для системы кодера и системы декодера. В пятой и шестой особенностях изобретение также предусматривает компьютерный программный продукт, содержащий команды, предназначенные для исполнения каждого из способов на компьютере.The third and fourth aspects of the invention provide methods for encoding a stereo signal into a bit stream and decoding the bit stream into at least one stereo signal. The technical features of each method are similar to those for the encoder system and the decoder system, respectively. In fifth and sixth features, the invention also provides a computer program product containing instructions for executing each of the methods on a computer.

Изобретение извлекает выгоду из преимуществ унифицированного стереофонического кодирования в системе MPEG USAC. Эти преимущества сохраняются и при более высоких битовых скоростях передачи данных, когда SBR, как правило, не используется, без значительного увеличения вычислительной сложности, которым мог бы сопровождаться подход на основе QMF. Это является возможным, поскольку критически дискретизированное преобразование MDCT, которое находится в основе кодирования с преобразованием в системе MPEG USAC, в соответствии с изобретением может применяться для стереофонического кодирования с комплексным предсказанием, по меньшей мере, в тех случаях, когда полосы пропускания кодированных звуковых сигналов канала понижающего микширования и остаточного канала одинаковы, и процесс повышающего микширования не включает декорреляцию. Это означает, что дополнительное QMF-преобразование больше не требуется. Показательная реализация стереофонического кодирования с комплексным предсказанием в области QMF фактически значительно увеличивала бы количество операций в единицу времени по сравнению с традиционным L/R- или M/S-стерео. Поэтому кодирующее устройство согласно изобретению оказывается конкурентоспособным при указанных битовых скоростях передачи данных, обеспечивая высокое качество звука при умеренных вычислительных затратах.The invention takes advantage of the advantages of unified stereo coding in the MPEG USAC system. These benefits persist at higher bit rates, where SBR is typically not used, without the significant increase in computational complexity that would accompany a QMF-based approach. This is possible because the critically sampled MDCT transform, which is the basis of transform coding in the MPEG USAC system, in accordance with the invention can be used for stereo complex prediction coding, at least in cases where the bandwidths of the encoded audio channel signals The downmix and residual channel are the same, and the upmix process does not include decorrelation. This means that additional QMF conversion is no longer required. An exemplary implementation of complex predictive stereo coding in the QMF domain would actually significantly increase the number of operations per unit time compared to traditional L/R or M/S stereo. Therefore, the encoder according to the invention is competitive at the specified bit rates, providing high audio quality at moderate computational costs.

Как понятно специалистам, то, что ступень повышающего микширования также может действовать и в режиме ретрансляции, позволяет декодеру адаптивно выполнять декодирование в соответствии с традиционным прямым, или совместным, кодированием и кодированием с комплексным предсказанием, что определяется на стороне кодера. Поэтому в тех случаях, когда декодер не может положительно повысить уровень качества выше уровня традиционного прямого L/R-стереофонического кодирования, или совместного M/S-стереофонического кодирования, он может, по меньшей мере, гарантировать, что будет поддерживаться тот же уровень. Таким образом, декодер согласно данной особенности изобретения может, с функциональной точки зрения, считаться расширенным относительно предпосылок.As those skilled in the art will appreciate, the fact that the upmixing stage can also operate in the relay mode allows the decoder to adaptively perform decoding in accordance with traditional forward or joint coding and complex prediction coding as determined at the encoder end. Therefore, in cases where the decoder cannot positively improve the quality level above that of traditional direct L/R stereo encoding, or joint M/S stereo encoding, it can at least guarantee that the same level will be maintained. Thus, the decoder according to this aspect of the invention can, from a functional point of view, be considered extended relative to the premises.

Как преимущество перед стереофоническим сигналом, кодированным с предсказанием на основе QMF, возможна совершенная реконструкция сигнала (не считая ошибок квантования, которые могут быть сделаны сколь угодно малыми).As an advantage over QMF predictively encoded stereo signals, perfect reconstruction of the signal is possible (not counting quantization errors, which can be made arbitrarily small).

Таким образом, изобретение предусматривает кодирующее устройство для стереофонического кодирования сигнала на основе преобразования путем комплексного предсказания. Предпочтительно, устройство согласно изобретению не ограничивается стереофоническим кодированием с комплексным предсказанием, но также может действовать и в режиме прямого L/R-стереофонического кодирования или совместного M/S-стереофонического кодирования в соответствии с предпосылками так, чтобы можно было выбирать наиболее подходящий способ кодирования для конкретного применения или в ходе отдельного промежутка времени.Thus, the invention provides an encoder for stereo encoding a signal based on a complex prediction transform. Preferably, the device according to the invention is not limited to complex prediction stereo encoding, but can also operate in direct L/R stereo encoding mode or joint M/S stereo encoding mode as appropriate so that the most suitable encoding method can be selected for specific application or over a specific period of time.

В качестве основы для комплексного предсказания согласно изобретению используется передискретизированное (например, комплексное) представление сигнала, включающее указанные первую и вторую спектральные составляющие, и поэтому модули, предназначенные для вычисления указанного передискретизированного представления располагаются в системе кодера и в системе декодера согласно изобретению. Спектральные составляющие относятся к первому и второму подпространствам многомерного пространства, которое может представлять собой множество функций, зависящих от времени, на интервале заданной длины (например, предварительно определенной длины временного кадра), дискретизированном с конечной частотой дискретизации. Хорошо известно, что функции в таком особом многомерном пространстве могут аппроксимироваться конечной взвешенной суммой базисных функций.As the basis for the complex prediction according to the invention, a resampled (eg complex) representation of the signal including said first and second spectral components is used, and therefore modules for calculating said resampled representation are located in the encoder system and in the decoder system according to the invention. The spectral components refer to the first and second subspaces of a multidimensional space, which may represent a plurality of time-dependent features over an interval of a given length (eg, a predetermined time frame length) sampled at a finite sampling rate. It is well known that functions in such a special multidimensional space can be approximated by a finite weighted sum of basis functions.

Как понятно специалистам, кодер, адаптированный для совместного действия с декодером, оснащается эквивалентными модулями для создания передискретизированного представления, на котором основывается кодирование с предсказанием, так, чтобы сделать возможным достоверное воспроизведение кодированного сигнала. Указанные эквивалентные модули могут быть идентичными или сходными модулями, имеющими идентичные, или сходные, характеристики передачи. В частности, модули кодера и декодера, соответственно, могут представлять собой похожие или непохожие обрабатывающие блоки, исполняющие соответствующие компьютерные программы, которые выполняют эквивалентные наборы математических операций.As will be understood by those skilled in the art, an encoder adapted to operate in conjunction with a decoder is equipped with equivalent modules to create a resampled representation on which predictive coding is based so as to enable reliable reproduction of the encoded signal. Said equivalent modules may be identical or similar modules having identical or similar transmission characteristics. In particular, the encoder and decoder modules, respectively, may be similar or dissimilar processing units executing corresponding computer programs that perform equivalent sets of mathematical operations.

В некоторых вариантах осуществления системы декодера или системы кодера первые спектральные составляющие имеют действительные значения, выраженные в первом подпространстве, а вторые спектральные составляющие имеют мнимые значения, выраженные во втором подпространстве. Первые и вторые спектральные составляющие совместно образуют комплексное спектральное представление сигнала. Первое подпространство может представлять собой линейную оболочку первого набора базисных функций, в то время как второй подпространство может представлять собой оболочку набора вторых базисных функций, некоторые из которых линейно независимы от первого множества базисных функций.In some embodiments of a decoder system or encoder system, the first spectral components have real values expressed in a first subspace and the second spectral components have imaginary values expressed in a second subspace. The first and second spectral components together form a complex spectral representation of the signal. The first subspace may be a linear span of a first set of basis functions, while the second subspace may be a span of a set of second basis functions, some of which are linearly independent of the first set of basis functions.

В одном из вариантов осуществления изобретения модуль, предназначенный для вычисления комплексного представления, представляет собой преобразование действительного в мнимое, т.е. модуль для вычисления мнимых частей спектра дискретного сигнала на основании действительного спектрального представления этого сигнала. Преобразование может основываться на точных или приближенных математических зависимостях, таких как формулы из гармонического анализа или эвристические зависимости.In one embodiment of the invention, the module for calculating the complex representation is a real-to-imaginary transformation, i.e. a module for calculating the imaginary parts of the spectrum of a discrete signal based on the real spectral representation of this signal. The transformation can be based on exact or approximate mathematical relationships, such as formulas from harmonic analysis or heuristic relationships.

В некоторых вариантах осуществления системы декодера или системы кодера первые спектральные составляющие могут быть получены посредством преобразования дискретного сигнала во временной области из временной области в частотную, предпочтительно, посредством преобразование Фурье, такого как дискретное косинусное преобразование (DCT), модифицированное дискретное косинусное преобразование (MDCT), дискретное синусное преобразование (DST), модифицированное дискретное синусное преобразование (MDST), быстрое преобразование Фурье (FFT), алгоритм Фурье на основе простых множителей и т.п. В первых четырех случаях вторые спектральные составляющие могут быть затем получены, соответственно, путем DST, MDST, DCT и MDCT. Как хорошо известно, линейная оболочка косинусов, которые являются периодическими на единичном интервале, образует подпространство, которое не полностью помещается в линейной оболочке синусов, периодических на том же интервале. Предпочтительно, первые спектральные составляющие могут быть получены при посредством MDCT, и вторые спектральные составляющие могут быть получены посредством MDST.In some embodiments of a decoder system or encoder system, the first spectral components may be obtained by transforming the discrete time domain signal from the time domain to the frequency domain, preferably through a Fourier transform such as a discrete cosine transform (DCT), a modified discrete cosine transform (MDCT) , Discrete Sine Transform (DST), Modified Discrete Sine Transform (MDST), Fast Fourier Transform (FFT), Prime Factor Fourier Algorithm, etc. In the first four cases, the second spectral components can then be obtained by DST, MDST, DCT and MDCT, respectively. As is well known, the linear hull of cosines that are periodic on the unit interval forms a subspace that does not completely fit within the linear hull of sines that are periodic on the same interval. Preferably, the first spectral components can be obtained by MDCT, and the second spectral components can be obtained by MDST.

В одном из вариантов осуществления изобретения система декодера включает, по меньшей мере, один модуль временного ограничения шума (модуль TNS, или TNS-фильтр), который располагается в восходящем направлении относительно ступени повышающего микширования. Вообще говоря, использование TNS повышает воспринимаемое качество звука для сигналов с составляющими переходного типа, и это также применимо к вариантам осуществления системы декодера согласно изобретению, содержащим TNS в качестве характерного признака. В традиционном L/R- или M/S-стереофоническом кодировании TNS-фильтр может применяться как последний этап обработки в частотной области непосредственно перед обратным преобразованием. В случае стереофонического кодирования с комплексным предсказанием, однако, часто является более преимущественным применение TNS-фильтра на сигнале понижающего микширования и остаточном сигнале, т.е. перед матрицей повышающего микширования. Иными словами, TNS применяется к линейным комбинациям левого и правого каналов, что имеет некоторые преимущества. Во-первых, может оказаться, что в данной ситуации TNS полезно только для, скажем, сигнала понижающего микширования. Тогда для остаточного сигнала TNS-фильтрация может подавляться, или пропускаться, и необходимо передавать коэффициенты TNS-фильтра только для сигнала понижающего микширования, что может означать более экономное использование доступной полосы пропускания. Во-вторых, вычисление передискретизированного представления сигнала понижающего микширования (например, данных MDST, получаемых исходя из данных MDCT так, чтобы можно было сформировать комплексное представление в частотной области), которое необходимо для кодирования с комплексным предсказанием, может потребовать того, чтобы можно было вычислить представление сигнала понижающего во временной области. В свою очередь, это означает, что сигнал понижающего микширования предпочтительно должен быть доступен как временная последовательность спектров MDCT, полученных единообразным образом. Если TNS-фильтр применялся в декодере после матрицы повышающего микширования, которая преобразовывает представление понижающего микширования/остаточное представление в левое/правое представление, будет доступна только последовательность оставшихся после TNS спектров MDCT сигнала понижающего микширования. Это может сделать эффективное вычисление соответствующих спектров MDST весьма затруднительным, особенно если левый и правый каналы использовали TNS-фильтры с отличающимися характеристиками.In one embodiment of the invention, the decoder system includes at least one temporal noise limiter (TNS module, or TNS filter) that is located upstream of the upmix stage. Generally speaking, the use of TNS improves the perceived audio quality for signals with transient-type components, and this also applies to embodiments of the decoder system of the invention containing TNS as a feature. In traditional L/R or M/S stereo encoding, the TNS filter may be applied as the last stage of frequency domain processing just before downconversion. In the case of complex prediction stereo coding, however, it is often more advantageous to apply a TNS filter on the downmix signal and the residual signal, i.e. before the upmix matrix. In other words, TNS is applied to linear combinations of left and right channels, which has some advantages. First, it may turn out that in this situation TNS is only useful for, say, a downmix signal. The TNS filtering may then be suppressed or bypassed for the residual signal, and it is necessary to transmit the TNS filter coefficients only for the downmix signal, which may mean more economical use of the available bandwidth. Second, computing the resampled representation of the downmix signal (eg, the MDST data derived from the MDCT data so that a complex frequency domain representation can be generated) that is needed for complex prediction coding may require that it be possible to calculate time domain representation of a buck signal. In turn, this means that the downmix signal should preferably be available as a time series of MDCT spectra obtained in a uniform manner. If a TNS filter was applied in the decoder after an upmix matrix that converts the downmix/residual representation to a left/right representation, only the sequence of post-TNS residual MDCT spectra of the downmix signal will be available. This can make efficient calculation of the corresponding MDST spectra quite difficult, especially if the left and right channels used TNS filters with different characteristics.

Следует подчеркнуть, что доступность временной последовательности спектров MDCT не является абсолютным критерием для получения MDST-представления, подходящего для того, чтобы оно служило основой для кодирования с комплексным предсказанием. В дополнение к экспериментальным свидетельствам, этот факт можно объяснить тем, что TNS в общем применимо только к более высоким частотам, таким как частоты выше нескольких килогерц, поэтому остаточный сигнал, фильтрованный посредством TNS, приблизительно соответствует нефильтрованному остаточному сигналу для менее высоких частот. Таким образом, изобретение может быть осуществлено как декодер для стереофонического кодирования с комплексным предсказанием, в котором, как указывается ниже, TNS-фильтры имеют и иное размещение, чем в восходящем направлении относительно ступени повышающего микширования.It should be emphasized that the availability of a time sequence of MDCT spectra is not an absolute criterion for obtaining an MDST representation suitable to serve as the basis for complex prediction coding. In addition to experimental evidence, this fact can be explained by the fact that TNS is generally only applicable to higher frequencies, such as those above a few kilohertz, so the residual signal filtered by TNS approximately corresponds to the unfiltered residual signal for lower frequencies. Thus, the invention can be implemented as a decoder for complex prediction stereo coding, in which, as discussed below, the TNS filters have a different arrangement than in the upstream direction relative to the upmixing stage.

В одном из вариантов осуществления изобретения система декодера включает, по меньшей мере, один дополнительный модуль TNS, расположенный в нисходящем направлении относительно ступени повышающего микширования. Посредством положения селектора выбирается или модуль (модули) TNS в восходящем направлении относительно ступени повышающего микширования, или модуль (модули) TNS в нисходящем направлении относительно ступени повышающего микширования. В некоторых обстоятельствах вычисление комплексного представления в частотной области не требует того, чтобы могло вычисляться представление сигнала понижающего микширования во временной области. Кроме того, как излагается ниже, декодер может селективно действовать в режиме прямого или совместного кодирования, не применяя кодирование с комплексным предсказанием, и тогда может оказаться более подходящим применение традиционного местоположения модулей TNS, т.е. как одного из последних этапов обработки в частотной области.In one embodiment of the invention, the decoder system includes at least one additional TNS module located downstream of the upmixing stage. The selector position selects either the TNS module(s) upstream of the upmix stage or the TNS module(s) downstream of the upmix stage. In some circumstances, computing a complex frequency domain representation does not require that a time domain representation of the downmix signal can be computed. In addition, as discussed below, the decoder can selectively operate in direct or joint encoding mode without using complex prediction encoding, in which case it may be more appropriate to use the traditional arrangement of TNS modules, i.e. as one of the last stages of processing in the frequency domain.

В одном из вариантов осуществления изобретения система декодера адаптирована для экономии ресурсов обработки и, возможно, энергии путем отключения модуля, предназначенного для вычисления второго представления сигнала понижающего микширования в частотной области, когда последнее не является необходимым. Предполагается, что сигнал понижающего микширования является разделенным на последовательные временные блоки, каждый из которых связан со значением коэффициента комплексного предсказания. Это значение может определяться посредством решения, принимаемого для каждого временного блока кодером во взаимодействии с декодером. Кроме того, в данном варианте осуществления изобретения модуль, предназначенный для вычисления второго представления сигнала понижающего микширования в частотной области, адаптируется для самостоятельного отключения, если для данного временного блока абсолютное значение мнимой части коэффициента комплексного предсказания равна нулю или не превышает предварительно определенный допуск. Отключение модуля может подразумевать, что для данного временного блока второе представление сигнала понижающего микширования в частотной области не вычисляется. Если отключение не происходит, второе представление в частотной области (например, набор коэффициентов MDST) может умножаться на нуль или на число, имеющее, в значительной мере, тот же порядок величины, что и машинное эпсилон (единица округления) декодера, или какое-либо другое подходящее пороговое значение.In one embodiment of the invention, the decoder system is adapted to save processing resources and possibly energy by disabling the module for computing the second frequency domain representation of the downmix signal when the latter is not needed. It is assumed that the downmix signal is divided into successive time blocks, each of which is associated with a complex prediction coefficient value. This value may be determined by a decision made for each time block by the encoder in cooperation with the decoder. Moreover, in this embodiment, the module for calculating the second frequency domain representation of the downmix signal is adapted to turn itself off if, for a given time block, the absolute value of the imaginary part of the complex prediction coefficient is zero or does not exceed a predetermined tolerance. Disabling the module may imply that for a given time block, a second frequency domain representation of the downmix signal is not calculated. If shutdown does not occur, a second frequency domain representation (eg, a set of MDST coefficients) may be multiplied by zero, or by a number having substantially the same order of magnitude as the decoder's machine epsilon (rounding unit), or whatever another suitable threshold value.

В дальнейшем развитии предшествующего варианта осуществления изобретения экономия ресурсов обработки достигается на подуровне временного блока, на которые разделяется сигнал понижающего микширования. Например, таким подуровнем в пределах временного блока может быть полоса частот, где декодер определяет значение коэффициента комплексного предсказания для каждой полосы частот в пределах временного блока. Сходным образом, модуль, предназначенный для генерирования второго представления в частотной области, адаптируется для подавления его действия для полосы частот в пределах временного блока, где коэффициент комплексного предсказания равен нулю или имеет абсолютное значение меньше допуска.In a further development of the previous embodiment of the invention, savings in processing resources are achieved at the sub-level of the time block into which the downmix signal is divided. For example, such a sublayer within a time block may be a frequency band, where the decoder determines the value of the complex prediction coefficient for each frequency band within the time block. Similarly, the module for generating the second frequency domain representation is adapted to suppress its operation for a frequency band within a time block where the complex prediction coefficient is zero or has an absolute value less than a tolerance.

В одном из вариантов осуществления изобретения первые спектральные составляющие представляют собой коэффициенты преобразования, расположенные в одном или нескольких временных блоках коэффициентов преобразования, где каждый блок генерируется путем применения преобразования к временному отрезку сигнала во временной области. Кроме того модуль, предназначенный для вычисления второго представления сигнала понижающего микширования в частотной области адаптирован дляIn one embodiment of the invention, the first spectral components are transform coefficients located in one or more time blocks of transform coefficients, where each block is generated by applying a transform to a time segment of the time domain signal. In addition, a module for calculating a second representation of the downmix signal in the frequency domain is adapted for

• получения одной или нескольких первых промежуточных составляющих из, по меньшей мере, некоторых первых спектральных составляющих;• obtaining one or more first intermediate components from at least some of the first spectral components;

• формирования комбинации указанного одного или нескольких первых спектральных составляющих в соответствии с, по меньшей мере, частью одной или нескольких импульсных характеристик с целью получения одной или нескольких вторых промежуточных составляющих; и• generating a combination of said one or more first spectral components in accordance with at least a portion of the one or more impulse responses to produce one or more second intermediate components; And

• получения указанной одной или нескольких вторых спектральных составляющих из указанной одной или нескольких вторых промежуточных составляющих. Данная процедура выполняет вычисление второго представления в частотной области непосредственно из первого представления в частотной области, как более подробно описано в патенте США №6980933 B2, в особенности в разделах 8-28 и, в частности, в уравнении 41. Как понятно специалистам, вычисление не выполняется через временную область, в отличие, например, от обратного преобразования, за которым следует другое преобразование.• obtaining said one or more second spectral components from said one or more second intermediate components. This procedure calculates the second frequency domain representation directly from the first frequency domain representation, as described in more detail in US Pat. No. 6,980,933 B2, especially in sections 8-28 and, in particular, in equation 41. As will be understood by those skilled in the art, the calculation does not is performed across the time domain, as opposed to, for example, an inverse transform followed by another transform.

Для примера реализации стереофонического кодирования с комплексным предсказанием согласно изобретению было оценено, что вычислительная сложность возрастает лишь незначительно (значительно меньше, чем возрастание, вызываемое стереофоническим кодированием с комплексным предсказанием в области QMF) по сравнению с традиционным L/R- или M/S-стерео. Один из вариантов осуществления изобретения этого типа, включающий точное вычисление вторых спектральных составляющих, вносит задержку, которая, как правило, лишь на несколько процентов длительнее, чем задержка, вносимая реализацией на основе QMF (полагая длину временного блока равной 1024 дискретных значений и сравнивая ее с задержкой гибридного блока анализирующих/синтезирующих QMF-фильтров, которая равна 961 дискретных значений).For an example implementation of complex prediction stereo coding according to the invention, it has been estimated that the computational complexity increases only slightly (significantly less than the increase caused by complex prediction stereo coding in the QMF domain) compared to traditional L/R or M/S stereo . One embodiment of this type of invention, involving accurate calculation of the second spectral components, introduces a delay that is typically only a few percent longer than the delay introduced by a QMF-based implementation (assuming a time block length of 1024 samples and comparing it to delay of the hybrid block of analyzing/synthesizing QMF filters, which is equal to 961 discrete values).

Соответственно, по меньшей мере, в некоторых из предыдущих вариантов осуществления изобретения импульсные характеристики адаптируются к преобразованию, посредством которого можно получить первое представление в частотной области, и, точнее, адаптируются согласно его частотным характеристикам.Accordingly, in at least some of the previous embodiments of the invention, the impulse responses are adapted to the transformation by which the first frequency domain representation can be obtained, and more precisely, adapted according to its frequency characteristics.

В некоторых вариантах осуществления изобретения первое представление сигнала понижающего микширования в частотной области получается путем преобразования, которое применяется в связи с одной или несколькими анализирующими оконными функциями (или обрезными функциями, например, прямоугольным окном, синусным окном, окном, производным от окна Кайзера-Бесселя, и т.д.), одной из целей которых является временная сегментация без внесения пагубного количества шума или нежелательного изменения спектра. Возможно, указанные оконные функции являются частично перекрывающимися. В таком случае, предпочтительно, частотные характеристики преобразования зависят от характеристик указанной одной или нескольких анализирующих оконных функций.In some embodiments of the invention, a first frequency domain representation of the downmix signal is obtained by a transform that is applied in connection with one or more analysis window functions (or cutoff functions, e.g., rectangular window, sine window, Kaiser-Bessel window, etc.), one of the goals of which is temporal segmentation without introducing harmful amounts of noise or unwanted changes in the spectrum. It is possible that the specified window functions are partially overlapping. In such a case, preferably, the frequency characteristics of the transformation depend on the characteristics of said one or more analysis window functions.

Продолжая обращаться к вариантам осуществления изобретения, включающим в качестве характерного признака вычисление второго представления в частотной области в пределах частотной области, можно понизить вычислительную нагрузку, что заключается в использовании приближенного второго представления в частотной области. Указанное приближение может выполняться путем отказа от требования полной информации, на которой основывается вычисление. Согласно идеям патента США №6980933 B2, например, для точного вычисления второго представления сигнала понижающего микширования в частотной области в одном блоке, в первую очередь, требуются данные в частотной области из трех временных блоков, а именно: блока, одновременного с выходным блоком, предшествующего блока и последующего блока. Для целей кодирования с комплексным предсказанием согласно настоящему изобретению пригодные приближения могут быть получены путем пропуска - или замещения на нуль - данных, происходящих из последующего блока (посредством чего действие модуля может стать причинным, т.е. он не будет вносить задержку) и/или из предшествующего блока так, чтобы вычисление второго представления в частотной области основывалось на данных только из одного или двух временных блоков. Следует отметить, что даже если пропуск входных данных может подразумевать изменение масштаба второго представления в частотной области - в том смысле, что, например, оно больше не будет представлять равную мощность, - оно все еще может быть использовано в качестве основы для кодирования с комплексным предсказанием, поскольку оно, как указывалось выше, вычисляется на концах кодера и декодера эквивалентным образом. В действительности возможное изменение масштаба такого типа будет компенсироваться путем соответствующего изменения значения коэффициента предсказания.Continuing with embodiments of the invention that feature the computation of a second frequency domain representation within a frequency domain, it is possible to reduce the computational load by using an approximate second frequency domain representation. This approximation can be achieved by waiving the requirement for complete information on which the calculation is based. According to the teachings of US Pat. No. 6,980,933 B2, for example, to accurately calculate a second frequency domain representation of a downmix signal in one block, first requires frequency domain data from three time blocks, namely: the block simultaneous with the output block, the previous block and subsequent block. For the purposes of complex prediction coding according to the present invention, suitable approximations can be obtained by omitting - or replacing by zero - data originating from a subsequent block (whereby the action of the module can become causal, i.e. it will not introduce delay) and/or from the previous block so that the calculation of the second frequency domain representation is based on data from only one or two time blocks. It should be noted that even though skipping the input data may imply a rescaling of the second frequency domain representation - in the sense that, for example, it will no longer represent equal power - it can still be used as a basis for complex prediction coding , since it, as stated above, is calculated at the encoder and decoder ends in an equivalent manner. In reality, a possible change in scale of this type will be compensated for by changing the value of the prediction coefficient accordingly.

Еще один приближенный способ вычисления части второго представления сигнала понижающего микширования в частотной области, образующей спектральные составляющие, может включать объединение, по меньшей мере, двух составляющих из первого представления в частотной области. Последние составляющие могут быть смежными во времени и/или по частоте. В качестве альтернативы, они могут объединяться посредством фильтрации с импульсной характеристикой конечной длительности (FIR) с относительно небольшим количеством звеньев. Например, в системе, применяющей размер временного блока 1024, указанные фильтры могут включать 2, 3, 4 и т.д. звеньев. Описания способов приближенного вычисления такого рода можно найти, например, в заявке на патент США №2005/0197831 A1. Если используется оконная функция, такая как, например, непрямоугольная функция, придающая относительно малые веса окружению каждой из границ временного блока, может оказаться целесообразным основывать вторые спектральные составляющие во временном блоке только на комбинациях первых спектральных составляющих в том же временном блоке, подразумевая, что для краевых составляющих доступно не такое же количество информации. Ошибка приближения, возможно, вносимая при такой практической реализации, в некоторой степени подавляется, или скрывается, посредством формы оконной функции.Another approximate method of calculating the spectral component portion of a second frequency domain representation of a downmix signal may involve combining at least two components from the first frequency domain representation. The latter components may be adjacent in time and/or frequency. Alternatively, they can be combined via finite impulse response (FIR) filtering with a relatively small number of links. For example, in a system using a time block size of 1024, these filters could include 2, 3, 4, etc. links Descriptions of methods for approximate calculations of this kind can be found, for example, in US patent application No. 2005/0197831 A1. If a window function is used, such as, for example, a non-rectangular function that gives relatively small weights to the surroundings of each of the time block boundaries, it may be appropriate to base the second spectral components in a time block only on combinations of the first spectral components in the same time block, implying that for For edge components, not the same amount of information is available. The approximation error possibly introduced by such a practical implementation is to some extent suppressed, or hidden, by the form of the window function.

В одном из вариантов осуществления декодера, который сконструирован для вывода стереофонического сигнала во временной области, в него включена возможность переключения между прямым, или совместным, стереофоническим кодированием и кодированием с комплексным предсказанием. Это достигается путем снабжения:In one embodiment of a decoder that is designed to output a stereo signal in the time domain, it includes the ability to switch between direct or joint stereo coding and complex prediction coding. This is achieved by supplying:

• переключателем, который может селективно действовать или как ретранслирующая ступень (не модифицирующая сигналы), или как суммарно-разностное преобразование;• a switch that can selectively act either as a relay stage (not modifying the signals) or as a sum-difference transform;

• ступенью обратного преобразования, предназначенной для выполнения преобразования «частота-время»; и• an inverse conversion stage designed to perform the frequency-time conversion; And

• селекторной схемой, предназначенной для подачи на ступень обратного преобразования или прямо (или совместно) кодированного сигнала, или сигнала, кодированного с комплексным предсказанием.• a selector circuit designed to supply to the inverse transform stage either a directly (or jointly) encoded signal or a signal encoded with complex prediction.

Как понятно специалистам, указанная гибкость части декодера предоставляет кодеру свободу выбора между традиционным прямым, или совместным, кодированием и кодированием с комплексным предсказанием. Поэтому в тех случаях, когда уровень качества традиционного L/R-стереофонического кодирования, или совместного M/S-стереофонического кодирования, не может быть повышен, данный вариант осуществления изобретения может, по меньшей мере, гарантировать, что будет поддерживаться тот же уровень. Таким образом, декодер согласно изобретению можно считать расширенным по отношению к текущему уровню техники.As those skilled in the art will appreciate, this flexibility of the decoder portion provides the encoder with the freedom to choose between traditional direct or joint coding and complex prediction coding. Therefore, in cases where the quality level of traditional L/R stereo encoding or joint M/S stereo encoding cannot be improved, this embodiment can at least ensure that the same level is maintained. Thus, the decoder according to the invention can be considered an extension of the current state of the art.

Другая группа вариантов осуществления изобретения системы декодера выполняет вычисление вторых спектральных составляющих во втором представлении в частотной области через временную область. Точнее, применяется преобразование, обратное тому, посредством которого получаются (или могут быть получены) первые спектральные составляющие, за которым следует другое преобразование, дающее на выходе вторые спектральные составляющие. В частности, за обратным MDCT может следовать MDST. Для того чтобы уменьшить количество преобразований и обратных преобразований, выходной сигнал обратного MDCT в таком варианте осуществления изобретения может подаваться и к MDST, и к терминалам вывода данных системы декодирования (которым, возможно, предшествуют дополнительные этапы обработки).Another group of embodiments of the decoder system performs calculation of second spectral components in a second frequency domain representation via time domain. More precisely, a transformation is applied that is the inverse of the one by which the first spectral components are (or can be) obtained, followed by another transformation that produces the second spectral components as an output. In particular, the inverse MDCT may be followed by MDST. In order to reduce the number of conversions and deconversions, the inverse MDCT output signal in such an embodiment of the invention may be provided to both the MDST and the decoding system data output terminals (which may be preceded by additional processing steps).

Для примера реализации кодирования с комплексным предсказанием согласно изобретению было оценено, что вычислительная сложность по сравнению с традиционным L/R- или M/S-стереофоническим кодированием возрастает лишь незначительно (в еще меньшей степени, чем возрастание, вызываемое кодированием с комплексным предсказанием в области QMF).For an example implementation of complex prediction coding according to the invention, it has been estimated that the computational complexity increases only slightly compared to traditional L/R or M/S stereo coding (even less than the increase caused by complex prediction coding in the QMF domain ).

Как дополнительное развитие варианта осуществления изобретения, относящегося к предшествующему параграфу, ступень повышающего микширования может включать дополнительную ступень обратного преобразования, предназначенную для обработки побочного сигнала. В этом случае суммарно-разностная ступень снабжается представлением побочного сигнала во временной области, которое генерируется указанной дополнительной ступенью обратного преобразования, и представлением сигнала понижающего микширования во временной области, которое генерируется уже упоминавшейся ступенью обратного преобразования. Следует повторно отметить, что преимущественной с точки зрения вычислительной сложности является подача последнего сигнала и на суммарно-разностную ступень, и на указанную другую ступень преобразования, которая упоминалась выше.As a further development of the embodiment referred to in the preceding paragraph, the upmixing stage may include an additional down-conversion stage for processing the side signal. In this case, the sum-difference stage is provided with a time domain representation of the side signal, which is generated by said additional inverse conversion stage, and a time domain representation of the downmix signal, which is generated by the already mentioned inverse conversion stage. It should be noted again that it is advantageous from the point of view of computational complexity to supply the last signal both to the sum-difference stage and to the specified other conversion stage, which was mentioned above.

В одном из вариантов осуществления изобретения декодер, сконструированный для вывода стереофонического сигнала во временной области, включает возможность переключения между L/R-стереофоническим кодированием, или совместным M/S-стереофоническим кодированием, и кодированием с комплексным предсказанием. Это достигается путем оснащения:In one embodiment of the invention, a decoder designed to output a stereo time domain signal includes the ability to switch between L/R stereo coding, or M/S joint stereo coding, and complex prediction coding. This is achieved by equipping:

• переключателем, способным действовать или как ретранслирующая ступень, или как суммарно-разностная ступень;• a switch capable of acting either as a relay stage or as a sum-difference stage;

• дополнительной ступенью обратного преобразования, предназначенной для вычисления представления побочного сигнала во временной области;• an additional inverse conversion stage for calculating the time domain representation of the spurious signal;

• селекторной схемой, предназначенной для связывания ступеней обратного преобразования или с суммарно-разностной ступенью, связанной с точкой в восходящем направлении относительно ступени повышающего микширования и в нисходящем направлении относительно переключателя (предпочтительно, когда переключатель приводится в действие для того, чтобы выполнять функцию полосового фильтра, как может быть в случае декодирования стереофонического сигнала, генерируемого путем кодирования с комплексным предсказанием), или для объединения сигнала понижающего микширования из переключателя с побочным сигналом из взвешенного сумматора (предпочтительно, когда переключатель приводится в действие для выполнения функции суммарно-разностной ступени, как может быть в случае декодирования стереофонического сигнала, закодированного напрямую).• a selector circuit for coupling the inverse conversion stages or a sum-difference stage coupled to a point upstream of the upmix stage and downstream of a switch (preferably where the switch is actuated to act as a bandpass filter, as may be the case for decoding a stereo signal generated by complex prediction encoding), or for combining a downmix signal from a switch with a side signal from a weighted adder (preferably where the switch is actuated to perform the function of a sum-difference stage, as may be in the case of decoding a directly encoded stereo signal).

Как понятно специалистам, это предоставляет кодеру свободу выбора между традиционным прямым, или совместным, кодированием и кодированием с комплексным предсказанием, что подразумевает возможность гарантии того, что уровень качества будет, по меньшей мере, эквивалентен уровню при прямом, или совместном, стереофоническом кодировании As those skilled in the art will appreciate, this provides the encoder with the freedom to choose between traditional direct or joint encoding and complex prediction encoding, which implies the ability to ensure that the level of quality is at least equivalent to that of direct or joint stereo encoding

В одном из вариантов осуществления изобретения система кодера согласно второй особенности изобретения может включать оцениватель, предназначенный для оценки коэффициента комплексного предсказания с целью снижения, или минимизации, мощности сигнала, или средней мощности сигнала, для остаточного сигнала. Минимизация может происходить по промежутку времени, предпочтительно, временному отрезку, или временному блоку, или временному кадру сигнала, который подвергается кодированию. В качестве критерия мгновенной мощности сигнала может быть выбран квадрат амплитуды, а интеграл квадрата амплитуды (формы сигнала) по промежутку времени может быть выбран в качестве критерия средней мощности сигнала в этом промежутке. Соответственно, коэффициент комплексного предсказания определяется на основе временного блока и полосы частот, т.е. его значение устанавливается таким образом, чтобы он понижал среднюю мощность (т.е. полную энергию) остаточного сигнала в этом временном блоке и полосе частот. В частности, выходной сигнал, на котором в соответствии с математическими зависимостями, известными специалистам, может вычисляться коэффициент комплексного предсказания, могут создавать такие модули, предназначенные для оценки параметров параметрического стереофонического кодирования, как IID, ICC и IPD или сходные с ними.In one embodiment of the invention, the encoder system according to the second aspect of the invention may include an estimator for estimating a complex prediction coefficient to reduce, or minimize, signal power, or average signal power, for a residual signal. The minimization may occur over a period of time, preferably a time slice, or time block, or time frame of the signal that is being encoded. The square of the amplitude can be chosen as a criterion for the instantaneous signal power, and the integral of the squared amplitude (signal shape) over a period of time can be chosen as a criterion for the average signal power in this interval. Accordingly, the complex prediction coefficient is determined based on the time block and frequency band, i.e. its value is set such that it reduces the average power (ie total energy) of the residual signal in that time block and frequency band. In particular, the output signal, on which the complex prediction coefficient can be calculated in accordance with mathematical relationships known to those skilled in the art, can be created by modules designed to estimate parameters of parametric stereo coding, such as IID, ICC and IPD or similar ones.

В одном из вариантов осуществления изобретения ступень кодирования в системе кодера также может действовать для выполнения функции ретранслирующей ступени так, чтобы делать возможным прямое стереофоническое кодирование. Выбирая прямое стереофоническое кодирование в ситуациях, когда ожидается обеспечение более высокого качества, система кодера может гарантировать, что закодированный стереофонический сигнал будет иметь, по меньшей мере, такое же качество, как при прямом кодировании. Сходным образом, в ситуациях, когда бóльшая вычислительная трудоемкость, привносимая кодированием с комплексным предсказанием, не мотивирована значительным повышением качества, для системы кодера, таким образом, является легкодоступной возможность экономии вычислительных ресурсов. Принятие решения о выборе между совместным кодированием, прямым кодированием, кодированием с действительным предсказанием и кодированием с комплексным предсказанием в кодере, главным образом, основывается на соображениях оптимизации соотношения скорость/искажения.In one embodiment of the invention, an encoding stage in the encoder system may also operate to function as a relay stage so as to enable direct stereo encoding. By selecting direct stereo encoding in situations where higher quality is expected, the encoder system can ensure that the encoded stereo signal will have at least the same quality as direct encoding. Likewise, in situations where the greater computational effort introduced by complex prediction coding is not motivated by significant improvements in quality, computational resource savings are thus readily available to the encoder system. The decision to choose between joint coding, direct coding, real prediction coding and complex prediction coding in the encoder is primarily based on rate/distortion optimization considerations.

В одном из вариантов осуществления изобретения система кодера может включать модуль, предназначенный для вычисления второго представления в частотной области непосредственно (т.е. без применения обратного преобразования во временную область и без использования данных сигнала во временной области) на основе первых спектральных составляющих. Относительно соответствующих вариантов осуществления системы декодера, описанной выше, данный модуль может иметь аналогичную конструкцию, а именно: включать аналогичные операции обработки, но в другом порядке так, чтобы кодер был адаптирован для вывода данных, пригодных в качестве входных на стороне декодера. С целью иллюстрации данного варианта осуществления изобретения предполагается, что стереофонический сигнал, который подвергается кодированию, включает средний и побочный каналы или был преобразован в такую конструкцию, и ступень кодирования адаптирована для приема первого представления в частотной области. Ступень кодирования включает модуль, предназначенный для вычисления второго представления среднего сигнала в частотной области. (Упоминаемые здесь первое и второе представления в частотной области аналогичны определенным выше; в частности, первые представления в частотной области могут представлять собой MDCT- представления, а второе представление в частотной области может представлять собой MDST-представление.) Ступень кодирования также включает взвешенный сумматор, предназначенный для вычисления остаточного сигнала как линейной комбинации, образованной из побочного сигнала и двух представлений среднего сигнала в частотной области, взвешенных, соответственно, по действительным и мнимым частям коэффициента комплексного предсказания. Средний сигнал, или его пригодное первое представление в частотной области, может использоваться непосредственно в качестве сигнала понижающего микширования. Кроме того, в данном варианте осуществления изобретения оцениватель определяет значение коэффициента комплексного предсказания с целью минимизации мощности, или средней мощности, остаточного сигнала. Последняя операция (оптимизации) может выполняться или посредством управления с обратной связью, где оцениватель может принимать остаточный сигнал, полученный посредством текущих значений коэффициента предсказания и предназначенный для дальнейшей регулировки в случае необходимости, или, по способу прямой связи - путем вычислений, выполняемых непосредственно на левом/правом каналах оригинального стереофонического сигнала или на среднем/побочном каналах. Предпочтительным является способ прямой связи, по которому коэффициент комплексного предсказания определяется непосредственно (в частности, не итеративно и без обратной связи) на основе первого и второго представлений среднего сигнала в частотной области и первого представления побочного сигнала в частотной области. Следует отметить, что за определением коэффициента комплексного предсказания может следовать принятие решения о том, какое применять кодирование: прямое, совместное, кодирование с действительным или с комплексным предсказанием, - где учитывается результирующее качество (предпочтительно, воспринимаемое качество с учетом, например, сигнал/маска) для каждой из доступных возможностей; поэтому приведенные выше утверждения не следует толковать как утверждения того, что в кодере не существует механизма обратной связи.In one embodiment of the invention, the encoder system may include a module configured to compute a second frequency domain representation directly (ie, without applying an inverse transform to the time domain and without using time domain signal data) based on the first spectral components. With respect to the corresponding embodiments of the decoder system described above, this module may have a similar design, namely, include similar processing operations, but in a different order so that the encoder is adapted to output data suitable as input at the decoder side. For the purpose of illustrating this embodiment of the invention, it is assumed that the stereo signal that is encoded includes the middle and side channels, or has been converted into such a design, and the encoding stage is adapted to receive the first frequency domain representation. The encoding stage includes a module for calculating a second frequency domain representation of the average signal. (The first and second frequency domain representations referred to herein are the same as those defined above; in particular, the first frequency domain representations may be an MDCT representation and the second frequency domain representation may be an MDST representation.) The encoding stage also includes a weighted adder, designed to calculate the residual signal as a linear combination formed from the spurious signal and two frequency domain representations of the average signal, weighted, respectively, by the real and imaginary parts of the complex prediction coefficient. The average signal, or a suitable first frequency domain representation thereof, can be used directly as a downmix signal. Moreover, in this embodiment, the estimator determines the value of the complex prediction coefficient to minimize the power, or average power, of the residual signal. The last operation (optimization) can be performed either through feedback control, where the estimator can receive a residual signal obtained through the current values of the prediction coefficient and intended for further adjustment if necessary, or, in a feedforward manner - through calculations performed directly on the left /right channels of the original stereo signal or on the middle/side channels. Preferred is a feedforward method in which the complex prediction coefficient is determined directly (in particular, not iteratively or without feedback) based on the first and second representations of the average frequency domain signal and the first representation of the side signal in the frequency domain. It should be noted that the determination of the complex prediction coefficient may be followed by a decision as to whether direct, joint, real or complex prediction coding is used, where the resulting quality is taken into account (preferably the perceived quality taking into account, for example, signal/mask ) for each of the available options; therefore, the above statements should not be interpreted as saying that there is no feedback mechanism within the encoder.

В одном из вариантов осуществления изобретения система кодера включает модули, предназначенные для вычисления второго представления среднего (или понижающего микширования) сигнала в частотной области через временную область. Следует понимать, что подробности реализации, относящиеся к этому варианту осуществления изобретения, по меньшей мере, в той мере, в какой рассматривается вычисление второго представления в частотной области, сходны или могут отрабатываться аналогично соответствующим вариантам осуществления декодера. В данном варианте осуществления изобретения ступень кодирования включает:In one embodiment of the invention, the encoder system includes modules for calculating a second representation of the average (or downmix) of the frequency domain signal through the time domain. It should be understood that the implementation details related to this embodiment of the invention, at least to the extent that the calculation of the second frequency domain representation is considered, are similar or can be handled similarly to corresponding decoder embodiments. In this embodiment of the invention, the encoding stage includes:

• суммарно-разностную ступень, предназначенную для преобразования стереофонического сигнала в форму, включающую средний и побочный каналы;• a sum-difference stage designed to convert the stereo signal into a form that includes the middle and side channels;

• ступень преобразования, предназначенную для создания представления побочного канала в частотной области и комплекснозначного (и поэтому передискретизированного) представления среднего канала в частотной области; и• a transform stage for creating a frequency domain representation of the side channel and a complex valued (and therefore oversampled) frequency domain representation of the middle channel; And

• взвешенный сумматор, предназначенный для вычисления остаточного сигнала, где в качестве весового коэффициента используется коэффициент комплексного предсказания. Здесь оцениватель может принимать остаточный сигнал и определять, возможно, по способу управления с обратной связью, коэффициент комплексного предсказания так, чтобы понижать, или минимизировать, мощность, или среднюю мощность, остаточного сигнала. Предпочтительно, однако, оцениватель принимает стереофонический сигнал, который подвергается кодированию, и определяет на его основе коэффициент предсказания. С точки зрения вычислительной экономии преимущественным является использование критически дискретизированного представления побочного канала в частотной области, поскольку последнее в данном варианте осуществления изобретения не будет подвергаться умножению на комплексное число. Соответственно, ступень преобразования может включать ступень MDCT и расположенную параллельно ступень MDST, где обе ступени принимают в качестве входного сигнала представление среднего канала во временной области. Таким образом, генерируется передискретизированное представление среднего канала в частотной области и критически дискретизированное представление побочного канала в частотной области.• a weighted adder designed to calculate the residual signal, where the complex prediction coefficient is used as a weighting coefficient. Here, the estimator may receive the residual signal and determine, perhaps in a feedback control manner, a complex prediction coefficient so as to reduce, or minimize, the power, or average power, of the residual signal. Preferably, however, the estimator receives the stereo signal that is being encoded and determines a prediction coefficient based on it. From a computational savings point of view, it is advantageous to use a critically sampled frequency domain representation of the side channel, since the latter will not be subject to complex number multiplication in this embodiment. Accordingly, the conversion stage may include an MDCT stage and a parallel MDST stage, where both stages take as input a time domain representation of the middle channel. Thus, an oversampled frequency domain representation of the middle channel and a critically sampled frequency domain representation of the side channel are generated.

Следует отметить, что способы и устройство, раскрытые в данном разделе, после соответствующих модификаций в пределах возможностей специалистов, включая типовые эксперименты, могут применяться для кодирования сигналов, содержащих больше двух каналов. Модификации, предназначенные для обеспечения пригодности к указанной многоканальной эксплуатации, могут следовать, например, по пути направлений, описанных в разделах 4 и 5 процитированной выше статьи J. Herre и др.It should be noted that the methods and apparatus disclosed in this section, after appropriate modifications within the capabilities of specialists, including typical experiments, can be used to encode signals containing more than two channels. Modifications intended to provide suitability for the specified multi-channel operation may follow, for example, the directions described in sections 4 and 5 of the above-cited article by J. Herre et al.

Характерные признаки из двух или большего количества описанных выше вариантов осуществления изобретения, могут комбинироваться в дальнейшие варианты осуществления изобретения, если они не дополнительны в явном виде. Тот факт, что два характерных признака излагаются в различных пунктах формулы изобретения, не препятствует тому, чтобы они могли выигрышно комбинироваться. Аналогично, дальнейшие варианты осуществления изобретения также могут предусматриваться с пропуском некоторых характерных признаков, которые не являются необходимыми или несущественны для намеченной цели. Например, система декодирования согласно изобретению может осуществляться без ступени деквантования в тех случаях, когда кодированный сигнал, подвергаемый обработке, не является квантованным или уже доступен в форме, пригодной для обработки ступенью повышающего микширования.Characteristic features from two or more embodiments of the invention described above may be combined in further embodiments of the invention unless they are expressly additional. The fact that two characteristic features are set out in different claims does not prevent them from being advantageously combined. Likewise, further embodiments of the invention may also be provided omitting certain features that are not necessary or not essential for the intended purpose. For example, the decoding system of the invention may be implemented without a dequantization stage in cases where the encoded signal being processed is not quantized or is already available in a form suitable for processing by the upmixing stage.

Краткое описание графических материаловBrief description of graphic materials

Ниже изобретение будет дополнительно проиллюстрировано посредством вариантов осуществления изобретения, описываемых в следующем разделе, с отсылкой к сопроводительным графическим материалам, в которых:The invention will be further illustrated below by means of the embodiments described in the following section with reference to the accompanying drawings, in which:

фигуры 1A и 1B представляют собой обобщенные блок-схемы, показывающие декодеры на основе QMF согласно текущему уровню техники;Figures 1A and 1B are general block diagrams showing QMF-based decoders according to the current state of the art;

фигура 2 - обобщенная блок-схема системы стереофонического декодера на основе MDCT с комплексным предсказанием в соответствии с одним из вариантов осуществления настоящего изобретения, где комплексное представление канала сигнала, подвергаемого декодированию, вычисляется в частотной области;Figure 2 is a generalized block diagram of a complex prediction MDCT stereo decoder system in accordance with one embodiment of the present invention, wherein a complex channel representation of a signal being decoded is calculated in the frequency domain;

фигура 3 - обобщенная блок-схема системы стереофонического декодера на основе MDCT с комплексным предсказанием в соответствии с одним из вариантов осуществления настоящего изобретения, где комплексное представление канала сигнала, подвергаемого декодированию, вычисляется во временной области;Figure 3 is a generalized block diagram of a MDCT-based complex prediction stereo decoder system in accordance with one embodiment of the present invention, wherein a complex channel representation of a signal being decoded is computed in the time domain;

фигура 4 показывает альтернативный вариант осуществления системы декодера по фигуре 2, где может быть выбрано положение активной ступени TNS;Figure 4 shows an alternative embodiment of the decoder system of Figure 2, where the position of the TNS active stage can be selected;

фигура 5 включает обобщенные блок-схемы, показывающие системы стереофонического кодера на основе MDCT с комплексным предсказанием в соответствии с вариантами осуществления другой особенности настоящего изобретения;Figure 5 includes generalized block diagrams showing MDCT-based complex prediction stereo encoder systems in accordance with embodiments of another feature of the present invention;

фигура 6 - обобщенная блок-схема системы стереофонического кодера на основе MDCT с комплексным предсказанием в соответствии с одним из вариантов осуществления настоящего изобретения, где комплексное представление канала сигнала, подвергаемого кодированию, вычисляется на основе его представления во временной области;Figure 6 is a general block diagram of a complex predictive MDCT stereo encoder system in accordance with one embodiment of the present invention, wherein a complex channel representation of a signal being encoded is computed based on its time domain representation;

фигура 7 показывает альтернативный вариант осуществления системы кодера по фигуре 6, который может действовать также и в режиме прямого L/R-кодирования;Figure 7 shows an alternative embodiment of the encoder system of Figure 6, which can also operate in direct L/R encoding mode;

фигура 8 - обобщенная блок-схема системы стереофонического кодера на основе MDCT с комплексным предсказанием в соответствии с одним из вариантов осуществления настоящего изобретения, где комплексное представление канала сигнала, подвергаемого декодированию, вычисляется на основе его первого представления в частотной области, система декодера которого может действовать также и в режиме прямого L/R-кодирования;Figure 8 is a generalized block diagram of a complex predictive MDCT based stereo encoder system in accordance with one embodiment of the present invention, wherein a complex channel representation of a signal being decoded is computed based on its first frequency domain representation whose decoder system can operate also in direct L/R encoding mode;

фигура 9 показывает альтернативный вариант осуществления системы кодера по фигуре 7, который также включает ступень TNS, расположенную в нисходящем направлении относительно ступени кодирования;Figure 9 shows an alternative embodiment of the encoder system of Figure 7, which also includes a TNS stage located downstream of the encoding stage;

фигура 10 показывает альтернативные варианты осуществления части, отмеченной на фигурах 2-8 как А;Figure 10 shows alternative embodiments of the portion marked A in Figures 2-8;

фигура 11 показывает альтернативный вариант осуществления системы кодера по фигуре 8, который также включает два устройства модификации в частотной области, расположенные, соответственно, в нисходящем и восходящем направлениях относительно ступени кодирования;Figure 11 shows an alternative embodiment of the encoder system of Figure 8, which also includes two frequency domain modification devices located, respectively, in the downstream and upstream directions of the encoding stage;

фигура 12 - графическое представление результатов испытательного прослушивания при 96 Кбит/с для шести объектов, показывающее различные возможности компромисса между сложностью и качеством при вычислении, или приближении, спектра MDST, где точки данных, отмеченные "+", относятся к скрытому эталону, "x" относится к якорю с полосой, ограниченной 3,5 КГц, "*" относится к традиционному стереофоническому кодированию USAC (M/S или L/R), "□" относится к унифицированному стереофоническому кодированию в области MDCT посредством комплексного предсказания с заблокированной мнимой частью коэффициента предсказания (т.е. с действительным предсказанием, не требующим MDST), "■" относится к унифицированному стереофоническому кодированию в области MDCT посредством комплексного предсказания с использованием для вычисления приближения MDST текущего кадра MDCT, "°" относится к унифицированному стереофоническому кодированию в области MDCT посредством комплексного предсказания с использованием для вычисления приближения MDST текущего и предыдущего кадров MDCT, и "●" относится к унифицированному стереофоническому кодированию в области MDCT посредством комплексного предсказания с использованием для вычисления MDST текущего, предыдущего и следующего кадров MDCT;Figure 12 is a graphical representation of test listening results at 96 Kbps for six sites, showing various possibilities for trade-offs between complexity and quality when calculating, or approximating, the MDST spectrum, where data points marked "+" refer to the hidden reference, "x " refers to the 3.5 KHz band-limited anchor, "*" refers to traditional USAC stereo coding (M/S or L/R), "□" refers to unified stereo coding in the MDCT domain via imaginary-part-locked complex prediction prediction coefficient (i.e., with valid prediction not requiring MDST), "■" refers to unified stereo coding in the MDCT domain by complex prediction using the current MDCT frame to calculate the MDST approximation, " ° " refers to unified stereo coding in the domain MDCT by complex prediction using the current and previous MDCT frames to calculate the MDST approximation, and "●" refers to unified stereo coding in the MDCT domain by complex prediction using the current, previous and next MDCT frames to calculate the MDST;

фигура 13 представляет данные по фигуре 12, но как дифференциальную оценку в отношении унифицированного стереофонического кодирования в области MDCT посредством комплексного предсказания с использованием для вычисления приближения MDST текущего кадра MDCT;Figure 13 presents the data of Figure 12, but as a differential estimate with respect to unified stereo coding in the MDCT domain through complex prediction using the current MDCT frame to calculate the MDST approximation;

фигуры 14A, 14B и 14C представляют собой обобщенные блок-схемы, показывающие три варианта осуществления системы декодера в соответствии с вариантами осуществления изобретения;Figures 14A, 14B and 14C are general block diagrams showing three embodiments of a decoder system in accordance with embodiments of the invention;

фигура 15 - схема последовательности операций, показывающая способ декодирования в соответствии с одним из вариантов осуществления изобретения; иFigure 15 is a flowchart showing a decoding method in accordance with one embodiment of the invention; And

фигура 16 - схема последовательности операций, показывающая способ кодирования в соответствии с одним из вариантов осуществления изобретения.Figure 16 is a flowchart showing an encoding method in accordance with one embodiment of the invention.

Подробное описание вариантов осуществления изобретенияDetailed Description of Embodiments of the Invention

I. Системы декодераI. Decoder systems

Фигура 2 в форме обобщенной блок-схемы показывает систему декодирования, предназначенную для декодирования битового потока, включающего, по меньшей мере, одно значение коэффициента комплексного предсказания и MDCT-представление стереофонического сигнала, содержащего канал М понижающего микширования и остаточный канал D. Действительная и мнимая части , коэффициента предсказания могут квантоваться и/или кодироваться совместно. Предпочтительным, однако, является, чтобы действительная и мнимая части квантовались независимо и единообразно, как правило, с величиной шага 0,1 (безразмерное число). В соответствии со стандартом MPEG разрешающая способность спектральной полосы, используемая для коэффициента комплексного предсказания, необязательно равна разрешающей способности для полос масштабных коэффициентов (sfb; т.е. группы линий MDCT, которая использует такую же величину шага квантования и диапазон квантования). В частности, разрешающая способность полосы частот для коэффициента предсказания может быть обоснованной психоакустически, как, например, шкала Барка. Демультиплексор 201 адаптирован для извлечения указанных MDCT-представлений и коэффициента предсказания (части показанной на фигуре Управляющей информации) из битового потока, который в него подается. На самом деле, в битовом потоке может быть закодировано больше управляющей информации, чем только информация коэффициента комплексного предсказания, например, команды о том, следует декодировать битовый поток в режиме с предсказанием или без предсказания, информация TNS и т.д. Информация TNS может включать значения параметров TNS, предназначенных для применения (синтезирующими) TNS-фильтрами системы декодера. Если для нескольких TNS-фильтров предполагается использование одинаковых наборов параметров TNS, более экономным является прием этой информации в форме бита, указывающего такую идентичность наборов параметров, а не независимый прием двух наборов параметров. Также может быть включена информация о том, применять TNS перед ступенью или после ступени повышающего микширования, по необходимости на основе, например, психоакустической оценки этих двух возможностей. Кроме того, тогда управляющая информация может указывать ограниченные по отдельности полосы пропускания для сигнала понижающего микширования и остаточного сигнала. Для каждого канала полосы частот выше границы полосы пропускания не будут декодироваться, но будут приравниваться нулю. В некоторых случаях самые высокочастотные полосы обладают настолько малым запасом энергии, что они уже являются квантованными в нуль. В стандартной практике (ср. с параметром max_sfb в стандарте MPEG) обычно используется одинаковое ограничение полосы пропускания и для сигнала понижающего микширования, и для остаточного сигнала. Однако остаточный сигнал в большей степени, чем сигнал понижающего микширования, содержит свой запас энергии локализованным в полосах менее высоких частот. Поэтому, размещая специально предназначенный верхний предел полосы пропускания на остаточном сигнале, можно понизить битовую скорость передачи данных без значительного снижения качества. Например, это может управляться двумя независимыми параметрами max_sfb, закодированными в битовом потоке: одним - для сигнала понижающего микширования, и одним - для остаточного сигнала.Figure 2, in general block diagram form, shows a decoding system for decoding a bitstream including at least one complex prediction coefficient value. and an MDCT representation of a stereo signal containing a downmix channel M and a residual channel D. Real and imaginary parts , prediction coefficients may be quantized and/or jointly encoded. It is preferred, however, that the real and imaginary parts are quantized independently and uniformly, typically with a step size of 0.1 (a dimensionless number). According to the MPEG standard, the resolution of the spectral band used for the complex prediction coefficient is not necessarily equal to the resolution of scale factor bands ( sfb ; i.e., a group of MDCT lines that uses the same quantization step size and quantization range). In particular, the resolution of the frequency band for the prediction coefficient can be psychoacoustically justified, such as the Bark scale. The demultiplexer 201 is adapted to extract the specified MDCT representations and prediction coefficient (part of the Control Information shown in the figure) from the bit stream that is supplied to it. In fact, more control information than just the complex prediction coefficient information may be encoded in the bit stream, such as instructions on whether the bit stream should be decoded in predictive or non-predictive mode, TNS information, etc. The TNS information may include TNS parameter values for use by the decoder system's TNS (synthesis) filters. If multiple TNS filters are expected to use the same TNS parameter sets, it is more economical to receive this information in the form of a bit indicating that the parameter sets are identical, rather than receiving the two parameter sets independently. Information may also be included regarding whether to apply TNS before or after the upmixing stage, as appropriate based on, for example, a psychoacoustic assessment of these two possibilities. In addition, the control information can then indicate separately limited bandwidths for the downmix signal and the residual signal. For each channel, frequency bands above the bandwidth limit will not be decoded, but will be set to zero. In some cases, the highest frequency bands have so little energy that they are already quantized to zero. Standard practice (cf. the max_sfb parameter in the MPEG standard) typically uses the same bandwidth limit for both the downmix signal and the residual signal. However, the residual signal, more than the downmix signal, contains its energy reserves localized in lower frequency bands. Therefore, by placing a dedicated bandwidth cap on the residual signal, it is possible to lower the data bit rate without significantly reducing quality. For example, this could be controlled by two independent max_sfb parameters encoded in the bitstream: one for the downmix signal, and one for the residual signal.

В данном варианте осуществления изобретения MDCT-представление стереофонического сигнала сегментируется на последовательные временные кадры (временные блоки), включающие фиксированное количество точек данных (например, 1024 точек), одно из нескольких фиксированных количеств точек данных (например, 128 или 1024 точек) или переменное количество точек. Как известно специалистам, MDCT является критически дискретизированным. Выходной сигнал системы декодирования, указанный в правой части иллюстрации, представляет собой стереофонический сигнал во временной области, содержащий левый L и правый R каналы. Модули 202 деквантования адаптированы для манипуляций с битовым потоком, входящим в систему декодирования, или, там, где это необходимо, с двумя битовыми потоками, получаемыми после демультиплексирования оригинального битового потока и соответствующими каждому из каналов, понижающего микширования и остаточному. Деквантованные сигналы каналов подаются в узел 203 переключения, действующий или в режиме ретрансляции, или в суммарно-разностном режиме, которые относятся к соответствующим матрицам преобразованияIn this embodiment, the MDCT representation of the stereo signal is segmented into successive time frames (time blocks) comprising a fixed number of data points (eg, 1024 points), one of several fixed numbers of data points (eg, 128 or 1024 points), or a variable number points. As those skilled in the art know, MDCT is critically sampled. The output signal of the decoding system shown on the right side of the illustration is a time domain stereo signal containing left L and right R channels. The dequantization modules 202 are adapted to manipulate the bit stream entering the decoding system, or, where necessary, the two bit streams resulting from demultiplexing the original bit stream and corresponding to each of the downmix and residual channels. The dequantized channel signals are supplied to switching node 203, operating either in relay mode or in sum-difference mode, which relate to the corresponding transformation matrices

иAnd

. .

Как будет дополнительно разъясняться в следующем параграфе, система декодера включает второй узел 205 переключения. Оба узла 203, 205 переключения, как и большинство других переключателей и узлов переключения в данном варианте осуществления изобретения и в вариантах осуществления изобретения, которые будут описаны ниже, действуют частотноизбирательным образом. Это делает возможным декодирование большого разнообразия режимов декодирования, например, декодирование зависящего от частоты L/R- или M/S-декодирования, как известно на текущем уровне техники. Поэтому декодер согласно изобретению можно считать расширенным по отношению к текущему уровню техники.As will be further explained in the next paragraph, the decoder system includes a second switching node 205. Both switch nodes 203, 205, like most other switches and switch nodes in this embodiment and in the embodiments that will be described below, operate in a frequency selective manner. This makes it possible to decode a wide variety of decoding modes, for example, frequency-dependent L/R or M/S decoding, as is known in the current art. Therefore, the decoder according to the invention can be considered an extension of the current state of the art.

Пока что полагая, что узел 203 переключения находится в режиме ретрансляции, в данном варианте осуществления изобретения деквантованные сигналы проходят через соответствующие TNS-фильтры 204. TNS-фильтры 204 не существенны для действия системы декодирования и могут замещаться ретранслирующими элементами. После этого сигнал подается во второй узел 205 переключения, выполняющий ту же функцию, что и узел 203 переключения, расположенный в восходящем направлении. При условии, что входные сигналы соответствуют описанным выше, и второй узел 205 переключения установлен в режим ретрансляции, выходной сигнал первого представляет собой сигнал канала понижающего микширования и сигнал остаточного канала. Сигнал понижающего микширования, по-прежнему представленный его последовательным во времени спектром MDCT, подается в преобразование 206 действительного в мнимое, адаптированное для вычисления на его основе спектра MDST сигнала понижающего микширования. В данном варианте осуществления изобретения один кадр MDST основывается на трех кадрах MDCT: одном предыдущем кадре, одном текущем (или одновременном) кадре и одном последующем кадре. Символически указывается - , - что входная сторона преобразования 206 действительного в мнимое включает элементы задержки.Assuming for now that switching node 203 is in relay mode, in this embodiment, the dequantized signals are passed through appropriate TNS filters 204. TNS filters 204 are not essential to the operation of the decoding system and can be replaced by relay elements. Thereafter, the signal is supplied to the second switching node 205, which performs the same function as the switching node 203 located in the upstream direction. Provided that the input signals are as described above and the second switching unit 205 is set to the relay mode, the output signal of the first is a downmix channel signal and a residual channel signal. The downmix signal, still represented by its time-sequential MDCT spectrum, is fed to a real-to-imaginary transform 206 adapted to calculate from it the MDST spectrum of the downmix signal. In this embodiment, one MDST frame is based on three MDCT frames: one previous frame, one current (or simultaneous) frame, and one subsequent frame. Symbolically indicated - that the input side of the real-to-imaginary transform 206 includes delay elements.

MDST-представление сигнала понижающего микширования, полученное из преобразования 206 действительного в мнимое взвешивается по мнимой части коэффициента предсказания и добавляется к MDCT-представлению сигнала понижающего микширования, взвешенному по действительной части коэффициента предсказания, и MDCT-представлению остаточного сигнала. Два сложения и умножения выполняются умножителями и сумматорами 210, 211, совместно образующими (функционально) взвешенный сумматор, которые снабжаются значением коэффициента комплексного предсказания α, закодированным в битовом потоке, изначально принимаемом системой декодера. Коэффициент комплексного предсказания может определяться один раз для каждого временного кадра. Также он может определяться чаще, как, например, один раз для каждой полосы частот в пределах кадра, где полосы частот представляет собой психоакустически мотивированное разделение. Также он может определяться реже, как будет описываться ниже в связи с системами кодирования согласно изобретению. Преобразование 206 действительного в мнимое синхронизируется со взвешенным сумматором так, чтобы текущий кадр MDST сигнала канала понижающего микширования объединялся с одновременными кадрами MDCT для каждого из сигналов, сигнала канала понижающего микширования и сигнала остаточного канала. Сумма трех этих сигналов представляет собой побочный сигнал . В данном выражении М включает и MDCT-, и MDST- представления сигнала понижающего микширования, а именно: , где является действительнозначным. Таким образом, получается стереофонический сигнал, содержащий канал понижающего микширования и побочный канал, из которого суммарно-разностное преобразование 207 реконструирует левый и правый каналы следующим образом: . Эти сигналы представлены в области MDCT. Последним этапом системы декодирования является применение обратного MDCT 209 к каждому из каналов, посредством чего получается представление левого/правого стереофонического сигнала во временной области.The MDST representation of the downmix signal obtained from the real-to-imaginary transform 206 is weighted by the imaginary part. prediction coefficient and added to the real-part weighted MDCT representation of the downmix signal prediction coefficient, and MDCT representation of the residual signal. The two additions and multiplications are performed by multipliers and adders 210, 211, together forming a (functionally) weighted adder, which are supplied with the value of the complex prediction coefficient α encoded in the bit stream initially received by the decoder system. The complex prediction coefficient may be determined once for each time frame. It may also be determined more frequently, such as once for each frequency band within a frame, where the frequency bands represent a psychoacoustically motivated separation. It may also be determined less frequently, as will be described below in connection with the coding systems of the invention. The real-to-imaginary transform 206 is synchronized with the weighted adder such that the current MDST frame of the downmix channel signal is combined with simultaneous MDCT frames for each of the signals, the downmix channel signal and the residual channel signal. The sum of these three signals is the side signal . In this expression, M includes both the MDCT and MDST representations of the downmix signal, namely: , Where is real-valued. Thus, a stereo signal is obtained containing a downmix channel and a side channel, from which sum-difference transform 207 reconstructs the left and right channels as follows: . These signals are represented in the MDCT region. The final step of the decoding system is to apply the inverse MDCT 209 to each of the channels, whereby a time domain representation of the left/right stereo signal is obtained.

Возможная реализация преобразования 206 действительного в мнимое дополнительно описана в патенте США №6980933 B2 заявителя, как указано выше. По формуле 41 в этом патенте преобразование может быть выражено как фильтр с импульсной характеристикой конечной длительности, например, для четных точек:A possible implementation of the real-to-imaginary conversion 206 is further described in Applicant's US Pat. No. 6,980,933 B2, as noted above. Using Formula 41 in this patent, the transform can be expressed as a finite-duration impulse response filter, for example for even points:

, ,

где - -я точка данных MDST, - данные MDCT для каждого из кадров, и N - длина кадра. Кроме того, - это импульсные характеристики, зависящие от применяемой оконной функции и поэтому определяемые для каждого выбора оконной функции, такой как прямоугольная, синусоидальная или производная от окна Кайзера-Бесселя, и для каждой длины кадра. Сложность этого вычисления можно понизить путем пропуска тех импульсных характеристик, которые имеют относительно меньший запас энергии и вносят относительно меньший вклад в данные MDST. В качестве альтернативы или расширения данной реализации сами импульсные характеристики могут укорачиваться, например, от полной длины кадра N до меньшего количества точек. Например, длина импульсной характеристики может уменьшаться от 1024 точек (звеньев) до 10 точек. Самым предельным усечением, которое еще можно считать значимым, является . Другие прямые приближения можно найти в заявке на патент США №2005/0197831 A1.Where - -th MDST data point, is the MDCT data for each of the frames, and N is the length of the frame. Besides, are impulse responses that depend on the windowing function applied and are therefore determined for each choice of windowing function, such as rectangular, sinusoidal or Kaiser-Bessel derivative, and for each frame length. The complexity of this calculation can be reduced by omitting those impulse responses that have relatively less energy and contribute relatively less to the MDST data. As an alternative or extension of this implementation, the impulse responses themselves can be shortened, for example from the full frame length N to fewer points. For example, the length of the impulse response can be reduced from 1024 points (links) to 10 points. The most extreme truncation that can still be considered significant is . Other direct approximations can be found in US Patent Application No. 2005/0197831 A1.

Также можно уменьшить количество входных данных, на которых основывается вычисление. Для иллюстрации, преобразование 206 действительного в мнимое и его соединения в восходящем направлении, которые указываются участком, обозначенным на иллюстрации как «А», могут замещаться упрощенными вариантами, два из которых, A' и A", показаны на фигуре 10. Вариант А' создает приближенное мнимое представление сигнала. В этом случае вычисление MDST учитывает только текущий и предыдущий кадры. С отсылкой к формуле, приведенной выше в данном параграфе, это можно осуществить, задавая при р=0, ...,N-1 (индекс III обозначает последующий временной кадр). Поскольку вариант A' не требует спектра MDCT для последующего кадра в качестве входных данных, вычисление MDST не подвергается какой-либо временной задержке. Очевидно, данное приближение несколько снижает точность полученного сигнала MDST, но также может подразумевать, что энергия этого сигнала станет пониженной; последний факт может быть полностью компенсирован путем увеличения как результата сущности кодирования с предсказанием.You can also reduce the number of inputs on which the calculation is based. For illustration, the real-to-imaginary transformation 206 and its uplinks, which are indicated by the portion indicated in the illustration as "A", can be replaced by simplified versions, two of which, A' and A", are shown in figure 10. Option A' creates an approximate imaginary representation of the signal. In this case, the MDST calculation takes into account only the current and previous frames. With reference to the formula given above in this paragraph, this can be done by specifying when p =0, ..., N -1 (index III denotes the subsequent time frame). Since option A' does not require the MDCT spectrum of the subsequent frame as input, the MDST calculation does not suffer any time delay. Obviously, this approximation somewhat reduces the accuracy of the resulting MDST signal, but may also imply that the energy of this signal will become reduced; the latter fact can be fully compensated by increasing as a result of the essence of predictive coding.

Также на фигуре 10 показан вариант A", который в качестве входного сигнала использует только данные MDCT для текущего кадра. Вполне возможно, вариант A" генерирует менее точное представление MDST, чем вариант A'. С другой стороны, он, как и вариант A', действует с нулевой задержкой и обладает менее высокой вычислительной сложностью. Как уже упоминалось, свойства кодирования формы сигнала не затрагиваются, поскольку системой кодера и системой декодера используется одно и то же приближение.Also shown in Figure 10 is Option A" which uses only the MDCT data for the current frame as input. It is possible that Option A" generates a less accurate MDST representation than Option A'. On the other hand, it, like option A', operates with zero delay and has less high computational complexity. As mentioned, the waveform encoding properties are not affected since the same approximation is used by the encoder system and the decoder system.

Следует отметить, что, независимо от того, применяются варианты A, A' или A", или какое-либо их усовершенствование, необходимо вычислять только те участки спектра MDST, для которых мнимая часть коэффициента комплексного предсказания является ненулевой, . В условиях практического применения это означает, что абсолютное значение мнимой части должно быть больше предварительно определенного порогового значения, которое может быть отнесено к единице округления используемого аппаратного обеспечения. В случае, когда мнимая часть коэффициента равна нулю для всех частотных полос в пределах временного кадра, для этого кадра нет необходимости в вычислении каких-либо данных MDST. Таким образом, соответственно, преобразование 206 вещественного в мнимое адаптируется к отклику на появление слишком малых значений путем отсутствия генерирования выходного сигнала MDST, посредством чего можно сэкономить вычислительные ресурсы. Однако в вариантах осуществления изобретения, где для генерирования одного кадра данных MDST используется больше кадров, чем текущий кадр, любые элементы в восходящем направлении относительно преобразования 206 должны продолжать действовать соответственно даже тогда, когда спектр MDST не требуется - в частности, второй узел 205 переключения должен продолжать пересылку спектров MDCT - так, чтобы достаточное количество входных данных было уже доступно для преобразования 206 действительного в мнимое уже тогда, когда появится следующий временной кадр, связанный с ненулевым коэффициентом предсказания; разумеется, этим кадром может быть следующий кадр.It should be noted that, regardless of whether options A, A' or A" or any improvement thereto are used, it is necessary to calculate only those parts of the MDST spectrum for which the imaginary part of the complex prediction coefficient is non-zero. . In practical terms, this means that the absolute value The imaginary part must be greater than a predefined threshold value, which can be related to the rounding unit of the hardware used. In the case where the imaginary part of the coefficient is zero for all frequency bands within a time frame, there is no need to calculate any MDST data for that frame. Thus, accordingly, the real to imaginary conversion 206 adapts to respond to the occurrence of values that are too small by not generating an MDST output signal, whereby computing resources can be saved. However, in embodiments of the invention where more frames than the current frame are used to generate one frame of MDST data, any elements upstream of transform 206 should continue to act accordingly even when MDST spectrum is not required—in particular, second switch node 205 should continue sending MDCT spectra so that enough input data is already available for real-to-imaginary conversion 206 when the next time frame associated with a non-zero prediction coefficient appears; Of course, this frame could be the next frame.

Возвращаясь к фигуре 2, функционирование системы декодирования описано в предположении, что оба узла 203, 205 переключения установлены в соответствующие режимы ретрансляции. Как будет описано ниже, система декодера также может декодировать сигналы, которые не являются кодированными с предсказанием. Для такого применения второй узел 205 переключения устанавливается в суммарно-разностный режим и, соответственно, как указано на иллюстрации, селекторная схема 208 будет установлена в нижнее положение, таким образом, обеспечивая подачу сигналов непосредственно к обратному преобразованию 209 из точки расположения источника между TNS-фильтрами 204 и вторым узлом 205 переключения. Для обеспечения корректного декодирования сигнал, соответственно, имеет в точке расположения источника L/R-форму. Поэтому для того, чтобы обеспечить подачу в преобразование действительного в мнимое корректного среднего сигнала (т.е. сигнала понижающего микширования) во все моменты времени (а не, скажем, периодически - левого сигнала), второй узел 205 переключения в ходе декодирования стереофонического сигнала, не подвергавшегося кодированию с предсказанием, предпочтительно устанавливается в суммарно-разностный режим. Как указывалось выше, кодирование с предсказанием можно для некоторых кадров заменить традиционным прямым, или совместным, кодированием, основываясь, например, на данных решения о соотношении скорости и качества звука. Итог этого решения может сообщаться из кодера в декодер различными способами, например, посредством значения специально предназначенного бита-индикатора в каждом кадре, или по отсутствию, или наличию, значения коэффициента предсказания. При установлении указанных фактов роль первого узла 203 переключения становится легко понятной. Действительно, в режиме кодирования без предсказания система декодера может обрабатывать сигналы и в соответствии с прямым (L/R) стереофоническим кодированием, и в соответствии с совместным (M/S) стереофоническим кодированием, и при действии первого узла 203 переключения или в режиме ретрансляции, или в суммарно-разностном режиме можно обеспечивать то, что точка расположения источника будет всегда обеспечена сигналом, кодированным напрямую. Очевидно, узел 203 переключения при функционировании в качестве суммарно-разностной ступени будет преобразовывать входной сигнал в M/S-форме во входной сигнал (подаваемый в необязательные TNS-фильтры 204) в L/R-форме.Returning to FIG. 2, the operation of the decoding system is described assuming that both switching nodes 203, 205 are set to their respective relay modes. As will be described below, the decoder system can also decode signals that are not predictively encoded. For such an application, the second switching node 205 is set to sum-difference mode and accordingly, as indicated in the illustration, the selector circuit 208 will be set to the down position, thus providing signals directly to the inverse transform 209 from the source location between the TNS filters 204 and a second switching node 205. To ensure correct decoding, the signal accordingly has an L/R form at the source location. Therefore, in order to ensure that the real-to-imaginary conversion is fed with the correct middle signal (i.e., the downmix signal) at all times (and not, say, periodically the left signal), the second switching unit 205 during decoding of the stereo signal, not subject to predictive coding, is preferably set to sum-differential mode. As discussed above, predictive coding can be replaced for some frames by traditional direct or joint coding, based, for example, on decision data about the relationship between speed and audio quality. The outcome of this decision may be communicated from the encoder to the decoder in various ways, for example, by the value of a dedicated indicator bit in each frame, or by the absence or presence of a prediction coefficient value. Once these facts are established, the role of the first switching node 203 becomes easily understood. Indeed, in the non-prediction encoding mode, the decoder system can process signals in accordance with both direct (L/R) stereo encoding and in accordance with joint (M/S) stereo encoding, and when operating the first switching node 203 or in a relay mode, or in the sum-difference mode it is possible to ensure that the source location will always be provided with a directly encoded signal. Obviously, switching unit 203, when operating as a sum-difference stage, will convert an input signal in M/S form to an input signal (supplied to optional TNS filters 204) in L/R form.

Система декодера принимает сигнал о том, следует системе декодера декодировать конкретный временной кадр в режиме кодирования с предсказанием или в режиме кодирования без предсказания. Сигнал о режиме без предсказания может передаваться посредством значения специально предназначенного бита-индикатора в каждом кадре или посредством отсутствия (или нулевого значения) коэффициента предсказания. Режим предсказания может сообщаться аналогично. Особенно благоприятная реализация, которая делает возможным обратный переход на пониженный уровень без каких-либо накладных затрат, использует зарезервированное четвертое значение двухбитного поля ms_mask_present (см. MPEG-2 AAC, документ ISO/IEC 13818-7), которое передается в каждом кадре и определяется следующим образом:The decoder system receives a signal indicating whether the decoder system should decode a particular time frame in a predictive encoding mode or in a non-predictive encoding mode. Non-prediction mode may be signaled by the value of a dedicated indicator bit in each frame or by the absence (or zero value) of a prediction coefficient. The prediction mode may be reported similarly. A particularly favorable implementation, which makes downgrading possible without any overhead, uses the reserved fourth value of the two-bit ms_mask_present field (see MPEG-2 AAC document ISO/IEC 13818-7), which is transmitted in each frame and is determined in the following way:

Таблица 1: Определение ms_mask_present в USACTable 1: USAC ms_mask_present definition ЗначениеMeaning СмыслMeaning 0000 L/R-кодирование для всех частотных полосL/R coding for all frequency bands 0101 Для указания L/R или M/S используется один сигнальный бит на полосу One signal bit per strip is used to indicate L/R or M/S 1010 M/S-кодирование для всех частотных полосM/S coding for all frequency bands 11eleven ЗарезервированноеReserved

При переопределении значения 11 как имеющего смысл «кодирование с комплексным предсказанием» декодер может действовать во всех режимах совместимости, в частности, в режимах M/S- и L/R-кодирования, без каких-либо потерь битовой скорости передачи данных и по-прежнему является доступным для приема сигнала, указывающего режим кодирования с комплексным предсказанием для соответствующих кадров.By redefining the value 11 to mean "complex prediction encoding", the decoder can operate in all compatibility modes, particularly M/S and L/R encoding modes, without any loss of bit rate and still is available for receiving a signal indicating a complex prediction coding mode for the corresponding frames.

Фигура 4 показывает систему декодера той же общей конструкции, что и показанная на фигуре 2, но включающую, однако, по меньшей мере, две другие конструкции. Во-первых, система по фигуре 4 включает переключатели 404, 411, которые делают возможным применение какой-либо ступени обработки, включающей модификацию в частотной области, в восходящем и/или нисходящем направлении относительно ступени повышающего микширования. Это выполняется, с одной стороны, посредством первого набора модификаторов 403 в частотной области (изображенных на данной фигуре как синтезирующие TNS-фильтры), предусматриваемых совместно с первым переключателем 404 в нисходящем направлении относительно модулей 401 деквантования и первого узла 402 переключения, но в нисходящем направлении относительно второго узла 405 переключения, расположенного в восходящем направлении непосредственно перед ступенью 406, 407, 408, 409 повышающего микширования. С другой стороны, система декодера включает второй набор модификаторов 410 в частотной области, которые предусматриваются совместно со вторым переключателем 411 в нисходящем направлении относительно ступени 406, 407, 408, 409 повышающего микширования, но в восходящем направлении относительно ступени 412 обратного преобразования. Преимущественно, как показано на иллюстрации, каждый модификатор в частотной области расположен параллельно с ретранслирующей линией, которая подключается в восходящем направлении относительно входной стороны модификатора в частотной области и в нисходящем направлении относительно связанного с ней переключателя. В силу такой конструкции модификатор в частотной области снабжается данными сигнала во все моменты времени, что делает возможной обработку в частотной области на основе большего количества кадров, чем только текущий кадр. Решение о том, применять первый 403 или второй 410 набор модификаторов в частотной области, может приниматься кодером (и передаваться в битовом потоке) или может основываться на том, применяется ли кодирование с предсказанием, или может основываться на каких-либо иных критериях, найденных подходящими в условиях практического применения. Например, если модификаторами в частотной области являются TNS-фильтры, то для некоторых видов сигналов преимущественным является использование первого набора 403, в то время как использование второго набора 410 может оказаться преимущественным для других видов сигналов. Если итог этого выбора закодирован в битовом потоке, то система декодера будет соответственно приводить в действие соответствующий набор TNS-фильтров.Figure 4 shows a decoder system of the same general design as that shown in Figure 2, but including at least two other designs. First, the system of Figure 4 includes switches 404, 411 that enable any processing stage involving frequency domain modification to be applied upstream and/or downstream of the upmixing stage. This is accomplished, on the one hand, by a first set of frequency domain modifiers 403 (depicted in this figure as TNS synthesis filters) provided in conjunction with a first switch 404 downstream of the dequantization modules 401 and the first switch node 402, but in a downstream direction. relative to the second switching node 405 located in the upstream direction immediately before the upmixing stage 406, 407, 408, 409. On the other hand, the decoder system includes a second set of frequency domain modifiers 410 that are provided in conjunction with a second switch 411 downstream of the upmix stage 406, 407, 408, 409, but upstream of the deconversion stage 412. Advantageously, as illustrated, each frequency domain modifier is arranged in parallel with a relay line that is connected upstream of the input side of the frequency domain modifier and downstream of an associated switch. By virtue of this design, the frequency domain modifier is supplied with signal data at all times, making it possible to process the frequency domain based on more frames than just the current frame. The decision whether to apply the first 403 or the second 410 set of modifiers in the frequency domain may be made by the encoder (and transmitted in the bit stream) or may be based on whether predictive coding is applied, or may be based on any other criteria found appropriate in conditions of practical application. For example, if the frequency domain modifiers are TNS filters, then for some types of signals the use of the first set 403 may be advantageous, while the use of the second set 410 may be advantageous for other types of signals. If the result of this selection is encoded in the bitstream, then the decoder system will drive the appropriate set of TNS filters accordingly.

Для облегчения понимания системы декодера, показанной на фигуре 4, следует недвусмысленно отметить, что декодирование сигнала, кодированного напрямую (L/R), происходит тогда, когда α=0 (это подразумевает, что псевдо-L/R и L/R идентичны, и что побочный и остаточный сигналы не отличаются), первый узел 402 переключения находится в режиме ретрансляции, второй узел переключения находится в суммарно-разностном режиме, что, таким образом, приводит к тому, что сигнал между вторым узлом 405 переключения и суммарно-разностной ступенью 409 ступени повышающего микширования имеет M/S-форму. Тогда, поскольку ступень повышающего микширования будет эффективно представлять собой ретранслирующую ступень, неважно, первый или второй набор модификаторов будет приводиться в действие (с использованием соответствующих переключателей 404, 411).To facilitate understanding of the decoder system shown in Figure 4, it should be unequivocally noted that decoding of a directly encoded (L/R) signal occurs when α=0 (this implies that pseudo-L/R and L/R are identical, and that the side and residual signals are not different), the first switching node 402 is in the relay mode, the second switching node is in the sum-difference mode, which thus causes the signal between the second switching node 405 and the sum-difference stage The 409 upmix stages are M/S-shaped. Then, since the upmix stage will effectively be a relay stage, it does not matter whether the first or second set of modifiers are actuated (using the corresponding switches 404, 411).

Фигура 3 иллюстрирует систему декодера согласно одному из вариантов осуществления изобретения, который, по отношению к вариантам по фигурам 2 и 4, представляет другой подход к созданию данных MDST, необходимых для повышающего микширования. Как и уже описанные системы декодера, система по фигуре 3 включает модули 301 деквантования, первый узел 302 переключения, действующий или в режиме ретрансляции, или в суммарно-разностном режиме, и (синтезирующие) TNS-фильтры 303, которые последовательно расположены начиная от входного конца системы декодера. Модули в нисходящем направлении от этой точки селективно используются посредством двух вторых переключателей 305, 310, которые предпочтительно действуют совместно так, чтобы они оба находились или в верхних положениях, или в нижних положениях, как указано на фигуре. На выходном конце системы декодера находится суммарно-разностная ступень 312 и, непосредственно перед ней в восходящем направлении, два модуля 306, 311 обратного MDCT, предназначенные для преобразования представления каждого из каналов в области MDCT в представление во временной области.Figure 3 illustrates a decoder system according to one embodiment of the invention, which, relative to the embodiments of Figures 2 and 4, represents a different approach to creating the MDST data needed for upmixing. Like the decoder systems already described, the system of Figure 3 includes dequantization modules 301, a first switching node 302 operating in either relay or sum-difference mode, and TNS (synthesis) filters 303, which are arranged in series from the input end. decoder systems. The modules downstream from this point are selectively used by two second switches 305, 310, which preferably operate together such that they are both in either the up positions or the down positions as indicated in the figure. At the output end of the decoder system is a sum-difference stage 312 and, immediately upstream of it, two inverse MDCT modules 306, 311 for converting the MDCT domain representation of each of the channels into a time domain representation.

При декодировании с комплексным предсказанием, где система декодера снабжается битовым потоком, в котором закодированы сигнал понижающего микширования /остаточный стереофонический сигнал и значения коэффициента комплексного предсказания, первый узел 302 переключения устанавливается в режим ретрансляции, а вторые переключатели 305, 310 устанавливаются в верхнее положение. В нисходящем направлении относительно TNS-фильтров два канала (деквантованного, TNS-фильтрованного, MDCT) звукового сигнала обрабатываются по-разному. Сигнал понижающего микширования подается, с одной стороны, в умножитель и сумматор 308, который добавляет MDCT-представление канала понижающего микширования, взвешенное по действительной части αR коэффициента предсказания, к MDCT-представлению остаточного канала и, с другой стороны, к одному из модулей 306 обратного MDCT-преобразования. Представление канала понижающего микширования М во временной области, которое является выходным сигналом из модуля 306 обратного MDCT-преобразования, подается и на конечную суммарно-разностную ступень 312, и в модуль 307 MDST-преобразования. Указанное двойное использование представления канала понижающего микширования во временной области является преимущественным с точки зрения вычислительной сложности. Полученное таким образом MDST-представление канала понижающего микширования подается в следующий умножитель и сумматор 309, который после взвешивания по мнимой части αI коэффициента предсказания добавляет этот сигнал к линейной комбинации на выходе сумматора 308; таким образом, выходной сигнал сумматора 309 представляет собой сигнал побочного канала, . Сходным образом с системой декодера, показанной на фигуре 2, умножители и сумматоры 308, 309 легко могут быть объединены с образованием взвешенного мультисигнального сумматора, который выводит MDCT- и MDST-представления сигнала понижающего микширования, MDCT-представление остаточного сигнала и значение коэффициента комплексного предсказания. В нисходящем направлении от этой точки в настоящем варианте осуществления изобретения перед тем, как сигнал побочного канала подается на конечную суммарно-разностную ступень 312, остается только прохождение через модуль 311 обратного MDCT-преобразования.In complex prediction decoding, where the decoder system is provided with a bitstream in which the downmix signal/residual stereo signal and complex prediction coefficient values are encoded, the first switch node 302 is set to the relay mode and the second switches 305, 310 are set to the up position. Downstream of the TNS filters, the two channels (dequantized, TNS filtered, MDCT) of the audio signal are processed differently. The downmix signal is supplied, on the one hand, to a multiplier and adder 308, which adds an MDCT representation of the downmix channel, weighted by the real part α R of the prediction coefficient, to the MDCT representation of the residual channel and, on the other hand, to one of the modules 306 inverse MDCT transformation. The time domain representation of the downmix channel M, which is the output signal from the inverse MDCT transform module 306, is supplied to both the final sum-difference stage 312 and the MDST transform module 307. This dual use of the time domain representation of the downmix channel is advantageous in terms of computational complexity. The MDST representation of the downmix channel thus obtained is fed to a further multiplier and adder 309, which, after weighting by the imaginary part αI of the prediction coefficient, adds this signal to the linear combination at the output of the adder 308; thus, the output of adder 309 is a side channel signal, . Similar to the decoder system shown in Figure 2, multipliers and adders 308, 309 can be easily combined to form a weighted multi-signal adder that outputs MDCT and MDST representations of the downmix signal, an MDCT representation of the residual signal, and a complex prediction coefficient value. Downstream from this point, in the present embodiment, all that remains is to pass through the inverse MDCT module 311 before the side channel signal is applied to the final sum-difference stage 312.

Необходимая синхронность в системе декодера может достигаться путем применения одинаковых длин преобразования и форм окон для обоих модулей 306, 311 обратного MDCT-преобразования, как уже применяется на практике в частотноизбирательном M/S- и L/R-кодировании. Комбинацией некоторых вариантов осуществления модуля 306 обратного MDCT-преобразования и некоторых вариантов осуществления модуля 307 MDST вводится задержка на один кадр. Поэтому предусматривается пять необязательных блоков 313 задержки (или команд программного обеспечения - для осуществления этого действия в компьютерной реализации) так, чтобы часть системы, расположенная справа от пунктирной линии при необходимости могла быть задержана на один кадр относительно левой части. Очевидно, все пересечения между пунктирной линией и линиями связи снабжаются блоками задержки за исключением линии связи между модулем 306 обратного MDCT и модулем 307 MDST-преобразования, которая находится там, где возникающая задержка нуждается в компенсации.The necessary synchrony in the decoder system can be achieved by using the same transform lengths and window shapes for both inverse MDCT modules 306, 311, as is already practiced in frequency selective M/S and L/R coding. A combination of some embodiments of the inverse MDCT module 306 and some embodiments of the MDST module 307 introduces a delay of one frame. Therefore, five optional delay blocks 313 (or software instructions - to perform this action in a computer implementation) are provided so that the part of the system located to the right of the dotted line can be delayed one frame relative to the left part if necessary. Obviously, all intersections between the dotted line and the communication lines are provided with delay units with the exception of the communication line between the inverse MDCT module 306 and the MDST transform module 307, which is where the resulting delay needs to be compensated.

Вычисление данных MDST для одного временного кадра требует данных одного кадра из представления во временной области. Однако обратное MDCT-преобразование основывается на одном (текущем), двух (предпочтительно - предыдущем и текущем) или трех (предпочтительно - предыдущем, текущем и следующем) последовательных кадрах. В силу хорошо известного подавления побочных низкочастотных составляющих (TDAC), связанного с MDCT, трехкадровая возможность выполняет полное перекрывание входных кадров и, таким образом, обеспечивает наилучшую (и, вероятно, совершенную) точность, по меньшей мере, для кадров, содержащих побочные низкочастотные составляющие во временной области. Ясно, что трехкадровое обратное MDCT действует с задержкой на один кадр. Допуская использование приближенного представления во временной области в качестве входного сигнала в MDST-преобразование, можно избежать этой задержки и, таким образом, необходимости в компенсации задержек между различными частями системы декодера. В двухкадровой возможности в более ранней половине кадра возникает наложение/сложение, делающее возможным TDAC, и побочные низкочастотные составляющие могут присутствовать только в более поздней половине кадра. В однокадровой возможности отсутствие TDAC подразумевает, что в кадре могут появляться побочные низкочастотные составляющие; однако MDST-представление, достигаемое таким образом используемое в качестве промежуточного сигнала в кодировании с комплексным предсказанием, может по-прежнему обеспечивать удовлетворительное качество.Computing MDST data for one time frame requires one frame's data from the time domain representation. However, the inverse MDCT is based on one (current), two (preferably previous and current), or three (preferably previous, current and next) consecutive frames. Due to the well-known TDAC rejection associated with MDCT, the three-frame capability performs complete overlap of input frames and thus provides the best (and likely perfect) accuracy, at least for frames containing TDAC. in the time domain. It is clear that three-frame inverse MDCT operates with a delay of one frame. By allowing the use of an approximate time domain representation as input to the MDST transform, this delay and thus the need to compensate for delays between different parts of the decoder system can be avoided. In a two-frame capability, aliasing/addition occurs in the earlier half of the frame, making TDAC possible, and spurious low-frequency components may only be present in the later half of the frame. In a single-frame capability, the absence of TDAC implies that low-frequency spurious components may appear in the frame; however, the MDST representation thus achieved when used as an intermediate signal in complex prediction coding can still provide satisfactory quality.

Система декодирования, проиллюстрированная на фигуре 3, также может действовать в двух режимах декодирования без предсказания. Для декодирования L/R-стереофонического сигнала, кодированного напрямую, вторые переключатели 305, 310 устанавливаются в нижнее положение, и первый узел 302 переключения устанавливается в режим ретрансляции. Таким образом, сигнал имеет L/R-форму в восходящем направлении относительно суммарно-разностной ступени 304, которая преобразовывает его в M/S-форму, на которой происходит обратное MDCT-преобразование и суммарно-разностная операция. Для декодирования стереофонического сигнала, представленного в совместно кодированной M/S-форме, первый узел 302 переключения вместо этого устанавливается в суммарно-разностный режим так, чтобы сигнал между первым узлом 302 переключения и суммарно-разностной ступенью 304 имел L/R-форму, которая часто является более подходящей с точки зрения TNS-фильтрации, чем могла бы быть M/S-форма.The decoding system illustrated in FIG. 3 can also operate in two non-predictive decoding modes. To decode a direct L/R stereo signal, the second switches 305, 310 are set to the down position and the first switch unit 302 is set to the relay mode. Thus, the signal has an L/R form in the upstream direction relative to the sum-difference stage 304, which converts it to the M/S form, on which the inverse MDCT transform and sum-difference operation occurs. To decode a stereo signal presented in co-encoded M/S form, the first switching node 302 is instead set to sum-difference mode so that the signal between the first switching node 302 and the sum-difference stage 304 has an L/R form that is often more suitable for TNS filtering than the M/S form would be.

Обработка в нисходящем направлении относительно суммарно-разностной ступени 304 идентична обработке в случае прямого L/R-декодирования.The downstream processing with respect to the sum-difference stage 304 is identical to the processing in the case of direct L/R decoding.

Фигура 14 состоит из трех обобщенных блок-схем декодеров согласно вариантам осуществления изобретения. В отличие от некоторых других блок-схем, сопровождающих данную заявку, линия связи на фигуре 14 может символизировать многоканальный сигнал. В частности, указанная линия связи может располагаться для передачи стереофонического сигнала, включающего левый/правый, средний/побочный, понижающего микширования/остаточный, псевдо-левый/ псевдо-правый каналы и другие комбинации.Figure 14 consists of three general block diagrams of decoders according to embodiments of the invention. Unlike some of the other block diagrams accompanying this application, the communication line in Figure 14 may symbolize a multi-channel signal. In particular, said link may be arranged to transmit a stereo signal including left/right, mid/side, downmix/residual, pseudo left/pseudo right channels, and other combinations.

Фигура 14А показывает систему декодера, предназначенную для декодирования представления входного сигнала в частотной области (указываемого для целей данной фигуры как MDCT-представление). Система декодера адаптирована для передачи в качестве выходного сигнала представления стереофонического сигнала во временной области, которое генерируется на основе входного сигнала. Для того, чтобы иметь возможность декодировать входной сигнал, закодированный посредством стереофонического кодирования с комплексным предсказанием, система декодера оснащается ступенью 1410 повышающего микширования. Однако она также способна манипулировать с входным сигналом, закодированным в других форматах, и, возможно, с сигналом, который чередуется во времени между несколькими форматами кодирования, например, за последовательностью временных кадров, закодированной посредством кодирования с комплексным предсказанием, может следовать временной участок, закодированный посредством прямого левого/правого кодирования. Способность системы декодера манипулировать с различными форматами кодирования достигается путем создания линии связи (ретрансляции), расположенной параллельно указанной ступени 1410 повышающего микширования. Посредством переключателя 1411 можно выбрать, выходной сигнал ступени 1410 повышающего микширования (нижнее положение переключателя на фигуре) или необработанный сигнал, доступный над линией связи (верхнее положение переключателя на фигуре), будет подаваться в модули декодера, расположенные дальше в нисходящем направлении. В данном варианте осуществления изобретения модуль 1412 обратного MDCT, который преобразовывает MDCT-представление сигнала в представление во временной области, располагается в нисходящем направлении относительно переключателя. Например, сигнал, подаваемый на ступень 1410 повышающего микширования, может представлять собой стереофонический сигнал в форме понижающего микширования /остаточной форме. Ступень 1410 повышающего микширования адаптирована для получения побочного сигнала и для выполнения суммарно-разностной операции так, чтобы выходным сигналом являлся левый/правый стереофонический сигнал (в области MDCT).Figure 14A shows a decoder system configured to decode a frequency domain representation of an input signal (referred to for purposes of this figure as an MDCT representation). The decoder system is adapted to provide as an output a time domain representation of a stereo signal that is generated from the input signal. In order to be able to decode an input signal encoded by complex prediction stereo coding, the decoder system is equipped with an upmixing stage 1410. However, it is also capable of manipulating an input signal encoded in other formats, and possibly a signal that is interleaved in time between multiple encoding formats, for example, a sequence of time frames encoded using complex prediction coding may be followed by a time segment encoded via direct left/right encoding. The ability of the decoder system to manipulate various encoding formats is achieved by creating a communication line (relay) located in parallel with the specified upmix stage 1410. Switch 1411 can select whether the output signal of the upmix stage 1410 (lower switch position in the figure) or the dry signal available above the link (upper switch position in the figure) will be supplied to decoder modules further downstream. In this embodiment, the inverse MDCT module 1412, which converts the MDCT representation of the signal to a time domain representation, is located downstream of the switch. For example, the signal supplied to the upmix stage 1410 may be a stereo signal in downmix/residual form. The upmixing stage 1410 is adapted to receive the side signal and to perform a sum-difference operation such that the output signal is a left/right stereo signal (in the MDCT domain).

Фигура 14В показывает систему декодера, сходную с системой по фигуре 14А. Настоящая система адаптирована для приема битового потока в качестве входного сигнала. Вначале битовый поток обрабатывается комбинированным модулем 1420 демультиплексора и деквантования, который создает в качестве первого выходного сигнала MDCT-представление многоканального стереофонического сигнала для дальнейшей обработки, которая определяется положением переключателя 1422, имеющего ту же функцию, что и переключатель 1411 по фигуре 14А. Точнее, переключатель 1422 определяет, должен первый выходной сигнал из демультиплексора и деквантования обрабатываться ступенью 1421 повышающего микширования и модулем 1423 обратного MDCT (нижнее положение) или только модулем 1423 обратного MDCT (верхнее положение). Комбинированный модуль 1420 демультиплексора и деквантования также выводит управляющую информацию. В настоящем случае управляющая информация, связанная со стереофоническим сигналом, может включать данные, указывающие на то, какое из положений переключателя 1422, нижнее или верхнее, подходит для декодирования сигнала, или, более абстрактно, согласно какому формату кодирования должен декодироваться стереофонический сигнал. Управляющая информация также может включать параметры для регулировки свойств ступени 1421 повышающего микширования, например, значение коэффициента комплексного предсказания α, использованного при кодировании с комплексным предсказанием, как уже описано выше.Figure 14B shows a decoder system similar to that of Figure 14A. The present system is adapted to receive a bit stream as an input signal. First, the bitstream is processed by a combined demultiplexer and dequantization module 1420, which produces as a first output an MDCT representation of a multi-channel stereo signal for further processing, which is determined by the position of a switch 1422 having the same function as switch 1411 in FIG. 14A. More specifically, switch 1422 determines whether the first output signal from the demultiplexer and dequantization should be processed by the upmixing stage 1421 and the inverse MDCT module 1423 (lower position) or only the inverse MDCT module 1423 (higher position). The combined demultiplexer and dequantization module 1420 also outputs control information. In the present case, the control information associated with the stereo signal may include data indicating which position of the switch 1422, lower or higher, is suitable for decoding the signal, or, more abstractly, according to which encoding format the stereo signal should be decoded. The control information may also include parameters for adjusting properties of the upmix stage 1421, for example, the value of the complex prediction coefficient α used in complex prediction coding, as already described above.

Фигура 14С показывает систему декодера, которая, в дополнение к объектам, аналогичным таковым на фигуре 14В, включает, первое и второе устройства 1431, 1435 модификации в частотной области, соответственно, расположенные в восходящем и нисходящем направлениях относительно ступени 1433 повышающего микширования. Для целей данной фигуры каждое устройство модификации в частотной области проиллюстрировано TNS-фильтром. Однако под термином «устройство модификации в частотной области» также могут пониматься и иные процессы, чем TNS-фильтрация, для которых допустимо применение или перед ступенью, или после ступени повышающего микширования. Примеры модификаций в частотной области включают предсказание, накопление помех, растягивание полосы пропускания и нелинейную обработку. Психоакустические соображения и похожие причины, которые, возможно, включают свойства сигнала, подвергаемого обработке, и/или конфигурацию или настройки устройства модификации в частотной области, иногда указывают, что преимущественным является применение указанной модификации в частотной области в восходящем, а не в нисходящем направлении относительно ступени 1433 повышающего микширования. В других случаях путем похожих соображений может быть установлено, что расположение модификации в частотной области в нисходящем направлении более предпочтительно, чем расположение в восходящем направлении. Посредством переключателей 1432, 1436 устройства 1431, 1435 модификации в частотной области могут селективно приводиться в действие так, чтобы, в ответ на управляющую информацию, система декодера могла выбирать требуемую конфигурацию. Например, фигура 14С показывает конфигурацию, в которой стереофонический сигнал из комбинированного модуля 1430 демультиплексора и деквантования вначале обрабатывается первым устройством 1431 модификации в частотной области, затем подается к ступени 1433 повышающего микширования и в конце направляется прямо в модуль 1437 обратного MDCT без прохождения через второе устройство 1435 модификации в частотной области. Как разъясняется в разделе «Краткое описание изобретения», в кодировании с комплексным предсказанием данная конфигурация является предпочтительной перед возможностью выполнения TNS после повышающего микширования.Figure 14C shows a decoder system that, in addition to entities similar to those in Figure 14B, includes first and second frequency domain modification devices 1431, 1435, respectively, located upstream and downstream of the upmix stage 1433. For purposes of this figure, each frequency domain modification device is illustrated by a TNS filter. However, the term "frequency domain modification device" can also refer to processes other than TNS filtering, which can be used either before or after the upmixing stage. Examples of modifications in the frequency domain include prediction, interference accumulation, bandwidth stretching, and nonlinear processing. Psychoacoustic considerations and similar reasons, which possibly include the properties of the signal being processed and/or the configuration or settings of the frequency domain modification apparatus, sometimes indicate that it is advantageous to apply said frequency domain modification in an upstream rather than downstream direction relative to upmix stages 1433. In other cases, similar considerations may determine that a downstream location of the frequency domain modification is preferable to an upstream location. By means of switches 1432, 1436, frequency domain modification devices 1431, 1435 can be selectively actuated so that, in response to control information, the decoder system can select the desired configuration. For example, Figure 14C shows a configuration in which a stereo signal from a combined demultiplexer and dequantization module 1430 is first processed by a first frequency domain modification device 1431, then supplied to an upmixer stage 1433, and finally sent directly to an inverse MDCT module 1437 without passing through the second device. 1435 modifications in the frequency domain. As explained in the Summary of the Invention section, in complex prediction coding, this configuration is preferred over the option of performing TNS after upmixing.

II. Системы кодераII. Encoder systems

Система кодера согласно изобретению будет описана ниже с отсылкой к фигуре 5, которая представляет собой обобщенную блок-схему системы кодера, предназначенной для кодирования левого/правого (L/R) стереофонического сигнала как выходного битового потока посредством кодирования с комплексным предсказанием. Система кодера принимает представление сигнала во временной или в частотной области и подает его на ступень понижающего микширования и в оцениватель коэффициента предсказания. Действительные и мнимые части коэффициентов предсказания передаются на ступень понижающего микширования для управления преобразованием левого и правого каналов в канал понижающего микширования и остаточный канал, которые затем подаются в конечный мультиплексор MUX. Если сигнал не подается в кодер как представление в частотной области, то он преобразовывается в такое представление на ступени понижающего микширования или в мультиплексоре.An encoder system according to the invention will be described below with reference to FIG. 5, which is a generalized block diagram of an encoder system for encoding a left/right (L/R) stereo signal as an output bitstream through complex prediction encoding. The encoder system receives a time or frequency domain representation of the signal and feeds it to a downmixing stage and a prediction coefficient estimator. The real and imaginary parts of the prediction coefficients are passed to a downmix stage to control the conversion of the left and right channels into a downmix channel and a residual channel, which are then fed to the final MUX. If the signal is not supplied to the encoder as a frequency domain representation, then it is converted to such a representation in a downmixing stage or multiplexer.

Одним из принципов кодирования с предсказанием является преобразование левого/правого сигнала в среднюю/побочную форму, т.е.: One of the principles of predictive coding is to transform the left/right signal into a middle/side form, i.e.:

, ,

а затем использование остаточной корреляции между этими каналами, т.е. заданиеand then using the residual correlation between these channels, i.e. exercise

, ,

где α - коэффициент комплексного предсказания, который требуется определить, и D - остаточный сигнал. Можно выбрать α так, чтобы энергия остаточного сигнала минимизировалась. Минимизация энергии может производиться относительно мгновенной мощности, кратко- или долговременной энергии (средней мощности), что в случае дискретного сигнала равносильно оптимизации в среднеквадратическом значении.where α is the complex prediction coefficient to be determined, andD - residual signal. You can choose α so that the energy of the residual signal minimized. Energy minimization can be performed relative to instantaneous power, short-term or long-term energy (average power), which in the case of a discrete signal is equivalent to optimization in the rms value.

Действительная и мнимая части αR, αI коэффициента предсказания могут квантоваться и/или кодироваться совместно. Предпочтительно, однако, чтобы действительная и мнимая части квантовались независимо и единообразно, как правило, с величиной шага 0,1 (безразмерное число). В соответствии со стандартом MPEG, разрешающая способность полосы частот, используемая для коэффициента комплексного предсказания необязательно аналогична разрешающей способности для полос масштабных коэффициентов (sfb; т.е. группы линий MDCT, которые используют одну и ту же величину шага MDCT-квантования и диапазон квантования). В частности, разрешающая способность полосы частот для коэффициента предсказания может быть обоснована психоакустически, как, например, шкала Барка. Следует отметить, что разрешающая способность полосы частот может изменяться в случае изменения длины преобразования.Real and imaginary parts of αR, αIprediction coefficients may be quantized and/or jointly encoded. It is preferable, however, that the real and imaginary parts are quantized independently and uniformly, typically with a step size of 0.1 (a dimensionless number). According to the MPEG standard, the resolution of the frequency band used for the complex prediction coefficient is not necessarily the same as the resolution of the scale factor bands (sfb; those. groups of MDCT lines that use the same MDCT quantization step size and quantization range). In particular, the resolution of the frequency band for the prediction coefficient can be justified psychoacoustically, such as the Bark scale. It should be noted that the resolution of the frequency band may change if the conversion length changes.

Как уже отмечалось, система кодера согласно изобретению может иметь свободу в том, применять стереофоническое кодирование с предсказанием или нет, где последний случай подразумевает обратный переход на пониженный уровень - к L/R- или M/S-кодированию. Указанное решение может приниматься на основе временного кадра или, тоньше, на основе полосы частот в пределах временного кадра. Как отмечалось выше, отрицательный результат принятия решения может сообщаться декодирующему объекту различными способами, например, посредством значения специально предназначенного бита-индикатора в каждом кадре, или по отсутствию (или нулевой величине) значения коэффициента предсказания. Положительное решение может передаваться аналогично. Особенно преимущественная реализация, которая делает возможным обратный переход на пониженный уровень без каких-либо накладных затрат, использует зарезервированное четвертое значение двухбитного поля ms_mask_present (см. MPEG-2 AAC, документ ISO/IEC 131818-7), которое передается в каждом кадре и определяется следующим образом:As already noted, the encoder system of the invention may have the freedom to use predictive stereo coding or not, where the latter case implies a downgrade back to L/R or M/S coding. This decision may be made on a time frame basis or, more precisely, on a frequency band within a time frame. As noted above, a negative decision result may be communicated to the decoding entity in various ways, for example, by the value of a dedicated indicator bit in each frame, or by the absence (or zero value) of a prediction coefficient value. A positive decision can be conveyed in a similar way. A particularly advantageous implementation, which makes downgrading possible without any overhead, uses the reserved fourth value of the two-bit ms_mask_present field (see MPEG-2 AAC document ISO/IEC 131818-7), which is transmitted in each frame and is determined in the following way:

Таблица 1: Определение ms_mask_present в USACTable 1: USAC ms_mask_present definition ЗначениеMeaning СмыслMeaning 0000 L/R-кодирование для всех частотных полосL/R coding for all frequency bands 0101 Для указания L/R- или M/S используется один сигнальный бит на полосуOne signal bit per strip is used to indicate L/R- or M/S 1010 M/S-кодирование для всех частотных полосM/S coding for all frequency bands 11eleven ЗарезервированноеReserved

При переопределении значения 11 так, чтобы оно означало «кодирование с комплексным предсказанием», кодер может действовать во всех режимах совместимости, в частности, в режимах M/S- и L/R-кодирования, без какой-либо потери битовой скорости передачи данных и по-прежнему способен передавать сигнал о кодировании с комплексным предсказанием для тех кадров, где оно является преимущественным.By redefining the value 11 to mean "complex prediction coding", the encoder can operate in all compatibility modes, particularly M/S and L/R coding modes, without any loss of bit rate and is still capable of signaling complex prediction coding for those frames where it is advantageous.

Соответствующее решение может основываться на соображениях о соотношении скорости передачи данных и качества звука. В качестве меры качества могут использоваться данные, полученные с использованием психоакустической модели, заключенной в кодере (как часто бывает в случае имеющихся в наличии кодеров звука на основе MDCT). В частности, некоторые варианты осуществления кодера предусматривают выбор коэффициента предсказания, оптимизированного на основе соотношения скорости и искажений. Соответственно, в таких вариантах осуществления изобретения мнимая часть, - а, возможно, также и действительная часть, - коэффициента предсказания приравнивается нулю в случае, если выигрыш от предсказания не экономит достаточно битов для кодирования остаточного сигнала так, чтобы это оправдывало затраты битов, необходимых для кодирования коэффициента предсказания.The decision may be based on data transfer speed versus audio quality considerations. Data obtained using a psychoacoustic model embedded in the encoder can be used as a measure of quality (as is often the case with commercially available MDCT-based audio encoders). In particular, some encoder embodiments select a prediction coefficient that is optimized based on rate versus distortion. Accordingly, in such embodiments, the imaginary part, and possibly also the real part, of the prediction coefficient is set to zero in the event that the prediction gain does not save enough bits to encode the residual signal so as to justify the cost of the bits required to prediction coefficient encoding.

Варианты осуществления кодера могут кодировать информацию, относящуюся к TNS, в битовом потоке. Эта информация может включать значения параметров TNS, которые применяются (синтезирующими) TNS-фильтрами на стороне декодера. Если для обоих каналов используются идентичные наборы параметров TNS, более экономным является включение сигнального бита, указывающего на эту идентичность наборов параметров, а не независимая передача двух наборов параметров. Также может быть включена информация о том, следует применять TNS перед или после ступени повышающего микширования, как дóлжно на основании, например, психоакустической оценки обеих доступных возможностей.Embodiments of the encoder may encode TNS-related information into a bit stream. This information may include TNS parameter values that are applied by TNS (synthesis) filters on the decoder side. If identical TNS parameter sets are used for both channels, it is more economical to include a signal bit indicating this parameter set identity rather than transmitting the two parameter sets independently. Information may also be included as to whether TNS should be applied before or after the upmixing stage, as appropriate based on, for example, a psychoacoustic assessment of both available capabilities.

В качестве еще одного необязательного характерного признака, который является потенциально полезным с точки зрения сложности и битовой скорости передачи данных, кодер может адаптироваться для использования отдельно ограниченной полосы пропускания при кодировании остаточного сигнала. Полосы частот выше этого предела не будут передаваться в декодер, но будут приравнены нулю. В некоторых случаях самые высокочастотные полосы имеют настолько низкое энергосодержание, что они квантуются в нуль. В стандартной практике (ср. с параметром max_sfb в стандарте MPEG) обычно используется одинаковое ограничение полосы пропускания и для сигнала понижающего микширования, и для остаточного сигнала. К настоящему времени авторы изобретения экспериментально обнаружили, что остаточный сигнал в большей степени, чем сигнал понижающего микширования, имеет энергосодержание, локализованное в полосах менее высоких частот. Поэтому, помещая специально предназначенный верхний предел ширины полосы пропускания на остаточный сигнал, возможно снижение битовой скорости передачи данных без существенной потери качества. Например, это может выполняться путем передачи двух независимых параметров max_sfb: одного - для сигнала понижающего микширования, и одного - для остаточного сигнала.As another optional feature that is potentially beneficial in terms of complexity and bit rate, the encoder may be adapted to use a separately limited bandwidth when encoding the residual signal. Frequency bands above this limit will not be transmitted to the decoder, but will be set to zero. In some cases, the highest frequency bands have such low energy content that they are quantized to zero. Standard practice (cf. the max_sfb parameter in the MPEG standard) typically uses the same bandwidth limit for both the downmix signal and the residual signal. To date, the inventors have experimentally discovered that the residual signal, to a greater extent than the downmix signal, has energy content localized in lower frequency bands. Therefore, by placing a dedicated bandwidth upper limit on the residual signal, it is possible to reduce the data bit rate without significant loss of quality. For example, this could be accomplished by passing two independent max_sfb parameters: one for the downmix signal, and one for the residual signal.

Следует отметить, что, хотя вопросы оптимального определения коэффициента предсказания, его квантования и кодирования, обратного перехода на пониженный уровень в режим M/S или L/R, TNS-фильтрации, верхнего ограничения полосы пропускания и т.д. обсуждались в отношении системы декодера, показанной на фигуре 5, те же факты в равной степени применимы и к вариантам осуществления изобретения, который будут раскрыты ниже с отсылкой к следующим фигурам.It should be noted that, although the issues of optimal determination of the prediction coefficient, its quantization and encoding, downshifting to the M/S or L/R mode, TNS filtering, upper bandwidth limitation, etc. have been discussed with respect to the decoder system shown in Figure 5, the same facts apply equally to the embodiments of the invention that will be disclosed below with reference to the following figures.

Фигура 6 показывает другую систему кодера согласно изобретению, адаптированную для выполнения стереофонического кодирования с комплексным предсказанием. Система принимает в качестве входного сигнала представление стереофонического сигнала во временной области, сегментированного на последовательные, возможно, перекрывающиеся временные кадры и включающего левый и правый каналы. Суммарно-разностная ступень 601 преобразовывает сигнал в средний и побочный каналы. Средний канал подается и в модуль 602 MDCT, и в модуль 603 MDST, в то время как побочный канал подается только в модуль 604 MDCT. Оцениватель 605 коэффициента предсказания оценивает для каждого временного кадра - и, возможно, для отдельных частотных полос в пределах кадра - значение коэффициента комплексного предсказания α, как это разъяснено выше. Значение коэффициента α подается в качестве весового коэффициента во взвешенные сумматоры 606, 607, которые формируют остаточный сигнал D как линейную комбинацию MDCT- и MDST-представлений среднего сигнала и MDCT-представления побочного сигнала. Предпочтительно, коэффициент комплексного предсказания подается во взвешенные сумматоры 606, 607 представленным в той же схеме квантования, которая будет использоваться при его кодировании в битовый поток; это, очевидно, обеспечивает более достоверную реконструкцию, поскольку и кодер, и декодер применяют одно и то же значение коэффициента предсказания. Остаточный сигнал, средний сигнал (который, более соответственно, называется сигналом понижающего микширования, когда он возникает в сочетании с остаточным сигналом) и коэффициент предсказания подаются на комбинированную ступень 608 квантования и мультиплексора, которая кодирует их и возможную дополнительную информацию в выходной битовый поток.Figure 6 shows another encoder system according to the invention adapted to perform stereo complex prediction coding. The system takes as input a time domain representation of a stereo signal, segmented into successive, possibly overlapping time frames and including left and right channels. A sum-difference stage 601 converts the signal into the middle and side channels. The middle channel is supplied to both the MDCT module 602 and the MDST module 603, while the side channel is supplied only to the MDCT module 604. The prediction coefficient estimator 605 estimates for each time frame—and possibly for individual frequency bands within the frame—the value of the complex prediction coefficient α, as explained above. The value of the coefficient α is supplied as a weighting factor to the weighted adders 606, 607, which generate the residual signal D as a linear combination of the MDCT and MDST representations of the average signal and the MDCT representation of the spurious signal. Preferably, the complex prediction coefficient is supplied to the weighted adders 606, 607 represented in the same quantization scheme that will be used when encoding it into the bit stream; this obviously provides a more reliable reconstruction since both the encoder and decoder apply the same value of the prediction coefficient. The residual signal, the average signal (which is more appropriately called a downmix signal when it occurs in combination with the residual signal), and the prediction coefficient are supplied to a combined quantization and multiplexer stage 608, which encodes them and possible additional information into the output bitstream.

Фигура 7 показывает изменение системы кодера по фигуре 6. Как видно из сходства символов на фигуре, она имеет сходную конструкцию, но также содержит и дополнительную функцию действия в режиме обратного перехода на пониженный уровень прямого L/R-кодирования. Система кодера приводится в действие между режимом кодирования с комплексным предсказанием и режимом обратного перехода на пониженный уровень посредством переключателя 710, предусмотренного в восходящем направлении непосредственно перед комбинированной ступенью 709 квантования и мультиплексора. В верхнем положении, как показано на фигуре, переключатель 710 будет приводить к действию кодера в режиме обратного перехода на пониженный уровень. Из точек в нисходящем направлении непосредственно за модулями 702, 704 MDCT средний/побочный сигнал подается на суммарно-разностную ступень 705, которая после преобразования в левую/правую форму пропускает его к переключателю 710, который связывает его с комбинированной ступенью 709 квантования и мультиплексора.Figure 7 shows a modification of the encoder system of Figure 6. As can be seen from the similarity of symbols in the figure, it has a similar design, but also contains the additional function of operating in the reverse downshift mode of direct L/R encoding. The encoder system is driven between a complex prediction encoding mode and a downshift mode by a switch 710 provided in the upstream direction immediately before the combined quantization and multiplexer stage 709. In the up position, as shown in the figure, switch 710 will cause the encoder to operate in a downshift mode. From points in the downstream direction directly behind the MDCT modules 702, 704, the average/side signal is fed to a sum-difference stage 705 which, after being converted to left/right form, passes it to a switch 710 which couples it to a combined quantization and multiplexer stage 709.

Фигура 8 показывает систему кодера согласно настоящему изобретению. В отличие от систем кодера по фигурам 6 и 7, данный вариант осуществления изобретения получает данные MDST, необходимые для кодирования с комплексным предсказанием, непосредственно из данных MDCT, т.е. путем преобразования действительного в мнимое в частотной области. Преобразование действительного в мнимое применяет какой-либо из подходов, описанных в связи с системами декодера по фигурам 2 и 4. Важно, чтобы способ вычисления в декодере совпадал со способом вычисления в кодере так, чтобы могло выполняться достоверное декодирование; предпочтительно, на стороне кодера и на стороне декодера используются одинаковые способы преобразования действительного в мнимое. Как и для вариантов осуществления декодера, участок А, окруженный пунктирной линией и включающий преобразование 804 действительного в мнимое, может быть замещен приближенными вариантами с использованием в качестве входных данных меньшего количества входных временных кадров. Аналогично, кодирование может быть упрощено с использованием любого из описанных выше, или какого-либо другого, приближенного метода.Figure 8 shows an encoder system according to the present invention. Unlike the encoder systems of Figures 6 and 7, this embodiment of the invention obtains the MDST data required for complex prediction coding directly from the MDCT data, i.e. by transforming the real into the imaginary in the frequency domain. The real-to-imaginary conversion employs any of the approaches described in connection with the decoder systems of Figures 2 and 4. It is important that the calculation method in the decoder matches the calculation method in the encoder so that reliable decoding can be performed; Preferably, the encoder side and the decoder side use the same real-to-imaginary conversion techniques. As with the decoder embodiments, the portion A enclosed by the dotted line and including the real-to-imaginary transform 804 may be replaced by approximations using fewer input time frames as input. Likewise, encoding can be simplified using any of the methods described above, or some other approximate method.

На более высоком уровне система 8 имеет конструкцию, которая отличается от конструкции, которая могла бы следовать за прямым действием по замещению модуля MDST на фигуре 7 (надлежащим образом подключенным) модулем преобразования действительного в мнимое. Настоящая архитектура понятна и выполняет функцию переключения между кодированием с предсказанием и прямым L/R-кодированием устойчивым и вычислительно экономичным способом. Входной стереофонический сигнал подается в модули 801 MDCT-преобразования, которые выводят представление каждого из каналов в частотной области. Оно подается и в конечный переключатель 808 для приведения в действие системы кодера между режимами кодирования с предсказанием и прямого кодирования, и на суммарно-разностную ступень 802. В прямом L/R-кодировании, или совместном M/S-кодировании, которое осуществляется во временном кадре, для которого коэффициент предсказания приравнен нулю, - данный вариант осуществления изобретения подвергает входной сигнал только MDCT-преобразованию, квантованию и мультиплексированию, где последние два этапа выполняются комбинированной ступенью 807 квантования и мультиплексора, расположенной на выходном конце системы, куда подается битовый поток. При кодировании с предсказанием каждый из каналов претерпевает дальнейшую обработку между суммарно-разностной ступенью 802 и переключателем 808. Из MDCT-представления среднего сигнала преобразование 804 действительного в мнимое получает данные MDST и направляет их и в оцениватель 803 коэффициента предсказания, и во взвешенный сумматор 806. Как и в системах кодера по фигурам 6 и 7, следующий взвешенный сумматор 805 используется для объединения побочного сигнала с взвешенными MDCT- и MDST-представлениями среднего сигнала с целью формирования сигнала остаточного канала, который кодируется совместно с сигналом среднего канала (т.е. канала понижающего микширования) и с коэффициентом предсказания при помощи комбинированного модуля 807 квантования и мультиплексора.At a higher level, system 8 has a design that is different from the design that would follow the direct action of replacing the MDST module in Figure 7 with a (properly connected) real-to-imaginary conversion module. The present architecture is straightforward and performs the function of switching between predictive coding and direct L/R coding in a robust and computationally efficient manner. The input stereo signal is supplied to MDCT conversion modules 801, which output a frequency domain representation of each of the channels. It is supplied to both the limit switch 808 for driving the encoder system between predictive and direct coding modes, and to the sum-difference stage 802. In direct L/R coding, or joint M/S coding, which is carried out in time frame for which the prediction coefficient is set to zero, this embodiment of the invention subjects the input signal only to MDCT, quantization and multiplexing, where the last two steps are performed by a combined quantization and multiplexer stage 807 located at the output end of the system to which the bit stream is supplied. In predictive coding, each of the channels undergoes further processing between the sum-difference stage 802 and the switch 808. From the MDCT representation of the average signal, the real-to-imaginary transform 804 obtains the MDST data and feeds it to both the prediction coefficient estimator 803 and the weighted adder 806. As in the encoder systems of FIGS. 6 and 7, a further weighted adder 805 is used to combine the side signal with the weighted MDCT and MDST representations of the average signal to form a residual channel signal that is co-encoded with the average channel signal (i.e. downmix) and with a prediction coefficient using a combined quantizer and multiplexer 807.

С отсылкой к фигуре 9 будет проиллюстрировано, что каждый из вариантов осуществления системы кодера может объединяться с одним или несколькими (анализирующими) TNS-фильтрами. В соответствии с предыдущими обсуждениями, часто более преимущественным является применение TNS-фильтрации к сигналу в его форме понижающего микширования. Поэтому, как показано на фигуре 9, адаптация системы кодера по фигуре 7 для включения в нее TNS выполняется путем добавления TNS-фильтров 911 в восходящем направлении непосредственно перед комбинированным модулем 909 квантования и мультиплексора.With reference to Figure 9, it will be illustrated that each of the encoder system embodiments may be combined with one or more TNS (analysis) filters. Consistent with previous discussions, it is often advantageous to apply TNS filtering to the signal in its downmix form. Therefore, as shown in Figure 9, adapting the encoder system of Figure 7 to include TNS is accomplished by adding TNS filters 911 upstream just before the combined quantizer and multiplexer module 909.

Вместо правого/остаточного TNS-фильтра 911b в нисходящем направлении непосредственно за участком переключателя 910, адаптированного для манипуляций с правым, или остаточным, каналом, могут предусматриваться два отдельных TNS-фильтра (не показаны). Таким образом, каждый из двух TNS-фильтров будет снабжаться данными сигнала соответствующего канала во все моменты времени, что делает возможной TNS-фильтрацию на основе одного или нескольких временных кадров, а не только текущего кадра. Как уже было отмечено, TNS-фильтры являются всего лишь примером устройств модификации в частотной области, в особенности устройств, основывающих обработку на большем количестве кадров, чем только текущий кадр, которые при таком расположении могут извлекать такую же или бóльшую выгоду, чем извлекает TNS-фильтр.Instead of the right/residual TNS filter 911b in the downstream direction immediately behind the portion of the switch 910 adapted for manipulation of the right or residual channel, two separate TNS filters (not shown) may be provided. Thus, each of the two TNS filters will be supplied with the signal data of the corresponding channel at all times, which makes it possible to TNS filtering based on one or more time frames, and not just the current frame. As noted, TNS filters are just an example of frequency domain modification devices, particularly devices that base processing on more frames than just the current frame, which when so positioned can benefit as much or more than the TNS does. filter.

В качестве другой возможной альтернативы варианту осуществления изобретения, показанному на фигуре 9, TNS-фильтры, предназначенные для селективного приведения в действие, могут размещаться более чем в одной точке для каждого канала. Эта конструкция сходна с конструкцией системы декодера, показанной на фигуре 4, где разные наборы TNS-фильтров могут быть связаны посредством переключателей. Это позволяет делать выбор наиболее подходящей ступени при TNS-фильтрации для каждого временного кадра. В частности, может оказаться преимущественным переключение между различными положениями TNS в связи с переключением между стереофоническим кодированием с комплексным предсказанием и другими режимами кодирования.As another possible alternative to the embodiment of the invention shown in Figure 9, TNS filters designed for selective actuation may be placed at more than one point for each channel. This design is similar to the decoder system design shown in Figure 4, where different sets of TNS filters can be coupled via switches. This allows you to select the most appropriate TNS filtering stage for each time frame. In particular, it may be advantageous to switch between different TNS positions in connection with switching between complex prediction stereo coding and other coding modes.

Фигура 11 показывает изменение, основанное на системе кодера по фигуре 8, в котором посредством преобразования 1105 действительного в мнимое получается второе представление сигнала понижающего микширования в частотной области. Аналогично системе декодера, показанной на фигуре 4, данная система кодера также включает селективно приводимые в действие модули модификаторов в частотной области: один - 1102 - предусматриваемый в восходящем направлении относительно ступени понижающего микширования, и один - 1109 - предусматриваемый в нисходящем направлении относительно этой ступени. Модули 1102, 1109 в частотной области, которые на данной фигуре представлены на примере TNS-фильтров, могут связываться с каждым из трактов сигнала с использованием четырех переключателей 1103a, 1103b, 1109a и 1109b.Figure 11 shows a modification based on the encoder system of Figure 8, in which a second frequency domain representation of the downmix signal is obtained by real-to-imaginary transformation 1105. Similar to the decoder system shown in Figure 4, this encoder system also includes selectively driven frequency domain modifier modules: one 1102 provided upstream of the downmix stage, and one 1109 provided downstream of that stage. Frequency domain modules 1102, 1109, exemplified by TNS filters in this figure, may communicate with each of the signal paths using four switches 1103a, 1103b, 1109a, and 1109b.

III. Неаппаратные варианты осуществления изобретенияIII. Non-hardware embodiments of the invention

Варианты осуществления третьей и четвертой особенностей изобретения показаны на фигурах 15 и 16. Фигура 15 показывает способ декодирования битового потока в стереофонический сигнал, который включает следующие этапы: 1. Входным сигналом является битовый поток. 2. Битовый поток деквантуется, посредством чего получается представление канала понижающего микширования и остаточного канала в частотной области. 3. Вычисляется второе представление канала понижающего микширования в частотной области. 4. На основе трех представлений каналов в частотной области вычисляется сигнал побочного канала. 5. На основе побочного канала и канала понижающего микширования вычисляется стереофонический сигнал, преимущественно, в левой/правой форме. 6. Выходным сигналом является полученный таким образом стереофонический сигнал. Этапы 3-5 можно рассматривать как процесс повышающего микширования. Каждый из этапов 1-6 аналогичен соответствующей функции в любой из систем декодера, раскрытых в предыдущих частях данного текста, и в тех же частях могут быть отысканы остальные подробности, относящиеся к их реализации.Embodiments of the third and fourth features of the invention are shown in Figures 15 and 16. Figure 15 shows a method for decoding a bit stream into a stereo signal, which includes the following steps: 1. The input signal is a bit stream. 2. The bit stream is dequantized, whereby a frequency domain representation of the downmix channel and the residual channel is obtained. 3. A second frequency domain representation of the downmix channel is calculated. 4. Based on the three frequency domain channel representations, the side channel signal is calculated. 5. Based on the side channel and the downmix channel, a stereo signal is calculated, preferably in left/right form. 6. The output signal is the stereo signal thus obtained. Steps 3-5 can be thought of as an upmixing process. Each of steps 1-6 is analogous to the corresponding function in any of the decoder systems disclosed in previous parts of this text, and other details relating to their implementation can be found in the same parts.

Фигура 16 показывает способ кодирования стереофонического сигнала как сигнала битового потока, который включает следующие этапы: 1. Входным сигналом является стереофонический сигнал. 2. Стереофонический сигнал преобразовывается в первое представление в частотной области. 3. Определяется коэффициент комплексного предсказания. 4. Представление в частотной области подвергается понижающему микшированию. 5. Сигнал понижающего микширования и остаточный сигнал кодируются как битовый поток совместно с коэффициентом комплексного предсказания. 6. Выходным сигналом является битовый поток. Каждый из этапов 1-5 аналогичен соответствующей функции в любой из систем кодера, раскрытых в предыдущих частях данного текста, и в тех же частях могут быть отысканы остальные подробности, относящиеся к их реализации.Figure 16 shows a method for encoding a stereo signal as a bitstream signal, which includes the following steps: 1. The input signal is a stereo signal. 2. The stereo signal is converted into a first frequency domain representation. 3. The coefficient of complex prediction is determined. 4. The frequency domain representation is downmixed. 5. The downmix signal and the residual signal are encoded as a bit stream together with a complex prediction coefficient. 6. The output signal is a bit stream. Each of steps 1-5 is analogous to the corresponding function in any of the encoder systems disclosed in the previous parts of this text, and other details relating to their implementation can be found in the same parts.

Оба способа могут быть выражены как машинночитаемые команды в форме программ, реализованных программно, и могут исполняться компьютером. Объем защиты настоящего изобретения распространяется на указанное программное обеспечение и компьютерные программные продукты, предназначенные для распространения указанного программного обеспечения.Both methods can be expressed as machine-readable instructions in the form of software programs and can be executed by a computer. The scope of protection of the present invention extends to said software and computer software products intended to distribute said software.

IV. Экспериментальная оценкаIV. Experimental evaluation

Некоторые из раскрытых в данном документе вариантов осуществления изобретения были количественно оценены экспериментально. В данном подразделе будут суммированы наиболее важные части полученного в этом процессе экспериментального материала.Some of the embodiments of the invention disclosed herein have been quantitatively evaluated experimentally. This subsection will summarize the most important parts of the experimental material obtained in this process.

Вариант осуществления изобретения, использованный для экспериментов имел следующие характеристики: (i) каждый спектр MDST (для временного кадра) вычислялся посредством фильтрации с двумерной импульсной характеристикой конечной длительности из текущего, предыдущего и следующего спектров MDCT. (ii) Использовалась психоакустическая модель из стереофонического кодера USAC. (iii) Вместо параметров PS, ICC, CLD и IPD, передавались действительная и мнимая части коэффициента комплексного предсказания. Действительная и мнимая части обрабатывались независимо, ограничивались интервалом [-3,0, 3,0] и квантовались с использованием величины шага 0,1. Затем они кодировались с дифференцированием по времени и в конце кодировались по Хаффману с иcпользованием кодового словаря масштабных коэффициентов USAC. Коэффициенты предсказания обновлялись в каждой второй полосе масштабных коэффициентов, что приводило к разрешающей способности по частоте, которая близка к таковой для MPEG Surround (см., например, ISO/IEC 230031). Данная схема квантования и кодирования приводит к средней битовой скорости передачи данных, приблизительно, 2 Кбит/с для указанной стереофонической вспомогательной информации в типичной конфигурации с целевой битовой скоростью передачи данных 96 Кбит/с. (iv) Формат битового потока модифицируется без разрыва текущих битовых потоков USAC, поскольку 2-битный элемент битового потока ms_mask_present в текущий момент времени имеет только три возможных значения. Использование для указания комплексного предсказания четвертого значения допускает режим обратного перехода на пониженный уровень среднего/побочного кодирования без потери бит (дальнейшие подробности по этой теме см. в предыдущем подразделе данного раскрытия).The embodiment of the invention used for the experiments had the following characteristics: (i) each MDST spectrum (for a time frame) was calculated by finite duration two-dimensional impulse response filtering from the current, previous and next MDCT spectra. (ii) The psychoacoustic model from the USAC stereo encoder was used. (iii) Instead of the parameters PS, ICC, CLD and IPD, the real and imaginary parts of the complex prediction coefficient were transmitted. The real and imaginary parts were processed independently, constrained to the interval [-3.0, 3.0] and quantized using a step size of 0.1. They were then time-differentiated and finally Huffman-coded using the USAC scale factor codebook. The prediction coefficients were updated every other scale factor band, resulting in a frequency resolution that is close to that of MPEG Surround (see, for example, ISO/IEC 230031). This quantization and encoding scheme results in an average bit rate of approximately 2 Kbps for said stereo ancillary information in a typical configuration with a target bit rate of 96 Kbps. (iv) The bitstream format is modified without breaking the current USAC bitstreams because the 2-bit bitstream element ms_mask_present currently has only three possible values. The use of a fourth value to indicate complex prediction allows for a mid/side coding downgrade mode without losing bits (see the previous subsection of this disclosure for further details on this topic).

Испытательные прослушивания выполнялись в соответствии с методом MUSHRA, который заключается в индивидуальном проигрывании через наушники и в использовании 8 испытуемых элементов с частотой дискретизацией 48 КГц. В данном испытании принимали участие три, пять или шесть испытуемых объектов. Влияние различных приближений MDST оценивалось с целью иллюстрации практического компромисса между сложностью и качеством, который существует между указанными возможностями. Результаты находятся на фигурах 12 и 13, где первая показывает полученные абсолютные оценки, и последняя показывает дифференциальные оценки относительно 96s USAC cp1f, т.е. относительно унифицированного стереофонического кодирования в области MDCT с комплексным предсказанием с использованием текущего кадра MDCT для вычисления приближения MDST. Как можно видеть, выигрыш в качестве, достигаемый унифицированным стереофоническим кодированием на основе MDCT, увеличивается, когда применяются вычислительно более сложные подходы к вычислению спектра MDST. В отношении среднего общего испытания система 96s USAC cp1f на основе одного кадра обеспечивает значительное увеличение эффективности кодирования по сравнению с традиционным стереофоническим кодированием. В свою очередь, даже еще лучшие результаты получаются для 96s USAC cp3f, а именно: унифицированного стереофонического кодирования в области MDCT с комплексным предсказанием с использованием для вычисления MDST текущего, предыдущего и следующего кадров MDCT.Test listening was performed in accordance with the MUSHRA method, which consists of individual playback through headphones and the use of 8 test elements with a sampling frequency of 48 kHz. This test involved three, five or six test subjects. The impact of different MDST approximations was evaluated to illustrate the practical complexity-quality trade-off that exists between the specified capabilities. The results are in Figures 12 and 13, where the former shows the absolute scores obtained and the latter shows the differential scores relative to 96s USAC cp1f , i.e. relative to unified stereo coding in the MDCT domain with complex prediction using the current MDCT frame to calculate the MDST approximation. As can be seen, the quality gain achieved by MDCT-based unified stereo coding increases when computationally more complex approaches to computing the MDST spectrum are used. In terms of overall test average, the single frame based 96s USAC cp1f system provides a significant increase in encoding efficiency over traditional stereo encoding. In turn, even better results are obtained for 96s USAC cp3f , namely unified stereo coding in the MDCT domain with complex prediction using the current, previous and next MDCT frames to calculate the MDST.

V. Варианты осуществления изобретенияV. Embodiments of the Invention

Также изобретение может осуществляться как система декодера, предназначенная для декодирования сигнала битового потока в стереофонический сигнал посредством стереофонического кодирования с комплексным предсказанием, где система декодера включает: - ступень деквантования (202; 401), предназначенную для создание первых представлений сигнала (М) понижающего микширования и остаточного сигнала (D) в частотной области на основе сигнала битового потока, где каждое из первых представлений в частотной области включает первые спектральные составляющие, которые представляют спектральный состав соответствующего сигнала, выраженного в первом подпространстве многомерного пространства, где первые спектральные составляющие представляют собой коэффициенты преобразования, расположенные в одном или нескольких временных кадрах коэффициентов преобразования, где каждый блок генерируется путем применения преобразования к временному отрезку сигнала во временной области; и - ступень (206, 207, 210, 211; 406, 407, 408, 409) повышающего микширования, расположенную в нисходящем направлении относительно ступени деквантования, адаптированную для генерирования стереофонического сигнала на основе сигнала понижающего микширования и остаточного сигнала и включающую: - - модуль (206; 408), предназначенный для вычисления второго представления сигнала понижающего микширования в частотной области на основе его первого представления в частотной области, где второе представление в частотной области включает вторые спектральные составляющие, представляющие спектральный состав сигнала, выраженного во втором подпространстве многомерного пространства, которое включает часть многомерного пространства, не включенную в первое подпространство, где указанный модуль адаптирован для: - - - получения одной или нескольких первых промежуточных составляющих из, по меньшей мере, некоторых из первых спектральных составляющих; - - - формирования комбинации указанной одной или нескольких спектральных составляющих в соответствии с, по меньшей мере, частью одной или нескольких импульсных характеристик с целью получения одной или нескольких вторых промежуточных составляющих; и - - - получения указанной одной или нескольких вторых спектральных составляющих из указанной одной или нескольких вторых промежуточных составляющих; - - взвешенный сумматор (210, 211; 406, 407), предназначенный для вычисления побочного сигнала (S) на основе первого и второго представлений сигнала понижающего микширования в частотной области, первого представления остаточного сигнала в частотной области и коэффициента комплексного предсказания (α), закодированного в сигнале битового потока; и - - суммарно-разностную ступень (207; 409), предназначенную для вычисления стереофонического сигнала на основе первого представления в частотной области сигнала понижающего микширования и побочного сигнала.The invention may also be implemented as a decoder system for decoding a bitstream signal into a stereo signal by means of complex prediction stereo coding, wherein the decoder system includes: a dequantization stage (202; 401) for creating first representations of the downmix signal (M); and a frequency domain residual signal (D) based on the bit stream signal, where each of the first frequency domain representations includes first spectral components that represent the spectral composition of the corresponding signal expressed in a first subspace of the multidimensional space, where the first spectral components represent transform coefficients, located in one or more time frames of transform coefficients, where each block is generated by applying a transform to a time segment of the time domain signal; and - an upmixing stage (206, 207, 210, 211; 406, 407, 408, 409) located downstream of the dequantization stage, adapted to generate a stereo signal based on the downmixing signal and the residual signal and including: - - a module (206; 408) for calculating a second frequency domain representation of the downmix signal based on its first frequency domain representation, wherein the second frequency domain representation includes second spectral components representing the spectral composition of the signal expressed in a second subspace of the multidimensional space that includes a portion of the multidimensional space not included in the first subspace, wherein said module is adapted to: - - - obtain one or more first intermediate components from at least some of the first spectral components; - - - forming a combination of said one or more spectral components in accordance with at least a part of one or more impulse responses to obtain one or more second intermediate components; and - - - obtaining said one or more second spectral components from said one or more second intermediate components; - - a weighted adder (210, 211; 406, 407) for calculating the side signal (S) based on the first and second frequency domain representations of the downmix signal, the first frequency domain representation of the residual signal, and the complex prediction coefficient (α), bit stream encoded in the signal; and - a sum-difference stage (207; 409) for calculating the stereo signal based on the first frequency domain representation of the downmix signal and the side signal.

Кроме того, изобретение может осуществляться как система декодера, предназначенная для декодирования сигнала битового потока в стереофонический сигнал посредством стереофонического кодирования с комплексным предсказанием, где система декодера включает: - ступень деквантования (301), предназначенную для создания первых представлений в частотной области сигнала понижающего микширования (М) и остаточного сигнала (D) на основе сигнала битового потока, где каждое из первых представлений в частотной области включает первые спектральные составляющие, представляющие спектральный состав соответствующего сигнала, выраженного в первом подпространстве многомерного пространства; и - ступень (306, 307, 308, 309, 312) повышающего микширования, расположенную в нисходящем направлении относительно ступени деквантования, адаптированную для генерирования стереофонического сигнала на основе сигнала понижающего микширования и остаточного сигнала и включающую: - - модуль (306, 307), предназначенный для вычисления второго представления в частотной области сигнала понижающего микширования на основе его первого представления в частотной области, где второе представление в частотной области включает вторые спектральные составляющие, представляющие спектральный состав сигнала, выраженного во втором подпространстве многомерного пространства, которое включает часть многомерного пространства, не включенную в первое подпространство, где модуль включает: - - - ступень (306) обратного преобразования, предназначенную для вычисления представления сигнала понижающего микширования во временной области на основе первого представления сигнала понижающего микширования в частотной области в первом подпространстве многомерного пространства; и - - - ступень (307) преобразования, предназначенную для вычисления второго представления сигнала понижающего микширования в частотной области на основе представления этого сигнала во временной области; - - взвешенный сумматор (308, 309), предназначенный для вычисления побочного сигнала (S) на основе первого и второго представлений сигнала понижающего микширования в частотной области, первого представления остаточного сигнала в частотной области и коэффициента комплексного предсказания (α), закодированного в сигнале битового потока; и - - суммарно-разностную ступень (312), предназначенную для вычисления стереофонического сигнала на основе первого представления сигнала понижающего микширования в частотной области и побочного сигнала.Furthermore, the invention may be implemented as a decoder system for decoding a bitstream signal into a stereo signal by means of complex prediction stereo coding, wherein the decoder system includes: a dequantization stage (301) for creating first frequency domain representations of the downmix signal ( M) and a residual signal (D) based on the bitstream signal, where each of the first frequency domain representations includes first spectral components representing the spectral composition of the corresponding signal expressed in a first subspace of the multidimensional space; and - an upmixing stage (306, 307, 308, 309, 312), located in a downstream direction relative to the dequantization stage, adapted to generate a stereo signal based on the downmixing signal and the residual signal and including: - - a module (306, 307), configured to compute a second frequency domain representation of the downmix signal based on its first frequency domain representation, wherein the second frequency domain representation includes second spectral components representing the spectral composition of the signal expressed in a second subspace of the multidimensional space that includes a portion of the multidimensional space, not included in the first subspace, where the module includes: - - - an inverse transform stage (306) for calculating a time domain representation of the downmix signal based on the first frequency domain representation of the downmix signal in the first subspace of the multidimensional space; and - - - a conversion stage (307) for calculating a second frequency domain representation of the downmix signal based on the time domain representation of the signal; - - a weighted adder (308, 309) for calculating the side signal (S) based on the first and second frequency domain representations of the downmix signal, the first frequency domain representation of the residual signal, and the complex prediction coefficient (α) encoded in the bit signal flow; and - a sum-difference stage (312) for calculating the stereo signal based on the first representation of the frequency domain downmix signal and the side signal.

Кроме того, изобретение может осуществляться как система декодера с характерными признаками, изложенными в независимых пунктах формулы изобретения, относящихся к системе декодера, где модуль, предназначенный для вычисления второго представления сигнала понижающего микширования в частотной области, включает: - ступень (306) обратного преобразования, предназначенную для вычисления представления сигнала понижающего микширования и/или побочного сигнала во временной области на основе первого представления соответствующего сигнала в частотной области в первом подпространстве многомерного пространства; и - ступень (307) преобразования, предназначенную для вычисления второго представления соответствующего сигнала в частотной области на основе представления этого сигнала во временной области, где, предпочтительно, ступень (306) обратного преобразования выполняет обратное модифицированное дискретное косинусное преобразование, и ступень преобразования выполняет модифицированное дискретное синусное преобразование.In addition, the invention may be implemented as a decoder system with the characteristics set forth in the independent claims relating to the decoder system, where the module for computing a second frequency domain representation of the downmix signal includes: an inverse conversion stage (306), for calculating a time domain representation of the downmix signal and/or side signal based on a first frequency domain representation of the corresponding signal in a first subspace of the multidimensional space; and a transform stage (307) for calculating a second frequency domain representation of the corresponding signal based on the time domain representation of that signal, where preferably the inverse transform stage (306) performs an inverse modified discrete cosine transform, and the transform stage performs a modified discrete cosine transform. sine transformation.

В описанной выше системе декодера стереофонический сигнал может быть представлен во временной области, и система декодера может включать: - узел (302) переключения, расположенный между указанной ступенью деквантования и указанной ступенью повышающего микширования, способный действовать для выполнения следующих функций: (a) ретранслирующей ступени - для применения в совместном стереофоническом кодировании; или (b) суммарно-разностной ступени - для применения в прямом стереофоническом кодировании; - дополнительную ступень (311) обратного преобразования, расположенную на ступени повышающего микширования, предназначенную для вычисления представления побочного сигнала во временной области; - узел (305, 310) переключения, расположенный в восходящем направлении относительно ступеней (306, 301) обратного преобразования, адаптированный для их селективного связывания с: (a) дополнительной суммарно-разностной ступенью (304), которая, в свою очередь, связана с точкой в нисходящем направлении относительно узла (302) переключения и с точкой в восходящем направлении относительно ступени повышающего микширования; или (b) сигналом понижающего микширования, получаемым из узла (302) переключения, и побочным сигналом, получаемым из взвешенного сумматора (308, 309).In the decoder system described above, the stereo signal may be represented in the time domain, and the decoder system may include: a switching unit (302) located between said dequantization stage and said upmixing stage, operable to perform the following functions: (a) a relay stage - for use in joint stereo coding; or (b) a sum-difference stage - for use in direct stereo coding; - an additional inverse conversion stage (311), located at the upmixing stage, for calculating the time domain representation of the spurious signal; - a switching node (305, 310) located in the upstream direction relative to the inverse conversion stages (306, 301), adapted for their selective coupling with: (a) an additional sum-difference stage (304), which, in turn, is connected with a point in the downstream direction relative to the switching node (302) and with a point in the upward direction relative to the upmixing stage; or (b) a downmix signal obtained from the switching node (302) and a side signal obtained from the weighted adder (308, 309).

VI. Заключительные замечанияVI. Concluding remarks

Дальнейшие варианты осуществления настоящего изобретения будут ясны специалистам в данной области после прочтения приведенного выше описания. И хотя настоящее описание и графические материалы раскрывают варианты осуществления изобретения и примеры, изобретение не ограничивается этими конкретными примерами. Многочисленные модификации и изменения могут вноситься без отступления от объема настоящего изобретения, который определяется сопроводительной формулой изобретения.Further embodiments of the present invention will be apparent to those skilled in the art after reading the above description. Although the present description and drawings disclose embodiments and examples of the invention, the invention is not limited to these specific examples. Numerous modifications and changes may be made without departing from the scope of the present invention, which is defined by the accompanying claims.

Следует отметить, что способы и устройство, раскрытые в данной заявке после соответствующих модификаций могут применяться в пределах возможностей специалиста, включая типовые эксперименты, для кодирования сигналов, содержащих больше двух каналов. Особенно следует подчеркнуть, что любые сигналы, параметры и матрицы, упоминаемые в связи с описанными вариантами осуществления изобретения, могут быть зависящими от частоты или независящими от частоты и/или зависящими от времени или независящими от времени. Описанные этапы вычислений могут осуществляться почастотно или для всех частотных полос в момент времени, и все объекты могут осуществляться так, чтобы они обладали частотноизбирательным действием. Для целей заявки любые схемы квантования могут адаптироваться в соответствии с психоакустическими моделями. Кроме того, следует отметить, что все различные суммарно-разностные преобразования, т.е. преобразования из формы понижающего микширования /остаточной формы в псевдо-L/R-форму, а также преобразование L/R в M/S и преобразование M/S в L/R, имеют формуIt should be noted that the methods and apparatus disclosed in this application, after appropriate modifications, can be used within the capabilities of one skilled in the art, including typical experiments, to encode signals containing more than two channels. It is especially emphasized that any signals, parameters and matrices mentioned in connection with the described embodiments of the invention may be frequency dependent or frequency independent and/or time dependent or time independent. The described computational steps may be performed frequency by frequency or for all frequency bands at a time, and all objects may be carried out so that they have a frequency selective effect. For application purposes, any quantization schemes may be adapted according to psychoacoustic models. In addition, it should be noted that all various sum-difference transformations, i.e. conversions from downmix/residual form to pseudo-L/R form, as well as L/R to M/S conversion and M/S to L/R conversion, are of the form

, ,

где может изменяться только коэффициент усиления. Таким образом, регулируя коэффициенты усиления по отдельности, определенный коэффициент усиления при кодировании можно компенсировать путем соответствующего выбора коэффициента усиления при декодировании. Кроме того, как понятно специалистам в данной области, четное количество последовательно расположенных суммарно-разностных преобразований дает эффект ретранслирующей ступени, возможно, с неединичным коэффициентом усиления.where only the gain can change. Thus, by adjusting the gains individually, a certain encoding gain can be compensated by appropriately selecting the decoding gain. In addition, as those skilled in the art will appreciate, an even number of sum-difference transforms in succession produces the effect of a relay stage, possibly with a non-unity gain.

Системы и способы, описанные выше в данном описании, могут быть реализованы как программное обеспечение, встроенное программное обеспечение, аппаратное обеспечение или их комбинация. Некоторые компоненты или все компоненты могут реализовываться как программное обеспечение, исполняемое процессором обработки цифровых сигналов или микропроцессором, или реализовываться как аппаратное обеспечение, или как интегральная микросхема специального назначения. Указанное программное обеспечение может распространяться на машиночитаемых носителях, которые могут включать компьютерные носители данных или средства связи. Как хорошо известно специалистам в данной области, компьютерные носители данных включают энергозависимые и энергонезависимые, съемные и несъемные носители, реализованные любым способом или посредством технологии, предназначенной для хранения в памяти информации, такой как машинночитаемые команды, структуры данных, программные модули или другие данные. Компьютерные носители данных в качестве неограничивающих примеров включают RAM, ROM, EEPROM, флэш-память или другие технологии памяти, CD-ROM, компакт-диск формата DVD или другие оптические дисковые носители, кассеты с магнитной лентой, магнитную ленту, магнитные дисковые носители или другие магнитные устройства хранения информации, или любой другой носитель, который можно использовать для хранения в памяти нужной информации и который может быть доступен для компьютера. Кроме того, специалистам в данной области известно, что средства связи, как правило, заключают в себе машинночитаемые команды, структуры данных, программные модули или другие данные в модулированном сигнале данных, таком как несущая волна или другой механизм передачи, и включают любые средства доставки информации.The systems and methods described above herein may be implemented as software, firmware, hardware, or a combination thereof. Some or all of the components may be implemented as software executed by a digital signal processor or microprocessor, or implemented as hardware, or as a special purpose integrated circuit. The software may be distributed on computer readable media, which may include computer storage media or communications media. As is well known to those skilled in the art, computer storage media includes volatile and non-volatile, removable and non-removable media implemented in any method or technology designed to store information in memory, such as machine-readable instructions, data structures, program modules or other data. Computer storage media includes, but is not limited to, RAM, ROM, EEPROM, flash memory or other memory technologies, CD-ROM, CD-ROM or other optical disk media, magnetic tape cassettes, magnetic tape, magnetic disk media or other magnetic storage devices, or any other medium that can be used to store needed information in memory and that can be accessed by a computer. In addition, those skilled in the art will recognize that communications media typically embody machine-readable instructions, data structures, program modules, or other data in a modulated data signal, such as a carrier wave or other transmission mechanism, and include any information delivery media .

Claims (59)

1. Система декодера для предоставления стереофонического сигнала путем стереофонического кодирования с комплексным предсказанием, причем система декодера содержит:1. A decoder system for providing a stereo signal by complex prediction stereo coding, the decoder system comprising: ступень повышающего микширования, адаптированную для генерирования стереофонического сигнала на основании первых представлений сигнала (M) понижающего микширования и остаточного сигнала (D) в частотной области, причем каждое из первых представлений в частотной области содержит первые спектральные составляющие, которые представляют спектральный состав соответствующего сигнала, выраженного в первом подпространстве многомерного пространства, при этом ступень повышающего микширования:an upmix stage adapted to generate a stereo signal based on first frequency domain representations of the downmix signal (M) and a residual signal (D), each of the first frequency domain representations comprising first spectral components that represent the spectral composition of the corresponding signal expressed in the first subspace of the multidimensional space, with the upmixing stage: вычисляет второе представление сигнала понижающего микширования в частотной области на основании его первого представления в частотной области, причем второе представление в частотной области включает вторые спектральные составляющие, представляющие спектральный состав сигнала, выраженного во втором подпространстве многомерного пространства, которое включает часть многомерного пространства, не включенную в первое подпространство, при этом вторые спектральные составляющие сигнала понижающего микширования определяются путем применения фильтра с конечной импульсной характеристикой (FIR) к первым спектральным составляющим сигнала понижающего микширования; calculates a second frequency domain representation of the downmix signal based on its first frequency domain representation, wherein the second frequency domain representation includes second spectral components representing the spectral composition of the signal expressed in a second subspace of the multidimensional space, which includes a portion of the multidimensional space not included in a first subspace, wherein second spectral components of the downmix signal are determined by applying a finite impulse response (FIR) filter to the first spectral components of the downmix signal; вычисляет побочный сигнал (S) на основании первого и второго представлений сигнала понижающего микширования в частотной области, первого представления остаточного сигнала в частотной области и коэффициента (α) комплексного предсказания, закодированного в сигнале битового потока; иcalculates a side signal (S) based on the first and second frequency domain representations of the downmix signal, the first frequency domain representation of the residual signal, and the complex prediction coefficient (α) encoded in the bitstream signal; And вычисляет стереофонический сигнал на основании первого представления сигнала понижающего микширования в частотной области и побочного сигнала,calculates a stereo signal based on the first frequency domain representation of the downmix signal and the side signal, при этом ступень повышающего микширования адаптирована для применения независимых пределов полос пропускания для сигнала понижающего микширования и остаточного сигнала.wherein the upmix stage is adapted to apply independent bandwidth limits to the downmix signal and the residual signal. 2. Система декодера по п. 1, отличающаяся тем, что импульсная характеристика фильтра FIR определяется в зависимости от оконной функции, применяемой для определения первого представления сигнала понижающего микширования в частотной области.2. The decoder system of claim 1, wherein the impulse response of the FIR filter is determined depending on a window function used to determine the first frequency domain representation of the downmix signal. 3. Система декодера по п. 1, отличающаяся тем, что пределы полос пропускания, которые должны быть применены, сигнализируются посредством двух полей данных, указывающих для каждого из сигналов самую высокую частотную полосу, которая должна быть декодирована.3. The decoder system of claim 1, wherein the limits of the bandwidths to be applied are signaled by two data fields indicating for each of the signals the highest frequency band to be decoded. 4. Система декодера по п. 3, отличающаяся тем, что адаптирована для приема битового потока MPEG, в котором каждое из указанных полей данных закодировано как значение параметра max_sfb битового потока MPEG. 4. The decoder system according to claim 3, characterized in that it is adapted to receive an MPEG bitstream in which each of said data fields is encoded as the value of the max_sfb parameter of the MPEG bitstream . 5. Система декодера по п. 1, отличающаяся тем, что дополнительно содержит:5. The decoder system according to claim 1, characterized in that it additionally contains: ступень деквантования, расположенную выше по потоку относительно ступени повышающего микширования, для предоставления указанных первых представлений сигнала (М) понижающего микширования и остаточного сигнала (D) в частотной области на основании сигнала битового потока.a dequantization stage located upstream of the upmix stage for providing said first representations of the downmix signal (M) and the residual signal (D) in the frequency domain based on the bit stream signal. 6. Система декодера по п. 1, отличающаяся тем, что: 6. The decoder system according to claim 1, characterized in that: первые спектральные составляющие имеют действительные значения, выраженные в первом подпространстве; the first spectral components have real values expressed in the first subspace; вторые спектральные составляющие имеют мнимые значения, выраженные во втором подпространстве.the second spectral components have imaginary values expressed in the second subspace. 7. Система декодера по п. 1, отличающаяся тем, что первые спектральные составляющие выполнены с возможностью получения путем одного из следующего: 7. The decoder system according to claim 1, characterized in that the first spectral components are configured to be obtained by one of the following: дискретного косинусного преобразования (DCT) или discrete cosine transform (DCT) or модифицированного дискретного косинусного преобразования (МDCT).modified discrete cosine transform (MDCT). 8. Система декодера по п. 1, отличающаяся тем, что дополнительно содержит по меньшей мере один модуль временного формирования шума (TNS), расположенный выше по потоку относительно ступени повышающего микширования; и8. The decoder system according to claim 1, characterized in that it further comprises at least one temporal noise shaping (TNS) module located upstream of the upmixing stage; And по меньшей мере один дополнительный модуль TNS, расположенный ниже по потоку относительно ступени повышающего микширования; иat least one additional TNS module located downstream of the upmixing stage; And селекторную схему для избирательной активации или: selector circuit for selective activation or: (a) указанного (указанных) модуля (модулей) TNS выше по потоку относительно ступени повышающего микширования, или (a) said TNS module(s) upstream of the upmix stage, or (b) указанного (указанных) дополнительного (дополнительных) модуля (модулей) TNS ниже по потоку относительно ступени повышающего микширования. (b) said additional TNS module(s) downstream of the upmix stage. 9. Система декодера по п. 6, отличающаяся тем, что 9. The decoder system according to claim 6, characterized in that сигнал понижающего микширования разделен на последовательные временные кадры, каждый из которых связан со значением коэффициента комплексного предсказания; и the downmix signal is divided into successive time frames, each of which is associated with a complex prediction coefficient value; And вычисление второго представления сигнала понижающего микширования в частотной области деактивируется в ответ на то, что абсолютное значение мнимой части коэффициента комплексного предсказания меньше предварительно определенного допуска для временного кадра.calculation of the second frequency domain representation of the downmix signal is deactivated in response to the fact that the absolute value of the imaginary part of the complex prediction coefficient is less than a predetermined tolerance for the time frame. 10. Система декодера по п. 1, отличающаяся тем, что указанный стереофонический сигнал представлен во временной области, и система декодера также содержит: 10. The decoder system according to claim 1, characterized in that said stereo signal is represented in the time domain, and the decoder system also comprises: узел переключения, расположенный между указанной ступенью деквантования и указанной ступенью повышающего микширования, выполненный с возможностью функционирования в качестве:a switching unit located between said dequantization stage and said upmixing stage, configured to function as: (a) ретранслирующей ступени или(a) a relay stage or (b) суммарно-разностной ступени, (b) sum-difference stage, тем самым обеспечивая возможность переключения между непосредственно и совместно закодированными входными стереофоническими сигналами;thereby allowing switching between directly and co-encoded stereo input signals; ступень обратного преобразования, адаптированную для вычисления представления стереофонического сигнала во временной области; иan inverse conversion stage adapted to compute a time domain representation of the stereo signal; And селекторную схему, расположенную выше по потоку относительно ступени обратного преобразования, адаптированную для ее избирательного соединения либо с: a selector circuit located upstream of the inverse conversion stage, adapted to selectively couple it with either: (a) точкой ниже по потоку относительно ступени повышающего микширования, посредством чего стереофонический сигнал, полученный путем комплексного предсказания, подается на ступень обратного преобразования, либо с(a) at a point downstream of the upmixing stage, whereby the stereo signal obtained by complex prediction is supplied to the deconversion stage, or with (b) точкой ниже по потоку относительно узла переключения и выше по потоку относительно ступени повышающего микширования, посредством чего стереофонический сигнал, полученный путем прямого стереофонического кодирования, подается на ступень обратного преобразования. (b) at a point downstream of the switching unit and upstream of the upmixing stage, whereby the stereo signal obtained by forward stereo encoding is supplied to the deconversion stage. 11. Способ декодирования для повышающего микширования входного стереофонического сигнала путем стереофонического кодирования с комплексным предсказанием в выходной стереофонический сигнал, при этом:11. A decoding method for upmixing an input stereo signal by complex prediction stereo encoding into an output stereo signal, wherein: указанный входной стереофонический сигнал содержит первые представления канала (М) понижающего микширования и остаточного канала (D) в частотной области и коэффициент (α) комплексного предсказания; иsaid input stereo signal comprises first frequency domain representations of a downmix channel (M) and a residual channel (D) and a complex prediction coefficient (α); And каждое из указанных первых представлений в частотной области содержит первые спектральные составляющие, представляющие спектральный состав соответствующего сигнала, выраженного в первом подпространстве многомерного пространства, each of said first frequency domain representations contains first spectral components representing the spectral composition of the corresponding signal expressed in a first subspace of the multidimensional space, причем способ выполняется ступенью повышающего микширования и включает этапы:wherein the method is performed by an upmixing stage and includes the steps: вычисления второго представления канала понижающего микширования в частотной области на основании его первого представления в частотной области, причем второе представление в частотной области содержит вторые спектральные составляющие, представляющие спектральный состав сигнала, выраженного во втором подпространстве многомерного пространства, которое содержит часть многомерного пространства, не включенную в первое подпространство, при этом вычисление второго представления сигнала понижающего микширования в частотной области включает определение вторых спектральных составляющих сигнала понижающего микширования путем применения фильтра с конечной импульсной характеристикой (FIR) к первым спектральным составляющим сигнала понижающего микширования; иcalculating a second frequency domain representation of the downmix channel based on its first frequency domain representation, the second frequency domain representation comprising second spectral components representing the spectral composition of the signal expressed in a second subspace of the multidimensional space, which contains a portion of the multidimensional space not included in a first subspace, wherein calculating a second frequency domain representation of the downmix signal includes determining second spectral components of the downmix signal by applying a finite impulse response (FIR) filter to the first spectral components of the downmix signal; And вычисления побочного канала на основании первого и второго представлений сигнала понижающего микширования в частотной области, первого представления остаточного сигнала в частотной области и коэффициента комплексного предсказания,calculating a side channel based on the first and second frequency domain representations of the downmix signal, the first frequency domain representation of the residual signal, and the complex prediction coefficient, при этом для сигнала понижающего микширования и остаточного сигнала применяются независимые пределы полос пропускания.however, independent bandwidth limits are applied to the downmix signal and the residual signal. 12. Способ по п. 11, отличающийся тем, что импульсная характеристика фильтра FIR определяется в зависимости от оконной функции, применяемой для определения первого представления сигнала понижающего микширования в частотной области.12. The method of claim 11, wherein the impulse response of the FIR filter is determined depending on a window function used to determine the first frequency domain representation of the downmix signal. 13. Способ по п. 11, отличающийся тем, что пределы полос пропускания, которые должны быть применены, сигнализируются посредством двух полей данных, указывающих для каждого из сигналов самую высокую частотную полосу, которая должна быть декодирована.13. The method of claim 11, characterized in that the limits of the bandwidths to be applied are signaled by two data fields indicating for each of the signals the highest frequency band to be decoded. 14. Способ по п. 13, отличающийся тем, что дополнительно включает прием битового потока MPEG, в котором каждое из указанных полей данных закодировано как значение параметра max_sfb битового потока MPEG.14. The method of claim 13, further comprising receiving an MPEG bitstream in which each of said data fields is encoded as the value of the max_sfb parameter of the MPEG bitstream. 15. Способ по п. 11, отличающийся тем, что дополнительно включает15. The method according to claim 11, characterized in that it additionally includes предоставление указанных первых представлений сигнала (М) понижающего микширования и остаточного сигнала (D) в частотной области на основании сигнала битового потока.providing said first frequency domain representations of the downmix signal (M) and the residual signal (D) based on the bitstream signal. 16. Способ по п. 11, отличающийся тем, что 16. Method according to claim 11, characterized in that первые спектральные составляющие имеют действительные значения, выраженные в первом подпространстве; the first spectral components have real values expressed in the first subspace; вторые спектральные составляющие имеют мнимые значения, выраженные во втором подпространстве.the second spectral components have imaginary values expressed in the second subspace. 17. Способ по п. 11, отличающийся тем, что первые спектральные составляющие выполнены с возможностью получения путем одного из следующего: 17. The method according to claim 11, characterized in that the first spectral components are configured to be obtained by one of the following: дискретного косинусного преобразования (DCT) или discrete cosine transform (DCT) or модифицированного дискретного косинусного преобразования (МDCT).modified discrete cosine transform (MDCT). 18. Способ по п. 11, отличающийся тем, что дополнительно включает избирательное выполнение или: 18. The method according to claim 11, characterized in that it additionally includes selective execution or: (a) обработки с временным формированием шума (TNS) выше по потоку относительно ступени повышающего микширования, или (a) time-shaping noise (TNS) processing upstream of the upmix stage, or (b) обработки с TNS ниже по потоку относительно ступени повышающего микширования. (b) TNS processing downstream of the upmixing stage. 19. Способ по п. 16, отличающийся тем, что 19. The method according to claim 16, characterized in that сигнал понижающего микширования разделяют на последовательные временные кадры, каждый из которых связан со значением коэффициента комплексного предсказания; и the downmix signal is divided into successive time frames, each of which is associated with a complex prediction coefficient value; And не вычисляют второе представление сигнала понижающего микширования в частотной области, если абсолютное значение мнимой части коэффициента комплексного предсказания меньше предварительно определенного допуска для временного кадра.do not calculate a second frequency domain representation of the downmix signal if the absolute value of the imaginary part of the complex prediction coefficient is less than a predetermined tolerance for the time frame. 20. Энергонезависимый машиночитаемый носитель, на котором хранятся команды, которые при их исполнении вычислительным устройством общего назначения выполняют способ, изложенный в п. 11.20. A non-volatile computer-readable medium on which instructions are stored that, when executed by a general-purpose computing device, carry out the method described in clause 11.
RU2023105634A 2010-04-09 2023-03-10 Audio upmixing device with possibility of operating in a mode with or without prediction RU2803142C1 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US61/322,458 2010-04-09

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
RU2020110142A Division RU2799737C2 (en) 2010-04-09 2020-03-11 Audio upmixing device with the possibility of operating in the mode with/without prediction

Publications (1)

Publication Number Publication Date
RU2803142C1 true RU2803142C1 (en) 2023-09-07

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080046253A1 (en) * 2004-08-25 2008-02-21 Dolby Laboratories Licensing Corporation Temporal Envelope Shaping for Spatial Audio Coding Using Frequency Domain Wiener Filtering
US20080126104A1 (en) * 2004-08-25 2008-05-29 Dolby Laboratories Licensing Corporation Multichannel Decorrelation In Spatial Audio Coding
RU2345506C2 (en) * 2004-06-30 2009-01-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Multichannel synthesiser and method for forming multichannel output signal
US20100023335A1 (en) * 2007-02-06 2010-01-28 Koninklijke Philips Electronics N.V. Low complexity parametric stereo decoder
WO2010019265A1 (en) * 2008-08-15 2010-02-18 Dts, Inc. Parametric stereo conversion system and method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2345506C2 (en) * 2004-06-30 2009-01-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Multichannel synthesiser and method for forming multichannel output signal
US20080046253A1 (en) * 2004-08-25 2008-02-21 Dolby Laboratories Licensing Corporation Temporal Envelope Shaping for Spatial Audio Coding Using Frequency Domain Wiener Filtering
US20080126104A1 (en) * 2004-08-25 2008-05-29 Dolby Laboratories Licensing Corporation Multichannel Decorrelation In Spatial Audio Coding
US20100023335A1 (en) * 2007-02-06 2010-01-28 Koninklijke Philips Electronics N.V. Low complexity parametric stereo decoder
WO2010019265A1 (en) * 2008-08-15 2010-02-18 Dts, Inc. Parametric stereo conversion system and method

Similar Documents

Publication Publication Date Title
RU2698154C1 (en) Stereophonic coding based on mdct with complex prediction
RU2803142C1 (en) Audio upmixing device with possibility of operating in a mode with or without prediction
RU2798024C1 (en) Audio upmixing device performed with the possibility of operating in the mode with/without prediction
RU2799737C2 (en) Audio upmixing device with the possibility of operating in the mode with/without prediction
AU2022202192B2 (en) Audio Upmixer Operable in Prediction or Non-Prediction Mode
AU2019240610B2 (en) Audio Upmixer Operable in Prediction or Non-Prediction Mode