RU2792114C2

RU2792114C2 - Integration of high-frequency sound reconstruction techniques

Info

Publication number: RU2792114C2
Application number: RU2020138094A
Authority: RU
Inventors: Кристофер ЧОЭРЛИНГ; Ларс ВИЛЛЕМОЕС; Хейко ПУРНХАГЕН; Пер Экстранд
Original assignee: Долби Интернешнл Аб
Priority date: 2018-04-25
Filing date: 2019-04-25
Publication date: 2023-03-16

Abstract

FIELD: audio technology.

SUBSTANCE: invention relates to means for processing audio signals. An encoded audio bitstream is received, which contains audio data representing the part of the audio signal related to the lower range, and metadata of the reconstruction of high frequencies. Decoding of audio data is performed to generate a decoded audio signal of the lower range. High-frequency reconstruction metadata is extracted from the encoded audio bitstream, these high-frequency reconstruction metadata contain operating parameters for the high-frequency reconstruction process. The operating parameters include an insertion mode parameter located in a backward compatible extension container of the encoded audio bitstream. The first value of the insertion mode parameter indicates spectral transfer, and the second value of the insertion mode parameter indicates harmonic transposition using frequency range stretching by a phase vocoder. Filtering of the decoded audio signal of the lower range is performed to generate a filtered audio signal of the lower range.

EFFECT: increase in the efficiency of reconstruction of audio signal high frequencies.

14 cl, 7 dwg

Description

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИCROSS-REFERENCE TO RELATED APPLICATIONS

Данная заявка заявляет приоритет европейской заявки на патент EP18169156.9, поданной 25 апреля 2018 г., которая посредством ссылки включена в настоящее описание.This application claims priority in European patent application EP18169156.9, filed April 25, 2018, which is incorporated herein by reference.

ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY

Варианты осуществления настоящего изобретения относятся к обработке звуковых сигналов, и в частности к кодированию, декодированию или транскодированию звуковых битовых потоков с управляющими данными, задающими необходимость выполнения на звуковых данных или базовой формы реконструкции высоких частот («HFR»), или улучшенной формы HFR.Embodiments of the present invention relate to the processing of audio signals, and in particular to the encoding, decoding or transcoding of audio bitstreams with control data specifying whether either a basic form of high frequency reconstruction ("HFR") or an improved form of HFR is performed on the audio data.

ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯBACKGROUND OF THE INVENTION

Обычный звуковой битовый поток содержит как звуковые данные (например, кодированные звуковые данные), характеризующие один или более каналов звукового содержимого, так и метаданные, указывающие по меньшей мере одну характеристику звуковых данных или звукового содержимого. Одним хорошо известным форматом для генерирования кодированного звукового битового потока является формат MPEG-4 «Перспективное звуковое кодирование» (AAC), описанный в стандарте MPEG ISO/IEC 14496-3:2009. В стандарте MPEG-4 AAC обозначает «перспективное звуковое кодирование», а HE-AAC обозначает «высокоэффективное перспективное звуковое кодирование». A normal audio bitstream contains both audio data (eg, encoded audio data) indicative of one or more audio content channels and metadata indicative of at least one characteristic of the audio data or audio content. One well-known format for generating an encoded audio bitstream is the MPEG-4 Advanced Audio Coding (AAC) format described in the MPEG ISO/IEC 14496-3:2009 standard. In the MPEG-4 standard, AAC stands for "Advanced Audio Coding" and HE-AAC stands for "High Efficiency Advanced Audio Coding".

Стандарт MPEG-4 AAC определяет несколько звуковых профилей, которые определяют, какие объекты и инструменты кодирования присутствуют в совместимом кодере или декодере. Тремя из этих звуковых профилей являются (1) профиль AAC, (2) профиль HE-AAC и (3) профиль HE-AAC v2. Профиль AAC содержит тип объекта AAC низкой сложности (или «AAC-LC»). Объект AAC-LC представляет собой аналог профиля MPEG-2 AAC низкой сложности с некоторыми усовершенствованиями и не содержит ни тип объекта копирования спектральной полосы («SBR»), ни тип объекта параметрического стерео («PS»). Профиль HE-AAC представляет собой надмножество профиля AAC и дополнительно содержит тип объекта SBR. Профиль HE-AAC v2 представляет собой надмножество профиля HE-AAC и дополнительно содержит тип объекта PS. The MPEG-4 AAC standard defines several audio profiles that define which encoding objects and tools are present in a compatible encoder or decoder. Three of these audio profiles are (1) the AAC profile, (2) the HE-AAC profile, and (3) the HE-AAC v2 profile. The AAC profile contains an AAC object type of low complexity (or "AAC-LC"). The AAC-LC object is a low-complexity analog of the MPEG-2 AAC profile with some enhancements, and contains neither a Spectral Band Copy ("SBR") object type nor a Parametric Stereo ("PS") object type. The HE-AAC profile is a superset of the AAC profile and additionally contains the SBR object type. The HE-AAC v2 profile is a superset of the HE-AAC profile and additionally contains the PS object type.

Тип объекта SBR содержит инструмент копирования спектральной полосы, который представляет собой важный инструмент кодирования реконструкции высоких частот («HFR»), значительно повышающий эффективность сжатия кодеков воспринимаемых звуковых сигналов. SBR реконструирует высокочастотные составляющие звукового сигнала на стороне приемника (например, в декодере). Таким образом, от кодера требуется только кодировать и передавать низкочастотные составляющие, что делает возможным намного более высокое качество звука при низких скоростях передачи данных. SBR основано на копировании последовательностей гармоник, ранее усеченных с целью уменьшения скорости передачи данных, из доступного сигнала с ограниченной полосой пропускания и управляющих данных, полученных из кодера. Соотношение между тональными и шумоподобными составляющими сохраняется с помощью адаптивной обратной фильтрации, а также необязательного добавления шума и синусоид. В стандарте MPEG-4 AAC инструмент SBR выполняет спектральную вставку (также называемую «линейным переносом» или «спектральным переносом»), при которой ряд последовательных поддиапазонов квадратурного зеркального фильтра (QMF) копируют (или «вставляют») из переданной относящейся к нижнему диапазону части звукового сигнала в относящуюся к верхнему диапазону часть звукового сигнала, которая генерируется в декодере.The SBR object type contains a spectral band copy tool, which is an important high frequency reconstruction ("HFR") coding tool that greatly improves the compression efficiency of perceived audio codecs. SBR reconstructs the high frequency components of the audio signal at the receiver side (eg, in a decoder). Thus, the encoder is only required to encode and transmit the low frequency components, which enables much higher audio quality at low bit rates. SBR is based on copying harmonic sequences, previously truncated to reduce the bit rate, from the available bandwidth limited signal and control data received from the encoder. The relationship between tonal and noise-like components is maintained by adaptive inverse filtering and optional addition of noise and sinusoids. In the MPEG-4 AAC standard, the SBR tool performs spectral insertion (also called "line transfer" or "spectral transfer"), in which a number of successive quadrature mirror filter (QMF) subbands are copied (or "pasted") from the transmitted low-band portion of the audio signal into the high-band part of the audio signal that is generated in the decoder.

Спектральная вставка, или линейный перенос, может не являться идеальной для некоторых типов звука, таких как музыкальное содержимое с относительно низкими частотами разделения. Поэтому необходимы методики для совершенствования копирования спектральной полосы.Spectral insertion, or linear transfer, may not be ideal for some types of sound, such as music content with relatively low crossover frequencies. Therefore, techniques are needed to improve the copying of the spectral band.

Краткое описание вариантов осуществления изобретенияBrief description of embodiments of the invention

Первый класс вариантов осуществления относится к раскрытию способа декодирования кодированного звукового битового потока. Способ включает прием кодированного звукового битового потока и декодирование звуковых данных для генерирования декодированного звукового сигнала нижнего диапазона. Способ дополнительно включает извлечение метаданных реконструкции высоких частот и фильтрование декодированного звукового сигнала нижнего диапазона с помощью блока анализирующих фильтров для генерирования фильтрованного звукового сигнала нижнего диапазона. Способ дополнительно включает извлечение флага, указывающего, необходимо ли выполнять или спектральный перенос, или гармоническую транспозицию на звуковых данных, и восстановление относящейся к верхнему диапазону части звукового сигнала с использованием фильтрованного звукового сигнала нижнего диапазона и метаданных реконструкции высоких частот в соответствии с флагом. Наконец, способ включает объединение фильтрованного звукового сигнала нижнего диапазона и восстановленной относящейся к верхнему диапазону части для формирования широкополосного звукового сигнала.The first class of embodiments relates to the disclosure of a method for decoding an encoded audio bitstream. The method includes receiving an encoded audio bitstream and decoding the audio data to generate a low band decoded audio signal. The method further includes extracting high frequency reconstruction metadata and filtering the low band decoded audio signal with an analysis filter bank to generate a low band filtered audio signal. The method further includes extracting a flag indicating whether to perform either spectral transfer or harmonic transposition on the audio data, and restoring the high-band portion of the audio signal using the low-band filtered audio signal and high-frequency reconstruction metadata according to the flag. Finally, the method includes combining the filtered low band audio signal and the reconstructed high band portion to form a wideband audio signal.

Второй класс вариантов осуществления относится к декодеру звука для декодирования кодированного звукового битового потока. Декодер содержит интерфейс ввода для приема кодированного звукового битового потока, где кодированный звуковой битовый поток содержит звуковые данные, представляющие относящуюся к нижнему диапазону часть звукового сигнала, и основной декодер для декодирования звуковых данных для генерирования декодированного звукового сигнала нижнего диапазона. Декодер также содержит демультиплексор для извлечения из кодированного звукового битового потока метаданных реконструкции высоких частот, где метаданные реконструкции высоких частот содержат рабочие параметры для процесса реконструкции высоких частот, который выполняет линейный перенос последовательного количества поддиапазонов из относящейся к нижнему диапазону части звукового сигнала в относящуюся к верхнему диапазону часть звукового сигнала, и блок анализирующих фильтров для фильтрации декодированного звукового сигнала нижнего диапазона для генерирования фильтрованного звукового сигнала нижнего диапазона. Декодер дополнительно содержит демультиплексор для извлечения из кодированного звукового битового потока флага, указывающего, необходимо ли выполнять или линейный перенос, или гармоническую транспозицию на звуковых данных, и устройство восстановления высоких частот для восстановления относящейся к верхнему диапазону части звукового сигнала с использованием фильтрованного звукового сигнала нижнего диапазона и метаданных реконструкции высоких частот в соответствии с флагом. Наконец, декодер содержит блок синтезирующих фильтров для объединения фильтрованного звукового сигнала нижнего диапазона и восстановленной высокочастотной относящейся к верхнему диапазону части для формирования широкополосного звукового сигнала.The second class of embodiments relates to an audio decoder for decoding an encoded audio bitstream. The decoder comprises an input interface for receiving an encoded audio bitstream, where the encoded audio bitstream contains audio data representing a low band portion of an audio signal, and a main decoder for decoding audio data to generate a decoded low band audio signal. The decoder also includes a demultiplexer for extracting high-frequency reconstruction metadata from the encoded audio bitstream, where the high-frequency reconstruction metadata contains operating parameters for a high-frequency reconstruction process that linearly transfers a sequential number of subbands from the low-band portion of the audio signal to the high-band portion of the audio signal. a portion of the audio signal, and an analysis filter bank for filtering the decoded low band audio signal to generate a filtered low band audio signal. The decoder further comprises a demultiplexer for extracting from the encoded audio bitstream a flag indicating whether it is necessary to perform either linear transfer or harmonic transposition on the audio data, and a high frequency restorer for restoring the high-band portion of the audio signal using the low-band filtered audio signal. and high frequency reconstruction metadata according to the flag. Finally, the decoder includes a synthesis filter bank for combining the filtered low band audio signal and the reconstructed high frequency high band portion to form a wideband audio signal.

Другие классы вариантов осуществления относятся к кодированию и транскодированию звуковых битовых потоков, содержащих метаданные, идентифицирующие необходимость выполнения обработки улучшенного копирования спектральной полосы (eSBR).Other classes of embodiments relate to encoding and transcoding audio bitstreams containing metadata identifying the need to perform enhanced spectral band copying (eSBR) processing.

Краткое описание графических материаловBrief description of graphic materials

На фиг. 1 показана структурная схема одного варианта осуществления системы, которая может быть приспособлена для выполнения одного варианта осуществления способа согласно изобретению.In FIG. 1 shows a block diagram of one embodiment of a system that may be adapted to carry out one embodiment of the method of the invention.

На фиг. 2 показана структурная схема кодера, представляющего собой один вариант осуществления блока обработки звука согласно изобретению. In FIG. 2 shows a block diagram of an encoder, which is one embodiment of an audio processing unit according to the invention.

На фиг. 3 показана структурная схема системы, которая содержит декодер, представляющий собой один вариант осуществления блока обработки звука согласно изобретению, и необязательно также соединенный с ним постпроцессор.In FIG. 3 shows a block diagram of a system that includes a decoder, which is one embodiment of an audio processing unit according to the invention, and optionally also a post-processor connected to it.

На фиг. 4 показана структурная схема декодера, представляющего собой один вариант осуществления блока обработки звуковых данных согласно изобретению.In FIG. 4 shows a block diagram of a decoder, which is one embodiment of an audio processing unit according to the invention.

На фиг. 5 показана структурная схема декодера, представляющего собой другой вариант осуществления блока обработки звуковых данных согласно изобретению. In FIG. 5 shows a block diagram of a decoder, which is another embodiment of the audio data processing unit according to the invention.

На фиг. 6 показана структурная схема другого варианта осуществления блока обработки звука согласно изобретению.In FIG. 6 shows a block diagram of another embodiment of an audio processing unit according to the invention.

На фиг. 7 показана схема блока данных битового потока MPEG-4 AAC, в том числе сегментов, на которые он разделен.In FIG. 7 shows a block diagram of an MPEG-4 AAC bitstream data block, including the segments into which it is divided.

Условные обозначения и терминологияConventions and terminology

По всему этому документу, включая формулу изобретения, выражение выполнения операции «над» сигналом или данными (например, фильтрация, масштабирование, преобразование или применение коэффициента усиления к сигналам или данным) используется в широком смысле для обозначения выполнения операции непосредственно над сигналом или данными или над обработанной версией сигнала или данных (например, над версией сигнала, который был подвергнут предварительной фильтрации или предварительной обработке перед выполнением над ним указанной операции). Throughout this document, including the claims, the expression performing an operation "on" a signal or data (e.g., filtering, scaling, transforming, or applying a gain factor to signals or data) is used broadly to mean performing an operation directly on the signal or data, or on processed version of the signal or data (for example, on the version of the signal that was subjected to pre-filtering or pre-processing before performing the specified operation on it).

По всему этому документу, включая формулу изобретения, выражения «блок обработки звука» или «звуковой процессор» используются в широком смысле, для обозначения системы, устройства или аппарата, приспособленных для обработки звуковых данных. Примеры блоков обработки звука включают, но без ограничения, кодеры, транскодеры, декодеры, кодеки, системы предварительной обработки, системы пост-обработки и системы обработки битового потока (иногда называемые «инструментами обработки битового потока»). Практически вся потребительская электроника, такая как мобильные телефоны, телевизоры, ноутбуки и планшетные компьютеры, содержит блок обработки звука, или звуковой процессор.Throughout this document, including the claims, the terms "sound processing unit" or "sound processor" are used in a broad sense to refer to a system, device, or apparatus adapted to process audio data. Examples of audio processing units include, but are not limited to, encoders, transcoders, decoders, codecs, pre-processing systems, post-processing systems, and bitstream processing systems (sometimes referred to as "bitstream processing tools"). Virtually all consumer electronics, such as mobile phones, televisions, laptops, and tablet computers, contain an audio processing unit, or sound processor.

По всему данному документу, включая формулу изобретения, термин «соединяет», или «соединенный», используется в широком смысле для обозначения либо непосредственного, либо опосредствованного соединения. Таким образом, если первое устройство соединено со вторым устройством, данное соединение может быть осуществлено через непосредственное соединение или через опосредованное соединения посредством других устройств или соединений. Более того, компоненты, встроенные в другие компоненты или объединенные с ними, также являются связанными друг с другом. Throughout this document, including the claims, the term "connects" or "connected" is used in a broad sense to mean either a direct or indirect connection. Thus, if a first device is connected to a second device, the connection may be through a direct connection or through an indirect connection through other devices or connections. Moreover, components embedded in or combined with other components are also related to each other.

Подробное описание вариантов осуществления изобретенияDetailed description of embodiments of the invention

Стандарт MPEG-4 AAC предусматривает, что кодированный битовый поток MPEG-4 AAC содержит метаданные, которые указывают каждый тип обработки реконструкции высоких частот («HFR»), которую необходимо применять (если какой-либо требуется применять) декодеру для декодирования звукового содержимого битового потока, и/или которые управляют этой обработкой HFR, и/или указывают по меньшей мере одну характеристику или параметр по меньшей мере одного инструмента HFR, который необходимо применять для декодирования звукового содержимого битового потока. В данном документе выражение «метаданные SBR» используется для обозначения метаданных, относящихся к типу, описанному или упомянутому в стандарте MPEG-4 AAC для использования при копировании спектральной полосы («SBR»). Специалистам в данной области техники понятно, что SBR представляет собой форму HFR.The MPEG-4 AAC standard stipulates that an encoded MPEG-4 AAC bitstream contains metadata that specifies each type of High Frequency Reconstruction ("HFR") processing to be applied (if any) to the decoder to decode the audio content of the bitstream. , and/or which control this HFR processing, and/or indicate at least one characteristic or parameter of at least one HFR tool to be applied to decode the audio content of the bitstream. In this document, the term "SBR metadata" is used to refer to metadata of the type described or referred to in the MPEG-4 AAC standard for use in spectral band copying ("SBR"). Those skilled in the art will appreciate that SBR is a form of HFR.

SBR предпочтительно используют как двухскоростную систему, в которой базовый кодек действует на половине исходной частоты дискретизации, тогда как SBR действует на исходной частоте дискретизации. Кодер SBR действует параллельно с базовым основным кодеком, хотя и на более высокой частоте дискретизации. Хотя SBR представляет собой, главным образом, заключительную обработку в декодере, для обеспечения наиболее точной реконструкции высоких частот в декодере важные параметры извлекаются в кодере. Кодер оценивает огибающую спектра диапазона SBR для временного и частотного диапазона/разрешения, подходящего для характеристик сегментов текущего входного сигнала. Огибающая спектра оценивается с помощью комплексного QMF анализа и последующего вычисления энергии. Временное и частотное разрешения огибающих спектра можно выбрать с более высокой степенью свободы, чтобы обеспечить наилучшее подходящее частотно-временное разрешение для данного входного сегмента. При оценке огибающей необходимо учитывать, что переходной сигнал, первоначально расположенный, главным образом, в высокочастотной области (например, сигнал педальной тарелки), будет лишь в небольшой степени присутствовать в генерируемом SBR верхнем диапазоне до коррекции огибающей, поскольку верхний диапазон в декодере основан на нижнем диапазоне, где этот переходной сигнал намного менее выражен по сравнению с верхним диапазоном. Данный аспект вводит разные требования для частотно-временного разрешения данных огибающей спектра по сравнению с обычной оценкой огибающей спектра, используемой в алгоритмах кодирования звука.SBR is preferably used as a two-rate system in which the base codec operates at half of the original sample rate, while SBR operates at the original sample rate. The SBR encoder operates in parallel with the underlying main codec, albeit at a higher sampling rate. Although SBR is primarily a post-processing in the decoder, important parameters are extracted in the encoder to ensure the most accurate reconstruction of the high frequencies in the decoder. The encoder estimates the spectrum envelope of the SBR band for a time and frequency span/resolution appropriate for the segment characteristics of the current input signal. The spectrum envelope is estimated using complex QMF analysis and subsequent energy calculation. The time and frequency resolution of the spectrum envelopes can be chosen with a higher degree of freedom to provide the best suitable time-frequency resolution for a given input segment. When evaluating the envelope, it must be taken into account that a transient signal originally located mainly in the high frequency region (for example, a cymbal signal) will be only slightly present in the SBR generated high range before the envelope correction, since the high range in the decoder is based on the low range where this transient is much less pronounced compared to the high range. This aspect introduces different requirements for the time-frequency resolution of spectrum envelope data compared to conventional spectrum envelope estimation used in audio coding algorithms.

Помимо огибающей спектра, извлекается несколько дополнительных параметров, представляющих спектральные характеристики входного сигнала для разных временных и частотных областей. Поскольку кодер естественным образом имеет доступ к исходному сигналу, а также к информации о том, как блок SBR в декодере будет создавать верхний диапазон, при наличии конкретного набора управляющих параметров, система может обрабатывать ситуации, в которых нижний диапазон составляет строгий гармонический ряд, а верхний диапазон, который необходимо воссоздать, составляет в основном случайные составляющие сигнала, а также ситуации, в которых в исходном верхнем диапазоне присутствуют сильные тональные составляющие, не имеющие аналогов в нижнем диапазоне, на котором основывается верхний диапазон. Кроме того, кодер SBR действует в тесной связи с базовым основным кодеком для оценки того, какой частотный диапазон следует охватывать посредством SBR в данный момент времени. Данные SBR эффективно кодируются перед передачей с использованием энтропийного кодирования, а также канальных зависимостей управляющих данных, в случае стереофонических сигналов.In addition to the spectrum envelope, several additional parameters are extracted that represent the spectral characteristics of the input signal for different time and frequency domains. Since the encoder naturally has access to the original signal, as well as information on how the SBR block in the decoder will create the upper band, given a specific set of control parameters, the system can handle situations in which the lower band is a strict harmonic series, and the upper the range to be recreated is mostly random signal components, as well as situations in which there are strong tonal components in the original high range that have no counterpart in the low range on which the high range is based. In addition, the SBR encoder works closely with the underlying core codec to judge which frequency range should be covered by SBR at a given time. The SBR data is efficiently encoded before transmission using entropy coding as well as control data channel dependencies, in the case of stereo signals.

Алгоритмы извлечения управляющих параметров обычно необходимо тщательно подстраивать к базовому кодеку при заданной битовой скорости и заданной частоте дискретизации. Это вызвано тем, что более низкая битовая скорость обычно предполагает более широкий диапазон SBR по сравнению с высокой битовой скоростью, а разные частоты дискретизации соответствуют разным временным разрешениям кадров SBR.Control parameter extraction algorithms usually need to be carefully tuned to the underlying codec at a given bit rate and a given sample rate. This is because a lower bit rate typically implies a wider range of SBRs than a higher bit rate, and different sample rates correspond to different temporal resolutions of the SBR frames.

Декодер SBR обычно содержит несколько разных частей. Он содержит модуль декодирования битового потока, модуль реконструкции высоких частот (HFR), модуль дополнительных высокочастотных составляющих и модуль корректора огибающей. Система основана на блоке комплекснозначных QMF фильтров (для высококачественной SBR) или блоке вещественнозначных QMF фильтров (для SBR малой мощности). Варианты осуществления настоящего изобретения применимы и к высококачественной SBR, и к SBR малой мощности. В модуле извлечения битового потока управляющие данные считывают из битового потока и декодируют. Перед считыванием данных огибающей из битового потока для текущего кадра получают частотно-временную сетку. Базовый основной декодер декодирует звуковой сигнал текущего кадра (хотя и с более низкой частотой дискретизации) для получения звуковых дискретных значений во временной области. Получаемый кадр звуковых данных используется модулем HFR для реконструкции высоких частот. Декодированный сигнал нижнего диапазона затем подвергают анализу с использованием блока QMF фильтров. Затем на дискретных значениях поддиапазонов блока QMF фильтров выполняют реконструкцию высоких частот и коррекция огибающей. Высокие частоты реконструируют из нижнего диапазона гибким образом на основе заданных управляющих параметров. Кроме того, для обеспечения надлежащих спектральных характеристик заданной временной / частотной области реконструированный верхний диапазон подвергают адаптивной фильтрации на основе каналов поддиапазонов в соответствии с управляющими данными.An SBR decoder usually contains several different parts. It contains a bitstream decoding module, a high frequency reconstruction (HFR) module, an additional high frequency components module, and an envelope corrector module. The system is based on a complex-valued QMF filter bank (for high quality SBR) or a real-valued QMF filter bank (for low power SBR). Embodiments of the present invention are applicable to both high quality SBR and low power SBR. In the bitstream extractor, control data is read from the bitstream and decoded. Before reading the envelope data from the bit stream for the current frame, a time-frequency grid is obtained. The underlying core decoder decodes the audio signal of the current frame (albeit at a lower sampling rate) to obtain audio samples in the time domain. The resulting frame of audio data is used by the HFR module to reconstruct the high frequencies. The decoded low band signal is then subjected to analysis using a QMF filter bank. Then, on discrete values of the subbands of the QMF filter block, high-frequency reconstruction and envelope correction are performed. The high frequencies are reconstructed from the low range in a flexible manner based on the given control parameters. In addition, in order to ensure proper spectral characteristics of a given time/frequency domain, the reconstructed upper band is subjected to adaptive filtering based on the subband channels in accordance with the control data.

Высший уровень битового потока MPEG-4 AAC представляет собой последовательность блоков данных (элементы «raw_data_block»), каждый из которых представляет собой сегмент данных (в данном документе называемый «блоком»), содержащий звуковые данные (обычно для промежутка времени в 1024 или 960 дискретных значений), и связанную информацию и/или другие данные. В данном документе термин «блок» используется для обозначения сегмента битового потока MPEG-4 AAC, содержащего звуковые данные (и соответствующие метаданные, а также необязательно другие связанные данные), которые определяют или указывают один (но не более одного) элемент «raw_data_block». The highest level of an MPEG-4 AAC bitstream is a sequence of data blocks ("raw_data_block" elements), each of which is a data segment (referred to in this document as a "block") containing audio data (typically for a time span of 1024 or 960 discrete values), and related information and/or other data. In this document, the term "block" is used to refer to a segment of an MPEG-4 AAC bitstream containing audio data (and associated metadata, and optionally other related data) that defines or specifies one (but no more than one) raw_data_block element.

Каждый блок битового потока MPEG-4 AAC может содержать некоторое количество синтаксических элементов (каждый из которых также реализован в битовом потоке как сегмент данных). В стандарте MPEG-4 AAC определено семь типов таких синтаксических элементов. Каждый синтаксический элемент идентифицируют по отличающемуся значению элемента данных «id_syn_ele». Примеры синтаксических элементов включают «single_channel_element()», «channel_pair_element()» и «fill_element()». Элемент одиночного канала single_channel_element представляет собой контейнер, содержащий звуковые данные одного звукового канала (монофонический звуковой сигнал). Элемент пары каналов channel_pair_element содержит звуковые данные двух звуковых каналов (т.е. стереофонический звуковой сигнал). Each MPEG-4 AAC bitstream block may contain a number of syntax elements (each of which is also implemented in the bitstream as a data segment). The MPEG-4 AAC standard defines seven types of such syntax elements. Each syntax element is identified by a different value of the "id_syn_ele" data element. Examples of syntax elements include "single_channel_element()", "channel_pair_element()", and "fill_element()". The single_channel_element element is a container containing the audio data of a single audio channel (a mono audio signal). The channel_pair_element contains the audio data of two audio channels (ie, a stereo audio signal).

Заполняющий элемент fill_element представляет собой контейнер информации, содержащий идентификатор (например, значение отмеченного выше элемента «id_syn_ele»), за которым следует данные, называемые «заполняющими данными». Заполняющие элементы исторически использовали для коррекции мгновенной битовой скорости битовых потоков, подлежащих передаче по каналу с постоянной скоростью. Благодаря добавлению соответствующего количества заполняющих данных к каждому блоку можно добиться постоянной скорости передачи данных. A fill_element is a container of information containing an identifier (eg, the value of the "id_syn_ele" element noted above) followed by data called "fill data". Padding elements have historically been used to correct the instantaneous bit rate of bit streams to be transmitted over a constant rate channel. By adding an appropriate amount of padding data to each block, a constant data rate can be achieved.

Согласно вариантам осуществления настоящего изобретения заполняющие данные могут содержать один или более элементов полезных данных расширения, которые расширяют тип данных (например, метаданные) и могут быть переданы в битовом потоке. Декодер, принимающий битовые потоки с заполняющими данными, содержащими новый тип данных, может необязательно быть использован устройством, принимающим битовый поток (например, декодером), для расширения функциональных возможностей устройства. Таким образом, как может быть понятно специалисту в данной области техники, заполняющие элементы представляют собой специальный тип структуры данных и отличаются от структур данных, обычно используемых для передачи звуковых данных (например, полезных звуковых данных, содержащих данные каналов).According to embodiments of the present invention, the padding data may contain one or more extension payloads that extend the data type (eg, metadata) and may be transmitted in a bitstream. A decoder receiving bitstreams with padding data containing a new data type may optionally be used by a device receiving the bitstream (eg, a decoder) to extend the functionality of the device. Thus, as can be understood by one skilled in the art, padding elements are a special type of data structure and are different from data structures commonly used to convey audio data (eg, payload audio data containing channel data).

В некоторых вариантах осуществления настоящего изобретения идентификатор, используемый для идентификации заполняющего элемента, может состоять из трехбитного целого числа без знака, у которого сначала передают старший значащий бит («uimsbf»), имеющего значение 0x6. В одном блоке может существовать несколько экземпляров синтаксического элемента одного типа (например, несколько заполняющих элементов). In some embodiments of the present invention, the identifier used to identify the padding element may consist of a three-bit unsigned integer with the most significant bit ("uimsbf") having a value of 0x6 transmitted first. There can be several instances of a syntax element of the same type in one block (for example, several padding elements).

Другим стандартом кодирования звуковых битовых потоков является стандарт MPEG «Унифицированное кодирование речи и звука» (USAC) (ISO/IEC 23003-3:2012). В стандарте MPEG USAC описано кодирование и декодирование звукового содержимого с использованием обработки копирования спектральной полосы (в том числе обработки SBR, как описано в стандарте MPEG-4 AAC, а также других улучшенных форм обработки копирования спектральной полосы). При данной обработке применяют инструменты копирования спектральной полосы (иногда называемые в данном документе «инструментами улучшенного SBR» или «инструментами eSBR») из расширенной и улучшенной версии набора инструментов SBR, описанных в стандарте MPEG-4 AAC. Таким образом, eSBR (определенное в стандарте USAC) представляет собой усовершенствование SBR (определенного в стандарте MPEG-4 AAC).Another audio bitstream encoding standard is the MPEG Unified Speech and Audio Coding (USAC) standard (ISO/IEC 23003-3:2012). The MPEG USAC standard describes the encoding and decoding of audio content using spectral band copy processing (including SBR processing as described in the MPEG-4 AAC standard, as well as other advanced forms of spectral band copy processing). This processing uses spectral band copy tools (sometimes referred to herein as "enhanced SBR tools" or "eSBR tools") from an extended and improved version of the SBR toolset described in the MPEG-4 AAC standard. Thus, eSBR (defined in the USAC standard) is an improvement on SBR (defined in the MPEG-4 AAC standard).

В данном документе выражение «обработка улучшенного SBR» (или «обработка eSBR») используется для обозначения обработки копирования спектральной полосы с использованием по меньшей мере одного инструмента eSBR (например, по меньшей мере одного инструмента eSBR, описанного или упомянутого в стандарте MPEG USAC), который не описан или не упомянут в стандарте MPEG-4 AAC. Примерами таких инструментов eSBR являются гармоническая транспозиция и предварительная обработка, или «предварительное сглаживание», QMF вставки.In this document, the term "enhanced SBR processing" (or "eSBR processing") is used to refer to spectral band copy processing using at least one eSBR tool (e.g., at least one eSBR tool described or referred to in the MPEG USAC standard), which is not described or mentioned in the MPEG-4 AAC standard. Examples of such eSBR tools are harmonic transposition and pre-processing or "pre-smoothing" QMF inserts.

Гармонический транспозер целочисленного порядка Т отображает синусоиду с частотой ω в синусоиду с частотой Tω с одновременным сохранением длительности сигнала. Обычно для получения каждой части требуемого выходного диапазона частот используется в последовательности три порядка, T = 2, 3, 4, с использованием наименьшего возможного порядка транспозиции. Если требуется вывод выше четвертого порядка диапазона транспозиции, его можно получить путем сдвигов частоты. С целью сведения к минимуму вычислительной сложности, когда возможно, для обработки создают дискретизированные временные области основной полосы, близкие к критическим. The integer-order harmonic transposer T maps a sinusoid with a frequency ω into a sinusoid with a frequency Tω while maintaining the signal duration. Typically, three orders, T = 2, 3, 4, are used in sequence to obtain each part of the required output bandwidth, using the smallest possible order of transposition. If output above the fourth order of the transposition range is required, it can be obtained by frequency shifts. In order to minimize computational complexity, when possible, sampled baseband time domains close to critical are created for processing.

Гармонический транспозер может быть основан или на QMF, или на DFT. При использовании гармонического транспозера на основе QMF расширение полосы пропускания сигнала основного кодера во временной области полностью осуществляется в области QMF с использованием конструкции модифицированного фазового вокодера, выполняющей прореживание, за которым следует растяжение по времени для каждого поддиапазона QMF. Транспозицию с использованием нескольких коэффициентов транспозиции (например, T = 2, 3, 4) осуществляют на общей ступени преобразования анализа / синтеза QMF. Поскольку гармонический транспозер на основе QMF не обладает адаптивной к сигналу передискретизацией в частотной области, соответствующий флаг в битовом потоке («sbrOversamplingFlag[ch]») может быть проигнорирован. The harmonic transposer can be based on either QMF or DFT. With a QMF-based harmonic transposer, the core encoder's time domain bandwidth extension is performed entirely in the QMF domain using a modified phase vocoder design that performs decimation followed by time stretching for each QMF subband. Transposition using multiple transposition coefficients (eg T = 2, 3, 4) is performed in a common QMF analysis/synthesis transformation step. Since the QMF-based harmonic transposer does not have signal-adaptive oversampling in the frequency domain, the corresponding flag in the bitstream ("sbrOversamplingFlag[ch]") can be ignored.

Для снижения сложности при использовании гармонического транспозера на основе DFT транспозеры с коэффициентами 3 и 4 (транспозеры 3-го и 4-го порядков) предпочтительно встроены в транспозер с коэффициентом 2 (транспозер 2-го порядка) посредством интерполяции. Для каждого кадра (соответствующего дискретным значениям основного кодера coreCoderFrameLength) номинальный «полный размер» преобразования транспозера в первую очередь определяется в битовом потоке флагом («sbrOversamplingFlag[ch]») адаптивной к сигналу передискретизации в частотной области. To reduce complexity when using a DFT-based harmonic transposer, transposers with coefficients 3 and 4 (transposers of the 3rd and 4th orders) are preferably embedded in the transposer with a coefficient of 2 (transposer of the 2nd order) by interpolation. For each frame (corresponding to the coreCoderFrameLength core coder samples), the nominal "overall size" of the transposer transform is primarily determined in the bitstream by a signal-adaptive frequency domain oversampling flag ("sbrOversamplingFlag[ch]").

Если sbrPatchingMode==1, указывая, что для генерации верхнего диапазона необходимо использовать линейную транспозицию, то может быть введен дополнительный этап, чтобы избежать нарушений непрерывности в форме огибающей спектра высокочастотного сигнала, вводимого в последующий корректор огибающей. Это улучшает работу следующей ступени коррекции огибающей, что приводит к большей стабильности воспринимаемого сигнала верхнего диапазона. Работа дополнительной предварительной обработки является полезной для типов сигналов, в которых грубая огибающая спектра сигнала нижнего диапазона, используемого для реконструкции высоких частот, проявляет большие вариации уровня. Однако значение этого элемента битового потока можно определить в кодере путем применения любого типа классификации, зависящей от сигнала. Дополнительную предварительную обработку предпочтительно активируют с помощью однобитного элемента битового потока, «bs_sbr_preprocessing». Если «bs_sbr_preprocessing» установлен в единицу, дополнительная обработка включена. Если «bs_sbr_preprocessing» установлен в ноль, дополнительная предварительная обработка отключена. При дополнительной обработке предпочтительно используется кривая preGain, которая используется генератором высоких частот для масштабирования нижнего диапазона, X_Low, для каждой вставки. Например, кривую preGain можно вычислить по формуле:If sbrPatchingMode==1, indicating that a linear transposition is to be used to generate the high range, then an additional step can be introduced to avoid discontinuities in the shape of the envelope spectrum of the high frequency signal injected into the subsequent envelope corrector. This improves the performance of the next stage of envelope correction, resulting in a more stable perceived high-end signal. The operation of additional pre-processing is useful for signal types in which the coarse spectral envelope of the low-band signal used for high-frequency reconstruction exhibits large level variations. However, the meaning of this bitstream element can be determined at the encoder by applying any type of signal dependent classification. The additional preprocessing is preferably activated with a one-bit bitstream element, "bs_sbr_preprocessing". If "bs_sbr_preprocessing" is set to one, preprocessing is enabled. If "bs_sbr_preprocessing" is set to zero, additional preprocessing is disabled. The post-processing preferably uses a preGain curve, which is used by the high frequency generator to scale the lower range, X _Low , for each key. For example, the preGain curve can be calculated using the formula:

где k₀ – первый поддиапазон QMF в таблице диапазонов главных частот, а lowEnvSlope вычисляют с использованием функции, которая вычисляет коэффициенты наилучшего подходящего полинома (в смысле наименьших квадратов), такой как polyfit(). Например,where k ₀ is the first QMF subband in the principal band table and lowEnvSlope is calculated using a function that calculates the coefficients of the best fit polynomial (in the least squares sense), such as polyfit(). For example,

может быть использована (с использованием полинома третьей степени) и гдеcan be used (using a third degree polynomial) and where

где x_lowband(k) = [0…k₀-1], numTimeSlot – количество временных промежутков огибающей SBR, существующих в пределах кадра, RATE – константа, указывающая количество дискретных значений поддиапазонов QMF на временной промежуток (например, 2), ϕ_k – коэффициент фильтра линейного предсказания (потенциально получаемый ковариационным методом), и гдеwhere x_lowband(k) = [0…k ₀ -1], numTimeSlot is the number of SBR envelope timeslots that exist within a frame, RATE is a constant indicating the number of discrete QMF subband values per time period (for example, 2), ϕ _k is linear prediction filter coefficient (potentially obtained by the covariance method), and where

.

Битовый поток, сгенерированный согласно стандарту MPEG USAC (иногда именуемый в данном документе «битовым потоком USAC»), содержит кодированное звуковое содержимое и обычно содержит метаданные, указывающие каждый тип обработки копирования спектральной полосы, которую необходимо применять декодеру для декодирования звукового содержимого битового потока USAC, и/или метаданные, управляющие такой обработкой копирования спектральной полосы, и/или указывающие по меньшей мере одну характеристику или параметр по меньшей мере одного инструмента SBR и/или eSBR, который необходимо применять для декодирования звукового содержимого битового потока USAC. A bitstream generated according to the MPEG USAC standard (sometimes referred to herein as a "USAC bitstream") contains encoded audio content and typically contains metadata indicating each type of spectral band copy processing that a decoder needs to apply to decode the audio content of the USAC bitstream, and/or metadata governing such spectral band copy processing and/or indicating at least one characteristic or parameter of at least one SBR and/or eSBR instrument to be applied to decode the audio content of the USAC bitstream.

В данном документе выражение «метаданные улучшенного SBR» (или «метаданные eSBR») используются для обозначения метаданных, указывающих каждый тип обработки копирования спектральной полосы, которую необходимо применять декодеру для декодирования звукового содержимого кодированного звукового битового потока (например, битового потока USAC), и/или которые управляют такой обработкой копирования спектральной полосы, и/или указывающих по меньшей мере одну характеристику или параметр по меньшей мере одного инструмента SBR и/или eSBR, который необходимо применять для декодирования такого звукового содержимого, но который не описан или не упомянут в стандарте MPEG-4 AAC. Примером метаданных eSBR являются метаданные (указывающие обработку копирования спектральной полосы или управляющие ей), которые описаны или упомянуты в стандарте MPEG USAC, но не в стандарте MPEG-4 AAC. Таким образом, метаданные eSBR в данном документе обозначают метаданные, не являющиеся метаданными SBR, и метаданные SBR в данном документе обозначают метаданные, не являющиеся метаданными eSBR.In this document, the term "enhanced SBR metadata" (or "eSBR metadata") is used to refer to metadata indicating each type of spectral band copy processing that a decoder needs to apply to decode the audio content of an encoded audio bitstream (e.g., a USAC bitstream), and /or which control such spectral band copy processing, and/or specifying at least one characteristic or parameter of at least one SBR and/or eSBR instrument to be applied to decode such audio content, but which is not described or mentioned in the standard MPEG-4 AAC. An example of eSBR metadata is metadata (indicating or controlling spectral band copy processing) that is described or referred to in the MPEG USAC standard, but not in the MPEG-4 AAC standard. Thus, eSBR metadata herein refers to metadata that is not SBR metadata, and SBR metadata herein refers to metadata that is not eSBR metadata.

Битовый поток USAC может содержать и метаданные SBR, и метаданные eSBR. Более конкретно, битовый поток USAC может содержать метаданные eSBR, управляющие выполнением обработки eSBR декодером, и метаданные SBR, управляющие выполнением обработки SBR декодером. Согласно типичными вариантам осуществления настоящего изобретения метаданные eSBR (например, конфигурационные данные, специфичные для eSBR) включены (согласно настоящему изобретению) в битовый поток MPEG-4 AAC (например, в контейнер sbr_extension() в конце полезных данных SBR).The USAC bitstream may contain both SBR metadata and eSBR metadata. More specifically, the USAC bitstream may contain eSBR metadata that controls the execution of eSBR processing by the decoder and SBR metadata that controls the execution of SBR processing by the decoder. According to exemplary embodiments of the present invention, eSBR metadata (eg, eSBR specific configuration data) is included (according to the present invention) in an MPEG-4 AAC bitstream (eg, in an sbr_extension() container at the end of the SBR payload).

При выполнении обработки eSBR, в ходе декодирования кодированного битового потока с использованием набора инструментов eSBR (содержащего по меньшей мере один инструмент eSBR), декодером верхний диапазон звукового сигнала восстанавливают на основе копирования последовательностей гармоник, которые были усечены во время кодирования. Такая обработка eSBR, как правило, корректирует огибающую спектра восстанавливаемого высокочастотного диапазона, применяет обратную фильтрацию и добавляет шумовые и синусоидальные составляющие для воссоздания спектральных характеристик исходного звукового сигнала. When performing eSBR processing, during decoding of the encoded bitstream using the eSBR toolkit (comprising at least one eSBR tool), the decoder recovers the upper range of the audio signal based on copying the harmonic sequences that were truncated during encoding. This eSBR processing typically corrects the spectral envelope of the recovered high frequency range, applies inverse filtering, and adds noise and sine components to recreate the spectral characteristics of the original audio signal.

Согласно обычным вариантам осуществления настоящего изобретения метаданные eSBR включают (например, включают небольшое количество управляющих битов, представляющих собой метаданные eSBR) в один или более сегментов метаданных кодированного звукового битового потока (например, битового потока MPEG-4 AAC), который также содержит кодированные звуковые данные в других сегментах. Как правило, по меньшей мере один такой сегмент метаданных каждого блока битового потока представляет собой (или содержит) заполняющий элемент (содержащий идентификатор, указывающий начало заполняющего элемента), и метаданные eSBR включают в заполняющий элемент после этого идентификатора. According to conventional embodiments of the present invention, eSBR metadata includes (e.g., includes a small number of control bits representing eSBR metadata) in one or more metadata segments of an encoded audio bitstream (e.g., an MPEG-4 AAC bitstream) that also contains encoded audio data. in other segments. Typically, at least one such metadata segment of each bitstream block is (or contains) a padding element (containing an identifier indicating the start of the padding element), and the eSBR metadata is included in the padding element after this identifier.

На фиг. 1 показана структурная схема примерной цепочки обработки звука (системы обработки звуковых данных), в которой один или более элементов системы могут быть выполнены согласно одному варианту осуществления настоящего изобретения. Система содержит следующие элементы, соединенные вместе, как показано: кодер 1, подсистему 2 доставки, декодер 3 и блок 4 постобработки. В вариациях показанной системы опускают один или более элементов или включают дополнительные блоки обработки звуковых данных. In FIG. 1 is a block diagram of an exemplary audio processing chain (audio data processing system) in which one or more system elements may be implemented according to one embodiment of the present invention. The system contains the following elements connected together as shown: an encoder 1, a delivery subsystem 2, a decoder 3 and a post-processing unit 4. Variations of the system shown omit one or more elements or include additional audio data processing units.

В некоторых реализациях кодер 1 (необязательно содержащий блок предварительной обработки) выполнен с возможностью приема в качестве ввода дискретных значений РСМ (во временной области), содержащих звуковое содержимое, и вывода кодированного звукового битового потока (имеющего формат, совместимый со стандартом MPEG-4 AAC), который характеризует звуковое содержимое. Данные битового потока, характеризующие звуковое содержимое, иногда называют «звуковыми данными» или «кодированными звуковыми данными». Если кодер выполнен согласно типичному варианту осуществления настоящего изобретения, звуковой битовый поток, выводимый из кодера, содержит метаданные eSBR (и, как правило, другие метаданные), а также звуковые данные. In some implementations, encoder 1 (optionally including a preprocessor) is configured to receive as input PCM (time domain) samples containing audio content and output an encoded audio bitstream (having a format compatible with the MPEG-4 AAC standard) , which characterizes the audio content. Bitstream data characterizing audio content is sometimes referred to as "audio data" or "encoded audio data". If the encoder is implemented according to an exemplary embodiment of the present invention, the audio bitstream output from the encoder contains eSBR metadata (and typically other metadata) as well as audio data.

Один или более кодированных звуковых битовых потоков, выводимых из кодера 1, могут быть переданы в подсистему 2 доставки кодированного звука. Подсистема 2 выполнена с возможностью хранения и/или доставки каждого кодированного битового потока, выводимого из кодера 1. Кодированный звуковой битовый поток, выводимый из кодера 1, может быть сохранен в подсистеме 2 (например, в форме диска DVD или Blu ray), или быть передан подсистемой 2 (которая может реализовывать канал или сеть связи), или может быть и сохранен, и передан подсистемой 2. One or more encoded audio bitstreams output from the encoder 1 may be transmitted to the encoded audio delivery subsystem 2. Subsystem 2 is configured to store and/or deliver each encoded bitstream output from encoder 1. The encoded audio bitstream output from encoder 1 may be stored in subsystem 2 (for example, in the form of a DVD or Blu ray disc), or be transmitted by subsystem 2 (which may implement a communication channel or network), or may be both stored and transmitted by subsystem 2.

Декодер 3 выполнен с возможностью декодирования кодированного звукового битового потока MPEG-4 AAC (генерируемого кодером 1), который он принимает через подсистему 2. В некоторых вариантах осуществления декодер 3 выполнен с возможностью извлечения метаданных eSBR из каждого блока битового потока и декодирования битового потока (в том числе посредством выполнения обработки eSBR с использованием извлеченных метаданных eSBR) для генерирования декодированных звуковых данных (например, потоков декодированных звуковых дискретных значений РСМ). В некоторых вариантах осуществления декодер 3 выполнен с возможностью извлечения метаданных SBR из битового потока (однако с игнорированием метаданных еSBR, включенных в битовый поток) и декодирования битового потока (в том числе посредством выполнения обработки SBR с использованием извлеченных метаданных SBR) для генерирования декодированных звуковых данных (например, потоков декодированных звуковых дискретных значений РСМ). Как правило, декодер 3 содержит буфер, в котором хранятся (например, энергонезависимо) сегменты кодированного звукового битового потока, принятого из подсистемы 2.Decoder 3 is configured to decode an MPEG-4 AAC encoded audio bitstream (generated by encoder 1) that it receives via subsystem 2. In some embodiments, decoder 3 is configured to extract eSBR metadata from each block of the bitstream and decode the bitstream (in including by performing eSBR processing using the extracted eSBR metadata) to generate decoded audio data (eg, PCM decoded audio sample streams). In some embodiments, the decoder 3 is configured to extract SBR metadata from the bitstream (however, ignoring the eSBR metadata included in the bitstream) and decode the bitstream (including by performing SBR processing using the extracted SBR metadata) to generate decoded audio data. (eg, PCM decoded audio sample streams). Typically, decoder 3 contains a buffer that stores (eg, non-volatilely) segments of the encoded audio bitstream received from subsystem 2.

Блок 4 постобработки по фиг. 1 выполнен с возможностью приема потока декодированных звуковых данных из декодера 3 (например, декодированных звуковых дискретных значений РСМ) и выполнения постобработки над ними. Блок постобработки также может быть выполнен с возможностью представления подвергнутого постобработке звукового содержимого (или декодированного звука, принятого из декодера 3) для воспроизведения одним или более динамиками.The post-processing block 4 of FIG. 1 is configured to receive a stream of decoded audio data from the decoder 3 (eg, decoded PCM audio samples) and perform post-processing on them. The post-processing unit may also be configured to present post-processed audio content (or decoded audio received from decoder 3) for playback by one or more speakers.

На фиг. 2 показана структурная схема кодера (100), представляющего собой один вариант осуществления блока обработки звука согласно изобретению. Любой из компонентов или элементов кодера 100 может быть реализован как один или более процессов и/или одна или более схем (например, ASIC, FPGA или других интегральных схем), в аппаратном обеспечении, программном обеспечении или в сочетании аппаратного и программного обеспечения. Кодер 100 содержит кодер 105, ступень 107 формирователя скорости передачи данных / устройства форматирования, ступень 106 генерации метаданных и буферное запоминающее устройство 109, соединенные так, как показано. Как правило, кодер 100 также содержит другие обрабатывающие элементы (не показаны). Кодер 100 выполнен с возможностью преобразования входного звукового битового потока в кодированный выходной битовый поток MPEG-4 AAC.In FIG. 2 shows a block diagram of an encoder (100) which is one embodiment of an audio processing unit according to the invention. Any of the components or elements of encoder 100 may be implemented as one or more processes and/or one or more circuits (eg, ASICs, FPGAs, or other integrated circuits), in hardware, software, or a combination of hardware and software. The encoder 100 includes an encoder 105, a bit rate generator/formatter stage 107, a metadata generation stage 106, and a memory buffer 109 connected as shown. Typically, encoder 100 also contains other processing elements (not shown). The encoder 100 is configured to convert the input audio bitstream into an encoded MPEG-4 AAC output bitstream.

Генератор 106 метаданных подключен и выполнен с возможностью генерации (и/или пропуска на ступень 107) метаданных (в том числе метаданных eSBR и метаданных SBR) с целью включения ступенью 107 в кодированный битовый поток для вывода из кодера 100. Metadata generator 106 is connected and configured to generate (and/or pass to stage 107) metadata (including eSBR metadata and SBR metadata) for inclusion by stage 107 in the encoded bitstream for output from encoder 100.

Кодер 105 соединен и выполнен с возможностью кодирования входных звуковых данных (например, путем выполнения их сжатия) и передачи полученного в результате кодированного звука на ступень 107 с целью включения в кодированный битовый поток для вывода из ступени 107. The encoder 105 is connected and configured to encode the input audio data (for example, by performing compression) and pass the resulting encoded audio to stage 107 for inclusion in the encoded bitstream for output from stage 107.

Ступень 107 выполнена с возможностью мультиплексирования кодированного звука из кодера 105 и метаданных (в том числе метаданных eSBR и метаданных SBR) из генератора 106 для генерирования кодированного битового потока для вывода из ступени 107, предпочтительно так, что кодированный битовый поток имеет формат, задаваемый одним из вариантов осуществления настоящего изобретения.Stage 107 is configured to multiplex the encoded audio from encoder 105 and metadata (including eSBR metadata and SBR metadata) from generator 106 to generate an encoded bitstream for output from stage 107, preferably such that the encoded bitstream has a format specified by one of embodiments of the present invention.

Буферное запоминающее устройство 109 выполнено с возможностью хранения (например, энергонезависимо) по меньшей мере одного блока кодированного звукового битового потока из ступени 107, и последовательность блоков кодированного звукового битового потока затем передается из буферного запоминающего устройства 109 как вывод из кодера 100 в систему доставки. Memory buffer 109 is configured to store (eg, non-volatilely) at least one encoded audio bitstream block from stage 107, and a sequence of encoded audio bitstream blocks is then transmitted from buffer memory 109 as output from encoder 100 to the delivery system.

На фиг. 3 показана структурная схема системы, содержащей декодер (200), представляющий собой один вариант осуществления блока обработки звука согласно изобретению, и необязательно также соединенный с ним постпроцессор (300). Любой из компонентов, или элементов, декодера 200 и постпроцессора 300 может быть реализован как один или более процессов и/или одна или более схем (например, ASIC, FPGA или других интегральных схем), в аппаратном обеспечении, программном обеспечении или в сочетании аппаратного и программного обеспечения. Декодер 200 содержит буферное запоминающее устройство 201, устройство 205 удаления форматирования (синтаксический анализатор) полезных данных битового потока, подсистему 202 декодирования звука (иногда называемую «основной» ступенью декодирования или «основной» подсистемой декодирования), ступень 203 обработки eSBR и ступень 204 генерации управляющих битов, соединенные так, как показано. Как правило, декодер 200 также содержит другие обрабатывающие элементы (не показаны). In FIG. 3 shows a block diagram of a system comprising a decoder (200), which is one embodiment of an audio processing unit according to the invention, and optionally also a post-processor (300) connected to it. Any of the components, or elements, of decoder 200 and post processor 300 may be implemented as one or more processes and/or one or more circuits (eg, ASICs, FPGAs, or other integrated circuits), in hardware, software, or a combination of hardware and software. The decoder 200 includes a memory buffer 201, a bitstream payload deformatter (parser) 205, an audio decoding subsystem 202 (sometimes referred to as a "main" decoding stage or a "main" decoding subsystem), an eSBR processing stage 203, and a control generation stage 204. bits connected as shown. Typically, decoder 200 also contains other processing elements (not shown).

Буферное запоминающее устройство (буфер) 201 хранит (например, энергонезависимо) по меньшей мере один блок кодированного звукового битового потока MPEG-4 AAC, принятого декодером 200. В работе декодера 200 последовательность блоков битового потока передается из буфера 201 в устройство 205 удаления форматирования. Buffer memory (buffer) 201 stores (eg, non-volatilely) at least one block of the encoded MPEG-4 AAC audio bitstream received by decoder 200. In operation of decoder 200, a sequence of bitstream blocks is transferred from buffer 201 to deformatter 205.

В вариациях варианта осуществления по фиг. 3 (или варианта осуществления по фиг. 4, который будет описан), APU, который не является декодером (например, APU 500 по фиг. 6), содержит буферное запоминающее устройство (например, буферное запоминающее устройство, идентичное буферу 201), которое сохраняет (например, энергонезависимо) по меньшей мере один блок кодированного звукового битового потока (например, звукового битового потока MPEG-4 AAC) такого же типа, как принятый буфером 201 по фиг. 3 или фиг. 4 (т.е. кодированного звукового битового потока, содержащего метаданные eSBR).In variations of the embodiment of FIG. 3 (or the embodiment of FIG. 4 to be described), an APU that is not a decoder (eg, APU 500 of FIG. 6) contains a buffer memory (eg, a buffer memory identical to buffer 201) that stores (eg, non-volatile) at least one block of an encoded audio bitstream (eg, MPEG-4 AAC audio bitstream) of the same type as received by buffer 201 of FIG. 3 or fig. 4 (i.e., an encoded audio bitstream containing eSBR metadata).

Также со ссылкой на фиг. 3, устройство 205 удаления форматирования соединено и выполнено с возможностью демультиплексирования каждого блока битового потока для извлечения из него метаданных SBR (включая квантованные данные огибающей) и метаданных eSBR (и, как правило, других метаданных) с целью передачи по меньшей мере метаданных eSBR и метаданных SBR на ступень 203 обработки eSBR, а также, как правило, для передачи других извлеченных метаданных в подсистему 202 декодирования (и необязательно также в генератор 204 управляющих битов). Устройство 205 удаления форматирования также соединено и выполнено с возможностью извлечения звуковых данных из каждого блока битового потока и передачи извлеченных звуковых данных в подсистему 202 декодирования (ступень декодирования). Also with reference to FIG. 3, a deformatter 205 is coupled and configured to demultiplex each block of the bitstream to extract SBR metadata (including quantized envelope data) and eSBR metadata (and typically other metadata) therefrom in order to transmit at least eSBR metadata and metadata. SBR to the eSBR processing stage 203, and also typically to pass other extracted metadata to the decoding subsystem 202 (and optionally also to the control bit generator 204). The deformatter 205 is also connected and configured to extract audio data from each block of the bitstream and transmit the extracted audio data to a decoding subsystem 202 (decoding stage).

Система, показанная на фиг. 3, необязательно также содержит постпроцессор 300. Постпроцессор 300 содержит буферное запоминающее устройство (буфер) 301 и другие обрабатывающие элементы (не показаны), в том числе по меньшей мере один обрабатывающий элемент, соединенный с буфером 301. Буфер 301 сохраняет (например, энергонезависимо) по меньшей мере один блок (или кадр) декодированных звуковых данных, принятых постпроцессором 300 из декодера 200. Обрабатывающие элементы постпроцессора 300 соединены и выполнены с возможностью приема и адаптивной обработки последовательности блоков (или кадров) вывода декодированного звука из буфера 301 с использованием вывода метаданных из подсистемы 202 декодирования (и/или устройства 205 удаления форматирования) и/или вывода управляющих битов из ступени 204 декодера 200. The system shown in Fig. 3 optionally also includes a post processor 300. The post processor 300 includes a storage buffer (buffer) 301 and other processing elements (not shown), including at least one processing element coupled to buffer 301. Buffer 301 stores (e.g., non-volatile) at least one block (or frame) of decoded audio data received by post processor 300 from decoder 200. Processing elements of post processor 300 are connected and configured to receive and adaptively process a sequence of blocks (or frames) of decoded audio output from buffer 301 using metadata output from decoding subsystem 202 (and/or deformatting device 205) and/or outputting control bits from stage 204 of decoder 200.

Подсистема 202 декодирования звука декодера 200 выполнена с возможностью декодирования звуковых данных, извлеченных синтаксическим анализатором 205 (такое декодирование можно назвать «основной» операцией декодирования), для генерирования декодированных звуковых данных и передачи декодированных звуковых данных на ступень 203 обработки eSBR. Декодирование выполняется в частотной области и, как правило, включает обратное квантование, за которым следует спектральная обработка. Как правило, последняя ступень обработки в подсистеме 202 применяет преобразование из частотной области во временную область к декодированным звуковым данным в частотной области, так что вывод подсистемы представляет собой декодированные звуковые данные во временной области. Ступень 203 выполнена с возможностью применения инструментов SBR и инструментов eSBR, указанных метаданными SBR и eSBR (извлеченными синтаксическим анализатором 205), к декодированным звуковым данным (т. е. выполнения обработки SBR и eSBR над выводом подсистемы 202 декодирования с использованием метаданных SBR и eSBR) для генерирования полностью декодированных звуковых данных, выводимых (например, в постпроцессор 300) из декодера 200. Как правило, декодер 200 содержит запоминающее устройство (доступное для подсистемы 202 и ступени 203), которое сохраняет звуковые данные с удаленным форматированием и метаданные, выведенные из устройства 205 удаления форматирования, и ступень 203 выполнена с возможностью осуществления доступа к этим звуковым данным и метаданным (в том числе метаданным SBR и eSBR) по мере необходимости в ходе обработки SBR и eSBR. Обработку SBR и обработку eSBR на ступени 203 можно считать постобработкой над выводом основной подсистемы 202 декодирования. Необязательно декодер 200 также содержит подсистему заключительного повышающего микширования (которая может применять инструменты параметрической стереофонии («PS»), определенные в стандарте MPEG-4 AAC, с использованием метаданных PS, извлеченных устройством 205 удаления форматирования, и/или управляющих битов, сгенерированных в подсистеме 204), соединенную и выполненную с возможностью выполнения повышающего микширования в отношении вывода ступени 203 для генерирования полностью декодированного и подвергнутого повышающему микшированию звука, который выводится из декодера 200. Альтернативно постпроцессор 300 выполнен с возможностью выполнения повышающего микширования в отношении вывода декодера 200 (например, с использованием метаданных PS, извлеченных устройством 205 удаления форматирования, и/или управляющих битов, сгенерированных в подсистеме 204).The audio decoding subsystem 202 of the decoder 200 is configured to decode the audio data extracted by the parser 205 (such decoding can be referred to as a "main" decoding operation) to generate decoded audio data and pass the decoded audio data to the eSBR processing stage 203. Decoding is performed in the frequency domain and typically includes inverse quantization followed by spectral processing. Typically, the last stage of processing in subsystem 202 applies a frequency domain to time domain transform to the decoded audio data in the frequency domain such that the output of the subsystem is the decoded audio data in the time domain. Stage 203 is configured to apply SBR tools and eSBR tools indicated by SBR and eSBR metadata (extracted by parser 205) to decoded audio data (i.e., perform SBR and eSBR processing on the output of decoding subsystem 202 using SBR and eSBR metadata) to generate fully decoded audio data output (eg, to post processor 300) from decoder 200. Typically, decoder 200 includes a storage device (accessible to subsystem 202 and stage 203) that stores the formatted audio data and metadata output from the device 205 deformatting, and stage 203 is configured to access this audio data and metadata (including SBR and eSBR metadata) as needed during SBR and eSBR processing. The SBR processing and eSBR processing at stage 203 can be considered post-processing on the output of the main decoding subsystem 202 . Optionally, the decoder 200 also includes a post-upmix subsystem (which can apply the parametric stereophony ("PS") tools defined in the MPEG-4 AAC standard using the PS metadata extracted by the deformatter 205 and/or control bits generated in the subsystem 204) coupled and configured to perform upmixing on the output of stage 203 to generate fully decoded and upmixed audio that is output from decoder 200. Alternatively, post processor 300 is configured to perform upmixing on the output of decoder 200 (e.g., with using the PS metadata extracted by the deformatter 205 and/or control bits generated in the subsystem 204).

В ответ на метаданные, извлеченные устройством 205 удаления форматирования, генератор 204 управляющих битов может генерировать управляющие данные, и эти управляющие данные могут быть использованы в декодере 200 (например, в подсистеме заключительного повышающего микширования) и/или переданы как вывод декодера 200 (например, в постпроцессор 300 для использования при постобработке). В ответ на метаданные, извлеченные из входного битового потока (и необязательно также в ответ на управляющие данные), ступень 204 может генерировать (и передавать в постпроцессор 300) управляющие биты, указывающие, что декодированные звуковые данные, выводимые из ступени 203 обработки eSBR, следует подвергнуть постобработке конкретного типа. В некоторых реализациях декодер 200 выполнен с возможностью передачи метаданных, извлеченных устройством 205 удаления форматирования из входного битового потока, в постпроцессор 300, и постпроцессор 300 выполнен с возможностью выполнения постобработки над декодированными звуковыми данными, выводимыми из декодера 200, с использованием этих метаданных. In response to the metadata extracted by the format remover 205, the control bit generator 204 may generate control data, and this control data may be used in the decoder 200 (e.g., in a post-upmix subsystem) and/or transmitted as an output of the decoder 200 (e.g., to the post processor 300 for use in post processing). In response to the metadata extracted from the input bitstream (and optionally also in response to control data), stage 204 may generate (and pass to post processor 300) control bits indicating that the decoded audio data output from eSBR processing stage 203 should be post-process a specific type. In some implementations, decoder 200 is configured to pass the metadata extracted by deformatter 205 from the input bitstream to post processor 300, and post processor 300 is configured to perform post processing on the decoded audio data output from decoder 200 using this metadata.

На фиг. 4 показана структурная схема блока обработки звука («APU») (210), представляющего собой другой вариант осуществления блока обработки звука согласно изобретению. APU 210 представляет собой традиционный декодер, выполненный без возможности выполнения обработки eSBR. Любой из компонентов или элементов APU 210 может быть реализован как один или более процессов и/или одна или более схем (например, ASIC, FPGA или других интегральных схем), в аппаратном обеспечении, программном обеспечении или в сочетании аппаратного и программного обеспечения. APU 210 содержит буферное запоминающее устройство 201, устройство 215 удаления форматирования (синтаксический анализатор) полезных данных битового потока, подсистему 202 декодирования звука (иногда называемую «основной» ступенью декодирования или «основной» подсистемой декодирования) и ступень 213 обработки SBR, соединенные так, как показано. Как правило, APU 210 также содержит другие обрабатывающие элементы (не показаны). APU 210 может представлять, например, кодер, декодер или транскодер звука. In FIG. 4 is a block diagram of an audio processing unit ("APU") (210) which is another embodiment of an audio processing unit according to the invention. APU 210 is a conventional decoder without the ability to perform eSBR processing. Any of the components or elements of APU 210 may be implemented as one or more processes and/or one or more circuits (eg, ASICs, FPGAs, or other integrated circuits), in hardware, software, or a combination of hardware and software. The APU 210 includes a memory buffer 201, a bitstream payload deformatter (parser) 215, an audio decoding subsystem 202 (sometimes referred to as a "main" decoding stage or a "main" decoding subsystem), and an SBR processing stage 213 connected as shown. Typically, APU 210 also contains other processing elements (not shown). APU 210 may represent, for example, an audio encoder, decoder, or transcoder.

Элементы 201 и 202 APU 210 являются идентичными идентично пронумерованным элементам декодера 200 (по фиг. 3), и их описание, приведенное выше, повторяться не будет. В работе APU 210 последовательность блоков кодированного звукового битового потока (битового потока MPEG-4 AAC), принятая APU 210, передается из буфера 201 в устройство 215 удаления форматирования. The elements 201 and 202 of the APU 210 are identical to the identically numbered elements of the decoder 200 (of FIG. 3) and their description above will not be repeated. In operation of the APU 210, a block sequence of an encoded audio bitstream (MPEG-4 AAC bitstream) received by the APU 210 is transmitted from the buffer 201 to the deformatter 215 .

Устройство 215 удаления форматирования соединено и выполнено с возможностью демультиплексирования каждого блока битового потока с целью извлечения из него метаданных SBR (в том числе квантованных данных огибающей) и, как правило, других метаданных, но с игнорированием метаданных eSBR, которые могут быть включены в битовый поток согласно любому из вариантов осуществления настоящего изобретения. Устройство 215 удаления форматирования выполнено с возможностью передачи по меньшей мере метаданных SBR на ступень 213 обработки SBR. Устройство 215 удаления форматирования также соединено и выполнено с возможностью извлечения звуковых данных из каждого блока битового потока и передачи извлеченных звуковых данных в подсистему 202 декодирования (ступень декодирования). Deformatter 215 is coupled and configured to demultiplex each block of the bitstream to extract SBR metadata (including quantized envelope data) and generally other metadata from it, but ignoring eSBR metadata that may be included in the bitstream according to any of the embodiments of the present invention. The format remover 215 is configured to transmit at least SBR metadata to the SBR processing stage 213 . The deformatter 215 is also connected and configured to extract audio data from each block of the bitstream and transmit the extracted audio data to a decoding subsystem 202 (decoding stage).

Подсистема 202 декодирования звука декодера 200 выполнена с возможностью декодирования звуковых данных, извлеченных устройством 215 удаления форматирования (такое декодирование можно назвать «основной» операцией декодирования), для генерирования декодированных звуковых данных и передачи декодированных звуковых данных на ступень 213 обработки SBR. Декодирование выполняется в частотной области. Как правило, последняя ступень обработки в подсистеме 202 применяет преобразование из частотной области во временную область к декодированным звуковым данным в частотной области, так что вывод подсистемы представляет собой декодированные звуковые данные во временной области. Ступень 213 выполнена с возможностью применения инструментов SBR (но не инструментов eSBR), указанных метаданными SBR (извлеченными устройством 215 удаления форматирования), к декодированным звуковым данным (т.е. выполнения обработки SBR над выводом подсистемы 202 декодирования с использованием метаданных SBR) для генерирования полностью декодированных звуковых данных, выводимых (например, в постпроцессор 300) из APU 210. Как правило, APU 210 содержит запоминающее устройство (доступное для подсистемы 202 и ступени 213), которое сохраняет звуковые данные с удаленным форматированием и метаданные, выведенные из устройства 215 удаления форматирования, и ступень 213 выполнена с возможностью осуществления доступа к этим звуковым данным и метаданным (в том числе метаданным SBR) по мере необходимости в ходе обработки SBR. Обработку SBR на ступени 213 можно считать постобработкой над выводом основной подсистемы 202 декодирования. Необязательно APU 210 также содержит подсистему заключительного повышающего микширования (которая может применять инструменты параметрической стереофонии («PS»), определенные в стандарте MPEG-4 AAC, с использованием метаданных PS, извлеченных устройством 215 удаления форматирования), соединенную и выполненную с возможностью выполнения повышающего микширования в отношении вывода ступени 213 для генерирования полностью декодированного и подвергнутого повышающему микшированию звука, который выводится из APU 210. Альтернативно постпроцессор выполнен с возможностью выполнения повышающего микширования в отношении вывода APU 210 (например, с использованием метаданных PS, извлеченных устройством 215 удаления форматирования, и/или управляющих битов, сгенерированных в APU 210). The audio decoding subsystem 202 of the decoder 200 is configured to decode the audio data extracted by the deformatter 215 (such decoding can be referred to as a "main" decoding operation) to generate decoded audio data and transmit the decoded audio data to the SBR processing stage 213. The decoding is performed in the frequency domain. Typically, the last stage of processing in subsystem 202 applies a frequency domain to time domain transform to the decoded audio data in the frequency domain such that the output of the subsystem is the decoded audio data in the time domain. Stage 213 is configured to apply the SBR tools (but not the eSBR tools) indicated by the SBR metadata (extracted by the format remover 215) to the decoded audio data (i.e., perform SBR processing on the output of the decoding subsystem 202 using the SBR metadata) to generate fully decoded audio data output (e.g., to post processor 300) from APU 210. Typically, APU 210 includes a storage device (accessible to subsystem 202 and stage 213) that stores the formatted audio data and metadata output from deletion device 215 formatting, and stage 213 is configured to access this audio data and metadata (including SBR metadata) as needed during SBR processing. The SBR processing at step 213 can be considered post-processing on the output of the main decoding subsystem 202 . Optionally, the APU 210 also includes a post-upmix subsystem (which can apply Parametric Stereo (“PS”) tools defined in the MPEG-4 AAC standard using the PS metadata extracted by the format remover 215) coupled and configured to perform the upmix. with respect to the output of the stage 213 for generating the fully decoded and upmixed audio that is output from the APU 210. Alternatively, the post processor is configured to perform upmixing with respect to the output of the APU 210 (for example, using the PS metadata extracted by the deformatter 215, and/ or control bits generated in the APU 210).

Различные реализации кодера 100, декодера 200 и APU 210 выполнены с возможностью выполнения разных вариантов осуществления способа изобретения.Various implementations of encoder 100, decoder 200, and APU 210 are configured to perform different embodiments of the method of the invention.

Согласно некоторым вариантам осуществления метаданные eSBR включены (например, включено небольшое количество управляющих битов, представляющих собой метаданные eSBR) в кодированный звуковой битовый поток (например, в битовый поток MPEG-4 AAC), так, что традиционные декодеры (которые выполнены без возможности осуществления синтаксического анализа метаданных eSBR или использования какого-либо инструмента eSBR, к которому относятся эти метаданные eSBR) могут игнорировать эти метаданные eSBR, но все же декодировать битовый поток в той степени, которая возможна без использования метаданных eSBR или какого-либо инструмента eSBR, к которому относятся эти метаданные eSBR, как правило, без каких-либо значимых потерь в качестве декодированного звука. Однако декодеры eSBR, выполненные с возможностью синтаксического анализа битового потока, с целью идентификации метаданных eSBR, и использования по меньшей мере одного инструмента eSBR в ответ на эти метаданные eSBR, будут получать выгоду от использования по меньшей мере одного такого инструмента eSBR. Поэтому варианты осуществления настоящего изобретения предоставляют средства для эффективной передачи управляющих данных или метаданных улучшенного копирования спектральной полосы (eSBR) с обеспечением обратной совместимости.In some embodiments, the eSBR metadata is included (eg, a small number of control bits representing the eSBR metadata are included) in an encoded audio bitstream (eg, in an MPEG-4 AAC bitstream) such that conventional decoders (which are implemented without the ability to perform syntactic parsing the eSBR metadata or using whatever eSBR tool to which the eSBR metadata refers) can ignore that eSBR metadata but still decode the bitstream to the extent possible without using the eSBR metadata or whatever eSBR tool to which the eSBR refers. this eSBR metadata is generally without any significant loss in the quality of the decoded audio. However, eSBR decoders configured to parse the bitstream to identify eSBR metadata, and use at least one eSBR tool in response to that eSBR metadata, will benefit from using at least one such eSBR tool. Therefore, embodiments of the present invention provide a means for efficiently transmitting control data or Enhanced Spectral Band Copy (eSBR) metadata in a backwards compatible manner.

Как правило, метаданные eSBR в битовом потоке указывают (например, указывают по меньшей мере одну их характеристику или параметр) один или более из следующих инструментов eSBR (которые описаны в стандарте MPEG USAC и которые могли быть или могли не быть применены кодером во время генерации битового потока):Typically, eSBR metadata in a bitstream indicates (eg, indicates at least one characteristic or parameter thereof) one or more of the following eSBR tools (which are described in the MPEG USAC standard and which may or may not have been applied by the encoder during bitstream generation). flow):

• гармоническая транспозиция; и• harmonic transposition; And

• дополнительная предварительная обработка (предварительное сглаживание) QMF вставки.• additional pre-processing (pre-smoothing) QMF inserts.

Например, метаданные eSBR, включенные в битовый поток, могут указывать значения параметров (описанных в стандарте MPEG USAC и настоящем изобретении): sbrPatchingMode[ch], sbrOversamplingFlag[ch], sbrPitchInBins[ch], sbrPitchInBins[ch] и bs_sbr_preprocessing.For example, eSBR metadata included in the bitstream may indicate parameter values (described in the MPEG USAC standard and the present invention): sbrPatchingMode[ch], sbrOversamplingFlag[ch], sbrPitchInBins[ch], sbrPitchInBins[ch], and bs_sbr_preprocessing.

В данном документе обозначение «X[ch]», где X – некоторый параметр, обозначает, что этот параметр относится к каналу («ch») звукового содержимого кодированного битового потока, подлежащего декодированию. Для простоты выражение [ch] иногда опускается и предполагается, что соответствующий параметр относится к каналу звукового содержимого. In this document, the notation "X[ch]", where X is a parameter, means that this parameter refers to the channel ("ch") of the audio content of the encoded bitstream to be decoded. For simplicity, the expression [ch] is sometimes omitted and the corresponding parameter is assumed to refer to an audio content channel.

В данном документе обозначение X[ch][env], где Х – некоторый параметр, обозначает, что этот параметр относится к огибающей («env») SBR канала («ch») звукового содержимого кодированного битового потока, подлежащего декодированию. Для простоты выражения [env] и [ch] иногда опускаются и предполагается, что соответствующий параметр относится к огибающей SBR канала звукового содержимого. In this document, the notation X[ch][env], where X is a parameter, means that this parameter refers to the envelope ("env") of the SBR channel ("ch") of the audio content of the encoded bitstream to be decoded. For simplicity, the expressions [env] and [ch] are sometimes omitted and the corresponding parameter is assumed to refer to the SBR envelope of the audio content channel.

Во время декодирования кодированного битового потока работу гармонической транспозиции на ступени обработки eSBR декодирования (для каждого канала, «ch», звукового содержимого, указанного битовым потоком) управляют посредством следующих параметров метаданных eSBR: sbrPatchingMode[ch]: sbrOversamplingFlag[ch]; sbrPitchInBinsFlag[ch]; и sbrPitchInBins[ch].During decoding of the encoded bitstream, the harmonic transposition operation in the eSBR decoding processing stage (for each channel, "ch", of the audio content indicated by the bitstream) is controlled by the following eSBR metadata parameters: sbrPatchingMode[ch]: sbrOversamplingFlag[ch]; sbrPitchInBinsFlag[ch]; and sbrPitchInBins[ch].

Значение «sbrPatchingMode[ch]» указывает тип транспозера, используемого в eSBR: sbrPatchingMode[ch] = 1 указывает вставку путем линейной транспозиции, как описано в разделе 4.6.18 стандарта MPEG-4 AAC (при использовании или с высококачественной SBR, или с SBR малой мощности); sbrPatchingMode[ch] = 0 указывает на гармоническую вставку SBR, как описано в разделе 7.5.3 или 7.5.4 стандарта MPEG USAC.The value "sbrPatchingMode[ch]" indicates the type of transposer used in eSBR: sbrPatchingMode[ch] = 1 indicates insertion by linear transposition as described in section 4.6.18 of the MPEG-4 AAC standard (when used with either high quality SBR or SBR low power); sbrPatchingMode[ch] = 0 indicates SBR harmonic patching as described in section 7.5.3 or 7.5.4 of the MPEG USAC standard.

Значение «sbrOversamplingFlag[ch]» указывает на использование в eSBR адаптивной к сигналу передискретизации в частотной области в сочетании с гармонической вставкой SBR на основе DFT, как описано в разделе 7.5.3 стандарта MPEG USAC. Этот флаг управляет размером преобразований DFT, используемых в транспозере: 1 указывает, что адаптивная к сигналу передискретизация в частотной области включена, как описано в разделе 7.5.3.1 стандарта MPEG USAC; 0 указывает, что адаптивная к сигналу передискретизация в частотной области отключена, как описано в разделе 7.5.3.1 стандарта MPEG USAC. The value "sbrOversamplingFlag[ch]" indicates that the eSBR uses signal-adaptive frequency domain oversampling in combination with DFT-based SBR harmonic insertion, as described in section 7.5.3 of the MPEG USAC standard. This flag controls the size of the DFTs used in the transposer: 1 indicates that signal-adaptive frequency domain resampling is enabled, as described in section 7.5.3.1 of the MPEG USAC standard; 0 indicates that signal-adaptive frequency domain resampling is disabled, as described in section 7.5.3.1 of the MPEG USAC standard.

Значение «sbrPitchInBinsFlag[ch]» управляет интерпретацией параметра sbrPitchInBins[ch]: 1 указывает, что значение в sbrPitchInBins[ch] является действительным и больше нуля; 0 указывает, что значение sbrPitchInBins[ch] установлено ноль. The value "sbrPitchInBinsFlag[ch]" controls the interpretation of the sbrPitchInBins[ch] parameter: 1 indicates that the value in sbrPitchInBins[ch] is valid and greater than zero; 0 indicates that the value of sbrPitchInBins[ch] is set to zero.

Значение «sbrPitchInBins[ch]» управляет добавлением множителей векторного произведения в гармоническом транспозере SBR. Значение sbrPitchinBins[ch] является целым числом в диапазоне [0,127] и представляет расстояние, измеренное в элементах разрешения по частоте, для DFT с 1536 линиями, действующего на частоту дискретизации основного кодера.The value "sbrPitchInBins[ch]" controls the addition of cross product multipliers in the SBR harmonic transposer. The value of sbrPitchinBins[ch] is an integer in the range [0,127] and represents the distance, measured in frequency bins, for a 1536-line DFT acting on the core encoder sample rate.

В случае, когда битовый поток MPEG-4 AAC характеризует пару каналов SBR, каналы которой не соединены (а не единственный канал SBR), битовый поток характеризует два экземпляра вышеописанного синтаксиса (для гармонической или негармонической транспозиции), по одному для каждого канала sbr_channel_pair_element().In the case where an MPEG-4 AAC bitstream characterizes a pair of SBR channels whose channels are not connected (rather than a single SBR channel), the bitstream characterizes two instances of the above syntax (for harmonic or non-harmonic transposition), one for each channel sbr_channel_pair_element() .

Гармоническая транспозиция инструмента eSBR, как правило, повышает качество декодированных музыкальных сигналов при относительно низких частотах разделения. Негармоническая транспозиция (т. е. традиционная спектральная вставка), как правило, улучшает речевые сигналы. Таким образом, исходной точкой в принятии решения о том, транспозиция какого типа является предпочтительной для кодирования конкретного звукового содержимого, является выбор способа транспозиции в зависимости от обнаружения речи / музыки, при этом гармоническую транспозицию применяют к музыкальному содержимому, а спектральную вставку – к речевому содержимому.The harmonic transposition of an eSBR instrument tends to improve the quality of decoded music signals at relatively low crossover frequencies. Non-harmonic transposition (i.e. traditional spectral insertion) tends to improve speech signals. Thus, the starting point in deciding which type of transposition is preferable for encoding a particular audio content is the choice of transposition method depending on the detection of speech / music, with harmonic transposition applied to musical content, and spectral insertion to speech content. .

Работой предварительного сглаживания в ходе обработки eSBR управляют посредством значения однобитного параметра метаданных eSBR, известного как «bs_sbr_preprocessing», в том смысле, что предварительное сглаживание или выполняют, или не выполняют, в зависимости от значения этого единственного бита. При использовании алгоритма QMF вставки SBR, описанного в разделе 4.6.18.6.3 стандарта MPEG-4 AAC, этап предварительного сглаживания может выполняться (если указано параметром «bs_sbr_preprocessing») в попытке избежать нарушений непрерывности формы огибающей спектра высокочастотного сигнала, вводимого в корректор огибающей (корректор огибающей выполняет другую ступень обработки eSBR). Предварительное сглаживание, как правило, улучшает работу следующей ступени коррекции огибающей, что приводит к большей стабильности воспринимаемого сигнала верхнего диапазона.The operation of pre-aliasing during eSBR processing is controlled by the value of a one-bit eSBR metadata parameter known as "bs_sbr_preprocessing", in the sense that pre-aliasing is either performed or not performed, depending on the value of this single bit. When using the SBR insertion QMF algorithm described in section 4.6.18.6.3 of the MPEG-4 AAC standard, a pre-smoothing step may be performed (if specified by the "bs_sbr_preprocessing" parameter) in an attempt to avoid discontinuities in the shape of the envelope spectrum of the high-frequency signal input to the envelope corrector ( envelope corrector performs another eSBR processing stage). Pre-smoothing tends to improve the performance of the next stage of envelope correction, resulting in a more stable perceived high-end signal.

Ожидается, что общие требования к битовой скорости для включения в битовый поток MPEG-4 AAC метаданных eSBR, указывающих вышеупомянутые инструменты eSBR (гармоническую транспозицию и предварительное сглаживание), имеют порядок нескольких сотен битов в секунду, поскольку согласно некоторым вариантам осуществления настоящего изобретения, передаются только дифференциальные управляющие данные, необходимые для выполнения обработки eSBR. Традиционные декодеры могут игнорировать эту информацию, поскольку она включена с обеспечением обратной совместимости (как будет разъяснено позднее). Поэтому отрицательное влияние на битовую скорость, связанное с включением метаданных eSBR, является пренебрежимо малым, по множеству причин, включая следующие:It is expected that the overall bit rate requirements for including in an MPEG-4 AAC bitstream eSBR metadata indicating the aforementioned eSBR tools (harmonic transposition and pre-smoothing) are in the order of several hundred bits per second, since according to some embodiments of the present invention, only differential control data required to perform eSBR processing. Legacy decoders may ignore this information as it is included for backwards compatibility (as will be explained later). Therefore, the negative impact on bit rate associated with the inclusion of eSBR metadata is negligible, for a variety of reasons, including the following:

• потери битовой скорости передачи данных (из-за включения метаданных eSBR) составляют весьма небольшую долю общей битовой скорости, поскольку передаются только дифференциальные управляющие данные, необходимые для выполнения обработки eSBR (а не выполняется одновременная передача управляющих данных SBR); и• The data bit rate loss (due to the inclusion of eSBR metadata) is a very small fraction of the total bit rate, since only the differential control data necessary to perform eSBR processing is transmitted (and no SBR control data is simultaneously transmitted); And

• настройка управляющей информации, относящейся к SBR, как правило, не зависит от деталей транспозиции. Примеры того, как управляющие данные в действительности зависят от работы транспозера, обсуждены в данной заявке ниже.• The setting of the control information related to the SBR is generally independent of the details of the transposition. Examples of how the control data actually depends on the operation of the transposer are discussed in this application below.

Итак, варианты осуществления настоящего изобретения предоставляют средства для эффективной передачи управляющих данных или метаданных улучшенного копирования спектральной полосы (eSBR) с обеспечением обратной совместимости. Эта эффективная передача управляющих данных eSBR снижает потребности в памяти в декодерах, кодерах и транскодерах, в которых применяются аспекты настоящего изобретения, при этом не оказывая ощутимого негативного влияния на битовую скорость. Кроме того, сложность и требования обработки, связанные с выполнением eSBR согласно вариантам осуществления настоящего изобретения, также уменьшаются, поскольку данные SBR необходимо обрабатывать только один раз, а не передавать одновременно, как было бы в случае, если бы eSBR обрабатывалось как полностью отдельный тип объекта в MPEG-4 AAC вместо интеграции в кодек MPEG-4 AAC с обеспечением обратной совместимости.Thus, embodiments of the present invention provide a means for efficiently transmitting control data or enhanced spectral band copying (eSBR) metadata in a backwards compatible manner. This efficient transfer of eSBR control data reduces the memory requirements of decoders, encoders, and transcoders employing aspects of the present invention, while not having a measurable negative impact on the bit rate. In addition, the complexity and processing requirements associated with performing an eSBR according to the embodiments of the present invention are also reduced because the SBR data only needs to be processed once, rather than transmitted simultaneously, as would be the case if the eSBR were processed as a completely separate entity type. into MPEG-4 AAC instead of integration into the MPEG-4 AAC codec for backwards compatibility.

Далее, со ссылкой на фиг. 7, описаны элементы блока («raw_data_block») битового потока MPEG-4 AAC, в который метаданные eSBR включены согласно некоторым вариантам осуществления настоящего изобретения. На фиг. 7 представлена схема блока («raw_data_block») битового потока MPEG-4 AAC, на которой показаны некоторые его сегменты.Next, with reference to FIG. 7, block elements ("raw_data_block") of an MPEG-4 AAC bitstream in which eSBR metadata is included according to some embodiments of the present invention are described. In FIG. 7 is a block diagram ("raw_data_block") of an MPEG-4 AAC bitstream showing some of its segments.

Блок битового потока MPEG-4 AAC может содержать по меньшей мере один элемент «single_channel_element()» (например, элемент одиночного канала, показанный на фиг. 7) и/или по меньшей мере один элемент «channel_pair_element()» (конкретно не показанный на фиг. 7, хотя он может присутствовать), содержащий звуковые данные для звуковой программы. Блок также может содержать ряд элементов «fill_elements» (например, заполняющий элемент 1 и/или заполняющий элемент 2 на фиг. 7), содержащих данные (например, метаданные), относящиеся к программе. Каждый «single_channel_element()» содержит идентификатор (например, «ID1» на фиг. 7), указывающий начало элемента одиночного канала, и может содержать звуковые данные, характеризующие отдельный канал многоканальной звуковой программы. Каждый «channel_pair_element» содержит идентификатор (не показан на фиг. 7), указывающий начало элемента пары каналов, и может содержать звуковые данные, характеризующие два канала программы.An MPEG-4 AAC bitstream block may comprise at least one single_channel_element() (e.g., the single channel element shown in FIG. 7) and/or at least one channel_pair_element() (not specifically shown in FIG. 7, although it may be present) containing audio data for an audio program. The block may also contain a number of "fill_elements" (eg fill element 1 and/or fill element 2 in FIG. 7) containing data (eg metadata) related to the program. Each "single_channel_element()" contains an identifier (eg, "ID1" in FIG. 7) indicating the start of a single channel element, and may contain audio data characterizing a single channel of a multi-channel audio program. Each "channel_pair_element" contains an identifier (not shown in FIG. 7) indicating the start of a channel pair element, and may contain audio data characterizing the two channels of the program.

Элемент fill_element (называемый в данном документе заполняющим элементом) битового потока MPEG-4 AAC содержит идентификатор («ID2» на фиг. 7), указывающий начало заполняющего элемента, и заполняющие данные после этого идентификатора. Идентификатор ID2 может состоять из трехбитного целого числа без знака, у которого сначала передается старший значащий бит («uimsbf»), имеющего значение 0x6. Заполняющие данные могут содержать элемент extension_payload() (иногда называемый в данном документе полезными данными расширения), синтаксис которого показан в таблице 4.57 стандарта MPEG-4 AAC. Существует несколько типов полезных данных расширения, которые идентифицируются с помощью параметра «extension_type», который представляет собой четырехбитное целое число без знака, у которого сначала передают старший значащий бит («uimsbf»). The fill_element (herein referred to as the fill element) of an MPEG-4 AAC bitstream contains an identifier ("ID2" in FIG. 7) indicating the start of the fill element and the fill data following that identifier. ID2 may consist of a three-bit unsigned integer with the most significant bit (“uimsbf”) transmitted first, having the value 0x6. The padding data may contain an extension_payload() element (sometimes referred to in this document as extension payload), the syntax of which is shown in table 4.57 of the MPEG-4 AAC standard. There are several extension payload types, which are identified by the "extension_type" parameter, which is a four-bit unsigned integer with the most significant bit ("uimsbf") passed first.

Заполняющие данные (например, их полезные данные расширения) могут содержать заголовок, или идентификатор (например, «заголовок 1» на фиг. 7), указывающий сегмент заполняющих данных, указывающий объект SBR (т. е. заголовок инициализирует тип «объект SBR», в стандарте MPEG-4 AAC называемый sbr_extension_data()). Например, полезные данные расширения копирования спектральной полосы (SBR) идентифицируются значением «1101» или «1110» для поля extension_type в заголовке, при этом идентификатор «1101» идентифицирует полезные данные расширения с данными SBR, а «1110» идентифицирует полезные данные расширения с данными SBR и циклическим контролем избыточности (CRC) для проверки правильности данных SBR. The padding data (eg, their extension payload) may contain a header, or an identifier (eg, "Header 1" in FIG. 7) indicating a padding segment indicating an SBR object (i.e., the header initializes the "SBR object" type, in the MPEG-4 AAC standard called sbr_extension_data()). For example, a Spectral Band Copy (SBR) extension payload is identified by the value "1101" or "1110" for the extension_type field in the header, with "1101" identifying the extension payload with SBR data and "1110" identifying the extension payload with data SBR and cyclic redundancy check (CRC) to check the correctness of the SBR data.

Если заголовок (например, поле extension_type) инициализирует тип объекта SBR, метаданные SBR (иногда называемые в данном документе «данные копирования спектральной полосы» и называемые sbr_data() в стандарте MPEG-4 AAC) следуют за заголовком, а за метаданными SBR может следовать по меньшей мере один элемент расширения копирования спектральной полосы (например, «элемент расширения SBR» заполняющего элемента 1 на фиг. 7). Такой элемент расширения копирования спектральной полосы (сегмент битового потока) в стандарте MPEG-4 AAC называется контейнером «sbr_extension()». Элемент расширения копирования спектральной полосы необязательно содержит заголовок (например, «заголовок расширения SBR» заполняющего элемента 1 на фиг. 7).If the header (eg, the extension_type field) initializes the type of the SBR object, the SBR metadata (sometimes referred to in this document as "spectral band copy data" and called sbr_data() in the MPEG-4 AAC standard) follows the header, and the SBR metadata may be followed by at least one spectral band copy extension element (eg, the "SBR extension element" of padding element 1 in FIG. 7). Such a spectral band copy extension element (bitstream segment) in the MPEG-4 AAC standard is called a "sbr_extension()" container. The spectral band copy extension element optionally contains a header (eg, "SBR extension header" of padding element 1 in FIG. 7).

В стандарте MPEG-4 AAC предусмотрено, что элемент расширения копирования спектральной полосы может содержать PS (параметрические стереофонические) данные для звуковых данных программы. В стандарте MPEG-4 AAC предусмотрено, что если заголовок заполняющего элемента (например, его полезных данных расширения) инициализирует тип объекта SBR (как делает «заголовок 1» на фиг. 7) и элемент расширения копирования спектральной полосы заполняющего элемента содержит PS данные, то этот заполняющий элемент (например, его полезные данные расширения) содержит данные копирования спектральной полосы и параметр «bs_extension_id», значение которого (т.е. «bs_extension_id» = 2) указывает, что PS данные включены в элемент расширения копирования спектральной полосы заполняющего элемента. The MPEG-4 AAC standard provides that the spectral band copy extension element may contain PS (parametric stereo) data for program audio data. The MPEG-4 AAC standard stipulates that if a fill element header (e.g., its extension payload) initializes an SBR object type (as "Header 1" in FIG. 7 does) and the fill element spectral band copy extension element contains PS data, then this padding element (eg, its extension payload) contains spectral band copy data and a parameter "bs_extension_id" whose value (i.e., "bs_extension_id" = 2) indicates that the PS data is included in the fill element's spectral band copy extension element.

Согласно некоторым вариантам осуществления настоящего изобретения метаданные eSBR (например, флаг, который указывает, необходимо ли выполнять обработку улучшенного копирования спектральной полосы (eSBR) на звуковом содержимом блока) включены в элемент расширения копирования спектральной полосы заполняющего элемента. Например, такой флаг указан в заполняющем элементе 1 на фиг. 7, при этом флаг появляется после заголовка («заголовка расширения SBR» заполняющего элемента 1) «элемента расширения SBR» заполняющего элемента 1. Необязательно такой флаг и дополнительные метаданные eSBR включены в элемент расширения копирования спектральной полосы после заголовка элемента расширения копирования спектральной полосы (например, в элемент расширения SBR заполняющего элемента 1 на фиг. 7 после заголовка расширения SBR). Согласно некоторым вариантам осуществления настоящего изобретения заполняющий элемент, содержащий метаданные eSBR, также содержит параметр «bs_extension_id», значение которого (например, bs_extension_id = 3) указывает, что метаданные eSBR включены в заполняющий элемент и что на звуковом содержимом соответствующего блока необходимо выполнить обработку eSBR. According to some embodiments of the present invention, eSBR metadata (eg, a flag that indicates whether enhanced spectral band copy (eSBR) processing is to be performed on the audio content of the block) is included in the fill element spectral band copy extension element. For example, such a flag is indicated in pad 1 in FIG. 7, with the flag appearing after the header ("SBR extension header" of fill element 1) of the "SBR extension element" of fill element 1. Optionally, such a flag and additional eSBR metadata are included in the spectral band copy extension element after the spectral band copy extension element header (e.g. , to the SBR extension element of padding element 1 in Fig. 7 after the SBR extension header). According to some embodiments of the present invention, the padding element containing eSBR metadata also contains a "bs_extension_id" parameter whose value (for example, bs_extension_id = 3) indicates that eSBR metadata is included in the padding element and that eSBR processing is to be performed on the audio content of the corresponding block.

Согласно некоторым вариантам осуществления настоящего изобретения метаданные eSBR включены в заполняющий элемент (например, заполняющий элемент 2 на фиг. 7) битового потока MPEG-4 AAC, отличающийся от элемента расширения копирования спектральной полосы (элемента расширения SBR) заполняющего элемента. Это объясняется тем, что заполняющие элементы, содержащие extension_payload() с данными SBR или данными SBR с CRC, не содержат никаких других полезных данных расширения любого другого типа расширения. Поэтому в вариантах осуществления, в которых метаданные eSBR хранят свои собственные полезные данные расширения, для хранения метаданных eSBR используется отдельный заполняющий элемент. Такой заполняющий элемент содержит идентификатор (например, «ID2» на фиг. 7), указывающий начало заполняющего элемента, и заполняющие данные после идентификатора. Заполняющие данные могут содержать элемент extension_payload() (иногда называемый в данном документе полезными данными расширения), синтаксис которого показан в таблице 4.57 стандарта MPEG-4 AAC. Заполняющие данные (например, их полезные данные расширения) содержат заголовок (например, «заголовок 2» заполняющего элемента 2 на фиг. 7), указывающий объект eSBR (т.е. заголовок инициализирует тип объекта улучшенного копирования спектральной полосы (eSBR)), и заполняющие данные (например, его полезные данные расширения) содержат метаданные eSBR после заголовка. Например, заполняющий элемент 2 на фиг. 7 содержит такой заголовок («заголовок 2»), а также содержит, после заголовка, метаданные eSBR (т.е. «флаг» в заполняющем элементе 2, который указывает, необходимо ли выполнять обработку улучшенного копирования спектральной полосы (eSBR) на звуковом содержимом блока). Необязательно дополнительные метаданные eSBR также включены в заполняющие данные заполняющего элемента 2 на фиг. 7, после «заголовка 2». В вариантах осуществления, описываемых в данном абзаце, заголовок (например, «заголовок 2» на фиг. 7) имеет идентификационное значение, не являющееся одним из обычных значений, заданных в таблице 4.57 стандарта MPEG-4 AAC, и вместо этого указывает полезные данные расширения eSBR (так что поле extension_type заголовка указывает, что заполняющие данные содержат метаданные eSBR). According to some embodiments of the present invention, the eSBR metadata is included in a padding element (e.g., padding element 2 in FIG. 7) of an MPEG-4 AAC bitstream other than the spectral band copy extension element (SBR extension element) of the padding element. This is because padding elements containing extension_payload() with SBR data or SBR data with CRC do not contain any other extension payload of any other type of extension. Therefore, in embodiments where the eSBR metadata stores its own extension payload, a separate padding element is used to store the eSBR metadata. Such a padding element contains an identifier (eg, "ID2" in FIG. 7) indicating the start of the padding element, and padding data after the identifier. The padding data may contain an extension_payload() element (sometimes referred to in this document as extension payload), the syntax of which is shown in table 4.57 of the MPEG-4 AAC standard. The padding data (eg, their extension payload) contains a header (eg, "Header 2" of padding element 2 in FIG. 7) indicating an eSBR object (i.e., the header initializes the Enhanced Spectral Band Copy (eSBR) object type), and padding data (such as its extension payload) contains eSBR metadata after the header. For example, infill element 2 in FIG. 7 contains such a header ("Header 2") and also contains, after the header, eSBR metadata (i.e., the "flag" in padding element 2 that indicates whether enhanced spectral band copying (eSBR) processing is to be performed on the audio content. block). Optionally, additional eSBR metadata is also included in the padding data of padding element 2 in FIG. 7, after "Heading 2". In the embodiments described in this paragraph, the header (e.g., "Header 2" in FIG. 7) has an identification value that is not one of the normal values specified in Table 4.57 of the MPEG-4 AAC standard and instead indicates an extension payload. eSBR (so the header's extension_type field indicates that the padding data contains eSBR metadata).

В первом классе вариантов осуществления настоящее изобретение представляет собой блок обработки звука (например, декодер), содержащий:In a first class of embodiments, the present invention is an audio processing unit (eg, a decoder) comprising:

запоминающее устройство (например, буфер 201, представленный на фиг. 3 или 4), выполненное с возможностью сохранения по меньшей мере одного блока кодированного звукового битового потока (например, по меньшей мере одного блока битового потока MPEG-4 AAC); a memory (eg, buffer 201 shown in FIG. 3 or 4) configured to store at least one encoded audio bitstream block (eg, at least one MPEG-4 AAC bitstream block);

устройство удаления форматирования полезных данных битового потока (например, элемент 205, представленный на фиг. 3, или элемент 215, представленный на фиг. 4), соединенное с запоминающим устройством и выполненное с возможностью демультиплексирования по меньшей мере одной части указанного блока битового потока; иa bitstream payload format remover (eg, element 205 of FIG. 3 or element 215 of FIG. 4) coupled to the storage device and configured to demultiplex at least one portion of said bitstream block; And

подсистему декодирования (например, элементы 202 и 203, представленные на фиг. 3, или элементы 202 и 213, представленные на фиг. 4), соединенную и выполненную с возможностью декодирования по меньшей мере одной части звукового содержимого указанного блока битового потока, где этот блок содержит:a decoding subsystem (for example, elements 202 and 203 shown in Fig. 3, or elements 202 and 213 shown in Fig. 4), connected and configured to decode at least one part of the audio content of the specified bitstream block, where this block contains:

заполняющий элемент, содержащий идентификатор, указывающий начало заполняющего элемента (например, идентификатор «id_syn_ele», имеющий значение 0x6, по таблице 4.85 стандарта MPEG-4 AAC), и заполняющие данные после идентификатора, где заполняющие данные содержат:a padding element containing an identifier indicating the start of the padding element (e.g., the identifier "id_syn_ele", having the value 0x6, in Table 4.85 of the MPEG-4 AAC standard), and padding data after the identifier, where the padding data contains:

по меньшей мере один флаг, идентифицирующий, необходимо ли выполнять обработку улучшенного копирования спектральной полосы (eSBR) на звуковом содержимом блока (например, с использованием данных копирования спектральной полосы и метаданных eSBR, включенных в блок). at least one flag identifying whether enhanced spectral band replication (eSBR) processing is to be performed on the audio content of the block (eg, using spectral band replication data and eSBR metadata included in the block).

Флаг представляет собой метаданные eSBR, и примером флага является флаг sbrPatchingMode. Другим примером флага является флаг harmonicSBR. Оба этих флага указывают, необходимо ли выполнять на звуковых данных блока базовую форму копирования спектральной полосы или улучшенную форму спектрального копирования. Базовая форма спектрального копирования представляет собой спектральную вставку, а улучшенная форма копирования спектральной полосы представляет собой гармоническую транспозицию.The flag is eSBR metadata, and an example of a flag is the sbrPatchingMode flag. Another example of a flag is the harmonicSBR flag. Both of these flags indicate whether a basic form of spectral band copying or an enhanced form of spectral copying should be performed on the block's audio data. The basic form of spectral copying is spectral insertion, and the enhanced form of spectral band copying is harmonic transposition.

В некоторых вариантах осуществления заполняющие данные также содержат дополнительные метаданные eSBR (т.е. метаданные eSBR, отличные от флага).In some embodiments, the padding data also contains additional eSBR metadata (ie, eSBR metadata other than the flag).

Запоминающее устройство может представлять собой буферное запоминающее устройство (например, реализацию буфера 201, представленного на фиг. 4), которое сохраняет (например, энергонезависимо) по меньшей мере один блок кодированного звукового битового потока. The storage device may be a buffer storage device (eg, an implementation of the buffer 201 shown in FIG. 4) that stores (eg, non-volatilely) at least one block of the encoded audio bitstream.

Оценивается, что сложность выполнения обработки eSBR (с использованием гармонической транспозиции и предварительного сглаживания eSBR) декодером eSBR в ходе декодирования битового потока MPEG-4 AAC, который содержит метаданные eSBR (указывающие эти инструменты eSBR), будет следующей (для обычного декодирования с указанными параметрами):The complexity of performing eSBR processing (using harmonic transposition and eSBR pre-smoothing) by an eSBR decoder in the course of decoding an MPEG-4 AAC bitstream that contains eSBR metadata (indicating these eSBR tools) is estimated to be as follows (for normal decoding with the specified parameters) :

• гармоническая транспозиция (16 кбит/с, 14 400 / 28 800 Гц)• harmonic transposition (16 kbps, 14400 / 28800 Hz)

○ на основе DFT: 3,68 WMOPS (взвешенных миллионов операций в секунду);○ DFT-based: 3.68 WMOPS (weighted million operations per second);

○ на основе QMF: 0,98 WMOPS;○ Based on QMF: 0.98 WMOPS;

• предварительная обработка (предварительное сглаживание) QMF вставки: 0,1 WMOPS.• pre-processing (pre-smoothing) QMF insertion: 0.1 WMOPS.

Известно, что для переходных сигналов транспозиция на основе DFT, как правило, выполняется лучше, чем транспозиция на основе QMF.It is known that, for transient signals, DFT-based transposition generally performs better than QMF-based transposition.

Согласно некоторым вариантам осуществления настоящего изобретения заполняющий элемент (кодированного звукового битового потока), содержащий метаданные eSBR, также содержит параметр (например, параметр «bs_extension_id»), значение которого (например, bs_extension_id = 3) сигнализирует о том, что метаданные eSBR включены в данный заполняющий элемент и что обработку eSBR необходимо выполнять на звуковом содержимом соответствующего блока, и/или параметр (например, тот же параметр «bs_extension_id»), значение которого (например, bs_extension_id = 2) сигнализирует о том, что контейнер sbr_extension() заполняющего элемента содержит PS данные. Например, как указано ниже в таблице 1, такой параметр, имеющий значение bs_extension_id = 2, может сигнализировать о том, что контейнер sbr_extension() заполняющего элемента содержит PS данные, а такой параметр, имеющий значение bs_extension_id = 3, может сигнализировать о том, что контейнер sbr_extension() заполняющего элемента содержит метаданные eSBR: According to some embodiments of the present invention, the padding element (of the encoded audio bitstream) containing the eSBR metadata also contains a parameter (e.g., the "bs_extension_id" parameter) whose value (e.g., bs_extension_id = 3) signals that the eSBR metadata is included in the given fill element and that eSBR processing needs to be performed on the audio content of the corresponding block, and/or a parameter (for example, the same "bs_extension_id" parameter) whose value (for example, bs_extension_id = 2) signals that the fill element's sbr_extension() container contains PS data. For example, as indicated in Table 1 below, such a parameter having a value of bs_extension_id = 2 may signal that the padding element's sbr_extension() container contains PS data, and such a parameter having a value of bs_extension_id = 3 may signal that the padding element's sbr_extension() container contains the eSBR metadata:

Таблица 1Table 1

Согласно некоторым вариантам осуществления настоящего изобретения синтаксис каждого элемента расширения копирования спектральной полосы, содержащего метаданные eSBR и/или PS данные, как указано ниже в таблице 2 (в которой «sbr_extension()» обозначает контейнер, представляющий собой элемент расширения копирования спектральной полосы, «bs_extension_id» является таким, как описано в таблице 1 выше, «ps_data» обозначает PS данные и «esbr_data» обозначает метаданные eSBR).According to some embodiments of the present invention, the syntax of each spectral band copy extension element containing eSBR metadata and/or PS data is as indicated in Table 2 below (in which "sbr_extension()" denotes a container that is a spectral band copy extension element, "bs_extension_id ' is as described in Table 1 above, 'ps_data' stands for PS data and 'esbr_data' stands for eSBR metadata).

Таблица 2table 2

В примерном варианте осуществления esbr_data(), на которые ссылается таблица 2 выше, указывают значения следующих параметров метаданных: In the exemplary embodiment, esbr_data() referenced in Table 2 above specifies the values of the following metadata parameters:

1. однобитный параметр метаданных «bs_sbr_preprocessing»; и 1. one-bit metadata parameter "bs_sbr_preprocessing"; And

2. для каждого канала («ch») звукового содержимого кодированного битового потока, подлежащего декодированию, каждый из вышеописанных параметров: «sbrPatchingMode[ch]»; «sbrOversamplingFlag[ch]»; «sbrPitchInBinsFlag[ch]»; и «sbrPitchInBins[ch]». 2. for each channel ("ch") of the audio content of the encoded bitstream to be decoded, each of the above parameters: "sbrPatchingMode[ch]"; "sbrOversamplingFlag[ch]"; "sbrPitchInBinsFlag[ch]"; and "sbrPitchInBins[ch]".

Например, для указания этих параметров метаданных в некоторых вариантах осуществления esbr_data() могут иметь синтаксис, указанный в таблице 3.For example, to specify these metadata options, some embodiments of esbr_data() may have the syntax shown in Table 3.

Таблица 3Table 3

Вышеописанный синтаксис обеспечивает возможность эффективной реализации улучшенной формы копирования спектральной полосы, такой как гармоническая транспозиция, в качестве расширения для традиционного декодера. В частности, данные eSBR в таблице 3 содержат только те параметры, которые необходимы для выполнения улучшенной формы копирования спектральной полосы, которые или уже не поддерживаются в битовом потоке, или не являются прямо выводимыми из параметров, уже поддерживаемых в битовом потоке. Все остальные параметры и данные обработки, необходимые для выполнения улучшенной формы копирования спектральной полосы, извлекают из ранее существующих параметров в уже определенных местах битового потока.The above syntax allows for an efficient implementation of an improved form of spectral band copying, such as harmonic transposition, as an extension to a conventional decoder. In particular, the eSBR data in Table 3 contains only those parameters needed to perform an enhanced form of spectral band copying that are either not already supported in the bitstream or are not directly derivable from the parameters already supported in the bitstream. All other parameters and processing data necessary to perform an improved form of spectral band copying are derived from pre-existing parameters at already defined locations in the bitstream.

Например, декодер, отвечающий требованиям MPEG-4 HE-AAC или HE-AAC v2, можно расширить так, чтобы он включал улучшенную форму копирования спектральной полосы, такую как гармоническая транспозиция. Эта улучшенная форма копирования спектральной полосы представляет собой дополнение к базовой форме копирования спектральной полосы, уже поддерживаемой декодером. В контексте декодера, отвечающего требованиям MPEG-4 HE-AAC или HE-AAC v2, эта базовая форма копирования спектральной полосы представляет собой инструмент спектральной QMF вставки SBR, как определено в разделе 4.6.18 стандарта MPEG-4 AAC.For example, an MPEG-4 HE-AAC or HE-AAC v2 compliant decoder can be extended to include an improved form of spectral band copying, such as harmonic transposition. This enhanced form of spectral band copying is an addition to the basic spectral band copying form already supported by the decoder. In the context of an MPEG-4 HE-AAC or HE-AAC v2 compliant decoder, this basic form of spectral band copying is the SBR spectral QMF paste tool as defined in section 4.6.18 of the MPEG-4 AAC standard.

При выполнении улучшенной формы копирования спектральной полосы расширенный декодер НЕ-ААС может снова использовать многие из параметров битового потока, уже включенных в полезные данные расширения SBR битового потока. Конкретные параметры, которые могут быть снова использованы, включают, например, различные параметры, определяющие таблицу диапазонов главных частот. Эти параметры включают bs_start_freq (параметр, определяющий начало параметра таблицы главных частот), «bs_stop_freq» (параметр, определяющий окончание таблицы главных частот), «bs_freq_scale» (параметр, определяющий количество диапазонов частот на октаву) и «bs_alter_scale» (параметр, изменяющий масштаб диапазонов частот). Параметры, которые могут быть снова использованы, также включают параметры, определяющие таблицу полосы шумов («bs_noise_bands»), и параметры таблицы полосы ограничителя («bs_limiter_bands»). Соответственно, в различных вариантах осуществления по меньшей мере некоторые из эквивалентных параметров, заданных в стандарте USAC, не включаются в битовый поток, благодаря чему уменьшается переполнение битового потока управляющей информацией. Как правило, если параметр, заданный в стандарте AAC, имеет эквивалентный параметр, заданный в стандарте USAC, то эквивалентный параметр, заданный в стандарте USAC, имеет такое же название, как параметр, заданный в стандарте AAC, например масштабный коэффициент E_OrigMapped огибающей. Однако эквивалентный параметр, заданный в стандарте USAC, как правило, имеет другое значение, которое «настроено» для обработки улучшенного SBR, определенной в стандарте USAC, а не для обработки SBR, определенной в стандарте AAC.By performing an improved form of spectral band copying, the extended HE-AAC decoder can again use many of the bitstream parameters already included in the SBR extension payload of the bitstream. Specific parameters that can be used again include, for example, various parameters defining a table of main frequency bands. These parameters include bs_start_freq (a parameter that specifies the start of the main frequency table parameter), "bs_stop_freq" (a parameter that specifies the end of the main frequency table), "bs_freq_scale" (a parameter that specifies the number of frequency bands per octave), and "bs_alter_scale" (a parameter that changes the scale frequency bands). Parameters that can be reused also include parameters specifying a noise band table ("bs_noise_bands") and limiter band table parameters ("bs_limiter_bands"). Accordingly, in various embodiments, at least some of the equivalent parameters specified in the USAC standard are not included in the bitstream, thereby reducing control information overflow of the bitstream. In general, if a parameter defined in the AAC standard has an equivalent parameter defined in the USAC standard, then the equivalent parameter defined in the USAC standard has the same name as the parameter defined in the AAC standard, such as the E _OrigMapped envelope scale factor. However, the equivalent parameter defined in the USAC standard typically has a different value that is "tuned" to handle enhanced SBR as defined in the USAC standard rather than to handle SBR as defined in the AAC standard.

Для повышения субъективного качества звукового содержимого с гармонической частотной структурой и сильными тональными характеристиками, в частности при низких битовых скоростях, рекомендуется активация улучшенного SBR. Значения соответствующего элемента битового потока (т. . esbr_data()), управляющего этими инструментами, могут быть определены в кодере путем применения механизма классификации, зависимого от сигнала. Обычно использование способа гармонической вставки (sbrPatchingMode == 1) является предпочтительным для кодирования музыкальных сигналов с очень низкими битовыми скоростями, когда основной кодек может быть значительно ограничен по полосе пропускания звука. Это особенно верно, если эти сигналы имеют выраженную гармоническую структуру. Напротив, использование обычного способа вставки SBR является предпочтительным для речевых и смешанных сигналов, поскольку он обеспечивает лучшее сохранение временной структуры речи.To improve the subjective quality of audio content with harmonic frequency structure and strong tonal characteristics, particularly at low bit rates, Enhanced SBR is recommended to be activated. The values of the corresponding bitstream element (i.e. esbr_data()) driving these tools can be determined in the encoder by applying a signal dependent classification mechanism. In general, using the harmonic patching mode (sbrPatchingMode == 1) is preferred for encoding music signals with very low bit rates, where the main codec can be severely limited in audio bandwidth. This is especially true if these signals have a pronounced harmonic structure. In contrast, the use of the conventional SBR insertion method is preferred for speech and mixed signals because it provides better preservation of speech temporal structure.

Для улучшения работы гармонического транспозера можно активировать этап предварительной обработки (bs_sbr_preprocessing == 1), который пытается избежать внесения нарушений однородности спектра сигнала, идущего в последующий корректор огибающей. Работа этого инструмента является полезной для типов сигнала, в которых грубая огибающая спектра сигнала нижнего диапазона, используемого для реконструкции высоких частот, проявляет большие вариации уровня.To improve the performance of the harmonic transposer, a pre-processing step (bs_sbr_preprocessing == 1) can be activated, which tries to avoid introducing disturbances in the homogeneity of the signal spectrum going to the subsequent envelope corrector. The operation of this tool is useful for signal types in which the coarse spectral envelope of the lower range signal used for high frequency reconstruction exhibits large level variations.

Для улучшения переходной характеристики гармонической вставки SBR можно применить адаптивную к сигналу передискретизацию в частотной области (sbrOversamplingFlag == 1). Поскольку адаптивная к сигналу передискретизация в частотной области увеличивает вычислительную сложность транспозера, но приносит пользу только для кадров, содержащих переходные сигналы, использованием этого инструмента управляют посредством элемента битового потока, который передают один раз на кадр и на независимый канал SBR.To improve the transient response of the SBR harmonic insert, you can apply signal-adaptive frequency domain oversampling (sbrOversamplingFlag == 1). Because signal-adaptive frequency domain resampling increases the computational complexity of the transposer but only benefits frames containing transient signals, the use of this tool is controlled by a bitstream element that is transmitted once per frame and on an independent SBR channel.

Декодеру, действующему в предложенном режиме улучшенного SBR, как правило, необходимо иметь возможность переключения между традиционной и улучшенной вставкой SBR. Поэтому может вноситься задержка, которая может быть настолько продолжительной, как длительность одного базового кадра звука, в зависимости от настроек декодера. Как правило, задержка будет одинакова и для традиционной, и для улучшенной вставки SBR.A decoder operating in the proposed enhanced SBR mode typically needs to be able to switch between legacy and enhanced SBR insertion. Therefore, a delay may be introduced, which may be as long as the duration of one basic frame of audio, depending on the settings of the decoder. Typically, the delay will be the same for both traditional and enhanced SBR inserts.

В дополнение к многочисленным параметрам расширенный декодер HE-AAC при выполнении улучшенной формы копирования спектральной полосы согласно вариантам осуществления настоящего изобретения может снова использовать и другие элементы данных. Например, данные огибающей и данные шумового порога также могут быть извлечены из данных bs_data_env (масштабных коэффициентов огибающей) и bs_noise_env (масштабных коэффициентов шумового порога) и использованы в ходе улучшенной формы копирования спектральной полосы. In addition to the numerous parameters, the enhanced HE-AAC decoder may reuse other data elements when performing an improved form of spectral band copying according to embodiments of the present invention. For example, envelope data and noise floor data can also be extracted from bs_data_env (envelope scaling factors) and bs_noise_env (noise floor scaling factors) data and used in an improved form of spectral band copying.

По существу эти варианты осуществления используют конфигурационные параметры и данные огибающей, уже поддерживаемые традиционным декодером HE-AAC или HE-AAC v2, в полезных данных расширения SBR для обеспечения улучшенной формы копирования спектральной полосы, требующей как можно меньше дополнительных передаваемых данных. Метаданные были первоначально настроены для базовой формы HFR (например, для операции спектрального переноса SBR), но согласно вариантам осуществления используются для улучшенной формы HFR (например, гармонической транспозиции eSBR). Как обсуждено ранее, метаданные обычно представляют рабочие параметры (например, масштабные коэффициенты огибающей, масштабные коэффициенты шумового порога, параметры временной / частотной сетки, информацию о добавлении синусоид, переменную частоту / диапазон разделения, режим обратной фильтрации, разрешение огибающей, режим выравнивания, режим частотной интерполяции), настроенные и предназначенные для использования с базовой формой HFR (например, с линейным спектральным переносом). Однако эти метаданные в сочетании с дополнительными параметрами метаданных, специфичных для улучшенной формы HFR (например, гармонической транспозиции), могут быть использованы для рациональной и эффективной обработки звуковых данных с использованием улучшенной формы HFR.As such, these embodiments use the configuration parameters and envelope data already supported by a legacy HE-AAC or HE-AAC v2 decoder in the SBR extension payload to provide an improved form of spectral band replication requiring as little additional transmission data as possible. The metadata was originally set up for a basic form of HFR (eg, an SBR spectral transfer operation), but is used in embodiments for an enhanced form of HFR (eg, an eSBR harmonic transposition). As discussed earlier, the metadata typically represents operating parameters (e.g., envelope scaling factors, noise floor scaling factors, time/frequency grid parameters, sine addition information, variable frequency/crossover range, inverse filtering mode, envelope resolution, leveling mode, frequency interpolation) tuned and intended for use with the basic form of HFR (for example, with linear spectral transfer). However, this metadata, in combination with additional metadata parameters specific to the enhanced form of HFR (eg, harmonic transposition), can be used to efficiently and efficiently process audio data using the enhanced form of HFR.

Соответственно, расширенные декодеры, которые поддерживают улучшенную форму копирования спектральной полосы, можно создавать чрезвычайно эффективным образом, полагаясь на уже определенные элементы битового потока (например, элементы в полезных данных расширения SBR) и добавляя только те параметры, которые необходимы для поддержки улучшенной формы копирования спектральной полосы (в полезных данных расширения заполняющего элемента). Этот признак уплотнения данных в сочетании с размещением вновь добавляемых параметров в зарезервированном поле данных, таком как контейнер расширения, существенно снижает барьеры для создания декодера, поддерживающего улучшенную форму копирования спектральной полосы, благодаря обеспечению обратной совместимости битового потока с традиционным декодером, не поддерживающим улучшенную форму копирования спектральной полосы.Accordingly, extended decoders that support the enhanced spectral band copying form can be constructed in an extremely efficient manner by relying on already defined bitstream elements (e.g., elements in the SBR extension payload) and adding only those parameters necessary to support the improved spectral copying form. stripes (in the padding extension payload). This feature of data compression, combined with placing the newly added parameters in a reserved data field such as an extension container, greatly reduces the barriers to building a decoder that supports the enhanced spectral band copy form by making the bitstream backwards compatible with a traditional decoder that does not support the enhanced copy form. spectral band.

В таблице 3 число в правой колонке указывает количество битов соответствующего параметра из левой колонки.In Table 3, the number in the right column indicates the number of bits of the corresponding parameter from the left column.

В некоторых вариантах осуществления тип объекта SBR, определенный в MPEG-4 AAC, обновляют так, чтобы он содержал инструмент SBR и аспекты инструмента улучшенного SBR (eSBR), как указано сигналами в элементе расширения SBR (bs_extension_id == EXTENSION_ID_ESBR). Если декодер обнаруживает и поддерживает этот элемент расширения SBR, то декодер использует указанные сигналами аспекты инструмента улучшенного SBR. Тип объекта SBR, обновленный таким образом, называется «улучшениями SBR».In some embodiments, the SBR object type defined in MPEG-4 AAC is updated to contain the SBR tool and enhanced SBR tool (eSBR) aspects as indicated by the signals in the SBR extension element (bs_extension_id == EXTENSION_ID_ESBR). If the decoder detects and supports this SBR extension element, then the decoder uses signaled aspects of the enhanced SBR tool. An SBR object type updated in this way is referred to as "SBR enhancements".

В некоторых вариантах осуществления настоящее изобретение представляет собой способ, включающий этап кодирования звуковых данных с генерированием кодированного битового потока (например, битового потока MPEG-4 AAC), содержащего метаданные eSBR в по меньшей мере одном сегменте по меньшей мере одного блока кодированного битового потока и звуковые данные в по меньшей мере одном другом сегменте этого блока. В обычных вариантах осуществления способ включает этап мультиплексирования звуковых данных с метаданными eSBR в каждом блоке кодированного битового потока. При обычном декодировании кодированного битового потока в декодере eSBR декодер извлекает метаданные eSBR из битового потока (в том числе посредством синтаксического анализа и демультиплексирования метаданных eSBR и звуковых данных) и использует метаданные eSBR для обработки звуковых данных, чтобы генерировать поток декодированных звуковых данных.In some embodiments, the present invention is a method including the step of encoding audio data to generate an encoded bitstream (e.g., an MPEG-4 AAC bitstream) containing eSBR metadata in at least one segment of at least one encoded bitstream block and audio data in at least one other segment of that block. In conventional embodiments, the method includes the step of multiplexing audio data with eSBR metadata in each encoded bitstream block. In conventional decoding of an encoded bitstream in an eSBR decoder, the decoder extracts the eSBR metadata from the bitstream (including by parsing and demultiplexing the eSBR metadata and audio data) and uses the eSBR metadata to process the audio data to generate a decoded audio data stream.

Другой аспект настоящего изобретения представляет собой декодер eSBR, выполненный с возможностью выполнения обработки eSBR (например, с использованием по меньшей мере одного из инструментов eSBR, известных как гармоническая транспозиция или предварительное сглаживание) в ходе декодирования кодированного звукового битового потока (например, битового потока MPEG-4 AAC), который не включает метаданные eSBR. Пример такого декодера будет описан со ссылкой на фиг. 5.Another aspect of the present invention is an eSBR decoder capable of performing eSBR processing (eg, using at least one of the eSBR tools known as harmonic transposition or pre-smoothing) during decoding of an encoded audio bitstream (eg, an MPEG- 4 AAC) that does not include eSBR metadata. An example of such a decoder will be described with reference to FIG. 5.

Декодер (400) eSBR, представленный на фиг. 5, содержит буферное запоминающее устройство 201 (идентичное запоминающему устройству 201, представленному на фиг. 3 и 4), устройство 215 удаления форматирования полезных данных битового потока (идентичное устройству 215 удаления форматирования, представленному на фиг. 4), подсистему 202 декодирования звука (иногда называемую «основной» ступенью декодирования или «основной» подсистемой декодирования, которая идентична основной подсистеме 202 декодирования, представленной на фиг. 3), подсистему 401 генерации управляющих данных eSBR и ступень 203 обработки eSBR (идентичную ступени 203, представленной на фиг. 3), соединенные так, как показано. Как правило, декодер 400 также содержит и другие обрабатывающие элементы (не показаны). The eSBR decoder (400) shown in FIG. 5 includes a memory buffer 201 (identical to the memory 201 shown in FIGS. 3 and 4), a bitstream payload deformatter 215 (identical to the format remover 215 shown in FIG. 4), an audio decoding subsystem 202 (sometimes called the "main" decoding stage or "main" decoding subsystem, which is identical to the main decoding subsystem 202 shown in Fig. 3), the eSBR control data generation subsystem 401, and the eSBR processing stage 203 (identical to the stage 203 shown in Fig. 3), connected as shown. Typically, decoder 400 also includes other processing elements (not shown).

В работе декодера 400 последовательность блоков кодированного звукового битового потока (битового потока MPEG-4 AAC), принятая декодером 400, передается из буфера 201 в устройство 215 удаления форматирования. In operation of the decoder 400, a block sequence of an encoded audio bitstream (MPEG-4 AAC bitstream) received by the decoder 400 is transmitted from the buffer 201 to the deformatter 215 .

Устройство 215 удаления форматирования соединено и выполнено с возможностью демультиплексирования каждого блока битового потока для извлечения из него метаданных SBR (в том числе квантованных данных огибающей) и, как правило, других метаданных. Устройство 215 удаления форматирования выполнено с возможностью передачи по меньшей мере метаданных SBR на ступень 203 обработки eSBR. Устройство 215 удаления форматирования также соединено и выполнено с возможностью извлечения звуковых данных из каждого блока битового потока и передачи извлеченных звуковых данных в подсистему 202 декодирования (ступень декодирования). A deformatter 215 is coupled and configured to demultiplex each bitstream block to extract SBR metadata (including quantized envelope data) and typically other metadata therefrom. The format remover 215 is configured to transmit at least the SBR metadata to the eSBR processing stage 203 . The deformatter 215 is also connected and configured to extract audio data from each block of the bitstream and transmit the extracted audio data to a decoding subsystem 202 (decoding stage).

Подсистема 202 декодирования звука декодера 400 выполнена с возможностью декодирования звуковых данных, извлеченных устройством 215 удаления форматирования (такое декодирование можно назвать «основной» операцией декодирования), чтобы генерировать декодированные звуковые данные и передавать декодированные звуковые данные на ступень 203 обработки eSBR. Декодирование выполняется в частотной области. Как правило, последняя ступень обработки в подсистеме 202 применяет преобразование из частотной области во временную область к декодированным звуковым данным в частотной области, так что вывод подсистемы представляет собой декодированные звуковые данные во временной области. Ступень 203 выполнена с возможностью применения инструментов SBR (и инструментов eSBR), указанных метаданными SBR (извлеченными устройством 215 удаления форматирования) и метаданными eSBR, сгенерированными в подсистеме 401, к декодированным звуковым данным (т. е. выполнения обработки SBR и eSBR над выводом подсистемы 202 декодирования с использованием метаданных SBR и eSBR), чтобы генерировать полностью декодированные звуковые данные, которые выводится из декодера 400. Как правило, декодер 400 содержит запоминающее устройство (доступное для подсистемы 202 и ступени 203), которое сохраняет звуковые данные с удаленным форматированием и метаданные, выведенные из устройства 215 удаления форматирования (и необязательно также из подсистемы 401), и ступень 203 выполнена с возможностью осуществления доступа к звуковым данным и метаданным по мере необходимости в ходе обработки SBR и eSBR. Обработку SBR на ступени 203 можно считать постобработкой над выводом основной подсистемы 202 декодирования. Необязательно декодер 400 также содержит подсистему заключительного повышающего микширования (которая может применять инструменты параметрической стереофонии («PS»), определенные в стандарте MPEG-4 AAC, с использованием метаданных PS, извлеченных устройством 215 удаления форматирования), соединенную и выполненную с возможностью выполнения повышающего микширования в отношении вывода ступени 203 для генерирования полностью декодированного и подвергнутого повышающему микшированию звука, который выводится из APU 210. The audio decoding subsystem 202 of the decoder 400 is configured to decode the audio data extracted by the deformatter 215 (such decoding can be referred to as a "main" decoding operation) to generate decoded audio data and pass the decoded audio data to the eSBR processing stage 203. The decoding is performed in the frequency domain. Typically, the last stage of processing in subsystem 202 applies a frequency domain to time domain transform to the decoded audio data in the frequency domain such that the output of the subsystem is the decoded audio data in the time domain. The stage 203 is configured to apply the SBR tools (and eSBR tools) indicated by the SBR metadata (extracted by the format remover 215) and the eSBR metadata generated in the subsystem 401 to the decoded audio data (i.e., performing SBR and eSBR processing on the output of the subsystem 202 decoding using SBR and eSBR metadata) to generate fully decoded audio data that is output from decoder 400. Typically, decoder 400 includes a storage device (accessible to subsystem 202 and stage 203) that stores formatted audio data and metadata outputted from the format remover 215 (and optionally also from subsystem 401), and stage 203 is configured to access audio data and metadata as needed during SBR and eSBR processing. The SBR processing at step 203 can be considered post-processing on the output of the main decoding subsystem 202 . Optionally, the decoder 400 also includes a post-upmix subsystem (which can apply Parametric Stereo (“PS”) tools defined in the MPEG-4 AAC standard using the PS metadata extracted by the deformatter 215) coupled and configured to perform the upmix. with respect to the output of the stage 203 for generating the fully decoded and upmixed audio output from the APU 210.

Параметрическая стереофония является инструментом кодирования, который представляет стереофонический сигнал с использованием линейного понижающего микширования левого и правого каналов стереофонического сигнала и набора пространственных параметров, описывающих стереоизображение. В параметрической стереофонии, как правило, используют три типа пространственных параметров: (1) межканальные разности интенсивности (IID), описывающие разности интенсивностей между каналами; (2) межканальные разности фазы (IPD), описывающие разности фазы между каналами; и (3) межканальная когерентность (ICC), описывающая когерентность (или подобие) между каналами. Когерентность можно измерить как максимум взаимной корреляции в зависимости от времени или фазы. Эти три параметра обычно обеспечивают возможность высококачественной реконструкции стереоизображения. Однако параметры IPD задают лишь относительные разности фазы между каналами стереофонического входного сигнала и не указывают распределение этих разностей фазы по левому и правому каналам. Поэтому дополнительно можно использовать параметры четвертого типа, описывающие общий сдвиг фазы или общую разность фаз (OPD). В процессе реконструкции стереофонического сигнала последовательные обрабатываемые методом окна сегменты как принятого сигнала понижающего микширования, s[n], так и декоррелированной версии принятого понижающего микширования, d[n], обрабатываются вместе с пространственными параметрами для генерирования левого (l_k(n)) и правого (r_k(n)) реконструированных сигналов согласно следующей формуле:Parametric stereo is an encoding tool that represents a stereo signal using a linear downmix of the left and right channels of the stereo signal and a set of spatial parameters that describe the stereo image. Three types of spatial parameters are typically used in parametric stereo: (1) inter-channel intensity differences (IIDs), which describe intensity differences between channels; (2) inter-channel phase differences (IPD) describing phase differences between channels; and (3) inter-channel coherence (ICC), describing the coherence (or similarity) between channels. Coherence can be measured as the maximum cross-correlation versus time or phase. These three parameters usually provide a high quality stereo image reconstruction. However, the IPD parameters only specify the relative phase differences between the channels of the stereo input signal and do not specify the distribution of these phase differences between the left and right channels. Therefore, in addition, you can use the parameters of the fourth type, describing the overall phase shift or overall phase difference (OPD). In the stereo reconstruction process, successive windowed segments of both the received downmix signal, s[n], and the decorrelated version of the received downmix, d[n], are processed together with the spatial parameters to generate the left (l _k (n)) and right (r _k (n)) reconstructed signals according to the following formula:

где H₁₁, H₁₂, H₂₁ и H₂₂ определяются стереофоническими параметрами. Сигналы l_k(n) и r_k(n) в заключение преобразуются обратно во временную область посредством частотно-временного преобразования.where H ₁₁ , H ₁₂ , H ₂₁ and H ₂₂ are determined by the stereo parameters. The signals l _k (n) and r _k (n) are finally converted back into the time domain by means of time-frequency conversion.

Подсистема 401 генерирования управляющих данных, представленная на фиг. 5, соединена и выполнена с возможностью обнаружения по меньшей мере одного свойства кодированного звукового битового потока, подлежащего декодированию, и генерации управляющих данных eSBR (которые могут представлять собой или включать метаданные eSBR любого из типов, включенных в кодированные звуковые битовые потоки согласно другим вариантам осуществления настоящего изобретения) в ответ на по меньшей мере один результат этапа обнаружения. Управляющие данные eSBR передаются на ступень 203, чтобы запускать применение отдельных инструментов eSBR или комбинаций инструментов eSBR при обнаружении конкретного свойства (или комбинации свойств) битового потока и/или управлять применением таких инструментов eSBR. Например, для управления выполнением обработки eSBR с использованием гармонической транспозиции некоторые варианты осуществления подсистемы 401 генерации управляющих данных будут содержать: детектор музыки (например, упрощенную версию традиционного детектора музыки) для установки параметра sbrPatchingMode[ch] (и передачи установленного параметра на ступень 203) в ответ на обнаружение того, что битовый поток характеризует или не характеризует музыку; детектор переходных сигналов для установки параметра sbrOversamplingFlag[ch] (и передачи установленного параметра на ступень 203) в ответ на обнаружение наличия или отсутствия переходных сигналов в звуковом содержимом, указанном битовым потоком; и/или детектор основного тона для установки параметров sbrPitchInBinsFlag[ch] и sbrPitchInBins[ch] (и передачи установленных параметров на ступень 203) в ответ на обнаружение основного тона звукового содержимого, указанного битовым потоком. Другими аспектами настоящего изобретения являются способы декодирования звукового битового потока, выполняемые с помощью любого варианта осуществления декодера согласно настоящему изобретению, описанного в этом абзаце и предыдущем абзаце.The control data generation subsystem 401 shown in FIG. 5 is connected and configured to detect at least one property of the encoded audio bitstream to be decoded and generate eSBR control data (which may be or include eSBR metadata of any of the types included in the encoded audio bitstreams according to other embodiments of the present of the invention) in response to at least one result of the discovery step. The eSBR control data is passed to step 203 to trigger the application of individual eSBR tools or combinations of eSBR tools upon detection of a particular property (or combination of properties) of the bitstream and/or control the application of such eSBR tools. For example, to control the execution of eSBR processing using harmonic transposition, some embodiments of the control data generation subsystem 401 would include: a music detector (e.g., a simplified version of a traditional music detector) to set the sbrPatchingMode[ch] parameter (and pass the set parameter to stage 203) in a response to detecting that the bitstream characterizes or does not characterize the music; a transient detector for setting a parameter sbrOversamplingFlag[ch] (and passing the set parameter to stage 203) in response to detecting the presence or absence of transient signals in the audio content indicated by the bitstream; and/or a pitch detector for setting parameters sbrPitchInBinsFlag[ch] and sbrPitchInBins[ch] (and passing the set parameters to stage 203) in response to detecting the pitch of the audio content indicated by the bitstream. Other aspects of the present invention are methods for decoding an audio bitstream performed using any embodiment of the decoder according to the present invention described in this paragraph and the previous paragraph.

Аспекты настоящего изобретения включают способ кодирования или декодирования, относящийся к типу, с возможностью выполнения которого выполнен (например, запрограммирован) любой вариант осуществления APU, системы или устройства настоящего изобретения. Другие аспекты настоящего изобретения включают систему или устройство, выполненные с возможностью (например, запрограммированное для) выполнения любого варианта осуществления способа изобретения, и машиночитаемый носитель (например, диск), на котором хранится (например, энергонезависимо) код, предназначенный для реализации любого варианта осуществления способа изобретения или его этапов. Например, система изобретения может являться или включать программируемый процессор общего назначения, процессор цифровой обработки сигналов или микропроцессор, запрограммированный с использованием программного обеспечения или программно-аппаратного обеспечения и/или иным образом выполненный с возможностью выполнения любой из множества операций над данными, включая вариант осуществления способа изобретения или его этапы. Такой процессор общего назначения может являться или включать в себя компьютерную систему, содержащую устройство ввода, запоминающее устройство и схему обработки, запрограммированную (и/или иным образом выполненную с возможностью) для выполнения варианта осуществления способа изобретения (или его этапов) в ответ на передаваемые в нее данные.Aspects of the present invention include an encoding or decoding method of the type that any embodiment of an APU, system, or device of the present invention is capable of performing (eg, programmed). Other aspects of the present invention include a system or device capable of (e.g., programmed to) perform any embodiment of the method of the invention, and a computer-readable medium (e.g., a disk) that stores (e.g., non-volatile) code for implementing any embodiment. method of the invention or its steps. For example, the system of the invention may be or include a general purpose programmable processor, a digital signal processor, or a microprocessor programmed using software or firmware and/or otherwise capable of performing any of a variety of operations on data, including an embodiment of a method. invention or its stages. Such a general purpose processor may be or include a computer system comprising an input device, a storage device, and processing circuitry programmed (and/or otherwise configured) to execute an embodiment of the method of the invention (or steps thereof) in response to transmitted her data.

Варианты осуществления настоящего изобретения могут быть реализованы в аппаратном обеспечении, программно-аппаратном обеспечении, программном обеспечении или их комбинации (например, как программируемая логическая матрица). Если не указано иное, алгоритмы или процессы, включенные в качестве части настоящего изобретения, по своей природе не относятся ни к какому конкретному компьютеру или другому устройству. В частности, различные машины общего назначения могут быть использованы вместе с программами, написанными в соответствии с идеями, изложенными в данном документе, или может быть более удобно сконструировать более специализированное устройство (например, интегральные микросхемы) для выполнения необходимых этапов способа. Таким образом, настоящее изобретение может быть реализовано в одной или более компьютерных программах, исполняемых на одной или более программируемых компьютерных системах (например, на реализации любого из элементов, представленных на фиг. 1, или кодера 100, представленного на фиг. 2 (или его элемента), или декодера 200, представленного на фиг. 3, (или его элемента), или декодера 210, представленного на фиг. 4, (или его элемента), или декодера 400, представленного на фиг. 5, (или его элемента)), каждая из которых содержит по меньшей мере один процессор, по меньшей мере одну систему хранения данных (включая энергозависимое и энергонезависимое запоминающие устройства и/или элементы хранения), по меньшей мере одно устройство или порт ввода и по меньшей мере одно устройство или порт вывода. Программный код применяется к входным данным для выполнения функций, описанных в данном документе, и генерирования выходной информации. Выходная информация известным способом применяется к одному или более устройствам вывода.Embodiments of the present invention may be implemented in hardware, firmware, software, or a combination thereof (eg, as a programmable logic array). Unless otherwise indicated, the algorithms or processes included as part of the present invention are not inherently specific to any particular computer or other device. In particular, various general purpose machines may be used in conjunction with programs written in accordance with the ideas set forth herein, or it may be more convenient to construct more specialized apparatus (eg, integrated circuits) to perform the required method steps. Thus, the present invention may be implemented in one or more computer programs executing on one or more programmable computer systems (for example, an implementation of any of the elements shown in Fig. 1 or encoder 100 shown in Fig. 2 (or its element) or decoder 200 shown in Fig. 3 (or element thereof), or decoder 210 shown in Fig. 4 (or element thereof), or decoder 400 shown in Fig. 5 (or element thereof) ), each of which contains at least one processor, at least one data storage system (including volatile and non-volatile memory devices and / or storage elements), at least one input device or port, and at least one output device or port . Program code is applied to input data to perform the functions described in this document and generate output information. The output information is applied to one or more output devices in a known manner.

Каждая такая программа может быть реализована на любом желаемом компьютерном языке (включая машинные, ассемблерные или процедурные высокого уровня, логические или объектно-ориентированные языки программирования) для осуществления связи с компьютерной системой. В любом случае язык может быть компилируемым или интерпретируемым языком.Each such program may be implemented in any desired computer language (including machine, assembly, or high-level procedural, logical, or object-oriented programming languages) to communicate with a computer system. In either case, the language may be a compiled language or an interpreted language.

Например, при реализации посредством последовательностей команд компьютерного программного обеспечения различные функции и этапы вариантов осуществления настоящего изобретения могут быть реализованы посредством многопоточных последовательностей команд программного обеспечения, запущенных на подходящем аппаратном обеспечении цифровой обработки сигналов, и в этом случае различные устройства, этапы и функции вариантов осуществления могут соответствовать частям команд программного обеспечения.For example, when implemented by computer software instruction sequences, the various functions and steps of the embodiments of the present invention may be implemented by multi-threaded software instruction sequences running on suitable digital signal processing hardware, in which case the various apparatuses, steps, and functions of the embodiments may match parts of the software commands.

Каждую такую компьютерную программу предпочтительно сохраняют или загружают на запоминающие носители или устройство (например, твердотельное запоминающее устройство или носители, или магнитные или оптические носители), считываемые программируемым компьютером общего или специального назначения, для настройки конфигурации и работы компьютера, когда запоминающие носители или устройство считываются компьютерной системой для выполнения процедур, описанных в данном документе. Система изобретения также может быть реализована в виде машиночитаемого запоминающего носителя, оснащенного компьютерной программой (т.е. хранящего ее), где оснащенный таким образом запоминающий носитель вызывает работу компьютерной системы особым и предопределенным образом для выполнения функций, описанных в данном документе.Each such computer program is preferably stored on or loaded onto storage media or a device (e.g., solid-state memory or media, or magnetic or optical media) readable by a general purpose or special purpose programmable computer to customize the configuration and operation of the computer when the storage media or device is read. computer system to perform the procedures in this document. The system of the invention may also be implemented as a computer-readable storage medium equipped with (i.e., storing) a computer program, where the storage medium so equipped causes the computer system to operate in a specific and predetermined manner to perform the functions described herein.

Был описан ряд вариантов осуществления настоящего изобретения. Тем не менее, следует понимать, что различные модификации могут быть осуществлены без отступления от объема формулы изобретения. В свете вышеизложенных идей возможны многочисленные модификации и изменения настоящего изобретения. Например, для облегчения эффективных реализаций сдвиги фазы можно использовать в комбинации с анализом с помощью блоков анализирующих и синтезирующих комплексных QMF фильтров. Блок анализирующих фильтров отвечает за фильтрование сигнала нижнего диапазона во временной области, генерируемого основным декодером, во множество поддиапазонов (например, поддиапазонов QMF). Блок синтезирующих фильтров отвечает за объединение восстановленного верхнего диапазона, полученного с помощью выбранной методики HFR (как указано принятым параметром sbrPatchingMode), с декодированным нижним диапазоном для получения широкополосного выходного звукового сигнала. Данная реализация блока фильтров, действующая в определенном режиме частоты дискретизации, например в режиме обычного двухскоростного действия или в режиме SBR с пониженной дискретизацией, не должна, однако, иметь сдвиги фазы, зависящие от битового потока. Блоки QMF, используемые в SBR, представляют собой комплексно-экспоненциальное расширение теории косинусно-модулированных блоков фильтров. Можно показать, что при расширении косинусно-модулированного блока фильтров с помощью комплексно-экспоненциальной модуляции ограничения, связанные с исключением паразитных сигналов, становятся неактуальными. Так, для блоков QMF SBR как анализирующие фильтры, h_k(n), так и синтезирующие фильтры, f_k(n), можно определить как:A number of embodiments of the present invention have been described. However, it should be understood that various modifications can be made without departing from the scope of the claims. In light of the above ideas, numerous modifications and variations of the present invention are possible. For example, to facilitate efficient implementations, phase shifts can be used in combination with analysis using analysis and synthesis complex QMF filters. The analysis filter bank is responsible for filtering the low band signal in the time domain generated by the main decoder into a plurality of subbands (eg, QMF subbands). The synthesis filter bank is responsible for combining the reconstructed high band obtained with the selected HFR technique (as indicated by the received sbrPatchingMode parameter) with the decoded low band to produce a wideband audio output signal. A given filterbank implementation operating in a particular sampling rate mode, such as conventional two-speed operation or downsampling SBR mode, should not, however, have bitstream dependent phase shifts. The QMF blocks used in SBR are a complex exponential extension of the theory of cosine modulated filter banks. It can be shown that when expanding a cosine-modulated filterbank with complex-exponential modulation, the restrictions associated with the exclusion of spurious signals become irrelevant. So, for QMF SBR blocks, both the analysis filters, h _k (n), and the synthesis filters, f _k (n), can be defined as:

где p₀(n) – это вещественнозначный симметричный или асимметричный фильтр-прототип (как правило, фильтр-прототип нижних частот), M обозначает количество каналов, а N – порядок фильтра-прототипа. Количество каналов, используемых в блоке анализирующих фильтров, может отличаться от количества каналов, используемых в блоке синтезирующих фильтров. Например, блок анализирующих фильтров может иметь 32 канала, а блок синтезирующих фильтров может иметь 64 канала. При работе блока синтезирующих фильтров в режиме пониженной дискретизации блок синтезирующих фильтров может иметь только 32 канала. Поскольку дискретные значения поддиапазонов из блока фильтров являются комплекснозначными, к блоку анализирующих фильтров может быть приложен дополнительный, возможно зависящий от каналов, этап сдвига фазы. Эти дополнительные сдвиги фазы необходимо компенсировать перед блоком синтезирующих фильтров. Хотя составляющие сдвига фаз в принципе могут представлять собой произвольные значения, не ухудшая работу цепочки QMF анализа/синтеза, их также можно ограничить определенными значениями для проверки соответствия. На сигнал SBR будет влиять выбор фазовых коэффициентов, а сигнал нижних частот, поступающий из основного декодера, влиять не будет. Качество звука выходного сигнала не испытывает негативного воздействия. where p ₀ (n) is a real-valued symmetric or asymmetric prototype filter (typically a low-pass prototype filter), M denotes the number of channels, and N is the order of the prototype filter. The number of channels used in the analysis filter bank may differ from the number of channels used in the synthesis filter bank. For example, an analysis filter bank may have 32 channels, and a synthesis filter bank may have 64 channels. When the synthesis filter bank is operating in downsampling mode, the synthesis filter bank can only have 32 channels. Because the subband samples from the filterbank are complex-valued, an additional, possibly channel dependent, phase shifting step can be applied to the analysis filterbank. These additional phase shifts must be compensated before the synthesis filter bank. Although the phase shift components can in principle be arbitrary values without degrading the QMF analysis/synthesis chain, they can also be limited to certain values for consistency checking. The SBR signal will be affected by the choice of phase factors, and the low pass signal coming from the main decoder will not be affected. The sound quality of the output signal is not adversely affected.

Коэффициенты фильтра-прототипа, p₀(n), можно определить с длиной L, 640, как показано ниже в таблице 4. The prototype filter coefficients, p ₀ (n), can be defined with length L, 640, as shown in Table 4 below.

Таблица 4Table 4

Фильтр-прототип, p₀(n), также можно получить из таблицы 4 с помощью одной или более математических операций, таких как округление, субдискретизация, интерполяция и прореживание. The prototype filter, p ₀ (n), can also be obtained from Table 4 using one or more mathematical operations such as rounding, downsampling, interpolation, and decimation.

Несмотря на то, что настройка относящейся к SBR управляющей информации, как правило, не зависит от подробностей транспозиции (как обсуждено ранее), в некоторых вариантах осуществления некоторые элементы управляющих данных могут передаваться одновременно в контейнере расширения eSBR (bs_extension_id ==EXTENSION_ID_ESBR) с целью повышения качества восстановленного сигнала. Некоторые из одновременно передаваемых элементов могут включать данные шумового порога (например, масштабные коэффициенты шумового порога и параметр, указывающий направление, в направлении или частоты, или времени, разностного кодирования для каждого шумового порога), данные обратной фильтрации (например, параметр, указывающий режим обратной фильтрации, выбранный из отсутствия обратной фильтрации, низкого уровня обратной фильтрации, промежуточного уровня обратной фильтрации и сильного уровня обратной фильтрации) и данные пропущенных гармоник (например, параметр, указывающий, следует ли добавить синусоиду в конкретную полосу частот восстанавливаемого верхнего диапазона). Все эти элементы полагаются на выполненную в кодере синтетическую эмуляцию транспозера декодера, и поэтому при правильной настройке для выбранного транспозера могут повысить качество восстановленного сигнала. Although the setting of the SBR related control information is generally independent of the details of the transposition (as discussed previously), in some embodiments, some control data elements may be transmitted concurrently in the eSBR extension container (bs_extension_id ==EXTENSION_ID_ESBR) in order to elevate the quality of the recovered signal. Some of the simulcast elements may include noise floor data (e.g., noise floor scaling factors and a parameter indicating the direction, in either frequency or time direction, of the difference coding for each noise floor), inverse filtering data (e.g., a parameter indicating the inverse mode filtering selected from no inverse filtering, low inverse filtering, intermediate inverse filtering, and strong inverse filtering) and omitted harmonic data (for example, a parameter indicating whether a sine wave should be added to a particular high band to be restored). All of these elements rely on the encoder's synthetic emulation of the decoder's transposer, and therefore, if properly tuned for the selected transposer, can improve the quality of the reconstructed signal.

В частности, в некоторых вариантах осуществления данные пропущенных гармоник и управляющие данные обратной фильтрации передают в контейнере расширения eSBR (наряду с другими параметрами битового потока из таблицы 3) и настраивают для гармонического транспозера eSBR. Дополнительная битовая скорость, необходимая для передачи этих двух классов метаданных для гармонического транспозера eSBR, является относительно низкой. Поэтому отправка настроенных данных пропущенных гармоник и/или управляющих данных обратной фильтрации в контейнере расширения eSBR будет повышать качество звука, получаемого с помощью транспозера, оказывая лишь минимальное влияние на битовую скорость. Для обеспечения обратной совместимости с традиционными декодерами параметры, настроенные для операции спектрального переноса SBR, также могут быть отправлены в битовом потоке как часть управляющих данных SBR с использованием скрытой или явной сигнализации. In particular, in some embodiments, the skipped harmonics data and the inverse filtering control data are transmitted in the eSBR extension container (along with other bitstream parameters from Table 3) and tuned for the eSBR harmonic transposer. The additional bit rate required to carry these two classes of metadata for the eSBR harmonic transposer is relatively low. Therefore, sending tuned harmonic skip data and/or reverse filtering control data in an eSBR extension container will improve the quality of the transposer audio with only a minimal impact on the bit rate. For backward compatibility with legacy decoders, the parameters configured for the SBR spectral transfer operation may also be sent in the bitstream as part of the SBR control data using implicit or explicit signaling.

Сложность декодера с улучшениями SBR, как описано в данной заявке, должна быть ограничена так, чтобы значительно не повышать общую вычислительную сложность реализации. Предпочтительно PCU (MOP) для типа объекта SBR, при использовании инструмента eSBR, меньше или равна 4,5, и RCU для типа объекта SBR, при использовании инструмента eSBR, меньше или равна 3. Приближенная вычислительная мощность дана в единицах сложности процессора (Processor Complexity Unit, PCU), выраженных в целочисленных количествах MOPS. Приближенная загрузка RAM дана в единицах сложности RAM (RAM Complexity Units, RCU), выраженных в целочисленных количествах килослов (1000 слов). Количества RCU не включают рабочие буферы, которые могут совместно использоваться разными объектами и/или каналами. Кроме того, PCU пропорциональна частоте дискретизации. Значения PCU даны в MOPS (миллионы операций в секунду) на канал, а значения RCU – в килословах на канал. The complexity of a decoder with SBR enhancements as described in this application should be limited so as not to significantly increase the overall computational complexity of the implementation. Preferably, the PCU (MOP) for the SBR object type, when using the eSBR tool, is less than or equal to 4.5, and the RCU for the SBR object type, when using the eSBR tool, is less than or equal to 3. Approximate processing power is given in units of Processor Complexity. Unit, PCU) expressed in integer MOPS. Approximate RAM usage is given in RAM Complexity Units (RCUs), expressed as integer kilowords (1000 words). The RCU numbers do not include work buffers that may be shared between different entities and/or channels. Also, PCU is proportional to the sample rate. PCU values are given in MOPS (millions of operations per second) per channel, while RCU values are given in kilowords per channel.

К сжатым данным, таким как кодированный звук HE-AAC, которые могут быть декодированы посредством других конфигураций декодера, требуется особое внимание. В этом случае декодирование можно осуществлять с обеспечением обратной совместимости (только AAC), а также в улучшенном режиме (AAC+SBR). Если сжатые данные допускают и обратно совместимое, и расширенное декодирование, и если декодер действует в улучшенном режиме так, что использует постпроцессор, который вносит некоторую дополнительную задержку (например, постпроцессор SBR в HE-AAC), то необходимо обеспечить, чтобы эта дополнительная временная задержка, вносимая относительно режима обратной совместимости, как описано соответствующим значением n, учитывалась при представлении блока совмещения. Для обеспечения правильной обработки отметок времени совмещения (чтобы звук оставался синхронизированным с другими медиаданными), дополнительная задержка, вносимая постобработкой, данная в количестве дискретных значений (на звуковой канал) на выходной частоте дискретизации, равна 3010, если режим работы декодера включает улучшения SBR (в том числе eSBR), как описано в этой заявке. Поэтому для блока совмещения звука время совмещения применимо к 3011-му звуковому дискретному значению в блоке совмещения, если режим работы декодера включает улучшения SBR, как описано в этой заявке. Compressed data such as HE-AAC encoded audio that can be decoded by other decoder configurations requires special attention. In this case, decoding can be performed in backwards compatible (AAC only) as well as in enhanced mode (AAC+SBR). If the compressed data allows both backward compatible and extended decoding, and if the decoder operates in enhanced mode such that it uses a post processor that introduces some additional delay (for example, the SBR post processor in HE-AAC), then it is necessary to ensure that this additional time delay , introduced with respect to the backward compatibility mode, as described by the corresponding value of n, was taken into account when presenting the alignment block. To ensure correct processing of align timestamps (so that audio stays in sync with other media), the additional delay introduced by post-processing, given in number of samples (per audio channel) at the output sample rate, is 3010 if the decoder mode of operation includes SBR enhancements (in including eSBR) as described in this application. Therefore, for an audio combiner, the alignment time is applicable to the 3011th audio sample in the combiner if the decoder mode of operation includes SBR enhancements as described in this application.

Для повышения субъективного качества звукового содержимого с гармонической частотной структурой и сильными тональными характеристиками, в частности при низких битовых скоростях, следует активировать улучшения SBR. Значения соответствующего элемента битового потока (т.е. esbr_data()), управляющего этими инструментами, могут быть определены в кодере путем применения механизма классификации, зависимого от сигнала. To improve the subjective quality of audio content with harmonic frequency structure and strong tonal characteristics, particularly at low bit rates, SBR enhancements should be enabled. The values of the corresponding bitstream element (ie esbr_data()) driving these tools can be determined in the encoder by applying a signal dependent classification mechanism.

Обычно использование способа гармонической вставки (sbrPatchingMode == 0) является предпочтительным для кодирования музыкальных сигналов с очень низкими битовыми скоростями, когда основной кодек может быть значительно ограничен по полосе пропускания звука. Это особенно верно, если эти сигналы имеют выраженную гармоническую структуру. Напротив, использование обычного способа вставки SBR является предпочтительным для речевых и смешанных сигналов, поскольку он обеспечивает лучшее сохранение временной структуры речи.Generally, using the harmonic patching mode (sbrPatchingMode == 0) is preferred for encoding music signals with very low bit rates, where the underlying codec can be severely limited in audio bandwidth. This is especially true if these signals have a pronounced harmonic structure. In contrast, the use of the conventional SBR insertion method is preferred for speech and mixed signals because it provides better preservation of speech temporal structure.

Для улучшения работы транспозера MPEG-4 SBR можно активировать этап предварительной обработки (bs_sbr_preprocessing == 1), который устраняет внесение нарушений однородности спектра сигнала, идущего в последующий корректор огибающей Работа этого инструмента является полезной для типов сигнала, в которых грубая огибающая спектра сигнала нижнего диапазона, используемого для реконструкции высоких частот, проявляет большие вариации уровня.To improve the performance of the MPEG-4 SBR transposer, you can activate a pre-processing step (bs_sbr_preprocessing == 1) that eliminates the introduction of violations of the homogeneity of the spectrum of the signal going to the subsequent envelope corrector. This tool is useful for signal types in which the rough envelope of the low range signal spectrum used for high frequency reconstruction exhibits large level variations.

Для улучшения переходной характеристики гармонической вставки SBR (sbrPatchingMode == 0) можно применить адаптивную к сигналу передискретизацию в частотной области (sbrOversamplingFlag == 1). Поскольку адаптивная к сигналу передискретизация в частотной области увеличивает вычислительную сложность транспозера, но приносит пользу только для кадров, содержащих переходные сигналы, использованием этого инструмента управляют посредством элемента битового потока, который передают один раз на кадр и на независимый канал SBR.To improve the transient response of the SBR harmonic insert (sbrPatchingMode == 0), you can apply signal-adaptive frequency domain oversampling (sbrOversamplingFlag == 1). Because signal-adaptive frequency domain resampling increases the computational complexity of the transposer but only benefits frames containing transient signals, the use of this tool is controlled by a bitstream element that is transmitted once per frame and on an independent SBR channel.

Обычные рекомендуемые настройки битовой скорости для HE-AACv2 с улучшениями SBR (т.е. с включением гармонического транспозера инструмента eSBR) соответствуют 20–32 кбит/с для стереофонического звукового содержимого при частотах дискретизации 44,1 кГц или 48 кГц. Относительный субъективный выигрыш в качестве улучшений SBR увеличивается в направлении к нижней границе битовой скорости, и надлежащим образом выполненный декодер позволяет расширить этот диапазон до еще более низких битовых скоростей. Представленные выше битовые скорости представляют собой лишь рекомендации и могут быть адаптированы для конкретных эксплуатационных требований.The usual recommended bit rate settings for HE-AACv2 with SBR enhancements (i.e. including eSBR instrument harmonic transposer) are 20-32 kbps for stereo audio content at 44.1 kHz or 48 kHz sample rates. The relative subjective gain as SBR improvements increases towards the lower bit rate bound, and a properly designed decoder allows this range to be extended to even lower bit rates. The above bit rates are only guidelines and can be adapted to specific operational requirements.

Необходимо понимать, что в рамах объема прилагаемой формулы изобретения настоящее изобретение может быть реализовано на практике иначе, по сравнению с тем, что конкретно описано в данном документе. Любые ссылочные обозначения, содержащиеся в следующей ниже формуле изобретения, приведены только для иллюстрации, и их никоим образом не следует использовать для толкования или ограничения формулы изобретения.It is to be understood that within the scope of the appended claims, the present invention may be practiced otherwise than as specifically described herein. Any references contained in the following claims are for illustration only and should not be used in any way to interpret or limit the claims.

Различные аспекты настоящего изобретения можно понять из следующих пронумерованных примерных вариантов осуществления (ППВО).Various aspects of the present invention can be understood from the following numbered exemplary embodiments (NEPs).

ППВО 1. Способ выполнения реконструкции высоких частот звукового сигнала, включающий:APVO 1. A method for reconstructing the high frequencies of an audio signal, including:

прием кодированного звукового битового потока, этот кодированный звуковой битовый поток содержит звуковые данные, представляющие относящуюся к нижнему диапазону часть звукового сигнала, и метаданные реконструкции высоких частот;receiving an encoded audio bitstream, the encoded audio bitstream contains audio data representing a low-band portion of an audio signal and high frequency reconstruction metadata;

декодирование звуковых данных для генерирования декодированного звукового сигнала нижнего диапазона;decoding the audio data to generate a decoded low band audio signal;

извлечение из кодированного звукового битового потока метаданных реконструкции высоких частот, эти метаданные реконструкции высоких частот содержат рабочие параметры для процесса реконструкции высоких частот, рабочие параметры включают параметр режима вставки, расположенный в обратно совместимом контейнере расширения кодированного звукового битового потока, при этом первое значение параметра режима вставки указывает на спектральный перенос, а второе значение параметра режима вставки указывает на гармоническую транспозицию с использованием растяжения диапазона частот фазовым вокодером;extraction of high frequency reconstruction metadata from the encoded audio bitstream, this high frequency reconstruction metadata contains operating parameters for the high frequency reconstruction process, the operating parameters include an insertion mode parameter located in a backwards compatible encoded audio bitstream extension container, wherein the first value of the insertion mode parameter is indicates spectral transfer, and the second value of the insert mode parameter indicates harmonic transposition using frequency band stretching by the phase vocoder;

фильтрацию декодированного звукового сигнала нижнего диапазона для генерирования фильтрованного звукового сигнала нижнего диапазона;filtering the decoded low band audio signal to generate a filtered low band audio signal;

восстановление относящейся к верхнему диапазону части звукового сигнала с использованием фильтрованного звукового сигнала нижнего диапазона и метаданных реконструкции высоких частот, при этом восстановление включает спектральный перенос, если параметр режима вставки имеет первое значение, и восстановление включает гармоническую транспозицию с использованием растяжения диапазона частот фазовым вокодером, если параметр режима вставки имеет второе значение; иrestoring the high-band portion of the audio signal using the filtered low-band audio signal and high-frequency reconstruction metadata, whereby the restoration includes spectral transfer if the insert mode parameter has a first value, and the restoration includes harmonic transposition using frequency band stretching by the phase vocoder if the insert mode parameter has a second value; And

объединение фильтрованного звукового сигнала нижнего диапазона с восстановленной относящейся к верхнему диапазону частью для формирования широкополосного звукового сигнала,combining the filtered low band audio signal with the reconstructed high band portion to form a wideband audio signal,

при этом фильтрацию, восстановление и объединение выполняют как операцию постобработки с задержкой в 3010 дискретных значений на звуковой канал или менее.wherein the filtering, reconstruction, and combining are performed as a post-processing operation with a delay of 3010 samples per audio channel or less.

ППВО 2. Способ согласно ППВО 1, в котором кодированный звуковой битовый поток дополнительно включает заполняющий элемент с идентификатором, указывающим начало заполняющего элемента, и заполняющими данными после идентификатора, где заполняющие данные содержат обратно совместимый контейнер расширения.TFAP 2. The method according to TFRP 1, wherein the encoded audio bitstream further includes a padding element with an identifier indicating the start of the padding element and padding data after the identifier, where the padding data contains a backwards compatible extension container.

ППВО 3. Способ согласно ППВО 2, в котором идентификатор представляет собой трехбитное целое число без знака, у которого сначала передают старший значащий бит, имеющее значение 0×6.TFRP 3. The method according to TFRP 2, wherein the identifier is a three-bit unsigned integer of which the most significant bit having a value of 0×6 is first transmitted.

ППВО 4. Способ согласно ППВО 2 или ППВО 3, в котором заполняющие данные содержат полезные данные расширения, эти полезные данные расширения содержат данные расширения копирования спектральной полосы, при этом полезные данные расширения идентифицируют с помощью четырехбитного целого числа без знака, у которого сначала передают старший значащий бит, имеющего значение «1101» или «1110», и необязательноTPOP 4. The method according to TPOP 2 or TPOP 3, wherein the padding data contains extension payload data, the extension payload contains spectral band copy extension data, wherein the extension payload data is identified by a four-bit unsigned integer of which the most significant is transmitted first. the significant bit having the value "1101" or "1110", and optionally

при этом данные расширения копирования спектральной полосы содержат: wherein the spectral band copy extension data contains:

необязательный заголовок копирования спектральной полосы, optional spectral band copy header,

данные копирования спектральной полосы после заголовка иspectral band copy data after header and

элемент расширения копирования спектральной полосы после данных копирования спектральной полосы, и при этом в элемент расширения копирования спектральной полосы включают флаг. a spectral band copy extension element after the spectral band copy data, and wherein a flag is included in the spectral band copy extension element.

ППВО 5. Способ согласно любому из ППВО 1–4, в котором метаданные реконструкции высоких частот содержат масштабные коэффициенты огибающей, масштабные коэффициенты шумового порога, информацию временной / частотной сетки или параметр, указывающий частоту разделения.TPTP 5. The method according to any of TPTP 1-4, wherein the high frequency reconstruction metadata contains envelope scale factors, noise threshold scale factors, time/frequency grid information, or a parameter indicating a crossover frequency.

ППВО 6. Способ согласно любому из ППВО 1–5, в котором обратно совместимый контейнер расширения дополнительно содержит флаг, указывающий, используется ли дополнительная предварительная обработка для избежания нарушений непрерывности в форме огибающей спектра относящейся к верхнему диапазону части, когда параметр режима вставки равен первому значению, при этом первое значение флага включает дополнительную предварительную обработку, а второе значение флага отключает дополнительную предварительную обработку.6. The method according to any one of TFEPs 1 to 5, wherein the backward compatible extension container further comprises a flag indicating whether additional pre-processing is used to avoid discontinuities in the form of a high-band spectrum envelope when the insert mode parameter is equal to a first value. , where the first flag value enables additional preprocessing, and the second flag value disables additional preprocessing.

ППВО 7. Способ согласно ППВО 6, в котором дополнительная предварительная обработка включает вычисление кривой предварительного усиления с использованием коэффициента фильтра линейного предсказания.TFEP 7. The method according to TFEP 6 wherein the additional pre-processing includes calculating a pre-gain curve using a linear prediction filter coefficient.

ППВО 8. Способ согласно любому из ППВО 1–5, в котором обратно совместимый контейнер расширения дополнительно содержит флаг, указывающий, необходимо ли применять адаптивную к сигналу передискретизацию в частотной области, когда параметр режима вставки равен второму значению, при этом первое значение флага включает адаптивную к сигналу передискретизацию в частотной области, а второе значение флага отключает адаптивную к сигналу передискретизацию в частотной области.8. The method according to any one of TFEPs 1 to 5, wherein the backward compatible extension container further comprises a flag indicating whether to apply signal-adaptive frequency domain resampling when the insert mode parameter is equal to a second value, wherein the first value of the flag includes adaptive signal-adaptive frequency domain resampling, and the second flag value disables signal-adaptive frequency domain resampling.

ППВО 9. Способ согласно ППВО 8, в котором адаптивную к сигналу передискретизацию в частотной области применяют только для кадров, содержащих переходной сигнал.TFRP 9: A method according to TFRP 8 in which signal-adaptive frequency domain resampling is applied only to frames containing a transient signal.

ППВО 10. Способ согласно любому из предыдущих ППВО, в котором гармоническую транспозицию с использованием растяжения диапазона частот фазовым вокодером выполняют с оценочной сложностью 4,5 миллионов или менее операций в секунду и 3 или менее килослов памяти.TFEP 10. The method according to any of the previous TFEP, wherein harmonic transposition using frequency band stretching by a phase vocoder is performed with an estimated complexity of 4.5 million operations per second or less and 3 or less memory words.

ППВО 11. Энергонезависимый машиночитаемый носитель, содержащий команды, которые при исполнении процессором выполняют способ согласно любому из ППВО 1–10.FPVO 11. A non-volatile computer-readable medium containing instructions that, when executed by a processor, perform a method according to any of VPVO 1-10.

ППВО 12. Компьютерный программный продукт, содержащий команды, которые при исполнении вычислительным устройством или системой вызывают выполнение указанным вычислительным устройством или системой способа согласно любому из ППВО 1–10.CPOP 12. A computer program product containing instructions that, when executed by a computing device or system, cause said computing device or system to execute a method according to any of CPOPs 1-10.

ППВО 13. Блок обработки звука для выполнения реконструкции высоких частот звукового сигнала, содержащий:PPVO 13. Sound processing unit for reconstructing high frequencies of an audio signal, comprising:

интерфейс ввода для приема кодированного звукового битового потока, этот кодированный звуковой битовый поток содержит звуковые данные, представляющие относящуюся к нижнему диапазону часть звукового сигнала, и метаданные реконструкции высоких частот;an input interface for receiving an encoded audio bitstream, this encoded audio bitstream contains audio data representing a low-band portion of an audio signal and high frequency reconstruction metadata;

основной декодер звука для декодирования звуковых данных для генерирования декодированного звукового сигнала нижнего диапазона;a main audio decoder for decoding audio data to generate a low band decoded audio signal;

устройство удаления форматирования для извлечения из кодированного звукового битового потока метаданных реконструкции высоких частот, эти метаданные реконструкции высоких частот содержат рабочие параметры для процесса реконструкции высоких частот, рабочие параметры включают параметр режима вставки, расположенный в обратно совместимом контейнере расширения кодированного звукового битового потока, при этом первое значение параметра режима вставки указывает на спектральный перенос, а второе значение параметра режима вставки указывает на гармоническую транспозицию с использованием растяжения диапазона частот фазовым вокодером;a deformatter for extracting high frequency reconstruction metadata from the encoded audio bitstream, this high frequency reconstruction metadata contains operating parameters for the high frequency reconstruction process, the operating parameters include an insert mode parameter located in a backward compatible extension container of the encoded audio bitstream, wherein the first the value of the insert mode parameter indicates spectral transfer, and the second value of the insert mode parameter indicates harmonic transposition using phase vocoder stretching;

блок анализирующих фильтров для фильтрации декодированного звукового сигнала нижнего диапазона для генерирования фильтрованного звукового сигнала нижнего диапазона;an analysis filter unit for filtering the decoded low band audio signal to generate a filtered low band audio signal;

устройство восстановления высоких частот для реконструкции относящейся к верхнему диапазону части звукового сигнала с использованием фильтрованного звукового сигнала нижнего диапазона и метаданных реконструкции высоких частот, при этом реконструкция включает спектральный перенос, если параметр режима вставки имеет первое значение, и реконструкция включает гармоническую транспозицию с использованием растяжения диапазона частот фазовым вокодером, если параметр режима вставки имеет второе значение; иa high-frequency restoration device for reconstructing the high-band portion of an audio signal using a filtered low-band audio signal and high-frequency reconstruction metadata, wherein the reconstruction includes spectral transfer if the insert mode parameter is set to a first value, and the reconstruction includes harmonic transposition using range stretching frequencies by the phase vocoder if the insert mode parameter has a second value; And

блок синтезирующих фильтров для объединения фильтрованного звукового сигнала нижнего диапазона с восстановленной относящейся к верхнему диапазону частью для формирования широкополосного звукового сигнала,a synthesis filter unit for combining the filtered low-band audio signal with the restored high-band portion to form a broadband audio signal,

при этом блок анализирующих фильтров, устройство восстановления высоких частот и блок синтезирующих фильтров выполняются в постпроцессоре с задержкой в 3010 дискретных значений на канал звука или менее.wherein the analysis filter bank, the high frequency restorer, and the synthesis filter bank are executed in the post-processor with a delay of 3010 samples per audio channel or less.

ППВО 14. Блок обработки звука согласно ППВО 13, в котором гармоническая транспозиция с использованием растяжения диапазона частот фазовым вокодером выполняется с оценочной сложностью 4,5 миллионов или менее операций в секунду и 3 или менее килослов памяти.FPVO 14. An audio processing unit according to FPVO 13 in which harmonic transposition using frequency band stretching by a phase vocoder is performed with an estimated complexity of 4.5 million operations per second or less and 3 kwords of memory or less.

Claims

1. A method for performing the reconstruction of high frequencies of an audio signal, including:

receiving an encoded audio bitstream, the encoded audio bitstream contains audio data representing a low-band portion of an audio signal and high frequency reconstruction metadata;

decoding the audio data to generate a decoded low band audio signal;

extraction of high frequency reconstruction metadata from the encoded audio bitstream, this high frequency reconstruction metadata contains operating parameters for the high frequency reconstruction process, the operating parameters include an insertion mode parameter located in a backwards compatible encoded audio bitstream extension container, wherein the first value of the insertion mode parameter is indicates spectral transfer, and the second value of the insert mode parameter indicates harmonic transposition using frequency band stretching by the phase vocoder;

filtering the decoded low band audio signal to generate a filtered low band audio signal;

restoring the high-band portion of the audio signal using the filtered low-band audio signal and high-frequency reconstruction metadata, whereby the restoration includes spectral transfer if the insert mode parameter has a first value, and the restoration includes harmonic transposition using frequency band stretching by the phase vocoder if the insert mode parameter has a second value; And

combining the filtered low band audio signal with the reconstructed high band portion to form a wideband audio signal,

while filtering, restoring and combining is performed as a post-processing operation with a delay of 3010 samples per audio channel.

2. The method of claim 1, wherein the encoded audio bitstream further includes a padding element with an identifier indicating the start of the padding element and padding data after the identifier, where the padding data contains a backward compatible extension container.

3. The method according to claim 2, characterized in that the identifier is a three-bit unsigned integer, in which the most significant bit having a value of 0x6 is transmitted first.

4. The method according to claim 2 or 3, wherein the padding data contains extension payload data, wherein the extension payload contains spectral band copy extension data, and the extension payload data is identified with a four-bit unsigned integer of which is first transmitted the most significant bit having the value "1101" or "1110", and optionally

wherein the spectral band copy extension data contains:

optional spectral band copy header,

spectral band copy data after header and

a spectral band copy extension element after the spectral band copy data, and wherein a flag is included in the spectral band copy extension element.

5. The method according to any one of paragraphs. 1-4, characterized in that the high-frequency reconstruction metadata contains envelope scale factors, noise threshold scale factors, time/frequency grid information, or a parameter indicating a crossover frequency.

6. The method according to any one of paragraphs. 1-5, characterized in that the backward compatible extension container further comprises a flag indicating whether additional pre-processing is used to avoid discontinuities in the form of a spectrum envelope related to the upper range portion when the insert mode parameter is equal to a first value, wherein the first value flag enables additional preprocessing, and the second value of the flag disables additional preprocessing.

7. The method of claim 6, wherein the additional pre-processing comprises calculating a pre-gain curve using a linear prediction filter coefficient.

8. The method according to any one of paragraphs. 1-5, characterized in that the backward compatible extension container further comprises a flag indicating whether it is necessary to apply signal-adaptive frequency domain resampling when the insert mode parameter is equal to the second value, wherein the first value of the flag enables signal-adaptive frequency domain resampling. , and the second flag value disables signal-adaptive resampling in the frequency domain.

9. The method of claim 8, wherein signal-adaptive frequency domain resampling is applied only to frames containing a transient signal.

10. A method according to any one of the preceding claims, wherein the harmonic transposition using frequency band stretching by a phase vocoder is performed with an estimated complexity of 4.5 million operations per second or less.

11. The method according to any of the previous paragraphs, characterized in that

filtering the lower band decoded audio signal to generate the lower band filtered audio signal, comprising filtering the lower band decoded audio signal into a plurality of subbands using a QMF complex analysis filter bank; And

combining the filtered low-band audio signal with the reconstructed high-band portion to form a wideband audio signal involves using a complex QMF synthesis filter bank.

12. The method according to claim 11, characterized in that the analyzing filters h _k (n) of the block of complex analyzing QMF filters and the synthesis filters f _k (n) of the block of complex synthesizing QMF filters are determined by the formula:

where p ₀ (n) is a real-valued prototype filter, M denotes the number of channels, and N is the order of the prototype filter.

13. Sound processing unit for reconstructing the high frequencies of an audio signal, comprising:

an input interface for receiving an encoded audio bitstream, the encoded audio bitstream comprising audio data representing a low-band portion of an audio signal and high frequency reconstruction metadata;

a main audio decoder for decoding audio data to generate a low band decoded audio signal;

a deformatter for extracting high frequency reconstruction metadata from the encoded audio bitstream, this high frequency reconstruction metadata contains operating parameters for the high frequency reconstruction process, the operating parameters include an insert mode parameter located in a backward compatible extension container of the encoded audio bitstream, wherein the first the value of the insert mode parameter indicates spectral transfer, and the second value of the insert mode parameter indicates harmonic transposition using phase vocoder stretching;

an analysis filter unit for filtering the decoded low band audio signal to generate a filtered low band audio signal;

a high-frequency restoration device for reconstructing the high-band portion of an audio signal using a filtered low-band audio signal and high-frequency reconstruction metadata, wherein the reconstruction includes spectral transfer if the insert mode parameter is set to a first value, and the reconstruction includes harmonic transposition using range stretching frequencies by the phase vocoder if the insert mode parameter has a second value; And

a synthesis filter unit for combining the filtered low-band audio signal with the restored high-band portion to form a broadband audio signal,

wherein the analysis filter bank, the high frequency restorer, and the synthesis filter bank are executed in the post-processor with a delay of 3010 samples per audio channel or less.

14. The sound processing unit according to claim 13, characterized in that the harmonic transposition using frequency band stretching by the phase vocoder is performed with an estimated complexity of 4.5 million or less operations per second.