EA044947B1

EA044947B1 - BACKWARD COMPATIBLE HARMONIC TRANSPOSER LAYOUT FOR RECONSTRUCTION OF HIGH FREQUENCY AUDIO SIGNALS

Info

Publication number: EA044947B1
Application number: EA202291846
Authority: EA
Inventors: Ларс ВИЛЛЕМОЕС; Хейко ПУРНХАГЕН; Пер ЭКСТРАНД
Original assignee: Долби Интернэшнл Аб
Priority date: 2017-03-23
Filing date: 2018-03-19
Publication date: 2023-10-16

Description

Область техники, к которой относится изобретениеField of technology to which the invention relates

Варианты осуществления имеют отношение к обработке звуковых сигналов, а точнее, к кодированию, декодированию или перекодированию звуковых битовых потоков с управляющими данными, задающими то, должна ли выполняться над звуковыми данными базовая форма реконструкции высоких частот (HFR) или усовершенствованная форма HFR.Embodiments relate to processing audio signals, and more specifically, encoding, decoding or recoding audio bitstreams with control data specifying whether a basic form of high frequency reconstruction (HFR) or an advanced form of HFR is to be performed on the audio data.

Уровень техники изобретенияBACKGROUND OF THE INVENTION

Типичный звуковой битовый поток включает в себя как звуковые данные (например, кодированные звуковые данные), указывающие один или более каналов звукового контента, так и метаданные, указывающие по меньшей мере одну характеристику звуковых данных или звукового контента. Одним из широко известных форматов для формирования кодированного звукового битового потока является формат Перспективного звукового кодирования (ААС) MPEG-4, описанный в стандарте ISO/IEC 14496-3:2009 MPEG. В стандарте MPEG-4, ААС обозначает перспективное звуковое кодирование, а НЕ-ААС обозначает высокоэффективное перспективное звуковое кодирование.A typical audio bitstream includes both audio data (eg, encoded audio data) indicating one or more channels of audio content, and metadata indicating at least one characteristic of the audio data or audio content. One well-known format for generating an encoded audio bitstream is the MPEG-4 Advanced Audio Coding (AAC) format described in the ISO/IEC 14496-3:2009 MPEG standard. In the MPEG-4 standard, AAC stands for Advanced Audio Coding and HE-AAC stands for High Efficiency Advanced Audio Coding.

Стандарт AAC MPEG-4 определяет несколько звуковых профилей, которые определяют, какие объекты и средства кодирования присутствуют в совместимом кодировщике или декодере. Тремя из этих звуковых профилей являются (1) профиль ААС, (2) профиль НЕ-ААС и (3) профиль НЕ-ААС v2. Профиль ААС включает в себя тип объекта малой сложности ААС (или AAC-LC). Объект AAC-LC является аналогом для профиля малой сложности ААС MPEG-2 с некоторыми корректировками и не включает в себя ни тип объекта репликации полос спектра (SBR), ни тип объекта параметрической стереофонии (PS). Профиль НЕ-ААС является надмножеством профиля ААС и дополнительно включает в себя тип объекта SBR. Профиль НЕ-ААС v2 является надмножеством профиля НЕ-ААС и дополнительно включает в себя тип объекта PS.The AAC MPEG-4 standard defines several audio profiles that determine what objects and encoding tools are present in a compatible encoder or decoder. Three of these audio profiles are (1) AAC profile, (2) HE-AAC profile and (3) HE-AAC v2 profile. The AAC profile includes the AAC Low Complexity (or AAC-LC) object type. The AAC-LC object is the analogue of the MPEG-2 low complexity AAC profile with some adjustments and does not include either a spectrum band replication (SBR) object type or a parametric stereo (PS) object type. The HE-AAC profile is a superset of the AAC profile and additionally includes an SBR object type. The HE-AAC v2 profile is a superset of the HE-AAC profile and additionally includes a PS object type.

Тип объекта SBR содержит в себе средство репликации полос спектра, которое является важным средством кодирования реконструкции высоких частот (HFR), которое значительно улучшает эффективность сжатия перцепционных звуковых кодеков. SBR реконструирует высокочастотные составляющие звукового сигнала на стороне приемника (например, в декодере). Таким образом, кодировщику нужно кодировать и передавать только низкочастотные составляющие, предоставляя возможность для гораздо более высокого качества звука на низких скоростях передачи данных. SBR основана на репликации последовательностей гармоник, ранее усеченных, для того чтобы уменьшить скорость передачи данных, из имеющегося в распоряжении сигнала с ограниченной шириной полосы частот и управляющих данных, полученных из кодировщика. Соотношение между тональными и шумоподобными составляющими поддерживается посредством адаптивной обратной фильтрации, а также необязательным добавлением шума и синусоидальных сигналов. В стандарте ААС MPEG-4, средство SBR выполняет спектральную вклейку (также называемое линейным преобразованием или спектральным преобразованием), в котором некоторое количество следующих друг за другом поддиапазонов квадратурных зеркальных фильтров (КЗФ, QMF) копируются (или вклеиваются) из переданной части полосы низких частот звукового сигнала в часть полосы высоких частот звукового сигнала, которая формируется в декодере.The SBR object type contains a spectrum band replication facility, which is an important high-frequency reconstruction (HFR) encoding facility that significantly improves the compression efficiency of perceptual audio codecs. SBR reconstructs the high-frequency components of the audio signal at the receiver end (for example, at the decoder). Thus, the encoder only needs to encode and transmit low-frequency components, providing the opportunity for much higher audio quality at low data rates. SBR is based on replication of harmonic sequences, previously truncated to reduce the data rate, from the available bandwidth-limited signal and control data received from the encoder. The relationship between tonal and noise-like components is maintained through adaptive inverse filtering, as well as the optional addition of noise and sine waves. In the MPEG-4 AAC standard, the SBR facility performs spectral pasting (also called linear transform or spectral transform) in which a number of successive quadrature mirror filter (QMF) subbands are copied (or pasted) from the transmitted portion of the low-pass band. audio signal into the part of the high frequency band of the audio signal, which is generated in the decoder.

Спектральная вклейка или линейное преобразование могут не быть идеальными для некоторых типов звукового сигнала, таких как музыкальный контент с относительно низкими частотами разделения. Поэтому, необходимы технологии для улучшения репликации полос спектра.Spectral pasting or linear mapping may not be ideal for some types of audio signal, such as music content with relatively low crossover frequencies. Therefore, technologies are needed to improve the replication of spectrum bands.

Краткое описание вариантов осуществления изобретенияBrief Description of Embodiments of the Invention

Раскрыта первая группа вариантов осуществления, которая относится к способу для декодирования кодированного звукового битового потока. Способ включает в себя прием кодированного звукового битового потока и декодирование звуковых данных для формирования декодированного звукового сигнала в полосе низких частот. Способ дополнительно включает в себя извлечение метаданных реконструкции высоких частот и фильтрацию декодированного звукового сигнала в полосе низких частот гребенкой фильтров разложения сигнала для формирования фильтрованного звукового сигнала в полосе низких частот. Способ дополнительно включает в себя извлечение флажкового признака, указывающего, должны ли выполняться над звуковыми данными спектральное преобразование или гармоническая транспозиция, и восстановление части высоких частот звукового сигнала с использованием фильтрованного звукового сигнала в полосе низких частот и метаданных реконструкции высоких частот в соответствии с флажковым признаком. В заключение, способ включает в себя комбинирование фильтрованного звукового сигнала в полосе низких частот и восстановленной части полосы высоких частот для формирования широкополосного звукового сигнала.A first group of embodiments is disclosed, which relates to a method for decoding an encoded audio bitstream. The method includes receiving an encoded audio bitstream and decoding the audio data to generate a decoded low-band audio signal. The method further includes extracting high-pass reconstruction metadata and filtering the decoded low-band audio signal with a signal decomposition filter bank to generate a filtered low-band audio signal. The method further includes extracting a flag indicating whether spectral transform or harmonic transposition should be performed on the audio data, and reconstructing the high-frequency portion of the audio signal using the low-band filtered audio signal and high-pass reconstruction metadata in accordance with the flag. Finally, the method includes combining a filtered low-band audio signal and a reconstructed high-band portion to generate a wideband audio signal.

Вторая группа вариантов осуществления относится к звуковому декодеру для декодирования кодированного звукового битового потока. Декодер включает в себя входной интерфейс для приема кодированного звукового битового потока, где кодированный звуковой битовый поток включает в себя звуковые данные, представляющие собой часть низких частот звукового сигнала, и основной декодер для декодирования звуковых данных, чтобы формировать декодированный звуковой сигнал в полосе низких частот. Декодер также включает в себя демультиплексор для извлечения из кодированного звукового битового потока метаданных реконструкции высоких частот, где метаданные реконструкции высокихA second group of embodiments relates to an audio decoder for decoding an encoded audio bitstream. The decoder includes an input interface for receiving a coded audio bitstream, where the coded audio bitstream includes audio data representing a low frequency portion of the audio signal, and a main decoder for decoding the audio data to generate a decoded audio signal in the low frequency band. The decoder also includes a demultiplexer for extracting high frequency reconstruction metadata from the encoded audio bitstream, where the high frequency reconstruction metadata

- 1 044947 частот включают в себя рабочие параметры для процесса реконструкции высоких частот, который линейно преобразует некоторое количество следующих друг за другом поддиапазонов из части полосы низких частот звукового сигнала в часть полосы высоких частот звукового сигнала, и гребенку фильтров разложения сигнала для фильтрации декодированного звукового сигнала в полосе низких частот, чтобы формировать фильтрованный звуковой сигнал в полосе низких частот. Декодер дополнительно включает в себя демультиплексор для извлечения из кодированного звукового битового потока флажкового признака, указывающего, должны ли выполняться над звуковыми данными линейное преобразование или гармоническая транспозиция, и восстановитель высоких частот для восстановления части высоких частот звукового сигнала с использованием фильтрованного звукового сигнала в полосе низких частот и метаданных реконструкции высоких частот в соответствии с флажковым признаком. В заключение, декодер включает в себя гребенку фильтров синтеза сигнала для комбинирования фильтрованного звукового сигнала в полосе низких частот и восстановленной части полосы высоких частот, чтобы формировать широкополосный звуковой сигнал.- 1 044947 frequencies include operating parameters for a high-frequency reconstruction process that linearly converts a number of successive subbands from the low-band portion of the audio signal to the high-band portion of the audio signal, and a signal decomposition filter bank for filtering the decoded audio signal in the low frequency band to generate a filtered audio signal in the low frequency band. The decoder further includes a demultiplexer for extracting from the encoded audio bit stream a flag indicating whether linear transform or harmonic transposition is to be performed on the audio data, and a high-pass restorer for restoring the high-frequency portion of the audio signal using the low-band filtered audio signal. and high-frequency reconstruction metadata according to the flag. Finally, the decoder includes a signal synthesis filter bank for combining the filtered low-band audio signal and the reconstructed high-band portion to generate a wideband audio signal.

Другие группы вариантов осуществления относятся к кодированию и перекодированию звуковых битовых потоков, содержащих в себе метаданные, идентифицирующие, должна ли выполняться обработка усовершенствованной репликации полос спектра (eSBR).Other groups of embodiments relate to encoding and recoding audio bitstreams containing metadata identifying whether enhanced spectrum band replication (eSBR) processing is to be performed.

Краткое описание чертежейBrief description of drawings

Фиг. 1 - структурная схема варианта осуществления системы, которая может быть выполнена с возможностью выполнять вариант осуществления обладающего признаками изобретения способа.Fig. 1 is a block diagram of an embodiment of a system that may be configured to perform an embodiment of the inventive method.

Фиг. 2 - структурная схема кодировщика, который является вариантом осуществления обладающего признаками изобретения блока обработки звукового сигнала.Fig. 2 is a block diagram of an encoder, which is an embodiment of an inventive audio signal processing unit.

Фиг. 3 - структурная схема системы, включающей в себя декодер, который является вариантом осуществления обладающего признаками изобретения блока обработки звукового сигнала и, по выбору, также постпроцессор, присоединенный к нему.Fig. 3 is a block diagram of a system including a decoder, which is an embodiment of an inventive audio signal processing unit, and optionally also a post-processor coupled thereto.

Фиг. 4 - структурная схема декодера, который является вариантом осуществления обладающего признаками изобретения блока обработки звукового сигнала.Fig. 4 is a block diagram of a decoder, which is an embodiment of an inventive audio signal processing unit.

Фиг. 5 - структурная схема декодера, который является еще одним вариантом осуществления обладающего признаками изобретения блока обработки звукового сигнала.Fig. 5 is a block diagram of a decoder, which is another embodiment of an inventive audio signal processing unit.

Фиг. 6 - структурная схема еще одного варианта осуществления обладающего признаками изобретения блока обработки звукового сигнала.Fig. 6 is a block diagram of another embodiment of an inventive audio signal processing unit.

Фиг. 7 - схема блока битового потока AAC MPEG-4, включающего в себя сегменты, на которые он разделен.Fig. 7 is a diagram of an MPEG-4 AAC bitstream block including the segments into which it is divided.

Система обозначений и терминологияNotation system and terminology

На всем протяжении данного описания изобретения, в том числе в формуле изобретения, выражение выполнение операции над сигналом или данными (например, фильтрацией, масштабированием, преобразованием или применением коэффициента передачи к сигналу или данным) используется в широком смысле для обозначения выполнения операции непосредственно над сигналом или данными, или над обработанным вариантом сигнала или данных (например, над вариантом сигнала, который подвергся предварительной фильтрации или предварительной обработке перед выполнением операции над ним).Throughout this specification, including in the claims, the expression performing an operation on a signal or data (e.g., filtering, scaling, transforming, or applying a gain to a signal or data) is used broadly to mean performing an operation directly on a signal or data. data, or on a processed version of the signal or data (for example, on a version of the signal that has been pre-filtered or pre-processed before performing an operation on it).

На всем протяжении этого описания изобретения, в том числе в формуле изобретения, выражение блок обработки звукового сигнала или звуковой процессор используется в широком смысле для обозначения системы, устройства или установки, выполненных с возможностью обрабатывать звуковых данных. Примеры блоков обработки звукового сигнала включают в себя, но не в качестве ограничения, кодировщики, перекодировщики, декодеры, кодеки, системы предварительной обработки, системы постобработки и системы обработки битового потока (иногда упоминаемые как средства обработки битового потока). Практически вся бытовая электроника, такая как мобильные телефоны, телевизоры, дорожные компьютеры, планшетные компьютеры, содержит в себе блок обработки звукового сигнала или звуковой процессор.Throughout this specification, including in the claims, the expression audio signal processing unit or audio processor is used in a broad sense to refer to a system, device or installation configured to process audio data. Examples of audio signal processing units include, but are not limited to, encoders, transcoders, decoders, codecs, pre-processing systems, post-processing systems, and bitstream processing systems (sometimes referred to as bitstream processing means). Almost all consumer electronics, such as mobile phones, televisions, travel computers, tablet computers, contain an audio signal processing unit or sound processor.

На всем протяжении этого описания изобретения, в том числе, в формуле изобретения, термин присоединяется или присоединен используется в широком смысле, чтобы означать прямое или опосредованное соединение. Таким образом, если первое устройство присоединяется к второму устройству, соединение может происходить через прямое соединение или через опосредованное соединение с помощью других устройств и соединений. Более того, компоненты, которые объединены в или с другими компонентами, также соединены друг с другом.Throughout this specification, including in the claims, the term attached or attached is used in a broad sense to mean direct or indirect connection. Thus, if a first device is connected to a second device, the connection may occur through a direct connection or through an indirect connection via other devices and connections. Moreover, components that are combined into or with other components are also connected to each other.

Подробное описание вариантов осуществления изобретенияDetailed Description of Embodiments of the Invention

Стандарт AAC MPEG-4 предполагает, что кодированный битовый поток AAC MPEG-4 включает в себя метаданные, указывающие каждый тип обработки реконструкции высоких частот (HFR), которая должна выполняться (если какая-нибудь должна выполняться) декодером для декодирования звукового контента битового потока, и/или которые управляют такой обработкой HFR и/или указывают по меньшей мере одну характеристику или параметр по меньшей мере одного средства HFR, подлежащего применению для декодирования звукового контента битового потока. В материалах настоящей заявки, мы используем выражение метаданные SBR для обозначения метаданных этого типа, который описан илиThe AAC MPEG-4 standard assumes that an AAC MPEG-4 encoded bitstream includes metadata indicating each type of high frequency reconstruction (HFR) processing that must be performed, if any, by the decoder to decode the audio content of the bitstream. and/or which controls such HFR processing and/or indicates at least one characteristic or parameter of at least one HFR means to be used for decoding the audio content of the bitstream. Throughout this application, we use the expression SBR metadata to refer to metadata of this type, which is described or

- 2 044947 упоминается в стандарте AAC MPEG-4 для использования с репликацией полос спектра (SBR). Как принимается во внимание специалистом в данной области техники, SBR является разновидностью HFR.- 2 044947 is mentioned in the AAC MPEG-4 standard for use with spectrum band replication (SBR). As will be appreciated by one skilled in the art, SBR is a type of HFR.

SBR предпочтительно используется в качестве системы с двойной частотой дискретизации, причем, лежащий в основе кодек работает на половине исходной частоты дискретизации, в то время как SBR. функционирует на исходной частоте дискретизации. Кодировщик SBR работает параллельно с лежащим в основе основным кодеком, хотя и на более высокой частоте дискретизации. Хотя SBR. главным образом является постобработкой в декодере, важные параметры извлекаются в кодировщике, для того чтобы обеспечивать наиболее точную реконструкцию высоких частот в декодере. Кодировщик оценивает огибающую спектра диапазона SBR, что касается частотно-временного диапазона/разрешения по времени и частоте, подходящих для характеристик текущих сегментов входного сигнала. Огибающая спектра оценивается посредством разложения сигнала с помощью комплексных КЗФ и последующего расчета энергии. Разрешения по времени и частоте огибающих спектра могут выбираться с высокой степенью свободы, для того чтобы обеспечивать наилучшее разрешение по времени и частоте для данного сегмента входного сигнала. Оценка огибающей должна учитывать, что переходный процесс в оригинале, главным образом расположенный в области высоких частот (например, высокий выброс), будет присутствовать в незначительной степени в сформированной SBR полосе высоких частот перед коррекцией огибающей, поскольку полоса высоких частот в декодере основана на полосе низких частот, где переходный процесс выражен в гораздо меньшей степени по сравнению с полосой высоких частот. Этот аспект накладывает иные требования на разрешение по времени и частоте данных огибающей спектра по сравнению с традиционной оценкой огибающей спектра, как используемая в других алгоритмах звукового кодирования.SBR is preferably used as a double sample rate system, with the underlying codec running at half the original sample rate, while SBR. operates at the original sampling rate. The SBR encoder runs in parallel with the underlying main codec, albeit at a higher sample rate. Although SBR. is primarily post-processed in the decoder, important parameters are extracted in the encoder in order to provide the most accurate high-frequency reconstruction in the decoder. The encoder estimates the spectral envelope of the SBR band, which relates to the time-frequency range/time and frequency resolution appropriate to the characteristics of the current segments of the input signal. The spectral envelope is estimated by decomposing the signal using complex QFTs and subsequent energy calculations. The time and frequency resolutions of the spectral envelopes can be selected with a high degree of freedom to provide the best time and frequency resolution for a given input signal segment. Envelope estimation must take into account that the transient in the original, primarily located in the high frequency region (e.g., high overshoot), will be present to a minor extent in the SBR generated high frequency band before envelope correction, since the high frequency band in the decoder is based on the low frequency band frequencies, where the transient process is expressed to a much lesser extent compared to the high frequency band. This aspect places different requirements on the time and frequency resolution of the spectral envelope data compared to traditional spectral envelope estimation as used in other audio coding algorithms.

Кроме огибающей спектра, извлекаются несколько дополнительных параметров, представляющих собой спектральные характеристики входного сигнала для разных частотно-временных областей. Поскольку кодировщик естественно имеет доступ к исходному сигналу, а также к информации о том, каким образом блок SBR в декодере будет создавать полосу высоких частот, при условии определенного набора параметров управления, можно, чтобы система справлялась с ситуациями, где полоса низких частот составляет мощный гармонический ряд, а полоса высоких частот, которая должна быть воссоздана, главным образом составляет случайные составляющие сигнала, а также ситуации, где мощные тональные составляющие присутствуют в исходной полосе высоких частот без аналогов в полосе низких частот, на которой основана область полосы высоких частот. Более того, кодировщик SBR работает в тесной зависимости от лежащего в основе основного кодека, чтобы оценивать, какой частотный диапазон должен быть охвачен SBR в данный момент времени. Данные SBR рационально кодируются перед передачей посредством использования энтропийного кодирования, а также зависимостей каналов управляющих данных, в случае стереофонических сигналов.In addition to the spectrum envelope, several additional parameters are extracted, representing the spectral characteristics of the input signal for different time-frequency domains. Since the encoder naturally has access to the original signal, as well as information about how the SBR block in the decoder will produce the high frequency band, subject to a certain set of control parameters, it is possible for the system to cope with situations where the low frequency band constitutes a powerful harmonic series, and the high frequency band that must be recreated consists mainly of random components of the signal, as well as situations where strong tonal components are present in the original high frequency band without analogues in the low frequency band on which the high frequency band region is based. Moreover, the SBR encoder works closely with the underlying host codec to estimate which frequency range should be covered by SBR at a given time. SBR data is intelligently encoded before transmission using entropy encoding as well as control data channel dependencies in the case of stereo signals.

Алгоритмы извлечения параметров управления типично необходимо тщательно настраивать под лежащий в основе кодек на заданной скорости передачи битов и заданной частоте дискретизации. Это происходит вследствие того обстоятельства, что более низкая скорость передачи битов обычно полагается на больший диапазон SBR по сравнению с высокой скоростью передачи битов, и разные частоты дискретизации соответствуют разным разрешениям по времени кадров SBR.Control parameter extraction algorithms typically need to be carefully tuned to the underlying codec at a given bit rate and a given sample rate. This is due to the fact that lower bitrates typically rely on a larger SBR range compared to high bitrates, and different sampling rates correspond to different time resolutions of SBR frames.

Декодер SBR типично включает в себя несколько разных частей. Он содержит модуль декодирования битового потока, модуль восстановления высоких частот (HFR), модуль дополнительных высокочастотных составляющих и модуль корректора огибающей. Система основана на гребенке фильтров из комплекснозначных КЗФ. В модуле извлечения битового потока, управляющие данные считываются из битового потока и декодируются. Время/частотная сетка получается для текущего кадра перед считыванием данных огибающей из битового потока. Лежащий в основе основной декодер декодирует звуковой сигнал текущего кадра (хотя и с более низкой частотой дискретизации), для создания отсчетов звукового сигнала во временной области. Результирующий кадр звуковых данных используется для реконструкции высоких частот модулем HFR. Декодированный сигнал в полосе низких частот затем подвергается разложению сигнала с использованием гребенки фильтров из КЗФ. Реконструкция высоких частот и коррекция огибающей впоследствии выполняются над отсчетами поддиапазонов гребенки фильтров из КЗФ. Высокие частоты реконструируются из полосы низких частот гибким образом на основании заданных параметров управления. Более того, реконструированная полоса высоких частот адаптивно фильтруется на основе каналов поддиапазона согласно управляющим данным, чтобы обеспечить надлежащие спектральные характеристики данной частотно/временной области.An SBR decoder typically includes several different parts. It contains a bitstream decoding module, a high-frequency recovery (HFR) module, an additional high-frequency component module, and an envelope corrector module. The system is based on a filter bank of complex-valued FQFs. In the bitstream extracting module, control data is read from the bitstream and decoded. The time/frequency grid is obtained for the current frame before reading the envelope data from the bitstream. The underlying main decoder decodes the current frame's audio signal (albeit at a lower sampling rate) to produce time-domain audio samples. The resulting audio data frame is used for high frequency reconstruction by the HFR module. The decoded low-band signal is then subjected to signal decomposition using a FQF filter bank. Reconstruction of high frequencies and correction of the envelope are subsequently performed on samples of the sub-bands of the filter bank from the FQF. High frequencies are reconstructed from the low frequency band in a flexible manner based on specified control parameters. Moreover, the reconstructed high frequency band is adaptively filtered based on the subband channels according to the control data to ensure proper spectral characteristics of a given frequency/time domain.

Верхним уровнем битового потока AAC MPEG-4 является последовательность блоков данных (элементов raw_data_block), каждый из которых является сегментом данных (в материалах настоящей заявки упоминаемым как block), который содержит в себе звуковые данные (типично для периода времени в 1024 или 960 отсчетов) и связанную информацию и/или другие данные. В материалах настоящей заявки, мы используем термин блок для обозначения сегмента битового потока AAC MPEG-4, содержащего звуковые данные (и соответствующих метаданных и, по выбору, также других связанных данных), которые определяют или являются указывающими один (но не более чем один) элемент raw_data_block.The top layer of an MPEG-4 AAC bitstream is a sequence of data blocks (raw_data_block elements), each of which is a data segment (referred to herein as a block) that contains audio data (typically for a period of time of 1024 or 960 samples) and related information and/or other data. As used herein, we use the term block to refer to a segment of an MPEG-4 AAC bitstream containing audio data (and associated metadata and, optionally, also other associated data) that defines or is indicative of one (but not more than one) element raw_data_block.

Каждый блок битового потока AAC MPEG-4 может включать в себя некоторое количество синтаксических элементов (каждый из которых также материализован в битовом потоке в виде сегмента дан- 3 044947 ных). Семь типов таких синтаксических элементов определено в стандарте ААС MPEG-4. Каждый синтаксический элемент идентифицируется разным значением элемента id_syn_ele данных. Примеры синтаксических элементов включают в себя single_channel_element(), channel_pair_element() и fill_element(). Элемент одиночного канала является контейнером, включающим в себя звуковые данные одиночного звукового канала (монофонического звукового сигнала). Элемент пары каналов включает в себя звуковые данные двух звуковых каналов (то есть, стереофонический звуковой сигнал).Each MPEG-4 AAC bitstream block may include a number of syntax elements (each of which is also materialized in the bitstream as a data segment). Seven types of such syntax elements are defined in the MPEG-4 AAC standard. Each syntax element is identified by a different id_syn_ele data element value. Examples of syntax elements include single_channel_element(), channel_pair_element(), and fill_element(). A single channel element is a container including audio data of a single audio channel (monaural audio signal). A channel pair element includes audio data of two audio channels (ie, a stereo audio signal).

Элемент заполнения является контейнером информации, включающей в себя идентификатор (например, значение отмеченного выше элемента id_syn_ele), сопровождаемый данными, которые упоминаются как данные заполнения. Элементы заполнения исторически использовались для коррекции мгновенной скорости передачи битов битовых потоков, которые должны передаваться по каналу с постоянной скоростью передачи. Добавлением надлежащего количества данных заполнения в каждый блок, может достигаться постоянная скорость передачи данных.A padding element is a container of information including an identifier (eg, the value of the id_syn_ele element noted above) followed by data that is referred to as padding data. Padding elements have historically been used to correct the instantaneous bit rate of bit streams that must be transmitted over a constant bit rate channel. By adding an appropriate amount of padding data to each block, a constant data transfer rate can be achieved.

В соответствии с вариантами осуществления у изобретения, данные заполнения могут включать в себя одну или более полезных нагрузок расширения, которые расширяют тип данных (например, метаданные), допускающих передачу в битовом потоке. Декодер, который принимает битовые потоки будут с данными заполнения, содержащими в себе новый тип данных, по выбору может использоваться устройством, принимающим битовый поток (например, декодером) для расширения функциональных возможностей устройства. Таким образом, как может быть принято во внимание специалистом в данной области техники, элементы заполнения являются специальным типом структуры данных и отличаются от структур данных, типично используемых для передачи звуковых данных (например, полезных нагрузок звукового сигнала, содержащих в себя канальные данные).In accordance with embodiments of the invention, the padding data may include one or more extension payloads that extend the type of data (eg, metadata) that can be transmitted in the bit stream. A decoder that receives bitstreams with padding data containing a new data type can optionally be used by a device receiving the bitstream (eg, a decoder) to enhance the functionality of the device. Thus, as may be appreciated by one of ordinary skill in the art, padding is a special type of data structure and is different from the data structures typically used to transmit audio data (eg, audio payloads containing channel data).

В некоторых вариантах осуществления изобретения, идентификатор, используемый для идентификации элемента заполнения, может состоять из трехбитного беззнакового целого числа, передаваемого старшим битом вперед (uimsbf), имеющего значение 0x6. В одном блоке могут появляться несколько экземпляров одного и того же типа синтаксического элемента (например, несколько элементов заполнения).In some embodiments of the invention, the identifier used to identify the padding element may consist of a three-bit unsigned most significant bit first (uimsbf) integer having the value 0x6. Multiple instances of the same type of syntactic element (for example, multiple pad elements) may appear in the same block.

Еще одним стандартом для кодирования звуковых битовых потоков является стандарт унифицированного кодирования речи и звуковых сигналов (USAC) MPEG (ISO/IEC 23003-3:2012). Стандарт USAC MPEG описывает кодирование и декодирование звукового контента с использованием обработки репликации полос спектра (в том числе, обработки SBR, как описанная в стандарте AAC MPEG-4, и, к тому же, включающую в себя другие усовершенствованные формы обработки репликации полос спектра). Эта обработка применяет средства репликации полос спектра (иногда в материалах настоящей заявки упоминаемые как средства усовершенствованной SBR или средства eSBR) расширенного и усовершенствованного варианта набора средств SBR, описанных в стандарте AAC MPEG-4. Таким образом, eSBR (как определенная в стандарте USAC) является усовершенствованием в отношении SBR (как определенная в стандарте AAC MPEG-4).Another standard for encoding audio bitstreams is the Unified Speech and Audio Coding (USAC) MPEG standard (ISO/IEC 23003-3:2012). The USAC MPEG standard describes the encoding and decoding of audio content using spectrum replication processing (including SBR processing as described in the AAC MPEG-4 standard, and also including other advanced forms of spectrum replication processing). This processing employs spectrum band replication facilities (sometimes referred to herein as enhanced SBR facilities or eSBR facilities) of an extended and enhanced version of the SBR feature set described in the MPEG-4 AAC standard. Thus, eSBR (as defined in the USAC standard) is an improvement over SBR (as defined in the AAC MPEG-4 standard).

В материалах настоящей заявки, мы используем выражение обработка усовершенствованной SBR (или обработка eSBR) для обозначения обработки репликации полос спектра с использованием по меньшей мере одного средства eSBR (например, по меньшей мере одного средства eSBR, которое описано или упомянуто в стандарте USAC MPEG), которое не описано и не упомянуто в стандарте ААС MPEG-4. Примерами таких средств eSBR являются гармоническая транспозиция и дополнительная предварительная обработка вклейки с помощью КЗФ или предварительное выравнивание.As used herein, we use the expression enhanced SBR processing (or eSBR processing) to refer to spectrum band replication processing using at least one eSBR facility (e.g., at least one eSBR facility that is described or referenced in the USAC MPEG standard), which is not described or mentioned in the MPEG-4 AAC standard. Examples of such eSBR features are harmonic transposition and additional pre-processing of the paste using QZF or pre-alignment.

Гармонический транспозер целочисленного порядка Т отображает синусоиду с частотой со в синусоиду с частотой Тсо, тем временем сохраняя длительность сигнала. Три порядка, Т=2, 3, 4, типично используются последовательно для создания каждой части желательного выходного частотного диапазона с использованием наименьшего возможного порядка транспозиции. Если требуется выходной сигнал выше диапазона транспозиции четвертого порядка, он может формироваться посредством сдвигов по частоте. Когда возможно, почти критически дискретизированные временные области основной полосы создаются для обработки, чтобы минимизировать вычислительную сложность.An integer-order harmonic transposer T maps a sine wave of frequency co into a sine wave of frequency Tco, while maintaining the duration of the signal. Three orders, T=2, 3, 4, are typically used sequentially to create each portion of the desired output frequency range using the smallest possible transposition order. If an output signal above the fourth order transposition range is required, it can be generated by frequency shifts. Whenever possible, near-critically sampled baseband time regions are created for processing to minimize computational complexity.

Битовый поток, сформированный в соответствии со стандартом USAC MPEG (в материалах настоящей заявки иногда упоминаемый как битовый поток USAC), включает в себя кодированный звуковой контент и типично включает в себя метаданные, указывающие каждый тип обработки репликации полос спектра, которая должна применяться декодером для декодирования звукового контента битового потока USAC, и/или метаданные, которые управляют такой обработкой репликации полос спектра или указывают по меньшей мере одну характеристику или параметр по меньшей мере одного средства SBR и/или средства eSBR, которое должно применяться для декодирования звукового контента битового потока USAC.A bitstream generated in accordance with the USAC MPEG standard (sometimes referred to herein as a USAC bitstream) includes encoded audio content and typically includes metadata indicating each type of spectrum band replication processing to be applied by the decoder for decoding USAC bitstream audio content, and/or metadata that controls such spectrum band replication processing or indicates at least one characteristic or parameter of at least one SBR means and/or eSBR means that is to be used to decode the USAC bitstream audio content.

В материалах настоящей заявки используем выражение метаданные усовершенствованной SBR (или метаданные eSBR) для обозначения метаданных, указывающих каждый тип обработки репликации полос спектра, которая должна применяться декодером для декодирования звукового контента кодированного звукового битового потока (например, битового потока USAC), и/или которые управляют такой обработкой репликации полос спектра и/или указывает по меньшей мере одну характеристику илиAs used herein, we use the expression enhanced SBR metadata (or eSBR metadata) to refer to metadata indicating each type of spectrum band replication processing to be applied by a decoder to decode the audio content of an encoded audio bitstream (e.g., a USAC bitstream), and/or which control such spectrum band replication processing and/or indicate at least one characteristic or

- 4 044947 параметр по меньшей мере одного средства SBR и/или средства eSBR, подлежащего применению для декодирования такого звукового контента, но которые не описаны и не упомянуты в стандарте ААС MPEG-4. Примером метаданных eSBR являются метаданные (указывающие или предназначенные для управления обработкой репликации полос спектра), которые описаны или упомянуты в стандарте USAC MPEG, но не в стандарте ААС MPEG-4. Таким образом, метаданные eSBR в материалах настоящей заявки обозначают метаданные, которые не являются метаданными SBR, a метаданные SBR в материалах настоящей заявки обозначают метаданные, которые не являются метаданными eSBR.- 4 044947 parameter of at least one SBR means and/or eSBR means to be used for decoding such audio content, but which are not described or mentioned in the MPEG-4 AAC standard. An example of eSBR metadata is metadata (indicating or intended to control spectrum band replication processing) that is described or referenced in the USAC MPEG standard, but not in the AAC MPEG-4 standard. Thus, eSBR metadata as used herein refers to metadata that is not SBR metadata, and SBR metadata as used herein refers to metadata that is not eSBR metadata.

Битовый поток USAC может включать в себя как метаданные SBR, так и метаданные eSBR. Точнее, битовый поток USAC может включать в себя метаданные eSBR, которые управляют выполнением обработки eSBR декодером, и метаданные SBR, которые управляют выполнением обработки SBR декодером. В соответствии с типичными вариантами осуществления настоящего изобретения, метаданные eSBR (например, специфичные eSBR конфигурационные данные) (в соответствии с настоящим изобретением) включенные в битовый поток AAC MPEG-4 (например, в контейнере sbr_extension() в конце полезной нагрузки SBR).The USAC bitstream may include both SBR metadata and eSBR metadata. More specifically, the USAC bitstream may include eSBR metadata that controls the execution of eSBR processing by the decoder, and SBR metadata that controls the execution of SBR processing by the decoder. In accordance with exemplary embodiments of the present invention, eSBR metadata (eg, eSBR-specific configuration data) (in accordance with the present invention) is included in the MPEG-4 AAC bitstream (eg, in the sbr_extension() container at the end of the SBR payload).

Выполнение обработки eSBR во время декодирования кодированного битового потока с использованием средства eSBR (содержащего по меньшей мере одно средство eSBR), установленного декодером, восстанавливает полосу высоких частот звукового сигнала на основании репликации последовательностей гармоник, которые были усечены во время кодирования. Такая обработка eSBR типично корректирует огибающую спектра сформированной полосы высоких частот и применяет обратную фильтрацию, и добавляет шумовые и синусоидальные составляющие, для того чтобы воссоздать спектральные характеристики исходного звукового сигнала.Performing eSBR processing while decoding an encoded bitstream using an eSBR engine (comprising at least one eSBR engine) installed by the decoder restores the high frequency band of the audio signal based on the replication of harmonic sequences that were truncated during encoding. Such eSBR processing typically adjusts the spectral envelope of the generated high-pass band and applies inverse filtering, and adds noise and sine components to recreate the spectral characteristics of the original audio signal.

В соответствии с типичными вариантами осуществления изобретения, метаданные eSBR включены (например, небольшое количество управляющих битов, которые являются метаданными eSBR, включено) в один или более сегментов метаданных кодированного звукового битового потока (например, битового потока AAC MPEG-4), который также включает в себя кодированные звуковые данные в других сегментах (сегментах звуковых данных). Типично, по меньшей мере один такой сегмент метаданных каждого блока битового потока представляет собой (или включает в себя) элемент заполнения (включающий в себя идентификатор, указывающий начало элемента заполнения), и метаданные eSBR включены в элемент заполнения после идентификатора. Фиг. 1 - структурная схема примерной цепи обработки звукового сигнала (системы обработки звуковых данных), в которой один или более из элементов системы может быть выполнен в соответствии с вариантом осуществления настоящего изобретения. Система включает в себя следующие элементы, соединенные друг с другом, как показано: кодировщик 1, подсистему 2 доставки, декодер 3 и блок 4 постобработки. В разновидностях показанной системы, не включены в состав один или более элементов, или включены в состав дополнительные блоки обработки звуковых данных.In accordance with exemplary embodiments of the invention, eSBR metadata is included (e.g., a small number of control bits that are eSBR metadata is included) in one or more metadata segments of an encoded audio bitstream (e.g., an MPEG-4 AAC bitstream) that also includes encoded audio data in other segments (audio data segments). Typically, at least one such metadata segment of each bitstream block is (or includes) a padding element (including an identifier indicating the start of the padding element), and the eSBR metadata is included in the padding element after the identifier. Fig. 1 is a block diagram of an exemplary audio signal processing circuit (audio data processing system) in which one or more elements of the system may be implemented in accordance with an embodiment of the present invention. The system includes the following elements connected to each other as shown: an encoder 1, a delivery subsystem 2, a decoder 3 and a post-processing unit 4. In variations of the system shown, one or more elements are not included, or additional audio processing units are included.

В некоторых реализациях, кодировщик 1 (который по выбору включает в себя блок предварительной обработки) выполнен с возможностью принимать отсчеты РСМ (временной области), содержащие звуковой контент, в качестве входного сигнала и выдавать кодированный звуковой битовый поток (имеющий формат, который совместим со стандартом AAC MPEG-4), который является указывающим звуковой контент. Данные битового потока, которые указывают звуковой контент, в материалах настоящей заявки иногда упоминаются как звуковые данные или кодированные звуковые данные. Если кодировщик выполнен в соответствии с типичным вариантом осуществления настоящего изобретения, звуковой битовый поток, выдаваемый из кодировщика, включает в себя метаданные eSBR (и, к тому же, типично другие метаданные), а также звуковые данные.In some implementations, encoder 1 (which optionally includes a pre-processing unit) is configured to receive PCM (time domain) samples containing audio content as an input signal and output an encoded audio bitstream (having a format that is compatible with the standard AAC MPEG-4), which is indicative of audio content. Bitstream data that indicates audio content is sometimes referred to herein as audio data or encoded audio data. If the encoder is implemented in accordance with an exemplary embodiment of the present invention, the audio bitstream output from the encoder includes eSBR metadata (and typically other metadata as well) as well as audio data.

Один или более кодированных звуковых потоков, выдаваемых из кодировщика 1, могут предъявляться в подсистему 2 доставки кодированного звукового сигнала. Подсистема 2 выполнена с возможностью сохранять и/или доставлять каждый кодированный битовый поток, выдаваемый из кодировщика 1. Кодированный звуковой битовый поток, выведенный из кодировщика 1, может сохраняться подсистемой 2 (например, в виде DVD или диска Bluray) или передаваться подсистемой 2 (которая может реализовывать канал или сеть передачи), или может как сохраняться, так и передаваться подсистемой 2.One or more coded audio streams output from the encoder 1 may be presented to the coded audio delivery subsystem 2. Subsystem 2 is configured to store and/or deliver each encoded bitstream output from encoder 1. The encoded audio bitstream output from encoder 1 may be stored by subsystem 2 (eg, as a DVD or Bluray disc) or transmitted by subsystem 2 (which may implement a channel or transmission network), or may be both stored and transmitted by subsystem 2.

Декодер 3 выполнен с возможностью декодировать кодированный звуковой битовый поток AAC MPEG-4 (сформированный кодировщиком 1), который он принимает через подсистему 2. В некоторых вариантах осуществления, декодер 3 выполнен с возможностью извлекать метаданные eSBR из каждого блока битового потока и декодировать битовый поток (в том числе, посредством выполнения обработки eSBR с использованием извлеченных метаданных eSBR) для формирования декодированных звуковых данных (например, потоков декодированных звуковых отсчетов РСМ). В некоторых вариантах осуществления, декодер 3 выполнен с возможностью извлекать метаданные SBR из битового потока (но игнорировать метаданные eSBR, включенные в битовый поток) и декодировать битовый поток (в том числе, посредством выполнения обработки SBR с использованием извлеченных метаданных SBR) для формирования декодированных звуковых данных (например, потоков декодированных отсчетов звукового сигнала РСМ. Типично, декодер 3 включает в себя буфер, который хранит (например, неэфемерным образом) сегменты кодированного звукового битового потока, принятого из подсистемы 2.Decoder 3 is configured to decode an AAC MPEG-4 encoded audio bitstream (generated by encoder 1) that it receives via subsystem 2. In some embodiments, decoder 3 is configured to extract eSBR metadata from each block of the bitstream and decode the bitstream ( including by performing eSBR processing using the extracted eSBR metadata) to generate decoded audio data (eg, streams of decoded PCM audio samples). In some embodiments, decoder 3 is configured to extract SBR metadata from the bitstream (but ignore eSBR metadata included in the bitstream) and decode the bitstream (including by performing SBR processing using the extracted SBR metadata) to generate decoded audio data (e.g., streams of decoded samples of the PCM audio signal. Typically, decoder 3 includes a buffer that stores (e.g., in a non-ephemeral manner) segments of the encoded audio bitstream received from subsystem 2.

- 5 044947- 5 044947

Блок 4 постобработки по фиг. 1 выполнен с возможностью принимать поток декодированных звуковых данных из декодера 3 (например, отсчеты звукового сигнала РСМ) и выполнять постобработку над ним. Блок постобработки также может быть выполнен с возможностью воспроизводить подвергнутый постобработке звуковой контент (или декодированный звуковой сигнал, принятый из декодера 3) для проигрывания одним или более громкоговорителей.Post-processing block 4 according to FIG. 1 is configured to receive a stream of decoded audio data from the decoder 3 (eg, samples of a PCM audio signal) and perform post-processing on it. The post-processing unit may also be configured to reproduce the post-processed audio content (or the decoded audio signal received from the decoder 3) for playback by one or more speakers.

Фиг. 2 - структурная схема кодировщика (100), который является вариантом осуществления обладающего признаками изобретения блока обработки звукового сигнала. Любые из компонентов или элементов кодировщика 100 могут быть реализованы в виде одного или более процессов и/или одной или более схем (например, ASIC (специализированных интегральных схем), FPGA (программируемых пользователем вентильных матриц) или других интегральных схем) в аппаратных средствах, программном обеспечении или комбинации аппаратных средств и программного обеспечения. Кодировщик 100 включает в себя кодировщик 105, каскад 107 заполнителя/форматера, каскад 106 формирования метаданных и буферную память 109, соединенные как показано. К тому же, типично, кодировщик 100 включает в себя другие элементы обработки (не показаны). Кодировщик 100 выполнен с возможностью преобразовывать входной звуковой битовый поток в кодированный выходной битовый поток AAC MPEG-4.Fig. 2 is a block diagram of an encoder (100), which is an embodiment of an inventive audio signal processing unit. Any of the components or elements of encoder 100 may be implemented as one or more processes and/or one or more circuits (e.g., ASICs, FPGAs, or other integrated circuits) in hardware, software software or combination of hardware and software. Encoder 100 includes an encoder 105, a filler/formatter stage 107, a metadata generation stage 106, and a buffer memory 109 connected as shown. In addition, typically, encoder 100 includes other processing elements (not shown). Encoder 100 is configured to convert an input audio bitstream into an encoded MPEG-4 AAC output bitstream.

Генератор 106 метаданных присоединен и выполнен с возможностью формировать (и/или пропускать насквозь в каскад 107) метаданные (в том числе, метаданные eSBR и метаданные SBR), которые должны быть включены каскадом 107 в кодированный битовый поток, подлежащий выводу из кодировщика 100.A metadata generator 106 is coupled to and configured to generate (and/or pass through cascade 107) metadata (including eSBR metadata and SBR metadata) to be included by cascade 107 in an encoded bitstream to be output from encoder 100.

Кодировщик 105 присоединен и выполнен с возможностью кодировать (например, выполняя сжатие над ними) входные звуковые данные и предъявлять результирующий кодированный звуковой сигнал в каскад 107 для включения в кодированный битовый поток, который должен выдаваться из каскада 107.An encoder 105 is coupled and configured to encode (e.g., by performing compression on it) the input audio data and present the resulting encoded audio signal to stage 107 for inclusion in a coded bitstream to be output from stage 107.

Каскад 107 выполнен с возможностью мультиплексировать кодированный звуковой сигнал из кодировщика 105 и метаданные (в том числе, метаданные eSBR и метаданные SBR) из генератора 106 для формирования кодированного битового потока, который должен выдаваться из каскада 107, предпочтительно так, чтобы кодированный битовый поток имел формат, как заданный одним из вариантов осуществления настоящего изобретения.Stage 107 is configured to multiplex a coded audio signal from encoder 105 and metadata (including eSBR metadata and SBR metadata) from generator 106 to form a coded bit stream to be output from stage 107, preferably such that the coded bit stream has the format , as defined by one embodiment of the present invention.

Буферная память 109 выполнена с возможностью хранить (например, неэфемерным образом) по меньшей мере один блок кодированного звукового битового потока, выведенного из каскада 107, и последовательность блоков кодированного звукового битового потока затем предъявляется из буферной памяти 109 в качестве выходного сигнала из кодировщика 100 в систему доставки.Buffer memory 109 is configured to store (for example, in a non-ephemeral manner) at least one block of encoded audio bitstream output from stage 107, and the sequence of blocks of encoded audio bitstream is then presented from buffer memory 109 as an output from encoder 100 to the system. delivery.

Фиг. 3 - структурная схема системы, включающей в себя декодер (200), который является вариантом осуществления обладающего признаками изобретения блока обработки звукового сигнала и, по выбору, также постпроцессор (300), присоединенный к нему. Любые из компонентов или элементов декодера 200 и постпроцессора 300 могут быть реализованы в виде одного или более процессов и/или одной или более схем (например, ASIC (специализированных интегральных схем), FPGA (программируемых пользователем вентильных матриц) или других интегральных схем) в аппаратных средствах, программном обеспечении или комбинации аппаратных средств и программного обеспечения. Декодер 200 содержит буферную память 201, деформатер 205 (синтаксический анализатор) полезной нагрузки битового потока, подсистему 202 декодирования звукового сигнала (иногда упоминаемую как каскад основного декодирования или подсистема основного декодирования), каскад 203 обработки eSBR и каскад 204 формирования управляющих битов, соединенные как показано. К тому же, типично, декодер 200 включает в себя другие элементы обработки (не показаны).Fig. 3 is a block diagram of a system including a decoder (200), which is an embodiment of an inventive audio signal processing unit, and optionally also a post-processor (300) coupled thereto. Any of the components or elements of the decoder 200 and post-processor 300 may be implemented as one or more processes and/or one or more circuits (eg, ASICs, FPGAs, or other integrated circuits) in hardware hardware, software or a combination of hardware and software. Decoder 200 includes a buffer memory 201, a bitstream payload deformer 205, an audio decoding subsystem 202 (sometimes referred to as a main decoding stage or main decoding subsystem), an eSBR processing stage 203, and a control bit generation stage 204, connected as shown. . In addition, typically, decoder 200 includes other processing elements (not shown).

Буферная память 201 (буфер) хранит (например, неэфемерным образом) по меньшей мере один блок кодированного звукового битового потока AAC MPEG-4, принятого декодером 200. При эксплуатации декодера 200, последовательность блоков битового потока предъявляется из буфера 201 в деформатер 205.Buffer memory 201 (buffer) stores (e.g., in a non-ephemeral manner) at least one block of an AAC MPEG-4 encoded audio bitstream received by decoder 200. When operating decoder 200, a sequence of bitstream blocks is presented from buffer 201 to deformer 205.

В разновидности варианта осуществления на фиг. 3, APU, который не является декодером (например, APU 500 по фиг. 6) включает в себя буферную память (например, буферную память, идентичную буферу 201), которая хранит (например, неэфемерным образом) по меньшей мере один блок кодированного звукового битового потока (например, звукового битового потока AAC MPEG-4) того же самого типа, принятого буфером 201 по фиг. 3 или фиг. 4 (то есть, кодированного звукового битового потока, который включает в себя метаданные eSBR).In a variation of the embodiment of FIG. 3, an APU that is not a decoder (e.g., APU 500 of FIG. 6) includes a buffer memory (e.g., a buffer memory identical to buffer 201) that stores (e.g., in a non-ephemeral manner) at least one block of encoded audio bitmaps. stream (eg, an AAC MPEG-4 audio bitstream) of the same type received by buffer 201 of FIG. 3 or fig. 4 (that is, an encoded audio bitstream that includes eSBR metadata).

Вновь со ссылкой на фиг. 3, деформатер 205 присоединен и выполнен с возможностью демультиплексировать каждый блок битового потока для извлечения метаданных SBR (в том числе, данные квантованной огибающей) и метаданных eSBR (и типично также других метаданных) из него, предъявлять по меньшей мере метаданные eSBR и метаданные SBR в каскад 203 обработки eSBR и типично также предъявлять другие извлеченные метаданные в подсистему 202 декодирования (и, по выбору, также в генератор 204 управляющих битов). Деформатер 205 также присоединен и выполнен с возможностью извлекать звуковые данные из каждого блока битового потока, и предъявлять извлеченные звуковые данные в подсистему 202 декодирования (каскад декодирования).With reference again to FIG. 3, a deformer 205 is coupled and configured to demultiplex each bitstream block to extract SBR metadata (including quantized envelope data) and eSBR metadata (and typically also other metadata) from it, presenting at least the eSBR metadata and SBR metadata to eSBR processing stage 203 and typically also provide other extracted metadata to decoding subsystem 202 (and optionally also to control bit generator 204). A deformer 205 is also attached and configured to extract audio data from each block of the bitstream, and provide the extracted audio data to a decoding subsystem 202 (decoding stage).

Система по фиг. 3 по выбору также включает в себя постпроцессор 300. Постпроцессор 300 включает в себя буферную память 301 (буфер) и другие элементы обработки (не показаны), в том числе, поThe system according to FIG. 3 optionally also includes a post processor 300. The post processor 300 includes a buffer memory 301 (buffer) and other processing elements (not shown), including

- 6 044947 меньшей мере один элемент обработки, присоединенный к буферу 301. Буфер 301 хранит (например, неэфемерным образом) по меньшей мере один блок (или кадр) декодированных звуковых данных, принятых постпроцессором 300 из декодера 200. Элементы обработки постпроцессора 300 присоединены и выполнены с возможностью принимать и адаптивно обрабатывать последовательность блоков (или кадров) декодированного звукового сигнала, выведенного из буфера 301, с использованием метаданных, выведенных из подсистемы 202 декодирования (и/или деформатера 205), и/или управляющих битов, выведенных из каскада 204 декодера 200.- 6 044947 at least one processing element attached to the buffer 301. The buffer 301 stores (for example, in a non-ephemeral manner) at least one block (or frame) of decoded audio data received by the post processor 300 from the decoder 200. The processing elements of the post processor 300 are attached and executed with the ability to receive and adaptively process a sequence of blocks (or frames) of decoded audio signal output from buffer 301 using metadata output from decoding subsystem 202 (and/or deformer 205) and/or control bits output from decoder stage 204 200 .

Подсистема 202 декодирования звукового сигнала декодера 200 выполнена с возможностью декодировать звуковые данные, извлеченные синтаксическим анализатором 205 (такое декодирование может упоминаться как операция основного декодирования), для формирования декодированных звуковых данных и предъявлять декодированные звуковые данные в каскад 203 обработки eSBR. Декодирование выполняется в частотной области и типично включает в себя обращенное квантование, сопровождаемое спектральной обработкой. Типично, завершающий каскад обработки в подсистеме 202 применяет преобразование из частотной области во временную область к декодированным звуковым данным частотной области, так чтобы выходными данными подсистемы были декодированные звуковые данные временной области. Каскад 203 выполнен с возможностью применять средства SBR и средства eSBR, указанные метаданными SBR и метаданными eSBR (извлеченными синтаксическим анализатором 205), к декодированным звуковым данным (т.е. выполнять обработку SBR и eSBR над выходными данными подсистемы 202 декодирования с использованием метаданных SBR и eSBR) для формирования полностью декодированных звуковых данных, которые выводятся (например, в постпроцессор 300) из декодера 200. Типично, декодер 200 включает в себя память (доступную из подсистемы 202 и каскада 203), которая хранит деформатированные звуковые данные и метаданные, выданные из деформатера 205, а каскад 203 выполнен с возможностью осуществлять доступ к звуковым данным и метаданным (в том числе, метаданным SBR и метаданным eSBR) по мере надобности во время обработки SBR и eSBR. Обработка SBR и обработка eSBR в каскаде 203 может считаться постобработкой на выходе из подсистемы 202 основного декодирования. По выбору, декодер 200 также включает в себя подсистему завершающего повышающего микширования (которая может применять средства параметрической стереофонии (PS), определенные в стандарте AAC MPEG-4, с использованием метаданных PS, извлеченных деформатером 205, и/или управляющих битов, сформированных в подсистеме 204), которая присоединена и выполнена с возможностью выполнять повышающее микширование над выходным сигналом каскада 203, чтобы формировать полностью декодированный подвергнутый повышающему микшированию звуковой сигнал, который выводится из декодера 200. В качестве альтернативы, постпроцессор 300 выполнен с возможностью выполнять повышающее микширование над выходным сигналом декодера 200 (например, с использованием метаданных PS, извлеченных деформатером 205, и/или управляющих битов, сформированных в подсистеме 204).The audio decoding subsystem 202 of the decoder 200 is configured to decode the audio data extracted by the parser 205 (such decoding may be referred to as a main decoding operation) to generate decoded audio data, and provide the decoded audio data to the eSBR processing stage 203. Decoding is performed in the frequency domain and typically involves inverse quantization followed by spectral processing. Typically, the final processing stage in subsystem 202 applies a frequency domain to time domain transform to the decoded frequency domain audio data such that the output of the subsystem is the decoded time domain audio data. Stage 203 is configured to apply SBR facilities and eSBR facilities indicated by SBR metadata and eSBR metadata (extracted by parser 205) to the decoded audio data (i.e., perform SBR and eSBR processing on the output of decoding subsystem 202 using the SBR and eSBR metadata eSBR) to generate fully decoded audio data that is output (eg, to post processor 300) from decoder 200. Typically, decoder 200 includes memory (accessible from subsystem 202 and stage 203) that stores deformed audio data and metadata output from deformer 205, and stage 203 is configured to access audio data and metadata (including SBR metadata and eSBR metadata) as needed during SBR and eSBR processing. The SBR processing and eSBR processing in stage 203 may be considered post-processing output from main decoding subsystem 202. Optionally, decoder 200 also includes a post-upmix subsystem (which may employ parametric stereo (PS) facilities defined in the MPEG-4 AAC standard using PS metadata extracted by deformer 205 and/or control bits generated in the subsystem 204) that is coupled to and configured to upmix the output of stage 203 to generate a fully decoded upmixed audio signal that is output from decoder 200. Alternatively, post processor 300 is configured to upmix the output of the decoder. 200 (eg, using PS metadata extracted by deformer 205 and/or control bits generated in subsystem 204).

В ответ на метаданные, извлеченные деформатером 205, генератор 204 управляющих битов может формировать управляющие данные, и управляющие данные могут использоваться в пределах декодера 200 (например, в подсистеме завершающего повышающего микширования) и/или предъявляться в качестве выходного сигнала декодера 200 (например, в постпроцессор 300 для использования при постобработке). В ответ на метаданные, извлеченные из входного битового потока (и, по выбору, также в ответ на управляющие данные), каскад 204 может формировать (и предъявлять в постпроцессор 300) управляющие биты, указывающие, что декодированные звуковые данные, выдаваемые из каскада 203 обработки eSBR, должны подвергаться конкретному типу постобработки. В некоторых вариантах осуществления, декодер 200 выполнен с возможностью предъявлять метаданные, извлеченные деформатером 205 из входного битового потока, в постпроцессор 300, а постпроцессор 300 выполнен с возможностью выполнять постобработку над декодированными звуковыми данными, выведенными из декодера 200, с использованием метаданных.In response to the metadata extracted by the deformer 205, the control bit generator 204 may generate control data, and the control data may be used within the decoder 200 (e.g., in the post upmix subsystem) and/or provided as an output of the decoder 200 (e.g., in post-processor 300 for use in post-processing). In response to metadata extracted from the input bitstream (and, optionally, also in response to control data), stage 204 may generate (and present to post-processor 300) control bits indicating that the decoded audio data output from processing stage 203 eSBRs must undergo a specific type of post-processing. In some embodiments, decoder 200 is configured to provide metadata extracted by deformer 205 from the input bitstream to post-processor 300, and post-processor 300 is configured to perform post-processing on the decoded audio data output from decoder 200 using the metadata.

Фиг. 4 - структурная схема блока (210) обработки звукового сигнала (APU), который является еще одним вариантом осуществления обладающего признаками изобретения блока обработки звукового сигнала. APU 210 является унаследованным декодером, который не выполнен с возможностью выполнять обработку eSBR. Любые из компонентов или элементов APU 210 могут быть реализованы в виде одного или более процессов и/или одной или более схем (например, ASIC (специализированных интегральных схем), FPGA (программируемых пользователем вентильных матриц) или других интегральных схем) в аппаратных средствах, программном обеспечении или комбинации аппаратных средств и программного обеспечения. APU 210 содержит буферную память 201, деформатер 215 (синтаксический анализатор) полезной нагрузки битового потока, подсистему 202 декодирования звукового сигнала (иногда упоминаемую как каскад основного декодирования или подсистема основного декодирования), и каскад 213 обработки SBR, соединенные, как показано. К тому же, типично, APU 210 включает в себя другие элементы обработки (не показаны). APU 210, например, может представлять собой кодировщик, декодер или перекодировщик звукового сигнала.Fig. 4 is a block diagram of an audio processing unit (APU) 210, which is another embodiment of an inventive audio processing unit. APU 210 is a legacy decoder that is not capable of performing eSBR processing. Any of the components or elements of the APU 210 may be implemented as one or more processes and/or one or more circuits (e.g., ASICs, FPGAs, or other integrated circuits) in hardware, software software or combination of hardware and software. APU 210 includes a buffer memory 201, a bitstream payload deformer 215, an audio decoding subsystem 202 (sometimes referred to as a main decoding stage or main decoding subsystem), and an SBR processing stage 213, connected as shown. In addition, typically, APU 210 includes other processing elements (not shown). APU 210, for example, may be an audio encoder, decoder, or transcoder.

Элементы 201 и 202 APU 210 идентичны одинаково пронумерованным элементам декодера 200 (по фиг. 3), и вышеприведенное их описание повторяться не будет. При эксплуатации APU 210, последова- 7 044947 тельность блоков кодированного звукового битового потока (битового потока ААС MPEG-4), принимаемого APU 210, предъявляется из буфера 201 в деформатер 215.Elements 201 and 202 of APU 210 are identical to equally numbered elements of decoder 200 (of FIG. 3), and the above description will not be repeated. During operation of the APU 210, a sequence of blocks of encoded audio bitstream (AAC MPEG-4 bitstream) received by the APU 210 is presented from the buffer 201 to the deformer 215.

Деформатер 215 присоединен и выполнен с возможностью демультиплексировать каждый блок битового потока, чтобы извлекать метаданные SBR (в том числе, данные квантованной огибающей) и также типично другие метаданные из него, но игнорировать метаданные eSBR, которые могут быть включены в битовый поток, в соответствии с любым вариантом осуществления настоящего изобретения. Деформатер 215 выполнен с возможностью добавлять по меньшей мере метаданные SBR в каскад 213 обработки SBR. Деформатер 215 также присоединен и выполнен с возможностью извлекать звуковые данные из каждого блока битового потока, и предъявлять извлеченные звуковые данные в подсистему 202 декодирования (каскад декодирования).A deformer 215 is attached and configured to demultiplex each block of the bitstream to extract SBR metadata (including quantized envelope data) and typically other metadata therefrom, but ignore eSBR metadata that may be included in the bitstream, in accordance with any embodiment of the present invention. Deformer 215 is configured to add at least SBR metadata to SBR processing stage 213. A deformer 215 is also connected and configured to extract audio data from each block of the bitstream, and present the extracted audio data to a decoding subsystem 202 (decoding stage).

Подсистема 202 декодирования звука декодера 200 выполнена с возможностью декодировать звуковые данные, извлеченные деформатером 215 (такое декодирование может упоминаться как операция основного декодирования), для формирования декодированных звуковых данных и предъявлять декодированные звуковые данные в каскад 213 обработки SBR. Декодирование выполняется в частотной области. Типично, завершающий каскад обработки в подсистеме 202 применяет преобразование из частотной области во временную область к декодированным звуковым данным частотной области, так чтобы выходными данными подсистемы были декодированные звуковые данные временной области. Каскад 213 выполнен с возможностью применять средства SBR (но не средства eSBR), указанные метаданными SBR (извлеченными деформатером 215), к декодированным звуковым данным (т.е. выполнять обработку SBR над выходными данными подсистемы 202 декодирования с использованием метаданных SBR) для формирования полностью декодированных звуковых данных, которые выводятся (например, в постпроцессор 300) из APU 210. Типично, APU 210 включает в себя память (доступную из подсистемы 202 и каскада 213), которая хранит деформатированные звуковые данные и метаданные, выданные из деформатера 215, а каскад 213 выполнен с возможностью осуществлять доступ к звуковым данным и метаданным (в том числе, метаданным SBR) по мере надобности во время обработки SBR. Обработка SBR в каскаде 213 может считаться последующей обработкой на выходе из подсистемы 202 основного декодирования. По выбору, APU 210 также включает в себя подсистему завершающего повышающего микширования (которая может применять средства параметрической стереофонии (PS), определенные в стандарте ААС MPEG-4, с использованием метаданных PS, извлеченных деформатером 215), которая присоединена и выполнена с возможностью выполнять повышающее микширование над выходным сигналом каскада 213, чтобы формировать полностью декодированный подвергнутый повышающему микшированию звуковой сигнал, который выводится из APU 210. В качестве альтернативы, постпроцессор выполнен с возможностью выполнять повышающее микширование над выходным сигналом APU 210 (например, с использованием метаданных PS, извлеченных деформатером 215, и/или управляющих битов, сформированных в APU 210).The audio decoding subsystem 202 of the decoder 200 is configured to decode the audio data extracted by the deformer 215 (such decoding may be referred to as a main decoding operation) to generate decoded audio data and provide the decoded audio data to the SBR processing stage 213. Decoding is performed in the frequency domain. Typically, the final processing stage in subsystem 202 applies a frequency domain to time domain transform to the decoded frequency domain audio data such that the output of the subsystem is the decoded time domain audio data. Stage 213 is configured to apply SBR means (but not eSBR means) indicated by SBR metadata (extracted by deformer 215) to the decoded audio data (i.e., perform SBR processing on the output of decoding subsystem 202 using SBR metadata) to generate a complete decoded audio data that is output (eg, to post processor 300) from APU 210. Typically, APU 210 includes memory (accessible from subsystem 202 and stage 213) that stores deformed audio data and metadata output from warp 215, and stage 213 is configured to access audio data and metadata (including SBR metadata) as needed during SBR processing. The SBR processing in stage 213 may be considered a post-processing output from main decoding subsystem 202. Optionally, APU 210 also includes a post-upmix subsystem (which may employ parametric stereo (PS) facilities defined in the MPEG-4 AAC standard using PS metadata extracted by deformer 215) that is coupled to and configured to perform up-mixing. mixing on the output of stage 213 to generate a fully decoded upmixed audio signal that is output from APU 210. Alternatively, the post processor is configured to perform upmixing on the output of APU 210 (eg, using PS metadata extracted by deformer 215 , and/or control bits generated in the APU 210).

Различные реализации кодировщика 100, декодера 200 и APU 210 выполнены с возможностью выполнять разные варианты осуществления обладающего признаками изобретения способа.Various implementations of encoder 100, decoder 200, and APU 210 are configured to perform different embodiments of the inventive method.

В соответствии с некоторыми вариантами осуществления, метаданные eSBR включены (например, небольшое количество управляющих битов, которые являются метаданными eSBR, включены) в кодированный звуковой битовый поток (например, битовый поток AAC MPEG-4), так чтобы унаследованные декодеры (которые не выполнены с возможностью синтаксически анализировать метаданные eSBR и использовать какое бы то ни было средство eSBR, к которому относятся метаданные eSBR), могут игнорировать метаданные eSBR, но, тем не менее, декодировать битовый поток, насколько возможно без использования метаданных eSBR или какого бы то ни было средства eSBR, к которому относятся метаданные eSBR, типично без какого бы то ни было значительного ухудшения качества декодированного звукового сигнала. Однако, декодеры eSBR, выполненные с возможностью синтаксически анализировать битовый поток для идентификации метаданных eSBR и для использования по меньшей мере одного средства eSBR в ответ на метаданные eSBR, будут обладать выгодами использования по меньшей мере одного такого средства eSBR. Поэтому, варианты осуществления изобретения предусматривают средство для рациональной передачи управляющих данных усовершенствованной репликации полос спектра (eSBR) или метаданных обратно совместимым образом.According to some embodiments, eSBR metadata is included (e.g., a small number of control bits that are eSBR metadata are included) in an encoded audio bitstream (e.g., an MPEG-4 AAC bitstream) such that legacy decoders (which are not implemented with ability to parse eSBR metadata and use whatever eSBR facility to which the eSBR metadata refers) may ignore eSBR metadata but still decode the bitstream as much as possible without using eSBR metadata or any facility The eSBR, to which the eSBR metadata refers, is typically without any significant degradation in the quality of the decoded audio signal. However, eSBR decoders configured to parse the bitstream to identify eSBR metadata and to use at least one eSBR means in response to the eSBR metadata will have the benefits of using at least one such eSBR means. Therefore, embodiments of the invention provide a means for intelligently transmitting enhanced spectrum band replication (eSBR) control data or metadata in a backwards-compatible manner.

Типично, метаданные eSBR в битовом потоке являются указывающими (например служат признаком по меньшей мере одной характеристики или параметра) одного или более из следующих средств eSBR (которые описаны в стандарте MPEG USAC, и которые могли быть или могли не быть примененными кодировщиком во время формирования битового потока):Typically, eSBR metadata in a bitstream is indicative of (eg, indicative of at least one characteristic or parameter) one or more of the following eSBR features (which are described in the MPEG USAC standard, and which may or may not have been applied by the encoder during generation of the bitstream flow):

гармоническая транспозиция и дополнительная предварительная обработка вклейкой с помощью КЗФ (предварительное выравнивание).harmonic transposition and additional pre-processing by pasting using KZF (pre-alignment).

Например, метаданные eSBR, включенные в битовый поток, могут быть указывающими значения параметров (описанных в стандарте USAC MPEG и в настоящем изобретении):For example, the eSBR metadata included in the bitstream may be indicative of parameter values (described in the USAC MPEG standard and the present invention):

sbrPatchingMode[ch], sbrOversamplingFlag[ch], sbrPitchInBins[ch], sbrPitchInBins[ch] и bs_sbr_preprocessing.sbrPatchingMode[ch], sbrOversamplingFlag[ch], sbrPitchInBins[ch], sbrPitchInBins[ch] and bs_sbr_preprocessing.

- 8 044947- 8 044947

В материалах настоящей заявки, обозначение X[ch], где X -некоторый параметр, обозначает, что параметр относится к каналу (ch) звукового контента кодированного битового потока, подлежащего декодированию. Ради простоты, мы иногда опускаем выражение [ch] и допускаем, что соответствующий параметр относится к каналу звукового контента.As used herein, the designation X[ch], where X is a parameter, indicates that the parameter refers to the channel (ch) of the audio content of the encoded bit stream to be decoded. For the sake of simplicity, we sometimes omit the [ch] expression and assume that the corresponding parameter refers to the audio content channel.

В материалах настоящей заявки, обозначение X[ch][env], где X - некоторый параметр, обозначает, что параметр относится к огибающей (env) SBR канала (ch) звукового контента кодированного битового потока, подлежащего декодированию. Ради простоты, мы иногда опускаем выражения [env] и [ch], и допускаем, что соответствующий параметр относится к огибающей SBR канала звукового контента.As used herein, the notation X[ch][env], where X is a parameter, denotes that the parameter refers to the SBR envelope (env) of the audio content channel (ch) of the encoded bitstream to be decoded. For the sake of simplicity, we sometimes omit the expressions [env] and [ch], and assume that the corresponding parameter refers to the SBR envelope of the audio content channel.

Во время декодирования кодированного битового потока, выполнение гармонической транспозиции во время стадии обработки eSBR декодирования(для каждого канала, ch, звукового контента, указанного битовым потоком), управляется следующими параметрами метаданных eSBR: sbrPatchingMode[ch]: sbrOversamplingFlag[ch]; sbrPitchInBinsFlag[ch] и sbrPitchInBins[ch].During decoding of an encoded bitstream, the implementation of harmonic transposition during the eSBR decoding processing stage (for each channel, ch, of audio content specified by the bitstream) is controlled by the following eSBR metadata parameters: sbrPatchingMode[ch]: sbrOversamplingFlag[ch]; sbrPitchInBinsFlag[ch] and sbrPitchInBins[ch].

Значение sbrPatchingMode[ch] указывает тип транспозера, используемый в eSBR: sbrPatchingMode[ch]=1 указывает негармоническую вклейку, как описано в разделе 4.6.18.6.3 стандарта AAC MPEG-4; sbrPatchingMode[ch]=0 указывает гармоническую вклейку SBR, как указанная в разделе 7.5.3 или 7.5.4 стандарта USAC MPEG USAC.The value of sbrPatchingMode[ch] specifies the type of transposer used in eSBR: sbrPatchingMode[ch]=1 specifies non-harmonic patching, as described in section 4.6.18.6.3 of the AAC MPEG-4 standard; sbrPatchingMode[ch]=0 specifies SBR harmonic patching as specified in section 7.5.3 or 7.5.4 of the USAC MPEG USAC standard.

Значение sbrOversamplingFlag[ch] указывает использование адаптивной по отношению к сигналу передискретизации частотной области в eSBR в комбинации основанной на ДПФ гармонической вклейки SBR, как описано в разделе 7.5.3 стандарта USAC MPEG. Этот флажковый признак управляет размером ДПФ, которые используются в транспозере: 1 указывает активированную адаптивную по отношению к сигналу передискретизацию частотной области, как описано в разделе 7.5.3.1 стандарта USAC MPEG; 0 указывает деактивированную адаптивную по отношению к сигналу передискретизацию частотной области, как описано в разделе 7.5.3.1 стандарта USAC MPEG.The value sbrOversamplingFlag[ch] specifies the use of signal-adaptive frequency domain oversampling in eSBR in combination with DFT-based SBR harmonic stitching, as described in section 7.5.3 of the USAC MPEG standard. This flag controls the size of the DFTs that are used in the transposer: 1 indicates signal-adaptive frequency domain resampling is enabled, as described in section 7.5.3.1 of the USAC MPEG standard; 0 indicates signal-adaptive frequency domain resampling disabled, as described in section 7.5.3.1 of the USAC MPEG standard.

Значение sbrPitchInBinsFlag[ch] управляет интерпретацией параметра sbrPitchInBins[ch]: 1 указывает, что значение в sbrPitchInBins[ch] действительно и больше нуля; 0 указывает, что значение sbrPitchInBins[ch] установлено в ноль.The value of sbrPitchInBinsFlag[ch] controls the interpretation of the sbrPitchInBins[ch] parameter: 1 indicates that the value in sbrPitchInBins[ch] is valid and greater than zero; 0 indicates that sbrPitchInBins[ch] is set to zero.

Значение sbrPitchInBins[ch] управляет добавлением членов векторного произведения в гармонический транспозер SBR. Значение sbrPitchinBins[ch] является целочисленным значением в диапазоне [0,127] и представляет собой расстояние, измеренное в элементах разрешения по частоте для 1536точечное ДПФ, действующее на частоте дискретизации основного кодера.The sbrPitchInBins[ch] value controls the addition of cross product terms to the SBR harmonic transposer. The value of sbrPitchinBins[ch] is an integer value in the range [0.127] and represents the distance measured in frequency bins for a 1536-point DFT operating at the base encoder sampling rate.

В случае, если битовый поток AAC MPEG-4 указывает пару каналов SBR, чьи каналы не соединены (вместо одиночного канала SBR), битовый поток является указывающим два экземпляра вышеприведенного синтаксиса (для гармонической или негармонической транспозиции), один для каждого канала sbr_channel_pair_element().In the case where the MPEG-4 AAC bitstream indicates a pair of SBR channels whose channels are not paired (instead of a single SBR channel), the bitstream is indicating two instances of the above syntax (for harmonic or non-harmonic transposition), one for each channel sbr_channel_pair_element().

Гармоническая транспозиция средства eSBR типично улучшает качество декодированных музыкальных сигналов с относительно низкими частотами разделения. Негармоническая транспозиция (т.е. унаследованная спектральная вклейка) типично улучшает речевые сигналы. Отсюда, отправная точка при принятии решения в отношении того, какой тип транспозиции предпочтителен для кодирования конкретного звукового контента, состоит в том, чтобы выбирать способ транспозиции в зависимости от выявления речи/музыки, причем, гармоническая транспозиция выполняется над музыкальным контентом, и спектральная вклейка над речевым контентом.The eSBR facility's harmonic transposition typically improves the quality of decoded music signals with relatively low crossover frequencies. Nonharmonic transposition (ie, inherited spectral pasting) typically improves speech signals. Hence, the starting point when deciding which type of transposition is preferable for encoding a particular audio content is to select the transposition method depending on the speech/music detection, with harmonic transposition being performed on the musical content, and spectral pasting on speech content.

Выполнение предварительного выравнивания во время обработки eSBR управляется значением однобитного параметра метаданных eSBR, известного как bs sbr preprocessing, в том смысле, что предварительное выравнивание выполняется или не выполняется в зависимости от значения этого одиночного бита. Когда используется алгоритм вклейки с помощью КЗФ SBR, как описанный в разделе 4.6.18.6.3 стандарта AAC MPEG-4, этап предварительного выравнивания может выполняться (когда указан параметром bs_sbr_preprocessing) в попытке избежать отсутствия непрерывности профиля огибающей спектра высокочастотного сигнала, подаваемого в последующий корректор огибающей (корректор огибающей играет роль еще одной стадии обработки eSBR). Предварительное выравнивание типично улучшает действие последующего каскада коррекции огибающей, давая в результате сигнал в полосе высоких частот, который воспринимается более устойчивым.The execution of pre-alignment during eSBR processing is controlled by the value of a one-bit eSBR metadata parameter known as bs sbr preprocessing, in the sense that pre-alignment is performed or not performed depending on the value of this single bit. When the SBR FQF stitching algorithm is used, as described in section 4.6.18.6.3 of the MPEG-4 AAC standard, a pre-alignment step may be performed (when specified by the bs_sbr_preprocessing parameter) in an attempt to avoid lack of continuity in the spectral envelope profile of the high-frequency signal fed to the subsequent equalizer envelope (the envelope corrector acts as another stage of eSBR processing). Pre-equalization typically improves the effect of the subsequent envelope correction stage, resulting in a high-band signal that is perceived to be more stable.

Ожидается, что общее требование к скорости передачи в битах для включения в метаданные eSBR битового потока AAC MPEG-4, указывающие упомянутые выше средства eSBR (гармоническую транспозицию и предварительное выравнивание) будет порядка нескольких сотен бит в секунду, так как только отличительные управляющие данные, необходимые для выполнения обработки eSBR, передаются в соответствии с некоторыми вариантами осуществления изобретения. Унаследованные декодеры могут игнорировать эту информацию, так как она включена обратно совместимым образом (как будет пояснено позже). Поэтому, пагубное влияние на скорости передачи битов, связанную с включением в состав метаданных eSBR, незначительно по ряду причин, в том числе, следующим:The overall bit rate requirement for inclusion in eSBR metadata of an MPEG-4 AAC bitstream specifying the eSBR (harmonic transposition and pre-equalization) facilities mentioned above is expected to be on the order of several hundred bits per second, since only the distinctive control data required to perform eSBR processing are transmitted in accordance with some embodiments of the invention. Legacy decoders may ignore this information since it is included in a backwards compatible manner (as explained later). Therefore, the detrimental impact on bit rates associated with inclusion of eSBR metadata is negligible for a number of reasons, including the following:

ухудшение скорости передачи битов (обусловленное включением в состав метаданных eSBR) является весьма небольшой долей полной скорости передачи битов, так как передаются только отличительные управляющие данные, необходимые для выполнения обработки eSBR (а не одновременная передача управляющих данных SBR); иthe bit rate degradation (caused by inclusion in the eSBR metadata) is a very small fraction of the total bit rate, since only the distinctive control data needed to perform eSBR processing is transmitted (rather than transmitting the SBR control data simultaneously); And

- 9 044947 настройка связанной с SBR управляющей информации типично не зависит от подробностей транспозиции.- 9 044947 The setting of SBR-related control information is typically independent of the transposition details.

Таким образом, варианты осуществления изобретения предусматривают средство для рациональной передачи управляющих данных усовершенствованной репликации полос спектра (eSBR) или метаданных обратно совместимым образом. Рациональная передача управляющих данных eSBR уменьшает требования к памяти в декодерах, кодировщиках и перекодировщиках, применяющих аспекты изобретения, тем временем не подвергаясь ощутимому неблагоприятному воздействию на скорость передачи битов. Более того, сложность и требования к обработке, связанные с выполнением eSBR в соответствии с вариантами осуществления изобретения, также уменьшаются, так как данные SBR необходимо обрабатывать только один раз, и нет одновременной передачи, которая имела бы место, если бы eSBR обрабатывался в виде полностью отдельного типа объекта в AAC MPEG-4 вместо встраивания в кодек AAC MPEG-4 обратно совместимым образом.Thus, embodiments of the invention provide a means for intelligently transmitting enhanced spectrum band replication (eSBR) control data or metadata in a backwards-compatible manner. Efficient transmission of eSBR control data reduces memory requirements in decoders, encoders and transcoders employing aspects of the invention, while not being perceptibly adversely affected by bit rates. Moreover, the complexity and processing requirements associated with performing eSBR in accordance with embodiments of the invention are also reduced since the SBR data only needs to be processed once and there is no concurrent transmission that would occur if the eSBR were processed as a complete separate object type in AAC MPEG-4 instead of being built into the AAC MPEG-4 codec in a backwards-compatible manner.

Затем, со ссылкой на фиг. 7, опишем элементы блока (raw_data_block) битового потока AAC MPEG-4, в котором метаданные eSBR включены в состав в соответствии с некоторыми вариантами осуществления настоящего изобретения. Фиг. 7 - схема блока (raw_data_block) битового потока AAC MPEG-4, показывающая некоторые его сегменты.Then, with reference to FIG. 7, we will describe the elements of a block (raw_data_block) of an MPEG-4 AAC bitstream in which eSBR metadata is included in accordance with some embodiments of the present invention. Fig. 7 is a block diagram (raw_data_block) of an MPEG-4 AAC bitstream, showing some of its segments.

Блок битового потока AAC MPEG-4 может включать в себя по меньшей мере один single channel element() (например, элемент одиночного канала, показанный на фиг. 7), и/или по меньшей мере один channel pair element() (особо не показанный на фиг. 7, хотя он может присутствовать), в том числе, звуковые данные для звуковой программы. Блок также может включать в себя некоторое количество fill_elements (например, элемент 1 заполнения и/или элемент 2 заполнения по фиг. 7), включающих в себя данные (например, метаданные), имеющие отношение к программе. Каждый single_channel_element() включает в себя идентификатор (например, ID1 по фиг. 7), указывающий начало элемента одиночного канала, и может включать в себя звуковые данные, указывающие другой канал многоканальной звуковой программы. Каждый channel_pair_element включает в себя идентификатор (не показан на фиг. 7), указывающий начало элемента пары каналов, и может включать в себя звуковые данные, указывающие два канала программы.An MPEG-4 AAC bitstream block may include at least one single channel element() (e.g., the single channel element shown in FIG. 7), and/or at least one channel pair element() (not particularly shown in Fig. 7, although it may be present), including audio data for the audio program. The block may also include a number of fill_elements (eg, fill element 1 and/or fill element 2 of FIG. 7) including data (eg, metadata) related to the program. Each single_channel_element() includes an identifier (eg, ID1 of FIG. 7) indicating the start of the single channel element, and may include audio data indicating another channel of the multi-channel audio program. Each channel_pair_element includes an identifier (not shown in FIG. 7) indicating the start of the channel pair element, and may include audio data indicating two program channels.

fill element (в материалах настоящей заявки упоминаемый как элемент заполнения) битового потока AAC MPEG-4 включает в себя идентификатор (ID2 по фиг. 7), указывающий начало элемента заполнения, и данные заполнения после идентификатора. Идентификатор ID2 может состоять из трехбитного беззнакового целого числа, передаваемого старшим битом вперед (uimsbf), имеющего значение 0x6. Данные заполнения могут включать в себя элемент extension_payload() (иногда в материалах настоящей заявки упоминаемый как полезная нагрузка расширения), чей синтаксис показан в табл. 4.57 стандарта AAC MPEG-4. Несколько типов полезной нагрузки расширения существуют и идентифицируются посредством параметра extension_type, который является четырехбитным беззнаковым целым числом, передаваемым старшим битом вперед (uimsbf).The fill element (herein referred to as a fill element) of the MPEG-4 AAC bitstream includes an identifier (ID2 of FIG. 7) indicating the start of the fill element, and fill data after the identifier. ID2 may consist of a three-bit unsigned integer, most significant bit first (uimsbf), having the value 0x6. The padding data may include an extension_payload() element (sometimes referred to herein as an extension payload), whose syntax is shown in Table 1. 4.57 AAC MPEG-4 standard. Several extension payload types exist and are identified by the extension_type parameter, which is a four-bit unsigned integer, most significant bit first (uimsbf).

Данные заполнения (например, их полезная нагрузка расширения) могут включать в себя заголовок или идентификатор (например, заголовок 1 по фиг. 7), который указывает сегмент данных заполнения, которые являются указывающими объект SBR (т.е. заголовок инициализирует тип объекта SBR, указываемый ссылкой как sbr_extension_data() в стандарте AAC MPEG-4). Например, полезная нагрузка расширения репликации полос спектра (SBR) идентифицируется значением '1101' или '1110', что касается поля extension_type в заголовке, причем, '1101' идентифицирует полезную нагрузку расширения с данными SBR, a '1110' идентифицирует и полезную нагрузку расширения с данными SBR с циклическим избыточным кодом (CRC) для проверки правильности данных SBR.The padding data (e.g., its extension payload) may include a header or identifier (e.g., header 1 of FIG. 7) that indicates a segment of padding data that is indicative of an SBR object (i.e., the header initializes the type of the SBR object referenced as sbr_extension_data() in the AAC MPEG-4 standard). For example, a spectrum band replication (SBR) extension payload is identified by the value '1101' or '1110' as regards the extension_type field in the header, with '1101' identifying the extension payload with SBR data and '1110' identifying both the extension payload with SBR data with cyclic redundancy code (CRC) to verify the correctness of the SBR data.

Когда заголовок (например, поле extension_type) инициализирует тип объекта SBR, метаданные SBR (иногда упоминаемые как данные репликации полос спектра и указываемые ссылкой как sbr_data() в стандарте AAC MPEG-4) следуют за заголовком, и по меньшей мере один элемент расширения репликации полос спектра (например, элемент расширения SBR элемента 1 заполнения по фиг. 7) может следовать за метаданными SBR. Такой элемент расширения репликации полос спектра (сегмент битового потока) указывается ссылкой как контейнер sbr_extension() в стандарте ААС MPEG-4. Элемент расширения репликации полос спектра по выбору включает в себя заголовок (например, заголовок расширения SBR элемента 1 заполнения по фиг. 7).When a header (eg, an extension_type field) initializes an SBR object type, SBR metadata (sometimes referred to as spectrum band replication data and referenced as sbr_data() in the MPEG-4 AAC standard) follows the header, and at least one band replication extension element spectrum (eg, the SBR extension element of the padding element 1 of FIG. 7) may follow the SBR metadata. Such a spectrum band replication extension element (bitstream segment) is referenced as the sbr_extension() container in the MPEG-4 AAC standard. The spectrum band replication extension element optionally includes a header (eg, the SBR extension header of padding element 1 of FIG. 7).

Стандарт ААС MPEG-4 предполагает, что элемент расширения репликации полос спектра может включать в себя данные PS (параметрической стереофонии) для звуковых данных программы. Стандарт ААС MPEG-4 предполагает, что, когда заголовок элемента заполнения (например, его полезной нагрузки расширения) инициализирует тип объекта SBR (как это делает header1 по фиг. 7), и элемент расширения репликации полос спектра элемента заполнения включает в себя данные PS, элемент заполнения (например, его полезная нагрузка расширения) включает в себя данные репликации полос спектра, и параметр bs_extension_id, чье значение (т.е. bs_extension_id=2) указывает, что данные PS включены в элемент расширения репликации полос спектра элемента заполнения.The MPEG-4 AAC standard specifies that the spectrum band replication extension element may include PS (parametric stereophony) data for program audio data. The MPEG-4 AAC standard assumes that when the header of a padding element (eg, its extension payload) initializes an SBR object type (as header1 does in FIG. 7) and the padding element's spectrum band replication extension element includes PS data, a filler element (eg, its extension payload) includes spectrum band replication data, and a bs_extension_id parameter whose value (ie, bs_extension_id=2) indicates that the PS data is included in the spectrum band replication extension element of the filler element.

В соответствии с некоторыми вариантами осуществления настоящего изобретения, метаданные eSBR (например, флажковый признак, указывающий, должна ли обработка усовершенствованной репли- 10 044947 кации полос спектра (eSBR) выполняться над звуковым контентом блока). Например, такой флажковый признак указывается в элементе 1 заполнения по фиг. 7, где флажковый признак встречается после заголовка (заголовка расширения SBR элемента 1 заполнения) элемента расширения SBR элемента 1 заполнения. По выбору, такой флажковый признак и дополнительные данные eSBR включены в элемент расширения репликации полос спектра после заголовка элемента расширения репликации полос спектра (например, в элемент расширения SBR элемента 1 заполнения на фиг. 7, после заголовка расширения SBR). В соответствии с некоторыми вариантами осуществления настоящего изобретения, элемент заполнения, который включает в себя метаданные eSBR, также включает в себя параметр bs_extension_id, чье значение (например, bs_extension_id=3) указывает, что метаданные eSBR включены в элемент заполнения, и что обработка eSBR должна быть выполнена над звуковым контентом уместного блока.In accordance with some embodiments of the present invention, eSBR metadata (eg, a flag indicating whether enhanced spectrum band replication (eSBR) processing should be performed on the audio content of the block). For example, such a flag is indicated in the filling element 1 in FIG. 7, where the flag occurs after the header (SBR extension header of the padding element 1) of the SBR extension element of the padding element 1. Optionally, such a flag and additional eSBR data are included in the spectrum band replication extension element after the spectrum band replication extension element header (eg, in the SBR extension element of padding element 1 in FIG. 7, after the SBR extension header). In accordance with some embodiments of the present invention, a padding element that includes eSBR metadata also includes a bs_extension_id parameter whose value (eg, bs_extension_id=3) indicates that eSBR metadata is included in the padding element and that eSBR processing should be performed on the audio content of the relevant block.

В соответствии с некоторыми вариантами осуществления изобретения, метаданные, eSBR включены в элемент заполнения (например, элемент 2 заполнения по фиг. 7) битового потока ААС MPEG-4, иные чем в элементе расширения репликации полос спектра (элементе расширения SBR) элемента заполнения. Причина в том, что элементы заполнения, содержащие в себе extension_payload() с данными SBR или данные SBR с CRC, не содержат в себе никакой другой полезной нагрузки расширения любого другого типа расширения. Поэтому, в вариантах осуществления, где метаданные eSBR хранятся своей собственной полезной нагрузкой расширения, отдельный элемент заполнения, используется для хранения метаданных eSBR. Такой элемент заполнения включает в себя идентификатор (например, ID2 по фиг. 7), указывающий начало элемента заполнения, и данные заполнения после идентификатора. Данные заполнения могут включать в себя элемент extension_payload() (иногда в материалах настоящей заявки упоминаемый как полезная нагрузка расширения), чей синтаксис показан в табл. 4.57 стандарта ААС MPEG-4. Данные заполнения (например, их полезная нагрузка расширения) включает в себя заголовок (например, header2 элемента 2 заполнения по фиг. 7), который является указывающим объект eSBR (т.е. заголовок инициализирует тип объекта усовершенствованной репликации полос спектра (eSBR)), и данные заполнения (например, его полезная нагрузка расширения) включают в себя метаданные eSBR после заголовка. Например, элемент 2 заполнения по фиг. 7 включает в себя такой заголовок (header2) и также включает в себя, после заголовка, метаданные eSBR (т.е. флажковый признак в элементе 2 заполнения, который указывает, должна ли обработка усовершенствованной репликации полос спектра (eSBR) выполняться над звуковым контентом блока). По выбору, дополнительные метаданные eSBR также включены в данные заполнения элемента 2 заполнения по фиг. 7 после заголовка 2. В вариантах осуществления, описываемым в настоящем параграфе, заголовок (например, заголовок 2 по фиг. 7) имеет идентификационное значение, которое не является одним из традиционных значений, заданных в табл. 4.57 стандарта ААС MPEG-4, и, взамен, является указывающим полезную нагрузку расширения eSBR (так что поле extension_type указывает, что данные заполнения включают в себя метаданные eSBR).In accordance with some embodiments of the invention, metadata, eSBR, is included in a padding element (eg, padding element 2 of FIG. 7) of the MPEG-4 AAC bitstream, other than in the spectrum band replication extension element (SBR extension element) of the padding element. The reason is that pad elements containing extension_payload() with SBR data or SBR data with CRC do not contain any other extension payload of any other extension type. Therefore, in embodiments where eSBR metadata is stored in its own extension payload, a separate padding element is used to store eSBR metadata. Such pad element includes an identifier (eg, ID2 of FIG. 7) indicating the beginning of the pad element, and pad data after the identifier. The padding data may include an extension_payload() element (sometimes referred to herein as an extension payload), whose syntax is shown in Table 1. 4.57 AAC MPEG-4 standard. The padding data (eg, its extension payload) includes a header (eg, header2 of padding element 2 of FIG. 7) that is indicative of an eSBR object (i.e., the header initializes an enhanced spectrum band replication (eSBR) object type), and the padding data (eg, its extension payload) includes eSBR metadata after the header. For example, the filling element 2 of FIG. 7 includes such a header (header2) and also includes, after the header, eSBR metadata (i.e., a flag in padding element 2 that indicates whether enhanced spectrum band replication (eSBR) processing should be performed on the audio content of the block ). Optionally, additional eSBR metadata is also included in the padding data of padding element 2 of FIG. 7 after header 2. In the embodiments described in this paragraph, the header (eg, header 2 of FIG. 7) has an identification value that is not one of the traditional values specified in table. 4.57 of the MPEG-4 AAC standard, and is instead indicative of the eSBR extension payload (so that the extension_type field indicates that the padding data includes eSBR metadata).

В первой группе вариантов осуществления, изобретение является блоком обработки звукового сигнала (например, декодером), содержащим память (например, буфер 201 по фиг. 3 или 4), выполненную с возможностью хранить по меньшей мере один блок кодированного звукового битового потока (например, по меньшей мере один блок битового потока AAC MPEG-4);In a first group of embodiments, the invention is an audio signal processing unit (eg, a decoder) comprising a memory (eg, buffer 201 of FIG. 3 or 4) configured to store at least one block of encoded audio bitstream (eg, by at least one AAC MPEG-4 bitstream block);

деформатер полезной нагрузки битового потока (например, элемент 205 по фиг. 3 или элемент 215 по фиг. 4), присоединенный к памяти и выполненный с возможностью демультиплексировать по меньшей мере одну часть упомянутого блока битового потока; и подсистему декодирования (например, элементы 202 и 203 по фиг. 3 или элементы 202 и 213 по фиг. 4), присоединенную и выполненную с возможностью декодировать по меньшей мере одну часть звукового контента упомянутого блока битового потока, при этом блок включает в себя элемент заполнения, включающий в себя идентификатор, указывающий начало элемента заполнения (например, идентификатор id_syn_ele, имеющий значение 0x6, по табл. 4.85 стандарта ААС MPEG-4), и данные заполнения после идентификатора, при этом данные заполнения включают в себя по меньшей мере один флажковый признак, идентифицирующий, должна ли обработка усовершенствованной репликации полос спектра (eSBR) выполняться над звуковым контентом блока (например, с использованием данных репликации полос спектра и метаданных eSBR, включенных в блок).a bitstream payload deformer (eg, element 205 of FIG. 3 or element 215 of FIG. 4) coupled to the memory and configured to demultiplex at least one portion of said bitstream block; and a decoding subsystem (e.g., elements 202 and 203 of FIG. 3 or elements 202 and 213 of FIG. 4) coupled to and configured to decode at least one portion of the audio content of said bitstream block, the block including an element padding, including an identifier indicating the beginning of a padding element (for example, the id_syn_ele identifier having the value 0x6, according to Table 4.85 of the MPEG-4 AAC standard), and padding data after the identifier, wherein the padding data includes at least one flag an attribute identifying whether enhanced spectrum band replication (eSBR) processing should be performed on the audio content of the block (eg, using the spectrum band replication data and eSBR metadata included in the block).

Флажковым признаком являются метаданные eSBR, и примером флажкового признака является флажковый признак sbrPatchingMode. Еще одним примером флажкового признака является флажковый признак гармонической SBR. Оба этих флажковых признака указывают, базовая форма репликации полос спектра или усовершенствованная форма репликации спектра должна выполняться над звуковыми данными блока. Базовой формой репликации спектра является спектральная вклейка, а усовершенствованной формой репликации полос спектра является гармоническая транспозиция.A flag is eSBR metadata, and an example of a flag is the sbrPatchingMode flag. Another example of a flag is the harmonic SBR flag. Both of these flags indicate whether a basic form of spectrum replication or an advanced form of spectrum replication should be performed on the block's audio data. The basic form of spectrum replication is spectral pasting, and an advanced form of spectrum band replication is harmonic transposition.

В некоторых вариантах осуществления, данные заполнения также включают в себя дополнительные метаданные eSBR (т.е. метаданные eSBR, иные чем флажковый признак).In some embodiments, the padding data also includes additional eSBR metadata (ie, eSBR metadata other than a flag).

Память может быть буферной памятью (например, реализацией буфера 201 по фиг. 4), которая хранит (например, неэфемерным образом) по меньшей мере один блок кодированного звукового битового потока.The memory may be a buffer memory (eg, an implementation of buffer 201 of FIG. 4) that stores (eg, in a non-ephemeral manner) at least one block of an encoded audio bitstream.

- 11 044947- 11 044947

Оценивается, что сложность выполнения обработки eSBR (с использованием гармонической транспозиции и предварительного выравнивания eSBR) посредством декодера eSBR во время декодирования битового потока AAC MPEG-4, который включает в себя метаданные eSBR (указывающие эти средства eSBR), была бы следующей (для типичного декодирования с указанными параметрами):It is estimated that the complexity of performing eSBR processing (using harmonic transposition and eSBR pre-alignment) by an eSBR decoder while decoding an MPEG-4 AAC bitstream that includes eSBR metadata (indicating these eSBR facilities) would be as follows (for a typical decoding with the specified parameters):

гармоническая транспозиция (16 кбит/с, 14400/28800 Гц);harmonic transposition (16 kbps, 14400/28800 Hz);

на основании ДПФ: 3,68 WMOPS (взвешенных миллионов операций в 1 с);based on DFT: 3.68 WMOPS (weighted million operations per second);

на основании КЗФ: 0,98 WMOPS;based on KZF: 0.98 WMOPS;

предварительная обработка вклейки с помощью КЗФ (предварительное выравнивание): 0,1 WMOPS. Известно, что основанная на ДПФ транспозиция типично работает лучше, чем основанная на КЗФ транспозиция, применительно к переходным процессам.pre-processing of the insert using KZF (pre-alignment): 0.1 WMOPS. It is known that DFT-based transposition typically performs better than QFT-based transposition when applied to transients.

В соответствии с некоторыми вариантами осуществления настоящего изобретения, элемент заполнения (кодированного звукового битового потока), который включает в себя метаданные eSBR, также включает в себя параметр (например, параметр bs_extension_id), чье значение (например, bs_extension_id=3) сигнализирует, что метаданные eSBR включены в элемент заполнения, и что обработка eSBR должна быть выполнена над звуковым контентом уместного блока, и/или параметр (например, тот же самый параметр bs_extension_id, чье значение (например, bs_extension_id=2) сигнализирует, что контейнер sbr_extension() элемента заполнения включает в себя данные PS. Например, как указано в табл. 1, приведенной ниже, такой параметр, имеющий значение bs_extension_id=2, может сигнализировать, что контейнер sbr_extension() элемента заполнения включает в себя данные PS, и такой параметр, имеющий значение bs_extension_id=3, может сигнализировать, что контейнер sbr_extension () элемента заполнения включает в себя метаданные eSBR.In accordance with some embodiments of the present invention, a padding element (of an encoded audio bitstream) that includes eSBR metadata also includes a parameter (eg, a bs_extension_id parameter) whose value (eg, bs_extension_id=3) signals that the metadata eSBRs are included in the pad element, and that eSBR processing must be performed on the audio content of the relevant block, and/or parameter (e.g., the same bs_extension_id parameter whose value (e.g., bs_extension_id=2) signals that the pad element's sbr_extension() container includes PS data. For example, as indicated in Table 1 below, such a parameter having a value of bs_extension_id=2 may signal that the pad element's sbr_extension() container includes PS data, and such a parameter having a value of bs_extension_id =3 may signal that the padding element's sbr_extension() container includes eSBR metadata.

Таблица 1Table 1

bs_extension_id bs_extension_id Значение Meaning 0 0 Зарезервировано Reserved 1 1 Зарезервировано Reserved 2 2 EXTENSION_ID_PS EXTENSION_ID_PS 3 3 EXTENSION_ID_ESBR EXTENSION_ID_ESBR

В соответствии с некоторыми вариантами осуществления изобретения, синтаксис каждого элемента расширения репликации полос спектра, который включает в себя метаданные eSBR и/или данные PS является таким, как указано в табл. 2, приведенной выше (в которой sbr_extension() обозначает контейнер, который является элементом расширения репликации полос спектра, bs_extension_id является таким, как описано в табл. 1, приведенной выше, ps_data обозначает данные PS, a esbr_data обозначает метаданные eSBR).In accordance with some embodiments of the invention, the syntax of each spectrum band replication extension element that includes eSBR metadata and/or PS data is as set forth in Table. 2 above (in which sbr_extension() denotes a container that is a spectrum band replication extension element, bs_extension_id is as described in Table 1 above, ps_data denotes PS data, and esbr_data denotes eSBR metadata).

Таблица 2table 2

sbr_extension(bs_extension_id, num_bits_left) sbr_extension(bs_extension_id, num_bits_left) { { switch (bs_extension_id) { switch (bs_extension_id) { case EXTENSION_ID_PS: case EXTENSION_ID_PS: num_bits_left -= ps_data(); num_bits_left -= ps_data(); Примечание 1 Note 1 break; break; case EXTENSION_ID_ESBR: case EXTENSION_ID_ESBR: num bits left -= esbr data (); num bits left -= esbr data(); Примечание 2 Note 2 break; break; default: default: bs_f i1l_bi ts; bs_f i1l_bi ts; num_bits_left=0; num_bits_left=0; break; break;

- 12044947- 12044947

} } } } Примечание 1: ps_data () возвращает количество считанных бит. Note 1: ps_data() returns the number of bits read. Примечание 2: esbr_data() возвращает количество считанных бит. Note 2: esbr_data() returns the number of bits read.

В примерном варианте осуществления, esbr_data(), упомянутый в табл. 2, приведенной выше, является указывающим значения следующих параметров метаданных:In an exemplary embodiment, esbr_data() referred to in Table. 2 above is indicating the values of the following metadata parameters:

1. однобитный параметр метаданных, bs_sbr_preprocessing; и1. one-bit metadata parameter, bs_sbr_preprocessing; And

2. для каждого канала (ch) звукового контента кодированного битового потока, подлежащего декодированию, каждый из описанных выше параметров: sbrPatchingMode[ch];2. for each channel (ch) of the audio content of the encoded bitstream to be decoded, each of the parameters described above: sbrPatchingMode[ch];

sbrOversamplingFlag[ch]; sbrPitchInBinsFlag[ch]; и sbrPitchInBins[ch].sbrOversamplingFlag[ch]; sbrPitchInBinsFlag[ch]; and sbrPitchInBins[ch].

Например, в некоторых вариантах осуществления, esbr_data() может иметь синтаксис, указанный в табл. 3, для указания этих параметров метаданных.For example, in some embodiments, esbr_data() may have the syntax specified in Table. 3 to specify these metadata parameters.

Таблица 3Table 3

Синтаксис Syntax Количество битов Number of bits esbr_data(id_aac, bs_coupling) esbr_data(id_aac, bs_coupling) { { bs_sbr_preprocessing; bs_sbr_preprocessing; 1 1 if (id_aac == ID_SCE) { if (id_aac == ID_SCE) { if (sbrPatchingMode[0] == 0) { if (sbrPatchingMode[0] == 0) { 1 1 sbrOversamplingFlag[0]; sbrOversamplingFlag[0]; 1 1 if (sbrPitchlnBinsFlag[0]) if (sbrPitchlnBinsFlag[0]) 1 1 sbrPitchlnBins[0]; sbrPitchlnBins[0]; 7 7 else else sbrPitchlnBins[0]=0; sbrPitchlnBins[0]=0; } else { } else { sbrOversamplingFlag[0]=0; sbrOversamplingFlag[0]=0; sbrPitchlnBins[0]=0; sbrPitchlnBins[0]=0; } }

- 13 044947- 13 044947

} else if (id_aac == ID_CPE) { } else if (id_aac == ID_CPE) { If (bs_coupling) { If (bs_coupling) { if (sbrPatchingMode[0,1] == 0) { if (sbrPatchingMode[0,1] == 0) { 1 1 sbrOversamplingFlag[0,1]; sbrOversamplingFlag[0,1]; 1 1 if (sbrPitchlnBinsFlag[0,1]) if (sbrPitchlnBinsFlag[0,1]) 1 1 sbrPitchlnBins[0,1]; sbrPitchlnBins[0,1]; 7 7 else else sbrPitchlnBins[0,1 ] = 0; sbrPitchlnBins[0,1 ] = 0; } else { } else { sbrOversamplingFlag[0, 1 ] = 0; sbrOversamplingFlag[0, 1 ] = 0; sbrPitchlnBins[0,1 ] = 0; sbrPitchlnBins[0,1 ] = 0; } } } else { /* bs_coupling == 0 */ } else { /* bs_coupling == 0 */ if (sbrPatchingMode[0] == 0) { if (sbrPatchingMode[0] == 0) { 1 1 sbrOversamplingFlag[0]; sbrOversamplingFlag[0]; 1 1 if (sbrPitchlnBinsFlag[0]) if (sbrPitchlnBinsFlag[0]) 1 1 sbrPitchlnBins[0]; sbrPitchlnBins[0]; 7 7 else else sbrPitchlnBins[ 0 ] = 0; sbrPitchlnBins[ 0 ] = 0; } else { } else { sbrOversamplingFlag[0]=0; sbrOversamplingFlag[0]=0; sbrPitchlnBins[ 0 ] = 0; sbrPitchlnBins[ 0 ] = 0; } } if (sbrPatchingMode[1] == 0) { if (sbrPatchingMode[1] == 0) { 1 1 sbrOversamplingFlag[1]; sbrOversamplingFlag[1]; 1 1 if (sbrPitchlnBinsFlag[1]) if (sbrPitchlnBinsFlag[1]) 1 1 sbrPitchlnBins[1]; sbrPitchlnBins[1]; 7 7 else else sbrPitchlnBins[ 1]=0; sbrPitchlnBins[ 1]=0; } else { } else { sbrOversamplingFlag[ 1 ] = 0; sbrOversamplingFlag[ 1 ] = 0; sbrPitchlnBins[ 1 ] = 0; sbrPitchlnBins[ 1 ] = 0; } } } } } } } } Примечание: bs sbr preprocessing определен, как описано в разделе 6.2.12 ISO/IEC 23003-3:2012. sbrPatchingMode[ch], sbrOversamplingFlag[ch] , sbrPitchlnBinsFlag[ch] и sbrPitchlnBins[ch] определены, как описано в разделе 7.5 ISO/IEC 23003-3:2012. Note: bs sbr preprocessing is defined as described in section 6.2.12 of ISO/IEC 23003-3:2012. sbrPatchingMode[ch], sbrOversamplingFlag[ch] , sbrPitchlnBinsFlag[ch] and sbrPitchlnBins[ch] are defined as described in section 7.5 of ISO/IEC 23003-3:2012.

Приведенный выше синтаксис дает возможность рациональной реализации усовершенствованной формы репликации полос спектра, такой как гармоническая транспозиция, в качестве расширения унас- 14 044947 ледованного декодера. Более точно, данные eSBR из табл. 3 включают в себя только те параметры, необходимые для выполнения усовершенствованной формы репликации полос спектра, которые еще не поддерживаются в битовом потоке и не являются выводимыми непосредственно из параметров, уже поддерживаемых в битовом потоке. Все другие параметры и данные обработки, необходимые для выполнения усовершенствованной формы репликации полос спектра извлекаются из существующих ранее параметров в уже определенных расположениях в битовом потоке.The above syntax allows for a rational implementation of an advanced form of spectrum band replication, such as harmonic transposition, as an extension of the legacy decoder. More precisely, the eSBR data from Table. 3 include only those parameters necessary to perform an advanced form of spectrum band replication that are not already supported in the bitstream and are not directly inferred from parameters already supported in the bitstream. All other parameters and processing data needed to perform an advanced form of spectrum band replication are derived from pre-existing parameters at already defined locations in the bitstream.

Например, совместимый с НЕ-ААС MPEG-4 или с НЕ-ААС v2 декодер может быть расширен, чтобы включать в себя усовершенствованную форму репликации полос спектра, такую как гармоническая транспозиция. Эта усовершенствованная форма репликации полос спектра является дополнением к базовой форме репликации полос спектра, уже поддерживаемой декодером. В контексте совместимого с НЕААС или НЕ-ААС v2 MPEG-4 декодера, эта базовая форма репликации полос спектра является средством SBR спектральной вклейки с помощью КЗФ, как определено в разделе 4.6.18 стандарта AAC MPEG4.For example, a HE-AAC MPEG-4 or HE-AAC v2 compatible decoder may be extended to include an advanced form of spectrum band replication, such as harmonic transposition. This advanced form of spectrum band replication is in addition to the basic form of spectrum band replication already supported by the decoder. In the context of a HEAAC or HE-AAC v2 MPEG-4 decoder, this basic form of spectrum band replication is a means of SBR spectral pasting using FQF, as defined in section 4.6.18 of the AAC MPEG4 standard.

При выполнении усовершенствованной формы репликации полос спектра, декодер расширенного НЕ-ААС может повторно использовать многие параметры битового потока, уже включенные в полезную нагрузку расширения SBR битового потока. Конкретные параметры, которые могут повторно использоваться, например, включают в себя различные параметры, которые определяют сводную таблицу полос частот. Эти параметры включают в себя bs_start_freq (параметр, который определяет начало параметра сводной таблицы частот), bs_stop_freq (параметр, который определяет окончание сводной таблицы частот), bs_freq_scale (параметр, который определяет количество полос частот на октаву) и bs_alter_scale (параметр, который изменяет шкалу полос частот). Параметры, которые могут повторно использоваться, также включают в себя параметры, которые определяют таблицу шумовых полос (bs_noise_bands) и параметры таблицы ограничительных полос (bs_limiter_bands). Соответственно, в различных вариантах осуществления, по меньшей мере некоторые из эквивалентных параметров, заданных в стандарте USAC, не включены в битовый поток, тем самым, сокращая служебные сигналы и данные управления в битовом потоке. Типично, в тех случаях, когда параметр, заданный в стандарте ААС, имеет эквивалентный параметр, заданный в USAC, эквивалентный параметр, заданный в USAC, имеет такое же наименование, как параметр, заданный в стандарте ААС, например, масштабный коэффициент огибающей, E_Ori_gMapped. Однако, эквивалентный параметр, заданный в стандарте USAC, типично имеет другое значение, которое приспособлено скорее для обработки усовершенствованной SBR, определенной в стандарте USAC, нежели для обработки SBR, определенной в стандарте ААС.When performing an advanced form of spectrum band replication, the extended HE-AAC decoder can reuse many of the bitstream parameters already included in the SBR bitstream extension payload. Specific parameters that can be reused, for example, include the various parameters that define the frequency band summary table. These parameters include bs_start_freq (a parameter that specifies the start of the frequency summary table parameter), bs_stop_freq (a parameter that specifies the end of the frequency summary table), bs_freq_scale (a parameter that specifies the number of frequency bands per octave), and bs_alter_scale (a parameter that changes the scale frequency bands). Parameters that can be reused also include parameters that define the noise band table (bs_noise_bands) and the limit band table parameters (bs_limiter_bands). Accordingly, in various embodiments, at least some of the equivalent parameters defined in the USAC standard are not included in the bitstream, thereby reducing overhead and control data in the bitstream. Typically, in cases where an AAC-specified parameter has an equivalent USAC-specified parameter, the equivalent USAC-specified parameter has the same name as the AAC-specified parameter, for example, envelope scale factor, E _Or i _gMapped . However, the equivalent parameter specified in the USAC standard typically has a different value that is tailored to the processing of the enhanced SBR defined in the USAC standard rather than to the processing of the SBR defined in the AAC standard.

В дополнение к многочисленным параметрам, другие элементы данных также могут повторно использоваться декодером расширенного НЕ-ААС при выполнении усовершенствованной формы репликации полос спектра в соответствии с вариантами осуществления изобретения. Например, данные огибающей и данные уровня собственных шумов также могут извлекаться из данных bs_data_env (масштабных коэффициентов огибающей) и bs_noise_env (масштабных коэффициентов уровня собственных шумов) и использоваться во время усовершенствованной формы репликации полос спектра.In addition to numerous parameters, other data elements may also be reused by the extended HE-AAC decoder when performing an advanced form of spectrum band replication in accordance with embodiments of the invention. For example, envelope data and noise floor data can also be extracted from bs_data_env (envelope scale factors) and bs_noise_env (noise floor scale factors) data and used during an advanced form of spectrum band replication.

По сути, эти варианты осуществления используют конфигурационные параметры и данные огибающей, уже поддерживаемые унаследованным декодером НЕ-ААС или НЕ-ААС v2 в полезной нагрузке расширения SBR, чтобы сделать возможной усовершенствованную форму репликации полос спектра, требуя как можно меньшего количества дополнительных передаваемых данных. Метаданные изначально были приспособлены для базовой формы HFR (например, спектральной вклейки SBR), но, в соответствии с вариантами осуществления, используется для усовершенствованной формы HFR (например, гармонической транспозиции eSBR). Как обсуждено ранее, метаданные как правило представляют собой рабочие параметры (например масштабные коэффициенты огибающей, масштабные коэффициенты уровня собственных шумов, параметры время/частотной сетки, информацию о синусоидальном дополнении, переменную частоту/полосу разделения, режим обратной фильтрации, разрешение огибающей, режим сглаживания, режим частотной интерполяции). приспособленные и предназначенные для использования с базовой формой HFR (например, линейным преобразованием). Однако, эти метаданные, комбинированные с дополнительными параметрами метаданных, специфичными усовершенствованной форме HFR (например, гармонической транспозиции), могут использоваться для рациональной и эффективной обработки звуковых данных с использованием усовершенствованной формы HFR.Essentially, these embodiments use configuration parameters and envelope data already supported by a legacy HE-AAC or HE-AAC v2 decoder in the SBR extension payload to enable an advanced form of spectrum band replication while requiring as little additional transmitted data as possible. The metadata was originally tailored for a basic form of HFR (eg, spectral pasting SBR), but, in accordance with embodiments, is used for an advanced form of HFR (eg, harmonic transposition eSBR). As discussed earlier, metadata typically represents performance parameters (e.g., envelope scaling factors, noise floor scaling factors, time/frequency grid parameters, sinusoidal complement information, variable frequency/bandwidth, inverse filtering mode, envelope resolution, smoothing mode, frequency interpolation mode). adapted and intended for use with a basic form of HFR (e.g. linear transform). However, this metadata, combined with additional metadata parameters specific to the advanced form of HFR (eg, harmonic transposition), can be used to efficiently and effectively process audio data using the advanced form of HFR.

Соответственно, расширенные декодеры, которые поддерживают усовершенствованную форму репликации полос спектра, могут быть созданы очень эффективным образом, полагаясь на уже определенные элементы битового потока (например, таковые в полезной нагрузке расширения SBR) и добавляя только те параметры, которые необходимы для поддержки усовершенствованной формы репликации полос спектра (в полезной нагрузке расширения элемента заполнения). Этот признак сокращения данных в комбинации с размещением вновь добавленных параметров в зарезервированных полях данных, таких как контейнер расширения, существенно уменьшает барьеры к созданию декодера, который поддерживает усовершенствованную репликацию полос спектра, гарантируя, что битовый поток обратно совместим с унаследованным декодером, не поддерживающим усовершенствованную форму репликации полос спектра.Accordingly, extended decoders that support an advanced form of spectrum band replication can be created in a very efficient manner by relying on already defined bitstream elements (such as those in the SBR extension payload) and adding only those parameters that are necessary to support the advanced form of replication spectrum bands (in the fill element extension payload). This data reduction feature, combined with placing newly added parameters in reserved data fields such as an extension container, significantly reduces the barriers to creating a decoder that supports advanced spectrum band replication, ensuring that the bitstream is backwards compatible with a legacy decoder that does not support the advanced form. replication of spectrum bands.

- 15 044947- 15 044947

В табл. 3, номер в правом столбце указывает количество битов соответствующего параметра в левом столбце.In table 3, the number in the right column indicates the number of bits of the corresponding parameter in the left column.

В некоторых вариантах осуществления, тип объекта SBR, определенный в AAC MPEG-4, обновлен, чтобы содержать в себе средство SBR или аспекты средства усовершенствованной SBR (eSBR), что сигнализируется в элементе расширения SBR (bs_extension_id== EXTENSION_ID_ESBR).In some embodiments, the SBR object type defined in MPEG-4 AAC is updated to contain an SBR facility or aspects of an enhanced SBR facility (eSBR), as signaled in the SBR extension element (bs_extension_id==EXTENSION_ID_ESBR).

В некоторых вариантах осуществления, изобретение является способом, включающим в себя этап кодирования звуковых данных для формирования кодированного битового потока (например, битового потока AAC MPEG-4), в том числе, посредством включения метаданных eSBR в по меньшей мере один сегмент по меньшей мере одного блока кодированного битового потока и звуковых данных в по меньшей мере один другой сегмент блока. В типичных вариантах осуществления, способ включает в себя этап мультиплексирования звуковых данных с метаданными eSBR в каждом блоке кодированного битового потока. При типичном декодировании кодированного битового потока в декодере eSBR, декодер извлекает метаданные eSBR из битового потока (в том числе, посредством синтаксического разбора и демультиплексирования метаданных eSBR и звуковых данных) и использует метаданные eSBR для обработки звуковых данных, чтобы формировать поток декодированных звуковых данных.In some embodiments, the invention is a method including the step of encoding audio data to generate an encoded bitstream (e.g., an MPEG-4 AAC bitstream), including by including eSBR metadata in at least one segment of at least one block of encoded bit stream and audio data into at least one other block segment. In typical embodiments, the method includes the step of multiplexing audio data with eSBR metadata in each block of the encoded bitstream. In a typical decoding of an encoded bitstream in an eSBR decoder, the decoder extracts eSBR metadata from the bitstream (including by parsing and demultiplexing eSBR metadata and audio data) and uses the eSBR metadata to process the audio data to generate a decoded audio data stream.

Еще одним аспектом изобретения является декодер eSBR, выполненный с возможностью выполнять обработку eSBR (например, с использованием по меньшей мере одного из средств eSBR, известных как гармоническая транспозиция или предварительное выравнивание) во время декодирования кодированного звукового потока (например, битового потока AAC MPEG-4), который не включает в себя метаданные eSBR. Пример такого декодера будет описан со ссылкой на фиг. 5.Another aspect of the invention is an eSBR decoder configured to perform eSBR processing (e.g., using at least one of the eSBR features known as harmonic transposition or pre-equalization) while decoding an encoded audio stream (e.g., an AAC MPEG-4 bitstream ), which does not include eSBR metadata. An example of such a decoder will be described with reference to FIG. 5.

Декодер (400) eSBR по фиг. 5 включает в себя буферную память 201 (которая идентична памяти 201 по фиг. 3 и 4), деформатер 215 полезной нагрузки битового потока (который идентичен деформатеру 215 по фиг. 4), подсистему 202 декодирования звукового сигнала (иногда упоминаемую как каскад основного декодирования или подсистема основного декодирования, и которая идентична подсистеме 202 основного декодирования по фиг. 3), подсистему 401 формирования управляющих данных eSBR и каскад 203 обработки eSBR (который идентичен каскаду 203 по фиг. 3, соединенные как показано. К тому же, типично, декодер 400 включает в себя другие элементы обработки (не показаны).The eSBR decoder (400) of FIG. 5 includes a buffer memory 201 (which is identical to the memory 201 of FIGS. 3 and 4), a bitstream payload deformer 215 (which is identical to the deformer 215 of FIG. 4), an audio decoding subsystem 202 (sometimes referred to as the main decoding stage or main decoding subsystem, and which is identical to the main decoding subsystem 202 of FIG. 3), an eSBR control data generation subsystem 401, and an eSBR processing stage 203 (which is identical to the stage 203 of FIG. 3, connected as shown. Additionally, typically, a decoder 400 includes other processing elements (not shown).

При эксплуатации декодера 400, последовательность блоков кодированного звукового битового потока (битового потока ААС MPEG-4), принимаемого декодером 400, предъявляется из буфера 201 в деформатер 215.When operating decoder 400, a sequence of blocks of encoded audio bitstream (AAC MPEG-4 bitstream) received by decoder 400 is presented from buffer 201 to deformer 215.

Деформатер 215 присоединен и выполнен с возможностью демультиплексировать каждый блок битового потока для извлечения метаданных SBR (в том числе квантованных данных огибающей) и также типично других метаданных из него. Деформатер 215 выполнен с возможностью добавлять по меньшей мере метаданные SBR в каскад 203 обработки eSBR. Деформатер 215 также присоединен и выполнен с возможностью извлекать звуковые данные из каждого блока битового потока, и предъявлять извлеченные звуковые данные в подсистему 202 декодирования (каскад декодирования).A deformer 215 is attached and configured to demultiplex each bitstream block to extract SBR metadata (including quantized envelope data) and typically other metadata therefrom. The deformer 215 is configured to add at least SBR metadata to the eSBR processing stage 203. A deformer 215 is also attached and configured to extract audio data from each block of the bit stream, and provide the extracted audio data to a decoding subsystem 202 (decoding stage).

Подсистема 202 декодирования звука декодера 400 выполнена с возможностью декодировать звуковые данные, извлеченные деформатером 215 (такое декодирование может упоминаться как операция основного декодирования), для формирования декодированных звуковых данных и предъявлять декодированные звуковые данные в каскад 203 обработки eSBR. Декодирование выполняется в частотной области. Типично, завершающий каскад обработки в подсистеме 202 применяет преобразование из частотной области во временную область к декодированным звуковым данным частотной области, так чтобы выходными данными подсистемы были декодированные звуковые данные временной области. Каскад 203 выполнен с возможностью применять средства SBR (и средства eSBR), указанные метаданными SBR (извлеченными деформатером 215) и метаданными eSBR, сформированными в подсистеме 401, к декодированным звуковым данным (т.е. выполнять обработку SBR и eSBR над выходными данными подсистемы 202 декодирования с использованием метаданных SBR и eSBR) для формирования полностью декодированных звуковых данных, которые выводятся из декодера 400. Типично, декодер 400 включает в себя память (доступную из подсистемы 202 и каскада 203), которая хранит деформатированные звуковые данные и метаданные, выданные из деформатера 215 (и, по выбору, также подсистемы 401), а каскад 203 выполнен с возможностью осуществлять доступ к звуковым данным и метаданным по мере необходимости во время обработки SBR и eSBR. Обработка SBR в каскаде 203 может считаться последующей обработкой на выходе из подсистемы 202 основного декодирования. По выбору, декодер 400 также включает в себя подсистему завершающего повышающего микширования (которая может применять средства параметрической стереофонии (PS), определенные в стандарте ААС MPEG-4, с использованием метаданных PS, извлеченных деформатером 215), которая присоединена и выполнена с возможностью выполнять повышающее микширование над выходным сигналом каскада 203, чтобы формировать полностью декодированный подвергнутый повышающему микшированию звуковой сигнал, который выводится из APU 210.The audio decoding subsystem 202 of the decoder 400 is configured to decode the audio data extracted by the deformer 215 (such decoding may be referred to as a main decoding operation) to generate decoded audio data and provide the decoded audio data to the eSBR processing stage 203. Decoding is performed in the frequency domain. Typically, the final processing stage in subsystem 202 applies a frequency domain to time domain transform to the decoded frequency domain audio data such that the output of the subsystem is the decoded time domain audio data. Stage 203 is configured to apply SBR facilities (and eSBR facilities) indicated by SBR metadata (extracted by deformer 215) and eSBR metadata generated in subsystem 401 to the decoded audio data (i.e., perform SBR and eSBR processing on the output of subsystem 202 decoding using SBR and eSBR metadata) to generate fully decoded audio data that is output from decoder 400. Typically, decoder 400 includes memory (accessible from subsystem 202 and stage 203) that stores deformed audio data and metadata output from the deformer 215 (and optionally also subsystems 401), and stage 203 is configured to access audio data and metadata as needed during SBR and eSBR processing. The SBR processing in stage 203 may be considered a post-processing output from main decoding subsystem 202. Optionally, decoder 400 also includes a post-upmix subsystem (which may employ parametric stereo (PS) facilities defined in the MPEG-4 AAC standard using PS metadata extracted by deformer 215) that is coupled to and configured to perform up-mixing. mixing on the output of stage 203 to generate a fully decoded upmixed audio signal that is output from APU 210.

Подсистема 401 формирования управляющих данных по фиг. 5 присоединена и выполнена с возможностью выявлять по меньшей мере одно свойство кодированного звукового битового потока, подлежащего декодированию, и формировать управляющие данные eSBR (которые могут быть или включать вThe control data generation subsystem 401 of FIG. 5 is coupled and configured to detect at least one property of the encoded audio bitstream to be decoded and generate eSBR control data (which may be or include

- 16 044947 себя метаданные eSBR любого из типов, включенных в кодированные звуковые битовые потоки, в соответствии с другими вариантами осуществления изобретения) в ответ на по меньшей мере один результат этапа выявления. Управляющие данные eSBR добавляются в каскад 203, чтобы приводить в действие применение отдельных средств eSBR или комбинации средств eSBR при выявлении конкретного свойства (или комбинации свойств) битового потока и/или управлять применением таких средств eSBR. Например, для того чтобы контролировать выполнение обработки eSBR с использованием гармонической транспозиции, некоторые варианты осуществления подсистемы 401 формирования управляющих данных включали бы в себя: детектор музыки (например, упрощенный вариант традиционного детектора музыки) для установки параметра sbrPatchingMode[ch] (и предъявления установленного параметра в каскад 203) в ответ на выявление, что битовый поток является или не является указывающим музыку; детектор переходных процессов для установки параметра sbrOversamplingFlag[ch] (и предъявления установленного параметра в каскад 203) в ответ на выявление наличия или отсутствия переходных процессов в звуковом контенте, указываемом битовым потоком; и/или детектор основного тона для установки параметров sbrPitchInBinsFlag[ch] и sbrPitchInBins[ch] (и предъявления установленных параметров в каскад 203) в ответ на выявление основного тона звукового контента, указываемого битовым потоком. Другими аспектами изобретения являются способы декодирования звукового битового потока, выполняемые любым вариантом осуществления обладающего признаками изобретения декодером, описанным в этом параграфе и предыдущем параграфе.- 16 044947 eSBR metadata of any of the types included in the encoded audio bitstreams, in accordance with other embodiments of the invention) in response to at least one result of the detection step. eSBR control data is added to cascade 203 to drive the application of individual eSBRs or a combination of eSBRs when a particular property (or combination of properties) of the bitstream is detected and/or control the application of such eSBRs. For example, in order to control the execution of eSBR processing using harmonic transposition, some embodiments of the control data generation subsystem 401 would include: a music detector (e.g., a simplified version of a traditional music detector) to set the sbrPatchingMode[ch] parameter (and present the set parameter to cascade 203) in response to determining that the bitstream is or is not indicative of music; a transient detector for setting the parameter sbrOversamplingFlag[ch] (and presenting the set parameter to stage 203) in response to detecting the presence or absence of transients in the audio content indicated by the bit stream; and/or a pitch detector for setting the parameters sbrPitchInBinsFlag[ch] and sbrPitchInBins[ch] (and presenting the set parameters to stage 203) in response to detecting the pitch of the audio content indicated by the bit stream. Other aspects of the invention include methods for decoding an audio bitstream performed by any embodiment of the inventive decoder described in this paragraph and the preceding paragraph.

Аспекты изобретения включают в себя способ кодирования или декодирования типа, который любой вариант осуществления обладающих признаками изобретения APU, системы или устройства выполнен с возможностью (или запрограммирован) выполнять. Другие аспекты изобретения включают в себя систему или устройство выполненные с возможностью (например, запрограммированные) выполнять любой вариант осуществления обладающего признаками изобретения способа, и машинно-читаемый носитель (например, диск), который хранит машинную программу (например, неэфемерным образом) для реализации любого варианта осуществления обладающего признаками изобретения способа или его этапов. Например, обладающая признаками изобретения система может быть или включать в себя программируемый процессор общего применения, цифровой сигнальный процессор или микропроцессор, запрограммированный программным обеспечением или микропрограммным обеспечением и/или иным образом выполненный с возможностью выполнять любые из многообразия операций над данными, в том числе, вариант осуществления обладающего признаками изобретения способа или его этапов. Такой процессор общего применения может быть или включать в себя компьютерную систему, включающую в себя устройство ввода, память, схему обработки, запрограммированную (и/или иным образом выполненную с возможностью) выполнять вариант осуществления обладающего признаками изобретения способа (или его этапов) в ответ на данные, предъявленные ему.Aspects of the invention include a type of encoding or decoding method that any embodiment of an inventive APU, system, or device is configured (or programmed) to perform. Other aspects of the invention include a system or device configured (e.g., programmed) to perform any embodiment of an inventive method, and a machine-readable medium (e.g., a disk) that stores a computer program (e.g., in a non-ephemeral manner) for implementing any an embodiment of a method or its stages having features of the invention. For example, an inventive system may be or include a general purpose programmable processor, digital signal processor, or microprocessor programmed with software or firmware and/or otherwise configured to perform any of a variety of operations on data, including, implementation of a method or its stages that has features of an invention. Such a general purpose processor may be or include a computer system including an input device, memory, processing circuitry programmed (and/or otherwise configured) to execute an embodiment of an inventive method (or steps thereof) in response to information presented to him.

Варианты осуществления настоящего изобретения могут быть реализованы в аппаратных средствах, микропрограммном обеспечении или программном обеспечении, либо комбинацией того и другого (например, в виде программируемой логической матрицы). Если не указан иной способ действий, алгоритмы и процессы, включенные в состав в качестве части изобретения, по своей природе, не имеют отношения к какому бы то ни было конкретному компьютеру или другому устройству. В частности, различные машины общего применения могут использоваться с программами, написанными в соответствии с доктринами, приведенными в материалах настоящей заявки, или может быть более удобным сконструировать более специализированное устройство (например, интегральные схемы) для выполнения требуемых этапов способа. Таким образом, изобретение может быть реализовано в одной или более компьютерных программ, исполняющихся в одной или более программируемых компьютерных систем (например, реализации любого из элементов по фиг. 1 или кодировщика 100 по фиг. 2 (или его элемента), или декодера 200 по фиг. 3 (или его элемента), или декодера 210 по фиг. 4 (или его элемента) или декодера 400 по фиг. 5 (или его элемента)), каждая из которых содержит по меньшей мере один процессор, по меньшей мере одну систему хранения данных (в том числе, энергозависимые или энергонезависимые элементы памяти и/или запоминающие элементы), по меньшей мере одно устройство или порт ввода и по меньшей мере одно устройство или порт вывода. Управляющая программа применяется к входным данным для выполнения функций, описанных в материалах настоящей заявки, и формирует выходную информацию. Выходная информация направляется в одно или более устройств вывода известным образом.Embodiments of the present invention may be implemented in hardware, firmware, or software, or a combination of both (eg, as a programmable gate array). Unless otherwise indicated, the algorithms and processes included as part of the invention are not, by their nature, related to any particular computer or other device. In particular, various general purpose machines may be used with programs written in accordance with the teachings herein, or it may be more convenient to construct a more specialized device (eg, integrated circuits) to perform the required method steps. Thus, the invention may be implemented in one or more computer programs executing on one or more programmable computer systems (for example, implementations of any of the elements of FIG. 1 or encoder 100 of FIG. 2 (or element thereof), or decoder 200 of Fig. 3 (or element thereof), or decoder 210 of Fig. 4 (or element thereof) or decoder 400 of Fig. 5 (or element thereof)), each of which contains at least one processor, at least one system data storage (including volatile or nonvolatile memory elements and/or storage elements), at least one input device or port, and at least one output device or port. The control program is applied to the input data to perform the functions described in the materials of this application, and generates output information. The output information is sent to one or more output devices in a known manner.

Каждая такая программа может быть реализована на любом желательном компьютерном языке (включая машинные, компоновочные или высокоуровневые процедурные, логические или объектноориентированные языки программирования) для обмена информацией с компьютерной системой. В любом случае, язык может быть компилируемым или интерпретируемым языком.Each such program may be implemented in any desired computer language (including machine, layout, or high-level procedural, logical, or object-oriented programming languages) for exchanging information with the computer system. In either case, the language may be a compiled or interpreted language.

Например, когда реализуются последовательностями команд компьютерного программного обеспечения, различные функции и этапы вариантов осуществления изобретения могут реализовываться последовательностями команд многопоточного программного обеспечения, работающими на пригодных аппаратных средствах цифровой обработки сигналов, в каком случае, различные устройства, этапы и функции вариантов осуществления могут соответствовать порциям команд программного обеспечения.For example, when implemented by sequences of computer software instructions, various functions and steps of embodiments of the invention may be implemented by sequences of multi-threaded software instructions running on suitable digital signal processing hardware, in which case, various devices, steps and functions of embodiments may correspond to portions of instructions software.

- 17 044947- 17 044947

Каждая такая компьютерная программа предпочтительно хранится на или загружается на запоминающие носители или в устройство (например, твердотельную память или носители, либо магнитные или оптические носители), читаемые программируемым компьютером общего применения или специального назначения, для конфигурирования и управления компьютером, когда запоминающие носители или устройство считываются компьютерной системой, чтобы выполнять процедуры, описанные в материалах настоящей заявки. Обладающая признаками изобретения система также может быть реализована в виде машинно-читаемого запоминающего носителя, сконфигурированного компьютерной программой (т.е. хранящего компьютерную программу), где запоминающий носитель, сконфигурированный таким образом, побуждает компьютерную систему действовать конкретным и предопределенным образом для выполнения функций, описанных в материалах настоящей заявки.Each such computer program is preferably stored on or loaded onto a storage media or device (e.g., solid-state memory or media, or magnetic or optical media) readable by a general purpose or special purpose programmable computer for configuring and controlling the computer when the storage media or device read by a computer system to perform the procedures described herein. The inventive system may also be implemented as a machine-readable storage medium configured by a computer program (i.e., storing a computer program), wherein the storage medium so configured causes the computer system to act in a specific and predetermined manner to perform the functions described in the materials of this application.

Было описано некоторое количество вариантов осуществления изобретения. Тем не менее, будет понятно, что различные модификации могут быть произведены, не выходя из сущности и объема изобретения. Многие модификации и разновидности настоящего изобретения возможны в свете вышеприведенных доктрин. Например, для того чтобы содействовать эффективным реализациям, фазовые сдвиги могут использоваться в комбинацией с гребенками фильтров разложения сигнала и синтеза сигнала комплексным КЗФ. Гребенка фильтров разложения сигнала ответственна за фильтрацию сигнала в полосе низких частот временной области, сформированного основным декодером, в множество поддиапазонов (например, поддиапазонов КЗФ). Гребенка фильтров разложения сигнала ответственна за комбинирование восстановленной полосы высоких частот, созданной посредством выбранной технологии HFR (которая указана принятым параметром sbrPatchingMode), с декодированной полосой низких частот, чтобы синтезировать широкополосный выходной звуковой сигнал. Данная реализация гребенки фильтров, работающая в определенном режиме частоты выборки, например, режиме нормальной работы на удвоенной частоте или SBR с понижающей дискретизацией, однако, не должна иметь фазовых сдвигов, которые зависят от битового потока. Гребенки КЗФ, используемые в SBR являются расширением сложной экспоненциальной функции по теории гребенок фильтров с косинусоидальной модуляцией. Может быть показано, что ограничения подавления паразитных сигналов становятся устаревшими при расширении гребенки фильтров с косиносуидальной модуляцией комплексной экспоненциальной модуляцией. Таким образом, что касается гребенок из КЗФ SBR, как фильтры разложения сигнала, h_k(n), так и фильтры синтеза сигнала, f_k(n), могут быть определены посредством (я/ 1W h_k(n) = = р₀(п) exp i^ik + у η - у ζ/ξ 0<n<N;0<k< Μ ₍₁₎ где p₀(n) - вещественнозначный симметричный или несимметричный прототипный фильтр (типично, прототипный фильтр нижних частот), М обозначает количество каналов, а N - порядок прототипного фильтра. Количество каналов, используемых в гребенке фильтров разложения сигнала, может быть иным, чем количество каналов, используемых в гребенке фильтров синтеза сигнала. Например, гребенка фильтров разложения сигнала может иметь 32 канала, а гребенка фильтров синтеза сигнала может иметь 64 канала. При эксплуатации гребенки фильтров синтеза сигналов в режиме с понижающей дискретизацией, гребенка фильтров синтеза сигнала может иметь только 32 канала. Поскольку отсчеты поддиапазонов из гребенки фильтров являются комплекснозначными, ступень аддитивного возможно каналозависимого фазового сдвига может быть добавлена к гребенке фильтров разложения сигнала. Эти дополнительные фазовые сдвиги необходимо компенсировать до гребенки фильтров синтеза сигнала. Несмотря на то, что элементы фазового сдвига в принципе могут быть произвольными значениями, не нарушающими работу цепочки разложения/синтеза сигнала с помощью КЗФ, они также могут быть ограничены определенными значениями для контроля соответствия. Сигнал SBR будет находиться под влиянием выбора фазовых множителей, в то время как сигнал нижних частот, приходящий из основного декодера, не будет. Качество звука выходного сигнала не нарушается.A number of embodiments of the invention have been described. However, it will be understood that various modifications may be made without departing from the spirit and scope of the invention. Many modifications and variations of the present invention are possible in light of the above teachings. For example, in order to facilitate efficient implementations, phase shifts can be used in combination with signal decomposition and signal synthesis filter banks of the complex FQF. The signal decomposition filter bank is responsible for filtering the time domain lowband signal generated by the main decoder into a plurality of subbands (eg, FQF subbands). The signal decomposition filter bank is responsible for combining the reconstructed high-pass band created by the selected HFR technology (as indicated by the accepted sbrPatchingMode parameter) with the decoded low-pass band to synthesize a wideband audio output signal. A given filter bank implementation operating in a particular sampling rate mode, such as normal double-rate operation or SBR downsampling mode, however, must not have phase shifts that are dependent on the bitstream. The QFT combs used in SBR are an extension of the complex exponential function of cosine-modulated filter comb theory. It can be shown that the limitations of spurious signal rejection become obsolete when the cosine modulation filter bank is expanded to complex exponential modulation. Thus, with regard to SBR QF combs, both the signal decomposition filters, h _k (n), and the signal synthesis filters, f _k (n), can be defined by (i/ 1W h _k (n) = = p ₀ (n) exp i^ik + y η - y ζ/ξ 0<n<N;0<k< Μ ₍₁₎ where p ₀ (n) is a real-valued symmetrical or asymmetrical prototype filter (typically a prototype low-pass filter) , M denotes the number of channels, and N is the order of the prototype filter. The number of channels used in a signal decomposition filter bank may be different from the number of channels used in a signal synthesis filter bank. For example, a signal decomposition filter bank may have 32 channels, and the signal synthesis filter bank can have 64 channels. When operating the signal synthesis filter bank in downsampling mode, the signal synthesis filter bank can only have 32 channels. Since the subband samples from the filter bank are complex valued, an additive possibly channel-dependent phase shift stage can be added to signal decomposition filter bank. These additional phase shifts must be compensated for before the signal synthesis filter bank. Although the phase shift elements can in principle be arbitrary values without disrupting the signal decomposition/synthesis chain using FQF, they can also be limited to certain values to control compliance. The SBR signal will be influenced by the choice of phase multipliers, while the low pass signal coming from the main decoder will not. The sound quality of the output signal is not affected.

Коэффициенты прототипного фильтра, p₀(n), могут быть ограничены длиной, L в 640, как показано в табл. 4, приведенной ниже.The prototype filter coefficients, p ₀ (n), can be limited by the length, L, of 640, as shown in Table. 4 below.

- 18 044947- 18 044947

Таблица 4Table 4

η η ро (η) rho (η) η η ρο (η) ρο (η) η η ρο (η) ρο (η) 0 0 0,0000000000 0.0000000000 214 214 0,0019765601 0.0019765601 428 428 0,0117623832 0.0117623832 1 1 -0,0005525286 -0.0005525286 215 215 -0,0032086896 -0.0032086896 429 429 0,0163701258 0.0163701258 2 2 -0,0005617692 -0.0005617692 216 216 -0,0085711749 -0.0085711749 430 430 0,0207997072 0.0207997072 3 3 -0,0004947518 -0.0004947518 217 217 -0,0141288827 -0.0141288827 431 431 0,0250307561 0.0250307561 4 4 -0,0004875227 -0.0004875227 218 218 -0,0198834129 -0.0198834129 432 432 0,0290824006 0.0290824006 5 5 -0,0004893791 -0.0004893791 219 219 -0,0258227288 -0.0258227288 433 433 0,0329583930 0.0329583930 6 6 -0,0005040714 -0.0005040714 220 220 -0,0319531274 -0.0319531274 434 434 0,0366418116 0.0366418116 7 7 -0,0005226564 -0.0005226564 221 221 -0,0382776572 -0.0382776572 435 435 0,0401458278 0.0401458278 8 8 -0,0005466565 -0.0005466565 222 222 -0,0447806821 -0.0447806821 436 436 0,0434768782 0.0434768782 9 9 -0,0005677802 -0.0005677802 223 223 -0,0514804176 -0.0514804176 437 437 0,0466303305 0.0466303305 10 10 -0,0005870930 -0.0005870930 224 224 -0,0583705326 -0.0583705326 438 438 0,0495978676 0.0495978676 11 eleven -0,0006132747 -0.0006132747 225 225 -0,0654409853 -0.0654409853 439 439 0,0524093821 0.0524093821 12 12 -0,0006312493 -0.0006312493 226 226 -0,0726943300 -0.0726943300 440 440 0,0550460034 0.0550460034 13 13 -0,0006540333 -0.0006540333 227 227 -0,0801372934 -0.0801372934 441 441 0,0575152691 0.0575152691 14 14 -0,0006777690 -0.0006777690 228 228 -0,0877547536 -0.0877547536 442 442 0,0598166570 0.0598166570 15 15 -0,0006941614 -0.0006941614 229 229 -0,0955533352 -0.0955533352 443 443 0,0619602779 0.0619602779 16 16 -0,0007157736 -0.0007157736 230 230 -0,1035329531 -0.1035329531 444 444 0,0639444805 0.0639444805 17 17 -0,0007255043 -0.0007255043 231 231 -0,1116826931 -0.1116826931 445 445 0,0657690668 0.0657690668 18 18 -0,0007440941 -0.0007440941 232 232 -0,1200077984 -0.1200077984 446 446 0,0674525021 0.0674525021 19 19 -0,0007490598 -0.0007490598 233 233 -0,1285002850 -0.1285002850 447 447 0,0689664013 0.0689664013 20 20 -0,0007681371 -0.0007681371 234 234 -0,1371551761 -0.1371551761 448 448 0,0703533073 0.0703533073 21 21 -0,0007724848 -0.0007724848 235 235 -0,1459766491 -0.1459766491 449 449 0,0715826364 0.0715826364 22 22 -0,0007834332 -0.0007834332 236 236 -0,1549607071 -0.1549607071 450 450 0,0726774642 0.0726774642

- 19 044947- 19 044947

23 23 -0,0007779869 -0.0007779869 237 237 -0,1640958855 -0.1640958855 451 451 0,0736406005 0.0736406005 24 24 -0,0007803664 -0.0007803664 238 238 -0,1733808172 -0.1733808172 452 452 0,0744664394 0.0744664394 25 25 -0,0007801449 -0.0007801449 239 239 -0,1828172548 -0.1828172548 453 453 0,0751576255 0.0751576255 26 26 -0,0007757977 -0.0007757977 240 240 -0,1923966745 -0.1923966745 454 454 0,0757305756 0.0757305756 27 27 -0,0007630793 -0.0007630793 241 241 -0,2021250176 -0.2021250176 455 455 0,0761748321 0.0761748321 28 28 -0,0007530001 -0.0007530001 242 242 -0,2119735853 -0.2119735853 456 456 0,0765050718 0.0765050718 29 29 -0,0007319357 -0.0007319357 243 243 -0,2219652696 -0.2219652696 457 457 0,0767204924 0.0767204924 30 thirty -0,0007215391 -0.0007215391 244 244 -0,2320690870 -0.2320690870 458 458 0,0768230011 0.0768230011 31 31 -0,0006917937 -0.0006917937 245 245 -0,2423016884 -0.2423016884 459 459 0,0768173975 0.0768173975 32 32 -0,0006650415 -0.0006650415 246 246 -0,2526480309 -0.2526480309 460 460 0,0767093490 0.0767093490 33 33 -0,0006341594 -0.0006341594 247 247 -0,2631053299 -0.2631053299 461 461 0,0764992170 0.0764992170 34 34 -0,0005946118 -0.0005946118 248 248 -0,2736634040 -0.2736634040 462 462 0,0761992479 0.0761992479 35 35 -0,0005564576 -0.0005564576 249 249 -0,2843214189 -0.2843214189 463 463 0,0758008358 0.0758008358 36 36 -0,0005145572 -0.0005145572 250 250 -0,2950716717 -0.2950716717 464 464 0,0753137336 0.0753137336 37 37 -0,0004606325 -0.0004606325 251 251 -0,3059098575 -0.3059098575 465 465 0,0747452558 0.0747452558 38 38 -0,0004095121 -0.0004095121 252 252 -0,3168278913 -0.3168278913 466 466 0,0741003642 0.0741003642 39 39 -0,0003501175 -0.0003501175 253 253 -0,3278113727 -0.3278113727 467 467 0,0733620255 0.0733620255 40 40 -0,0002896981 -0.0002896981 254 254 -0,3388722693 -0.3388722693 468 468 0,0725682583 0.0725682583 41 41 -0,0002098337 -0.0002098337 255 255 -0,3499914122 -0.3499914122 469 469 0,0717002673 0.0717002673 42 42 -0,0001446380 -0.0001446380 256 256 0,3611589903 0.3611589903 470 470 0,0707628710 0.0707628710 43 43 -0,0000617334 -0.0000617334 257 257 0,3723795546 0.3723795546 471 471 0,0697630244 0.0697630244 44 44 0,0000134949 0.0000134949 258 258 0,3836350013 0.3836350013 472 472 0,0687043828 0.0687043828 45 45 0,0001094383 0.0001094383 259 259 0,3949211761 0.3949211761 473 473 0,0676075985 0.0676075985 46 46 0,0002043017 0.0002043017 260 260 0,4062317676 0.4062317676 474 474 0,0664367512 0.0664367512 47 47 0,0002949531 0.0002949531 261 261 0,4175696896 0.4175696896 475 475 0,0652247106 0.0652247106 48 48 0,0004026540 0.0004026540 262 262 0,4289119920 0.4289119920 476 476 0,0639715898 0.0639715898 49 49 0,0005107388 0.0005107388 263 263 0,4402553754 0.4402553754 477 477 0,0626857808 0.0626857808 50 50 0,0006239376 0.0006239376 264 264 0,4515996535 0.4515996535 478 478 0,0613455171 0.0613455171 51 51 0,0007458025 0.0007458025 265 265 0,4629308085 0.4629308085 479 479 0,0599837480 0.0599837480 52 52 0,0008608443 0.0008608443 266 266 0,4742453214 0.4742453214 480 480 0,0585915683 0.0585915683 53 53 0,0009885988 0.0009885988 267 267 0,4855253091 0.4855253091 481 481 0,0571616450 0.0571616450 54 54 0,0011250155 0.0011250155 268 268 0,4967708254 0.4967708254 482 482 0,0557173648 0.0557173648 55 55 0,0012577884 0.0012577884 269 269 0,5079817500 0.5079817500 483 483 0,0542452768 0.0542452768 56 56 0,0013902494 0.0013902494 270 270 0,5191234970 0.5191234970 484 484 0,0527630746 0.0527630746

- 20 044947- 20 044947

57 57 0,0015443219 0.0015443219 271 271 0,5302240895 0.5302240895 485 485 0,0512556155 0.0512556155 58 58 0,0016868083 0.0016868083 272 272 0,5412553448 0.5412553448 486 486 0,0497385755 0.0497385755 59 59 0,0018348265 0.0018348265 273 273 0,5522051258 0.5522051258 487 487 0,0482165720 0.0482165720 60 60 0,0019841140 0.0019841140 274 274 0,5630789140 0.5630789140 488 488 0,0466843027 0.0466843027 61 61 0,0021461583 0.0021461583 275 275 0,5738524131 0.5738524131 489 489 0,0451488405 0.0451488405 62 62 0,0023017254 0.0023017254 276 276 0,5845403235 0.5845403235 490 490 0,0436097542 0.0436097542 63 63 0,0024625616 0.0024625616 277 277 0,5951123086 0.5951123086 491 491 0,0420649094 0.0420649094 64 64 0,0026201758 0.0026201758 278 278 0,6055783538 0.6055783538 492 492 0,0405349170 0.0405349170 65 65 0,0027870464 0.0027870464 279 279 0,6159109932 0.6159109932 493 493 0,0390053679 0.0390053679 66 66 0,0029469447 0.0029469447 280 280 0,6261242695 0.6261242695 494 494 0,0374812850 0.0374812850 67 67 0,0031125420 0.0031125420 281 281 0,6361980107 0.6361980107 495 495 0,0359697560 0.0359697560 68 68 0,0032739613 0.0032739613 282 282 0,6461269695 0.6461269695 496 496 0,0344620948 0.0344620948 69 69 0,0034418874 0.0034418874 283 283 0,6559016302 0.6559016302 497 497 0,0329754081 0.0329754081 70 70 0,0036008268 0.0036008268 284 284 0,6655139880 0.6655139880 498 498 0,0315017608 0.0315017608 71 71 0,0037603922 0.0037603922 285 285 0,6749663190 0.6749663190 499 499 0,0300502657 0.0300502657 72 72 0,0039207432 0.0039207432 286 286 0,6842353293 0.6842353293 500 500 0,0286072173 0.0286072173 73 73 0,0040819753 0.0040819753 287 287 0,6933282376 0.6933282376 501 501 0,0271859429 0.0271859429 74 74 0,0042264269 0.0042264269 288 288 0,7022388719 0.7022388719 502 502 0,0257875847 0.0257875847 75 75 0,0043730719 0.0043730719 289 289 0,7109410426 0.7109410426 503 503 0,0244160992 0.0244160992 76 76 0,0045209852 0.0045209852 290 290 0,7194462634 0.7194462634 504 504 0,0230680169 0.0230680169 77 77 0,0046606460 0.0046606460 291 291 0,7277448900 0.7277448900 505 505 0,0217467550 0.0217467550 78 78 0,0047932560 0.0047932560 292 292 0,7358211758 0.7358211758 506 506 0,0204531793 0.0204531793 79 79 0,0049137603 0.0049137603 293 293 0,7436827863 0.7436827863 507 507 0,0191872431 0.0191872431 80 80 0,0050393022 0.0050393022 294 294 0,7513137456 0.7513137456 508 508 0,0179433381 0.0179433381 81 81 0,0051407353 0.0051407353 295 295 0,7587080760 0.7587080760 509 509 0,0167324712 0.0167324712 82 82 0,0052461166 0.0052461166 296 296 0,7658674865 0.7658674865 510 510 0,0155405553 0.0155405553 83 83 0,0053471681 0.0053471681 297 297 0,7727780881 0.7727780881 511 511 0,0143904666 0.0143904666 84 84 0,0054196775 0.0054196775 298 298 0,7794287519 0.7794287519 512 512 -0,0132718220 -0.0132718220 85 85 0,0054876040 0.0054876040 299 299 0,7858353120 0.7858353120 513 513 -0,0121849995 -0.0121849995 86 86 0,0055475714 0.0055475714 300 300 0,7919735841 0.7919735841 514 514 -0,0111315548 -0.0111315548 87 87 0,0055938023 0.0055938023 301 301 0,7978466413 0.7978466413 515 515 -0,0101150215 -0.0101150215 88 88 0,0056220643 0.0056220643 302 302 0,8034485751 0.8034485751 516 516 -0,0091325329 -0.0091325329 89 89 0,0056455196 0.0056455196 303 303 0,8087695004 0.8087695004 517 517 -0,0081798233 -0.0081798233 90 90 0,0056389199 0.0056389199 304 304 0,8138191270 0.8138191270 518 518 -0,0072615816 -0.0072615816

- 21 044947- 21 044947

91 91 0,0056266114 0.0056266114 305 305 0,8185776004 0.8185776004 519 519 -0,0063792293 -0.0063792293 92 92 0,0055917128 0.0055917128 306 306 0,8230419890 0.8230419890 520 520 -0,0055337211 -0.0055337211 93 93 0,0055404363 0.0055404363 307 307 0,8272275347 0.8272275347 521 521 -0,0047222596 -0.0047222596 94 94 0,0054753783 0.0054753783 308 308 0,8311038457 0.8311038457 522 522 -0,0039401124 -0.0039401124 95 95 0,0053838975 0.0053838975 309 309 0,8346937361 0.8346937361 523 523 -0,0031933778 -0.0031933778 96 96 0,0052715758 0.0052715758 310 310 0,8379717337 0.8379717337 524 524 -0,0024826723 -0.0024826723 97 97 0,0051382275 0.0051382275 311 311 0,8409541392 0.8409541392 525 525 -0,0018039472 -0.0018039472 98 98 0,0049839687 0.0049839687 312 312 0,8436238281 0.8436238281 526 526 -0,0011568135 -0.0011568135 99 99 0,0048109469 0.0048109469 313 313 0,8459818469 0.8459818469 527 527 -0,0005464280 -0.0005464280 100 100 0,0046039530 0.0046039530 314 314 0,8480315777 0.8480315777 528 528 0,0000276045 0.0000276045 101 101 0,0043801861 0.0043801861 315 315 0,8497805198 0.8497805198 529 529 0,0005832264 0.0005832264 102 102 0,0041251642 0.0041251642 316 316 0,8511971524 0.8511971524 530 530 0,0010902329 0.0010902329 103 103 0,0038456408 0.0038456408 317 317 0,8523047035 0.8523047035 531 531 0,0015784682 0.0015784682 104 104 0,0035401246 0.0035401246 318 318 0,8531020949 0.8531020949 532 532 0,0020274176 0.0020274176 105 105 0,0032091885 0.0032091885 319 319 0,8535720573 0.8535720573 533 533 0,0024508540 0.0024508540 106 106 0,0028446757 0.0028446757 320 320 0,8537385600 0.8537385600 534 534 0,0028446757 0.0028446757 107 107 0,0024508540 0.0024508540 321 321 0,8535720573 0.8535720573 535 535 0,0032091885 0.0032091885 108 108 0,0020274176 0.0020274176 322 322 0,8531020949 0.8531020949 536 536 0,0035401246 0.0035401246 109 109 0,0015784682 0.0015784682 323 323 0,8523047035 0.8523047035 537 537 0,0038456408 0.0038456408 110 110 0,0010902329 0.0010902329 324 324 0,8511971524 0.8511971524 538 538 0,0041251642 0.0041251642 111 111 0,0005832264 0.0005832264 325 325 0,8497805198 0.8497805198 539 539 0,0043801861 0.0043801861 112 112 0,0000276045 0.0000276045 326 326 0,8480315777 0.8480315777 540 540 0,0046039530 0.0046039530 113 113 -0,0005464280 -0.0005464280 327 327 0,8459818469 0.8459818469 541 541 0,0048109469 0.0048109469 114 114 -0,0011568135 -0.0011568135 328 328 0,8436238281 0.8436238281 542 542 0,0049839687 0.0049839687 115 115 -0,0018039472 -0.0018039472 329 329 0,8409541392 0.8409541392 543 543 0,0051382275 0.0051382275 116 116 -0,0024826723 -0.0024826723 330 330 0,8379717337 0.8379717337 544 544 0,0052715758 0.0052715758 117 117 -0,0031933778 -0.0031933778 331 331 0,8346937361 0.8346937361 545 545 0,0053838975 0.0053838975 118 118 -0,0039401124 -0.0039401124 332 332 0,8311038457 0.8311038457 546 546 0,0054753783 0.0054753783 119 119 -0,0047222596 -0.0047222596 333 333 0,8272275347 0.8272275347 547 547 0,0055404363 0.0055404363 120 120 -0,0055337211 -0.0055337211 334 334 0,8230419890 0.8230419890 548 548 0,0055917128 0.0055917128 121 121 -0,0063792293 -0.0063792293 335 335 0,8185776004 0.8185776004 549 549 0,0056266114 0.0056266114 122 122 -0,0072615816 -0.0072615816 336 336 0,8138191270 0.8138191270 550 550 0,0056389199 0.0056389199 123 123 -0,0081798233 -0.0081798233 337 337 0,8087695004 0.8087695004 551 551 0,0056455196 0.0056455196 124 124 -0,0091325329 -0.0091325329 338 338 0,8034485751 0.8034485751 552 552 0,0056220643 0.0056220643

- 22 044947- 22 044947

125 125 -0,0101150215 -0.0101150215 339 339 0,7978466413 0.7978466413 553 553 0,0055938023 0.0055938023 126 126 -0,0111315548 -0.0111315548 340 340 0,7919735841 0.7919735841 554 554 0,0055475714 0.0055475714 127 127 -0,0121849995 -0.0121849995 341 341 0,7858353120 0.7858353120 555 555 0,0054876040 0.0054876040 128 128 0,0132718220 0.0132718220 342 342 0,7794287519 0.7794287519 556 556 0,0054196775 0.0054196775 129 129 0,0143904666 0.0143904666 343 343 0,7727780881 0.7727780881 557 557 0,0053471681 0.0053471681 130 130 0,0155405553 0.0155405553 344 344 0,7658674865 0.7658674865 558 558 0,0052461166 0.0052461166 131 131 0,0167324712 0.0167324712 345 345 0,7587080760 0.7587080760 559 559 0,0051407353 0.0051407353 132 132 0,0179433381 0.0179433381 346 346 0,7513137456 0.7513137456 560 560 0,0050393022 0.0050393022 133 133 0,0191872431 0.0191872431 347 347 0,7436827863 0.7436827863 561 561 0,0049137603 0.0049137603 134 134 0,0204531793 0.0204531793 348 348 0,7358211758 0.7358211758 562 562 0,0047932560 0.0047932560 135 135 0,0217467550 0.0217467550 349 349 0,7277448900 0.7277448900 563 563 0,0046606460 0.0046606460 136 136 0,0230680169 0.0230680169 350 350 0,7194462634 0.7194462634 564 564 0,0045209852 0.0045209852 137 137 0,0244160992 0.0244160992 351 351 0,7109410426 0.7109410426 565 565 0,0043730719 0.0043730719 138 138 0,0257875847 0.0257875847 352 352 0,7022388719 0.7022388719 566 566 0,0042264269 0.0042264269 139 139 0,0271859429 0.0271859429 353 353 0,6933282376 0.6933282376 567 567 0,0040819753 0.0040819753 140 140 0,0286072173 0.0286072173 354 354 0,6842353293 0.6842353293 568 568 0,0039207432 0.0039207432 141 141 0,0300502657 0.0300502657 355 355 0,6749663190 0.6749663190 569 569 0,0037603922 0.0037603922 142 142 0,0315017608 0.0315017608 356 356 0,6655139880 0.6655139880 570 570 0,0036008268 0.0036008268 143 143 0,0329754081 0.0329754081 357 357 0,6559016302 0.6559016302 571 571 0,0034418874 0.0034418874 144 144 0,0344620948 0.0344620948 358 358 0,6461269695 0.6461269695 572 572 0,0032739613 0.0032739613 145 145 0,0359697560 0.0359697560 359 359 0,6361980107 0.6361980107 573 573 0,0031125420 0.0031125420 146 146 0,0374812850 0.0374812850 360 360 0,6261242695 0.6261242695 574 574 0,0029469447 0.0029469447 147 147 0,0390053679 0.0390053679 361 361 0,6159109932 0.6159109932 575 575 0,0027870464 0.0027870464 148 148 0,0405349170 0.0405349170 362 362 0,6055783538 0.6055783538 576 576 0,0026201758 0.0026201758 149 149 0,0420649094 0.0420649094 363 363 0,5951123086 0.5951123086 577 577 0,0024625616 0.0024625616 150 150 0,0436097542 0.0436097542 364 364 0,5845403235 0.5845403235 578 578 0,0023017254 0.0023017254 151 151 0,0451488405 0.0451488405 365 365 0,5738524131 0.5738524131 579 579 0,0021461583 0.0021461583 152 152 0,0466843027 0.0466843027 366 366 0,5630789140 0.5630789140 580 580 0,0019841140 0.0019841140 153 153 0,0482165720 0.0482165720 367 367 0,5522051258 0.5522051258 581 581 0,0018348265 0.0018348265 154 154 0,0497385755 0.0497385755 368 368 0,5412553448 0.5412553448 582 582 0,0016868083 0.0016868083 155 155 0,0512556155 0.0512556155 369 369 0,5302240895 0.5302240895 583 583 0,0015443219 0.0015443219 156 156 0,0527630746 0.0527630746 370 370 0,5191234970 0.5191234970 584 584 0,0013902494 0.0013902494 157 157 0,0542452768 0.0542452768 371 371 0,5079817500 0.5079817500 585 585 0,0012577884 0.0012577884 158 158 0,0557173648 0.0557173648 372 372 0,4967708254 0.4967708254 586 586 0,0011250155 0.0011250155

- 23 044947- 23 044947

159 159 0,0571616450 0.0571616450 373 373 0,4855253091 0.4855253091 587 587 0,0009885988 0.0009885988 160 160 0,0585915683 0.0585915683 374 374 0,4742453214 0.4742453214 588 588 0,0008608443 0.0008608443 161 161 0,0599837480 0.0599837480 375 375 0,4629308085 0.4629308085 589 589 0,0007458025 0.0007458025 162 162 0,0613455171 0.0613455171 376 376 0,4515996535 0.4515996535 590 590 0,0006239376 0.0006239376 163 163 0,0626857808 0.0626857808 377 377 0,4402553754 0.4402553754 591 591 0,0005107388 0.0005107388 164 164 0,0639715898 0.0639715898 378 378 0,4289119920 0.4289119920 592 592 0,0004026540 0.0004026540 165 165 0,0652247106 0.0652247106 379 379 0,4175696896 0.4175696896 593 593 0,0002949531 0.0002949531 166 166 0,0664367512 0.0664367512 380 380 0,4062317676 0.4062317676 594 594 0,0002043017 0.0002043017 167 167 0,0676075985 0.0676075985 381 381 0,3949211761 0.3949211761 595 595 0,0001094383 0.0001094383 168 168 0,0687043828 0.0687043828 382 382 0,3836350013 0.3836350013 596 596 0,0000134949 0.0000134949 169 169 0,0697630244 0.0697630244 383 383 0,3723795546 0.3723795546 597 597 -0,0000617334 -0.0000617334 170 170 0,0707628710 0.0707628710 384 384 -0,3611589903 -0.3611589903 598 598 -0,0001446380 -0.0001446380 171 171 0,0717002673 0.0717002673 385 385 -0,3499914122 -0.3499914122 599 599 -0,0002098337 -0.0002098337 172 172 0,0725682583 0.0725682583 386 386 -0,3388722693 -0.3388722693 600 600 -0,0002896981 -0.0002896981 173 173 0,0733620255 0.0733620255 387 387 -0,3278113727 -0.3278113727 601 601 -0,0003501175 -0.0003501175 174 174 0,0741003642 0.0741003642 388 388 -0,3168278913 -0.3168278913 602 602 -0,0004095121 -0.0004095121 175 175 0,0747452558 0.0747452558 389 389 -0,3059098575 -0.3059098575 603 603 -0,0004606325 -0.0004606325 176 176 0,0753137336 0.0753137336 390 390 -0,2950716717 -0.2950716717 604 604 -0,0005145572 -0.0005145572 177 177 0,0758008358 0.0758008358 391 391 -0,2843214189 -0.2843214189 605 605 -0,0005564576 -0.0005564576 178 178 0,0761992479 0.0761992479 392 392 -0,2736634040 -0.2736634040 606 606 -0,0005946118 -0.0005946118 179 179 0,0764992170 0.0764992170 393 393 -0,2631053299 -0.2631053299 607 607 -0,0006341594 -0.0006341594 180 180 0,0767093490 0.0767093490 394 394 -0,2526480309 -0.2526480309 608 608 -0,0006650415 -0.0006650415 181 181 0,0768173975 0.0768173975 395 395 -0,2423016884 -0.2423016884 609 609 -0,0006917937 -0.0006917937 182 182 0,0768230011 0.0768230011 396 396 -0,2320690870 -0.2320690870 610 610 -0,0007215391 -0.0007215391 183 183 0,0767204924 0.0767204924 397 397 -0,2219652696 -0.2219652696 611 611 -0,0007319357 -0.0007319357 184 184 0,0765050718 0.0765050718 398 398 -0,2119735853 -0.2119735853 612 612 -0,0007530001 -0.0007530001 185 185 0,0761748321 0.0761748321 399 399 -0,2021250176 -0.2021250176 613 613 -0,0007630793 -0.0007630793 186 186 0,0757305756 0.0757305756 400 400 -0,1923966745 -0.1923966745 614 614 -0,0007757977 -0.0007757977 187 187 0,0751576255 0.0751576255 401 401 -0,1828172548 -0.1828172548 615 615 -0,0007801449 -0.0007801449 188 188 0,0744664394 0.0744664394 402 402 -0,1733808172 -0.1733808172 616 616 -0,0007803664 -0.0007803664 189 189 0,0736406005 0.0736406005 403 403 -0,1640958855 -0.1640958855 617 617 -0,0007779869 -0.0007779869 190 190 0,0726774642 0.0726774642 404 404 -0,1549607071 -0.1549607071 618 618 -0,0007834332 -0.0007834332 191 191 0,0715826364 0.0715826364 405 405 -0,1459766491 -0.1459766491 619 619 -0,0007724848 -0.0007724848 192 192 0,0703533073 0.0703533073 406 406 -0,1371551761 -0.1371551761 620 620 -0,0007681371 -0.0007681371

--

Claims

193 0.0689664013 407 -0.1285002850 621 -0.0007490598

194 0.0674525021 408 -0.1200077984 622 -0.0007440941

195 0.0657690668 409 -0.1116826931 623 -0.0007255043

196 0.0639444805 410 -0.1035329531 624 -0.0007157736

197 0.0619602779 411 -0.0955533352 625 -0.0006941614

198 0.0598166570 412 -0.0877547536 626 -0.0006777690

199 0.0575152691 413 -0.0801372934 627 -0.0006540333

200 0.0550460034 414 -0.0726943300 628 -0.0006312493

201 0.0524093821 415 -0.0654409853 629 -0.0006132747

202 0.0495978676 416 -0.0583705326 630 -0.0005870930

203 0.0466303305 417 -0.0514804176 631 -0.0005677802

204 0.0434768782 418 -0.0447806821 632 -0.0005466565

205 0.0401458278 419 -0.0382776572 633 -0.0005226564

206 0.0366418116 420 -0.0319531274 634 -0.0005040714

207 0.0329583930 421 -0.0258227288 635 -0.0004893791

208 0.0290824006 422 -0.0198834129 636 -0.0004875227

209 0.0250307561 423 -0.0141288827 637 -0.0004947518

210 0.0207997072 424 -0.0085711749 638 -0.0005617692

211 0.0163701258 425 -0.0032086896 639 -0.0005525280

212 0.0117623832 426 0.0019765601

213 0.0069636862 427 0.0069636862

The prototype filter, p ₀ (n), can also be derived from the table. 4 through one or more mathematical operations such as rounding, downsampling, interpolation, or decimation.

It is understood that, within the scope of the appended claims, the invention may be practiced in a manner other than that specifically described herein. Any reference numbers contained in the following claims are for illustrative purposes only and are not to be used in any way to interpret or limit the claims.

CLAIM

1. A method for decoding an encoded audio bitstream, the method comprising the steps of receiving an encoded audio bitstream, the encoded audio bitstream including audio data representing a low frequency band portion of an audio signal;

decoding the audio data to generate a decoded audio signal in the low frequency band;

extracting high frequency reconstruction metadata from the encoded audio bitstream, the high frequency reconstruction metadata includes operating parameters for a high frequency reconstruction process that converts a number of subbands from the low frequency band portion of the audio signal to the high frequency band portion of the audio signal;

extracting from the encoded audio bit stream a parameter indicating whether or not to use a frequency domain adaptive with respect to the resampling signal;

filtering the decoded audio signal in the low frequency band with a signal decomposition filter bank to form a filtered audio signal in the low frequency band;

extracting from the encoded audio bit stream a flag indicator indicating whether linear transform or harmonic transposition should be performed on the audio data;

recovering the high-band portion of the audio signal using the filtered low-band audio signal and high-pass reconstruction metadata in accordance with the flag, and combining the filtered low-band audio signal and the reconstructed high-band portion to generate a wideband audio signal using the filter bank signal synthesis,

- 25 044947 wherein the signal decomposition filter bank includes signal decomposition filters, h _k (n), which are modulated versions of the prototype filter, p ₀ (n), according to

GL GL ( ^π ( h _k (n) = p ₀ (n) exp i— fc + - η- —

IM 2D 0 < n <A; 0 </с < M where p ₀ (n) is a real-valued symmetric or asymmetric prototype filter; M is the number of channels in the signal decomposition filter bank; and N is the order of the prototype filter, and the number of channels in the signal decomposition filter bank differs from the number of channels in the signal synthesis filter bank.

2. The method of claim 1, wherein the encoded audio bitstream also includes a padding element with an identifier indicating the start of the padding element, and padding data after the identifier, wherein the padding data includes a flag indicator.

3. The method according to claim 2, in which the identifier is a three-bit unsigned integer, transmitted most significant bit first and having the value 0x6.

4. The method of claim 2, wherein the padding data includes an extension payload, the extension payload includes spectrum band replication extension data, and the extension payload is identified by a four-bit unsigned integer, most significant bit first, having the value 1101 or 1110, and optionally wherein the spectrum band replication extension data includes an optional spectrum band replication header, spectrum band replication data after the header, a spectrum band replication extension element after the spectrum band replication data, and wherein a flag indicator is included in the extension element replication of spectrum bands.

5. The method according to any one of claims 1 to 4, wherein the high frequency reconstruction metadata includes an operating parameter selected from the group consisting of envelope scale factors, noise floor scale factors, sinusoidal complement information, time information frequency grid, crossover frequency and inverse filtering mode.

6. The method according to any one of claims 1-4, in which the prototype filter, p ₀ (n), is derived from the coefficients in the table. 4.

7. The method according to any one of claims 1-4, in which the prototype filter, p ₀ (n), is derived from the coefficients in the table. 4 through one or more mathematical operations selected from the group consisting of rounding, downsampling, interpolation, or decimation.

8. The method according to any one of claims 1 to 4, wherein the phase shift is added to the filtered low-band audio signal after filtering and compensated before combining.

9. A non-transitory machine-readable medium containing instructions that, when executed by the processor, cause the processor to execute the method of claim 1.

10. A decoder for decoding an encoded audio bitstream, the decoder includes an input interface for receiving an encoded audio bitstream, the encoded audio bitstream includes audio data representing a low frequency band portion of an audio signal;

a main decoder for decoding audio data to generate a decoded audio signal in the low frequency band;

a parser for extracting high-frequency reconstruction metadata from the encoded audio bitstream; and a parameter indicating whether or not to use the frequency domain adaptive to the resampling signal; high-frequency reconstruction metadata includes operating parameters for a high-frequency reconstruction process that converts a number of subbands from part of the low-frequency band of the audio signal into part of the high-frequency band of the audio signal;

a signal decomposition filter bank for filtering the decoded low-band audio signal to generate a filtered low-band audio signal;

a parser for extracting from the encoded audio bit stream a flag indicator indicating whether a linear transform or a harmonic transposition is to be performed on the audio data;

a high-pass reconstructor for reconstructing the high-band portion of the audio signal using the filtered low-band audio signal and high-pass reconstruction metadata in accordance with the flag; and a signal synthesis filter bank for combining the filtered audio signal in the low frequency band and the reconstructed part of the high frequency band to form a wideband audio signal,

-