EA043574B1

EA043574B1 - MULTILEVEL DECODING OF COMPRESSED REPRESENTATIONS OF SOUND OR SOUND FIELD

Info

Publication number: EA043574B1
Application number: EA202191737
Authority: EA
Inventors: Свен КОРДОН; Александр КРЮГЕР
Original assignee: Долби Интернэшнл Аб
Priority date: 2015-10-08
Filing date: 2016-10-07
Publication date: 2023-06-01

Description

Перекрестная ссылка на родственные заявкиCross reference to related applications

По настоящей заявке испрашивается приоритет согласно европейской патентной заявке №The present application claims priority under European Patent Application No.

15306590.9, поданной 8 октября 2015 г., и патентной заявке США № 62/361809, содержание которых полностью включено в настоящую заявку посредством ссылки.15306590.9, filed October 8, 2015, and US Patent Application No. 62/361809, the contents of which are incorporated herein by reference in their entirety.

Область техники, к которой относится изобретениеField of technology to which the invention relates

Настоящий документ относится к способам и устройствам для многоуровневого аудиокодирования. В частности, настоящий документ относится к способам и устройствам для многоуровневого аудиокодирования сжатых представлений звука (или звукового поля), например, представления звука (или звукового поля) системы Амбисоник высшего порядка (Higher-Order Ambisonics, HOA).This document relates to methods and apparatus for multi-layer audio coding. In particular, this document relates to methods and apparatus for layered audio encoding of compressed audio (or sound field) representations, such as Higher-Order Ambisonics (HOA) audio (or sound field) representations.

Уровень техникиState of the art

Для потокового представления звука (или звукового поля) по каналу передачи с изменяющимися по времени условиями многоуровневое кодирование является средством, чтобы адаптировать качество припятого представления звука к условиям передачи и, в частности, избежать нежелательных пропаданий сигнала.For streaming audio (or sound field) over a transmission channel with time-varying conditions, multi-level coding is a means to adapt the quality of the audio representation to the transmission conditions and, in particular, to avoid unwanted signal dropouts.

Для многоуровневого кодирования представление звука (или звукового поля) обычно подразделяется на высокоприоритетный базовый уровень относительно небольшого размера и дополнительные улучшающие уровни с убывающими приоритетами и произвольными размерами. Каждый улучшающий уровень, как обычно предполагается, содержит нарастающую информацию, чтобы дополнить все из более низких уровней для улучшения качества представления звука (или звукового поля). Величиной защиты от ошибок для передачи отдельных уровней управляют на основе их приоритета. В частности, базовому уровню предоставляется высокая защита от ошибок, которая является разумной и приемлемой вследствие ее малого размера.For layered coding, the audio (or sound field) representation is typically divided into a high-priority base layer of relatively small size and additional enhancement layers of decreasing priorities and arbitrary sizes. Each enhancement layer is generally assumed to contain incremental information to complement all of the lower layers to improve the quality of the sound presentation (or sound field). The amount of error protection for transmission of individual layers is controlled based on their priority. In particular, the base layer is provided with high error protection, which is reasonable and acceptable due to its small size.

Однако существует потребность в многоуровневых схемах кодирования для (расширенной версии) специальных типов сжатых представлений звука или звуковых полей, таких как, например, сжатые представления НОА звука или звукового поля.However, there is a need for multi-layer encoding schemes for (an extended version of) special types of compressed audio or sound field representations, such as, for example, compressed NOA audio or sound field representations.

Настоящий документ решает упомянутые выше проблемы. В частности, описаны способы и кодеры/декодеры для многоуровневого кодирования сжатых представлений звука или звукового поля описаны.This document addresses the issues mentioned above. In particular, methods and encoders/decoders for layered encoding of compressed audio or sound field representations are described.

Сущность изобретенияThe essence of the invention

В соответствии с аспектом описан способ многоуровневого кодирования сжатого представления звука или звукового поля. Сжатое представление звука может включать в себя базовое сжатое представление звука, которое включает в себя множество компонентов. Множество компонентов могут являться взаимодополняющими компонентами. Сжатое представление звука может дополнительно включать в себя базовую вспомогательную информацию для декодирования базового сжатого представления звука в базовое воссозданное представление звука или звукового поля. Сжатое представление звука может, кроме того, включать в себя улучшающую вспомогательную информацию, включающую в себя параметры для улучшения (например, расширения) базового воссозданного представления звука. Способ может включать в себя подразделение (например, группировку) множества компонентов на множество групп компонентов. Способ может дополнительно включать в себя присвоение (например, добавление) каждой из множества групп соответствующему одному из множества иерархических уровней. Присвоение может указывать соответствие между соответствующими группами и уровнями. Можно сказать, что компоненты, присвоенные соответствующему уровню, включены в этот уровень. Количество групп может соответствовать (например, быть равным) количеству уровней. Множество уровней может включать в себя базовый уровень и один или более иерархических улучшающих уровней. Множество иерархических уровней может быть упорядочено от базового уровня, через первый улучшающий уровень, второй улучшающий уровень и т.д., вплоть до общего наиболее высокого улучшающего уровня (общего наиболее высокого уровня). Способ может дополнительно включать в себя добавление базовой вспомогательной информации к базовому уровню (например, включение базовой вспомогательной информации в базовый уровень или распределение базовой вспомогательной информации базовому уровню, например, в целях передачи или хранения). Способ может дополнительно включать в себя определение множества частей улучшающей вспомогательной информации на основе улучшающей вспомогательной информации. Способ может, кроме того, включать в себя присвоение (например, добавление) каждой из множества частей улучшающей вспомогательной информации соответствующему одному из множества уровней. Каждая часть улучшающей вспомогательной информации может включать в себя параметры для улучшения воссозданного (например, восстановленного) представления звука, доступные из данных, включенных (например, присвоенных или добавленных) в соответствующий уровень и любые уровни ниже соответствующего уровня. Многоуровневое кодирование может быть выполнено в целях передачи по каналу передачи или в целях сохранения на подходящем запоминающем носителе, таком как, например, CD, DVD или Blu-ray Disc™.In accordance with an aspect, a method for layered encoding of a compressed representation of an audio or sound field is described. The compressed audio representation may include a basic compressed audio representation that includes a plurality of components. Multiple components may be complementary components. The compressed audio representation may further include basic auxiliary information for decoding the basic compressed audio representation into a basic reconstructed audio or sound field representation. The compressed audio representation may further include enhancement auxiliary information including parameters for enhancing (eg, expanding) the underlying reconstructed audio representation. The method may include subdividing (eg, grouping) a plurality of components into a plurality of component groups. The method may further include assigning (eg, adding) each of the plurality of groups to a corresponding one of the plurality of hierarchical levels. An assignment may indicate a correspondence between corresponding groups and levels. Components assigned to a corresponding level can be said to be included in that level. The number of groups may correspond (for example, be equal) to the number of levels. The plurality of levels may include a base level and one or more hierarchical enhancement levels. The plurality of hierarchical levels can be ordered from a base level, through a first enhancement level, a second enhancement level, etc., up to a common highest enhancement layer (common top level). The method may further include adding basic auxiliary information to the base layer (eg, including basic auxiliary information in the base layer or distributing the basic auxiliary information to the base layer, for example, for transmission or storage purposes). The method may further include determining a plurality of pieces of improvement auxiliary information based on the improvement auxiliary information. The method may further include assigning (eg, adding) each of the plurality of pieces of enhancement auxiliary information to a corresponding one of the plurality of levels. Each piece of enhancement auxiliary information may include parameters for enhancing the reconstructed (eg, reconstructed) audio representation available from data included (eg, assigned or added) to the corresponding layer and any layers below the corresponding layer. Multi-level encoding may be performed for purposes of transmission over a transmission channel or for storage on a suitable storage medium such as, for example, a CD, DVD or Blu-ray Disc™.

Сконфигурированный, как упомянуто выше, предложенный способ позволяет эффективно применять многоуровневое кодирование к сжатым представлениям звука, содержащим множество компонентов, а также первую и улучшающую вспомогательную информацию (например, независимую базовуюConfigured as mentioned above, the proposed method allows efficient application of multi-level coding to compressed audio representations containing multiple components as well as first and enhancement auxiliary information (e.g., independent base

- 1 043574 вспомогательную информацию и улучшающую вспомогательную информацию), имеющие изложенные выше свойства. В частности, предложенный способ гарантирует, что каждый уровень включает в себя подходящую вспомогательную информацию для восстановления воссозданного представления звука из компонентов, включенных в любые уровни вплоть до рассматриваемого уровня. При этом предполагается, что уровни вплоть до рассматриваемого уровня включают в себя, например, базовый уровень, первый улучшающий уровень, второй улучшающий уровень и т.д., вплоть до рассматриваемого уровня. Таким образом, независимо от фактического наиболее высокого применимого уровня (например, уровня ниже наиболее низкого слоя, который не был корректно принят, и, таким образом, все уровни ниже наиболее высокого применимого уровня и сам наиболее высокий применимый уровень приняты корректно), декодеру позволяется улучшить или расширить воссозданное представление звука, даже если воссозданное представление звука может отличаться от полного представления звука. В частности, независимо от фактического наиболее высокого применимого уровня, для декодера достаточно декодировать полезную нагрузку улучшающей вспомогательной информации только для единственного слоя (т.е., для наиболее высокого применимого уровня), чтобы улучшить или расширить воссозданное представление звука, которое доступно на основе всех компонентов, включенных в уровни вплоть до фактического наиболее высокого применимого уровня. Таким образом, для каждого временного интервала (например, кадра) должна быть декодирована только единственная полезная нагрузка улучшающей вспомогательной информации. С другой стороны, предложенный способ позволяет полностью использовать преимущество сокращения требуемой ширины полосы, которое может быть достигнуто при применении многоуровневого кодирования.- 1 043574 auxiliary information and improving auxiliary information) having the properties described above. In particular, the proposed method ensures that each layer includes suitable supporting information for reconstructing a reconstructed audio representation from components included in any layers up to the layer in question. It is assumed that the levels up to the considered level include, for example, a basic level, a first enhancement level, a second enhancement level, etc., up to the considered level. Thus, regardless of the actual highest applicable layer (eg, the layer below the lowest applicable layer that was not correctly received, and thus all layers below the highest applicable layer and the highest applicable layer itself being correctly received), the decoder is allowed to improve or expand the reconstructed audio representation, even though the reconstructed audio representation may differ from the complete audio representation. In particular, regardless of the actual highest applicable layer, it is sufficient for a decoder to decode the enhancement auxiliary information payload for only a single layer (i.e., the highest applicable layer) to improve or expand the reconstructed audio representation that is available based on all components included in levels up to the actual highest applicable level. Thus, for each time slot (eg, frame), only a single enhancement ancillary information payload must be decoded. On the other hand, the proposed method allows taking full advantage of the reduction in required bandwidth that can be achieved by using multi-level coding.

В вариантах осуществления компоненты базового сжатого представления звука могут соответствовать монауральным сигналам (например, транспортным сигналам или монауральным транспортным сигналам). Монауральные сигналы могут представлять либо преобладающие звуковые сигналы, либо последовательности коэффициентов представления НОА. Монауральные сигналы могут быть квантованы.In embodiments, components of the underlying compressed audio representation may correspond to monaural signals (eg, transport signals or monaural transport signals). Monaural cues can represent either predominant audio cues or sequences of NOA presentation coefficients. Monaural signals can be quantized.

В вариантах осуществления базовая вспомогательная информация может включать в себя информацию, которая определяет декодирование (например, восстановление) одного или более из множества компонентов индивидуально, независимо от других компонентов. Например, базовая вспомогательная информация может представлять вспомогательную информацию, относящуюся к индивидуальным монауральным сигналам, независимо от других монауральных сигналов. Таким образом, базовая вспомогательная информация может упоминаться как независимая базовая вспомогательная информация.In embodiments, the basic support information may include information that specifies decoding (eg, decoding) of one or more of the plurality of components individually, independently of the other components. For example, the basic auxiliary information may represent auxiliary information related to individual monaural signals, independent of other monaural signals. Thus, the basic auxiliary information may be referred to as independent basic auxiliary information.

В вариантах осуществления улучшающая вспомогательная информация может представлять улучшающую вспомогательную информацию. Улучшающая вспомогательная информация может включать в себя параметры предсказания для базового сжатого представления звука для улучшения (например, расширения) базового воссозданного представления звука, которые доступны из базового сжатого представления звука и базовой вспомогательной информации.In embodiments, the enhancement auxiliary information may represent enhancement auxiliary information. The enhancing auxiliary information may include prediction parameters for the base compressed audio representation to improve (eg, enhance) the base reconstructed audio representation that are available from the base compressed audio representation and the base auxiliary information.

В вариантах осуществления способ может дополнительно включать в себя формирование транспортного потока для передачи данных множества уровней (например, данных, присвоенных или добавленных к соответствующим уровням, или иным образом включенных в соответствующие уровни). Базовый уровень может иметь наиболее высокий приоритет передачи, и иерархические улучшающие уровни могут иметь убывающие приоритеты передачи. Таким образом, приоритет передачи может уменьшаться от базового уровня до первого улучшающего уровня, от первого улучшающего уровня до второго улучшающего уровня и т.д. Величиной защиты от ошибок для передачи данных множества уровней можно управлять в соответствии с соответствующими приоритетами передачи. Тем самым может быть обеспечено, что по меньшей мере некоторое количество более низких уровней передаются достоверно, с другой стороны, сокращая полную требуемую ширину полосы без применения чрезмерной защиты от ошибок к более высоким уровням.In embodiments, the method may further include generating a transport stream for transmitting data of multiple layers (eg, data assigned to or appended to, or otherwise included in, respective layers). The base layer may have the highest transmission priority, and hierarchical enhancement layers may have decreasing transmission priorities. Thus, the transmission priority may be decreased from the base layer to the first enhancement layer, from the first enhancement layer to the second enhancement layer, etc. The amount of error protection for data transmission of multiple layers can be controlled in accordance with the respective transmission priorities. In this way it can be ensured that at least some of the lower layers are transmitted reliably, on the other hand reducing the overall required bandwidth without applying excessive error protection to the higher layers.

В вариантах осуществления способ может дополнительно включать в себя для каждого из множества уровней формирование пакета транспортного уровня, включающего в себя данные соответствующего уровня. Например, для каждого временного интервала (например, кадра) соответствующий пакет транспортного уровня может быть сформирован для каждого из множества уровней.In embodiments, the method may further include, for each of the plurality of layers, generating a transport layer packet including data of the corresponding layer. For example, for each time slot (eg, frame), a corresponding transport layer packet may be generated for each of a plurality of layers.

В вариантах осуществления сжатое представление звука может дополнительно включать в себя дополнительную базовую вспомогательную информацию для декодирования базового сжатого представления звука в базовое воссозданное представление звука. Дополнительная базовая вспомогательная информация может включать в себя информацию, которая определяет декодирование одного или более из множества компонентов в зависимости от соответствующих других компонентов. Способ может дополнительно включать в себя выполнение декомпозиции дополнительной базовой вспомогательной информации на множество частей дополнительной базовой вспомогательной информации. Способ может, кроме того, включать в себя добавление частей дополнительной базовой вспомогательной информации к базовому уровню (например, включение части дополнительной базовой вспомогательной информации в базовый уровень или распределение частей дополнительной базовой вспомогательной информации базовому уровню, например в целях передачи или хранения). Каждая часть дополнительной базовой вспомогательной информации может быть связана с соответствующим уровнем и может включать в себя инIn embodiments, the compressed audio representation may further include additional base auxiliary information for decoding the base compressed audio representation into a base reconstructed audio representation. The additional basic support information may include information that specifies decoding of one or more of the plurality of components depending on the corresponding other components. The method may further include decomposing the additional basic auxiliary information into a plurality of pieces of the additional basic auxiliary information. The method may further include adding pieces of additional basic auxiliary information to the base layer (eg, including a piece of additional basic auxiliary information in the base layer or distributing pieces of additional basic auxiliary information to the base layer, for example, for transmission or storage purposes). Each piece of additional basic auxiliary information may be associated with a corresponding layer and may include

- 2 043574 формацию, которая определяет декодирование одного или более компонентов, присвоенных соответствующему уровню, в зависимости (только) от соответствующих других компонентов, присвоенных соответствующему уровню и любым уровням ниже соответствующего уровня. Таким образом, каждая часть дополнительной базовой вспомогательной информации определяет компоненты на соответствующем уровне, которому соответствует эта часть дополнительной базовой вспомогательной информации, независимо от любых других компонентов, присвоенных более высоким уровням, чем соответствующий уровень.- 2 043574 formation that determines the decoding of one or more components assigned to the corresponding level depending (only) on the corresponding other components assigned to the corresponding level and any levels below the corresponding level. Thus, each piece of additional basic auxiliary information defines components at the corresponding level to which that piece of additional basic auxiliary information corresponds, regardless of any other components assigned to levels higher than the corresponding level.

Сконфигурированный таким образом предложенный способ избегает фрагментации дополнительной базовой вспомогательной информации посредством добавления всех частей к базовому уровню. Другими словами, все части дополнительной базовой вспомогательной информации включены в базовый уровень. Декомпозиция дополнительной базовой вспомогательной информации гарантирует, что для каждого уровня доступна часть дополнительной базовой вспомогательной информации, что не требует знания компонентов на более высоких уровнях. Таким образом, независимо от фактического наиболее высокого применимого уровня, для декодера достаточно декодировать дополнительную базовую вспомогательную информацию, включенную в уровни вплоть до наиболее высокого применимого уровня.Configured in this way, the proposed method avoids the fragmentation of additional basic auxiliary information by adding all the parts to the base layer. In other words, all pieces of additional basic auxiliary information are included in the base layer. Decomposition of the additional basic auxiliary information ensures that a portion of the additional basic auxiliary information is available for each level, which does not require knowledge of the components at higher levels. Thus, regardless of the actual highest applicable layer, it is sufficient for the decoder to decode the additional basic auxiliary information included in the layers up to the highest applicable layer.

В вариантах осуществления дополнительная базовая вспомогательная информация может включать в себя информацию, которая определяет декодирование (например, восстановление) одного или более из множества компонентов в зависимости от других компонентов. Например, дополнительная базовая вспомогательная информация может представлять вспомогательную информацию, относящуюся к индивидуальным монауральным сигналам, в зависимости от других монауральных сигналов. Таким образом, дополнительная базовая вспомогательная информация может упоминаться как зависимая базовая вспомогательная информация.In embodiments, the additional basic auxiliary information may include information that specifies decoding (eg, decoding) of one or more of the plurality of components depending on the other components. For example, additional basic auxiliary information may represent auxiliary information related to individual monaural signals depending on other monaural signals. Thus, the additional basic auxiliary information may be referred to as dependent basic auxiliary information.

В вариантах осуществления сжатое представление звука может быть обработано для последовательных временных интервалов, например, временных интервалов равного размера. Последовательные временные интервалы могут являться кадрами. Таким образом, способ может работать на основе кадров, т.е., сжатое представление звука может быть закодировано покадрово. Сжатое представление звука может быть доступно для каждого последовательного временного интервала (например, для каждого кадра). Таким образом, операция сжатия, посредством которой было получено сжатое представление звука, может работать на основе кадров.In embodiments, the compressed audio representation may be processed for successive time slots, for example, time slots of equal size. Consecutive time slots may be frames. Thus, the method can operate on a frame-by-frame basis, ie, the compressed audio representation can be encoded frame by frame. A compressed audio representation may be available for each consecutive time interval (eg, each frame). Thus, the compression operation by which the compressed audio representation was obtained may operate on a frame-by-frame basis.

В вариантах осуществления способ может дополнительно включать в себя формирование информации конфигурации, которая указывает для каждого уровня компоненты базового сжатого представления звука, которые присвоены этому уровню. Таким образом, декодер может без затруднений осуществить доступ к информации, необходимой для декодирования, без ненужного анализа принятых полезных нагрузок данных.In embodiments, the method may further include generating configuration information that indicates, for each layer, components of the underlying compressed audio representation that are assigned to that layer. In this way, the decoder can easily access the information needed for decoding without unnecessarily analyzing the received data payloads.

В соответствии с другим аспектом описан способ многоуровневого кодирования сжатого представления звука или звукового поля. Сжатое представление звука может включать в себя базовое сжатое представление звука, которое включает в себя множество компонентов. Множество компонентов может являться взаимодополняющими компонентами. Сжатое представление звука может дополнительно включать в себя базовую вспомогательную информацию (например, независимую базовую вспомогательную информацию) и третью информацию (например, зависимую базовую вспомогательную информацию) для декодирования базового сжатого представления звука в базовое воссозданное представление звука или звукового поля. Базовая вспомогательная информация может включать в себя информацию, которая определяет декодирование одного или более из множества компонентов индивидуально, независимо от других компонентов. Дополнительная базовая вспомогательная информация может включать в себя информацию, которая определяет декодирование одного или более из множества компонентов в зависимости от соответствующих других компонентов. Способ может включать в себя подразделение (например, группировку) множества компонентов на множество групп компонентов. Способ может дополнительно включать в себя присвоение (например, добавление) каждой из множества групп соответствующему одному из множества иерархических уровней. Присвоение может указывать соответствие между соответствующими группами и уровнями. Можно сказать, что компоненты, присвоенные соответствующему уровню, включены в тот уровень. Количество групп может соответствовать (например, быть равным) количеству уровней. Множество уровней может включать в себя базовый уровень и один или более иерархических улучшающих уровней. Способ может дополнительно включать в себя добавление базовой вспомогательной информации к базовому уровню (например, включение базовой вспомогательной информации в базовый уровень или распределение базовой вспомогательной информации базовому уровню, например в целях передачи или хранения). Способ может дополнительно включать в себя выполнение декомпозиции дополнительной базовой вспомогательной информации на множество частей дополнительной базовой вспомогательной информации и добавление частей дополнительной базовой вспомогательной информации к базовому уровню (например, включение частей дополнительной базовой вспомогательной информации в базовый уровень или распределение частей дополнительной базовой вспомогательной информации базовому уровню, например, в целях передачи или хранения). Каждая часть дополнительной базовой вспомогательной информации может быть связана с соответствующимIn accordance with another aspect, a method for layered encoding of a compressed representation of an audio or sound field is described. The compressed audio representation may include a basic compressed audio representation that includes a plurality of components. The plurality of components may be complementary components. The compressed audio representation may further include base support information (eg, independent base support information) and third information (eg, dependent base support information) for decoding the base compressed audio representation into a base reconstructed audio or sound field representation. The basic support information may include information that specifies decoding of one or more of the plurality of components individually, independently of the other components. The additional basic support information may include information that specifies decoding of one or more of the plurality of components depending on the corresponding other components. The method may include subdividing (eg, grouping) a plurality of components into a plurality of component groups. The method may further include assigning (eg, adding) each of the plurality of groups to a corresponding one of the plurality of hierarchical levels. An assignment may indicate a correspondence between corresponding groups and levels. Components assigned to the corresponding level can be said to be included in that level. The number of groups may correspond (for example, be equal) to the number of levels. The plurality of levels may include a base level and one or more hierarchical enhancement levels. The method may further include adding basic auxiliary information to the base layer (eg, including the basic auxiliary information in the base layer or distributing the basic auxiliary information to the base layer, such as for transmission or storage purposes). The method may further include decomposing the additional basic auxiliary information into a plurality of additional basic auxiliary information pieces and adding the additional basic auxiliary information pieces to the base layer (e.g., including the additional basic auxiliary information pieces into the base layer or allocating the additional basic auxiliary information pieces to the base layer , for example, for transmission or storage purposes). Each piece of additional basic supporting information can be associated with a corresponding

- 3 043574 уровнем и включать в себя информацию, которая определяет декодирование одного или более компонентов, присвоенных соответствующему уровню, в зависимости от соответствующих других компонентов, присвоенных соответствующему уровню и любым уровням ниже соответствующего уровня.- 3 043574 layer and include information that specifies the decoding of one or more components assigned to the corresponding layer depending on the corresponding other components assigned to the corresponding layer and any layers below the corresponding layer.

Сконфигурированный таим образом предложенный способ гарантирует, что для каждого уровня доступна подходящая дополнительная базовая вспомогательная информация для декодирования компонентов, включенных в любой уровень вплоть до соответствующего уровня, не требуя корректного приема или декодирования (или, в целом, знания) любых более высоких уровней. В случае сжатого представления НОА предложенный способ гарантирует, что в режиме векторного кодирования подходящий Vвектор доступен для всего компонента, принадлежащего уровням вплоть до наиболее высокого применимого уровня. В частности, предложенный способ исключает случай, в котором элементы V-вектора, соответствующего компонентам на более высоких уровнях, явно не сообщены. В соответствии с этим информация, включенная в уровни вплоть до наиболее высокого применимого уровня, является достаточной для декодирования (например, восстановления) любых компонентов, принадлежащих уровням вплоть до наиболее высокого применимого уровня. Тем самым обеспечивается подходящая восстановление соответствующих воссозданных представлений НОА для более низких уровней, даже если более высокие уровни не могли быть корректно приняты декодером. С другой стороны, предложенный способ позволяет полностью использовать преимущества сокращения требуемой ширины полосы, которое может быть достигнуто при применении многоуровневого кодирования.Thus configured, the proposed method ensures that for each layer suitable additional basic auxiliary information is available to decode the components included in any layer up to the corresponding layer, without requiring correct reception or decoding (or generally knowledge) of any higher layers. In the case of a compressed HOA representation, the proposed method ensures that, in vector encoding mode, a suitable Vvector is available for all components belonging to layers up to the highest applicable layer. In particular, the proposed method eliminates the case in which the elements of the V-vector corresponding to components at higher levels are not explicitly reported. Accordingly, information included in the layers up to the highest applicable layer is sufficient to decode (eg, reconstruct) any components belonging to the layers up to the highest applicable layer. This ensures suitable recovery of the corresponding reconstructed NAA representations for lower levels, even if higher levels could not be correctly received by the decoder. On the other hand, the proposed method makes it possible to take full advantage of the reduction in required bandwidth that can be achieved by using multi-level coding.

Варианты осуществления этого аспекта могут относиться к вариантам осуществления предыдущего аспекта.Embodiments of this aspect may relate to embodiments of the previous aspect.

В соответствии с другим аспектом описан способ декодирования сжатого представления звука или звукового поля. Сжатое представление звука может быть закодировано во множестве иерархических уровней. Множество иерархических уровней может включать в себя базовый уровень и один или несколько иерархических возрастающих уровней. Множество уровней может иметь присвоенные им компоненты базового сжатого представления звука или звукового поля. Другими словами, множество уровней может включать в себя компоненты базовой сжатой вспомогательной информации. Компоненты могут быть присвоены соответствующим уровням в соответствующих группах компонентов. Множество компонентов могут являться взаимодополняющими компонентами. Базовый уровень может включать в себя базовую вспомогательную информацию для декодирования базового сжатого представления звука. Каждый уровень может включать в себя часть улучшающей вспомогательной информации, включающую в себя параметры для улучшения базового воссозданного представления звука, доступные из данных, включенных в соответствующий уровень и любые уровни ниже соответствующего уровня. Способ может включать в себя прием полезных нагрузок данных, соответственно связанных с множеством иерархических уровней. Способ может дополнительно включать в себя определение первого индекса уровня, указывающего наиболее высокий применимый уровень среди множества уровней для использования для декодирования базового сжатого представления звука в базовое воссозданное представление звука или звукового поля. Способ может дополнительно включать в себя получение базового воссозданного представления звука из компонентов, присвоенных наиболее высокому применимому уровню и любым уровням ниже наиболее высокого применимого уровня, с использованием базовой вспомогательной информации. Способ может дополнительно включать в себя определение второго индекса уровня, который указывает, какая часть улучшающей вспомогательной информации должна использоваться для улучшения (например, расширения) базового воссозданного представления звука. Способ, кроме того, может включать в себя получение воссозданного представления звука или звукового поля из базового воссозданного представления звука со ссылкой на второй индекс уровня.In accordance with another aspect, a method for decoding a compressed representation of an audio or sound field is described. The compressed representation of sound can be encoded at multiple hierarchical levels. The plurality of hierarchical levels may include a base level and one or more hierarchical incremental levels. The plurality of layers may have components of a basic compressed audio representation or sound field assigned to them. In other words, the plurality of layers may include components of the underlying compressed auxiliary information. Components can be assigned to the corresponding levels in the corresponding component groups. Multiple components may be complementary components. The base layer may include basic auxiliary information for decoding the underlying compressed audio representation. Each layer may include a portion of enhancement auxiliary information including parameters for enhancing the underlying rendered audio representation available from data included in the corresponding layer and any layers below the corresponding layer. The method may include receiving data payloads respectively associated with a plurality of hierarchical levels. The method may further include determining a first layer index indicating the highest usable layer among the plurality of layers to be used for decoding the base compressed audio representation into the base reconstructed audio or sound field representation. The method may further include obtaining a base reconstructed audio representation from components assigned to the highest applicable layer and any layers below the highest applicable layer using the base auxiliary information. The method may further include determining a second level index that indicates how much of the enhancement auxiliary information should be used to improve (eg, enhance) the underlying reconstructed audio representation. The method may further include obtaining a reconstructed audio or sound field representation from the base reconstructed audio representation with reference to a second level index.

Сконфигурированный таким образом предложенный способ гарантирует, что воссозданное представление звука имеет оптимальное качество с использованием доступной (например, корректно принятой) информации в наилучшей возможной степени.Configured in this manner, the proposed method ensures that the reconstructed audio representation is of optimal quality using available (eg, correctly received) information to the best extent possible.

В вариантах осуществления компоненты базового сжатого представления звука могут соответствовать монауральным сигналам (например, монауральным транспортным сигналам). Монауральные сигналы могут представлять либо преобладающие звуковые сигналы, либо последовательности коэффициентов представления НОА. Монауральные сигналы могут быть квантованы.In embodiments, components of the underlying compressed audio representation may correspond to monaural signals (eg, monaural transport signals). Monaural cues can represent either predominant audio cues or sequences of NOA presentation coefficients. Monaural signals can be quantized.

- 4 043574- 4 043574

В вариантах осуществления способ может дополнительно включать в себя определение для каждого уровня, был ли соответствующий уровень принят корректно. Способ может дополнительно включать в себя определение первого индекса уровня как индекса того уровня, который находится непосредственно ниже наиболее низкого уровня, который не был принят корректно.In embodiments, the method may further include determining for each layer whether the corresponding layer was received correctly. The method may further include defining the first level index as the index of that level that is immediately below the lowest level that was not received correctly.

В вариантах осуществления определение второго индекса уровня может включать в себя либо определение второго индекса уровня как равного первому индексу уровня, либо определению значения индекса в качестве второго индекса уровня, которое указывает, что не следует использовать какую-либо улучшающую вспомогательную информацию при получении воссозданного представления звука. В последнем случае воссозданное представление звука может быть эквивалентно базовому воссозданному представлению звука.In embodiments, determining the second level index may include either determining the second level index to be equal to the first level index, or determining an index value to be the second level index that indicates that no enhancement auxiliary information should be used in obtaining the reconstructed audio representation. . In the latter case, the reconstructed sound representation may be equivalent to the base reconstructed sound representation.

В вариантах осуществления полезные нагрузки данных могут быть приняты и обработаны для последовательных временных интервалов, например временных интервалов равного размера. Последовательные временные интервалы могут являться кадрами. Таким образом, способ может работать на основе кадров. Способ может дополнительно включать в себя определение второго индекса уровня как равного первому индексу уровня, если сжатые представления звука для последовательных временных интервалов могут быть декодированы независимо друг от друга.In embodiments, data payloads may be received and processed for successive time slots, such as time slots of equal size. Consecutive time slots may be frames. Thus, the method can operate on a frame-by-frame basis. The method may further include determining the second level index to be equal to the first level index if the compressed audio representations for successive time intervals can be decoded independently of each other.

В вариантах осуществления полезные нагрузки данных могут быть приняты и обработаны для последовательных временных интервалов, например, временных интервалов равного размера. Последовательные временные интервалы могут являться кадрами. Таким образом, способ может работать на основе кадров. Способ может дополнительно включать в себя для данного временного интервала среди последовательных временных интервалов определение для каждого уровня, был ли соответствующий уровень принят корректно, если сжатые представления звука для последовательных временных интервалов не могут быть декодированы независимо друг от друга. Способ может дополнительно включать в себя определение первого индекса уровня для данного временного интервала как меньшего индекса из первого индекса уровня временного интервала, предшествующего данному временному интервалу, и индекса уровня, находящегося непосредственно ниже наиболее низкого уровня, который не был принят корректно.In embodiments, data payloads may be received and processed for successive time slots, eg, time slots of equal size. Consecutive time slots may be frames. Thus, the method can operate on a frame-by-frame basis. The method may further include, for a given time slot among successive time slots, determining for each layer whether the corresponding layer was received correctly if the compressed audio representations for successive time slots cannot be decoded independently of each other. The method may further include determining the first level index for a given time interval to be the lesser index of the first level index of a time interval preceding the given time interval and the level index immediately below the lowest level that was not received correctly.

В вариантах осуществления способ может дополнительно включать в себя для данного временного интервала определение, равен ли первый индекс уровня для данного временного интервала первому индексу уровня для предыдущего временного интервала, если сжатые представления звука для последовательных временных интервалов не могут быть декодированы независимо друг от друга. Способ может дополнительно включать в себя определение, что второй индекс уровня для данного временного интервала равен первому индексу уровня для данного временного интервала, если первый индекс уровня для данного временного интервала равен первому индексу уровня для предыдущего временного интервала. Способ может дополнительно включать в себя определение значения индекса в качестве второго индекса уровня, которое указывает, что не следует использовать какую-либо улучшающую вспомогательную информацию при получении воссозданного представления звука, если первый индекс уровня для данного временного интервала не равен первому индексу уровня для предыдущего временного интервала.In embodiments, the method may further include, for a given time slot, determining whether the first level index for a given time slot is equal to the first level index for a previous time slot if the compressed audio representations for successive time slots cannot be decoded independently of each other. The method may further include determining that the second level index for a given time interval is equal to the first level index for a given time interval if the first level index for a given time interval is equal to the first level index for a previous time interval. The method may further include defining an index value as a second level index that indicates that no enhancement auxiliary information should be used in obtaining a reconstructed audio representation if the first level index for a given time interval is not equal to the first level index for a previous time interval. interval.

В вариантах осуществления базовый уровень может включать в себя по меньшей мере одну часть дополнительной базовой вспомогательной информации, связанную с соответствующим уровнем и включающую в себя информацию, которая определяет декодирование одного или более компонентов среди компонентов, присвоенных соответствующему уровню, в зависимости от других компонентов, присвоенных соответствующему уровню и любым уровням ниже соответствующего уровня. Способ может дополнительно включать в себя для каждой части дополнительной базовой вспомогательной информации декодирование части дополнительной базовой вспомогательной информации посредством ссылки на компоненты, присвоенные ее соответствующему уровню и любым уровням ниже соответствующего уровня. Способ может дополнительно включать в себя коррекцию части дополнительной базовой вспомогательной информации посредством ссылки на компоненты, присвоенные наиболее высокому применимому уровню и любым уровням между наиболее высоким применимым уровнем и соответствующим уровнем. Базовое воссозданное представление звука может быть получено из компонентов, присвоенных наиболее высокому применимому уровню и любым уровням ниже наиболее высокого применимого уровня, с использованием базовой вспомогательной информации и скорректированной части дополнительной базовой вспомогательной информации, полученной из частей дополнительной базовой вспомогательной информации, соответствующих уровням вплоть до наиболее высокого применимого уровня.In embodiments, a base layer may include at least one piece of additional base auxiliary information associated with a corresponding layer and including information that specifies the decoding of one or more components among components assigned to the corresponding layer depending on other components assigned the appropriate level and any levels below the appropriate level. The method may further include, for each piece of additional basic auxiliary information, decoding the portion of the additional basic auxiliary information by reference to components assigned to its corresponding layer and any layers below the corresponding layer. The method may further include updating a portion of the additional basic auxiliary information by reference to components assigned to the highest applicable level and any levels between the highest applicable level and the corresponding level. The basic reconstructed audio representation may be obtained from the components assigned to the highest applicable level and any levels below the highest applicable level, using the basic auxiliary information and an adjusted portion of the additional basic auxiliary information obtained from the portions of the additional basic auxiliary information corresponding to the levels up to the most high applicable level.

В соответствии с другим аспектом описан способ декодирования сжатого представления звука илиIn accordance with another aspect, a method for decoding a compressed representation of audio or

- 5 043574 звукового поля. Сжатое представление звука может быть закодировано во множестве иерархических уровней. Множество иерархических уровней может включать в себя базовый уровень и один или несколько иерархических возрастающих уровней. Множество уровней может иметь присвоенные им компоненты базового сжатого представления звука или звукового поля. Другими словами, множество уровней может включать в себя компоненты базовой сжатой вспомогательной информации. Компоненты могут быть присвоены соответствующим уровням в соответствующих группах компонентов. Множество компонентов могут являться взаимодополняющими компонентами. Базовый уровень может включать в себя базовую вспомогательную информацию для декодирования базового сжатого представления звука. Базовый уровень может дополнительно включать в себя по меньшей мере одну часть дополнительной базовой вспомогательной информации, связанную с соответствующим уровнем и включающую в себя информацию, которая определяет декодирование одного или более компонентов среди компонентов, присвоенных соответствующему уровню в зависимости от других компонентов, присвоенных соответствующему уровню и любым уровням ниже соответствующего уровня. Способ может включать в себя прием полезных нагрузок данных, соответственно связанных с множеством иерархических уровней. Способ может дополнительно включать в себя определение первого индекса уровня, указывающего наиболее высокий применимый уровень среди множества уровней для использования для декодирования базового сжатого представления звука в базовое воссозданное представление звука или звукового поля. Способ может дополнительно включать в себя для каждой части дополнительной базовой вспомогательной информации декодирование части дополнительной базовой вспомогательной информации посредством ссылки на компоненты, присвоенные ее соответствующему уровню и любым уровням ниже соответствующего уровня. Способ может дополнительно включать в себя для каждой части дополнительной базовой вспомогательной информации коррекцию части дополнительной базовой вспомогательной информации посредством ссылки на компоненты, присвоенные наиболее высокому применимому уровню и любым уровням между наиболее высоким применимым уровнем и соответствующим уровнем. Базовое воссозданное представление звука может быть получено из компонентов, присвоенных наиболее высокому применимому уровню и любым уровням ниже наиболее высокого применимого уровня, с использованием базовой вспомогательной информации и скорректированной части дополнительной базовой вспомогательной информации, полученной из частей дополнительной базовой вспомогательной информации, соответствующих уровням вплоть до наиболее высокого применимого уровня. Способ может дополнительно содержать определение второго индекса уровня, который либо равен первому индексу уровня, либо указывает опущение улучшающей вспомогательной информации во время декодирования.- 5 043574 sound field. The compressed representation of sound can be encoded at multiple hierarchical levels. The plurality of hierarchical levels may include a base level and one or more hierarchical incremental levels. The plurality of layers may have components of a basic compressed audio representation or sound field assigned to them. In other words, the plurality of layers may include components of the underlying compressed auxiliary information. Components can be assigned to the corresponding levels in the corresponding component groups. Multiple components may be complementary components. The base layer may include basic auxiliary information for decoding the underlying compressed audio representation. The base layer may further include at least one piece of additional base auxiliary information associated with the corresponding layer and including information that specifies the decoding of one or more components among the components assigned to the corresponding layer depending on the other components assigned to the corresponding layer and any levels below the appropriate level. The method may include receiving data payloads respectively associated with a plurality of hierarchical levels. The method may further include determining a first layer index indicating the highest usable layer among the plurality of layers to be used for decoding the base compressed audio representation into the base reconstructed audio or sound field representation. The method may further include, for each piece of additional basic auxiliary information, decoding the portion of the additional basic auxiliary information by reference to components assigned to its corresponding layer and any layers below the corresponding layer. The method may further include, for each piece of additional basic auxiliary information, updating the portion of the additional basic auxiliary information by reference to components assigned to the highest applicable level and any levels between the highest applicable level and the corresponding level. The basic reconstructed audio representation may be obtained from the components assigned to the highest applicable level and any levels below the highest applicable level, using the basic auxiliary information and an adjusted portion of the additional basic auxiliary information obtained from the portions of the additional basic auxiliary information corresponding to the levels up to the most high applicable level. The method may further comprise defining a second layer index that is either equal to the first layer index or indicates omission of enhancement auxiliary information during decoding.

Сконфигурированный таким образом предложенный способ гарантирует, что дополнительная базовая вспомогательная информация, которая в конечном счете используется для декодирования базового сжатого представления звука, не включает в себя избыточные элементы, тем самым реализуя более эффективное фактическое декодирование базового сжатого представления звука.Configured in this way, the proposed method ensures that the additional core auxiliary information that is ultimately used to decode the base compressed audio representation does not include redundant elements, thereby realizing more efficient actual decoding of the base compressed audio representation.

В соответствии с другим аспектом описан кодер для многоуровневого кодирования сжатого представления звука или звукового поля. Сжатое представление звука может включать в себя базовое сжатое представление звука, которое включает в себя множество компонентов. Множество компонентов могут являться взаимодополняющими компонентами. Сжатое представление звука может дополнительно включать в себя базовую вспомогательную информацию для декодирования базового сжатого представления звука в базовое воссозданное представление звука или звукового поля. Сжатое представление звука может, кроме того, включать в себя улучшающую вспомогательную информацию, включающую в себя параметры для улучшения (например, расширения) базового воссозданного представления звука. Кодер может включать в себя процессор, выполненный с возможностью выполнять некоторые или все этапы способов в соответствии с первым упомянутым выше аспектом и вторым упомянутым выше аспектом.In accordance with another aspect, an encoder is described for layered encoding of a compressed representation of an audio or sound field. The compressed audio representation may include a basic compressed audio representation that includes a plurality of components. Multiple components may be complementary components. The compressed audio representation may further include basic auxiliary information for decoding the basic compressed audio representation into a basic reconstructed audio or sound field representation. The compressed audio representation may further include enhancement auxiliary information including parameters for enhancing (eg, expanding) the underlying reconstructed audio representation. The encoder may include a processor configured to perform some or all of the steps of the methods in accordance with the first aspect mentioned above and the second aspect mentioned above.

В соответствии с другим аспектом описан декодер для декодирования сжатого представления звука или звукового поля. Сжатое представление звука может быть закодировано во множестве иерархических уровней. Множество иерархических уровней может включать в себя базовый уровень и один или несколько иерархических возрастающих уровней. Множество уровней может иметь присвоенные им компоненты базового сжатого представления звука или звукового поля. Другими словами, множество уровней может включать в себя компоненты базовой сжатой вспомогательной информации. Компоненты могут быть присвоены соответствующим уровням в соответствующих группах компонентов. Множество компонентов могут являться взаимодополняющими компонентами. Базовый уровень может включать в себя базовую вспомогательную информацию для декодирования базового сжатого представления звука. Каждый уровень может включать в себя часть улучшающей вспомогательной информации, включающей в себя параметры для улучшения (например, расширения) базового воссозданного представления звука, доступные из данных, включенных в соответствующий уровень и любые уровни ниже соответствующего уровня. Декодер может включать в себя процессор, выполненный с возможностью выполнять некоторые или все этапы способов в соответствии с третьим упомянутым выше аспектом и четвертым упомянутымIn accordance with another aspect, a decoder for decoding a compressed representation of an audio or sound field is described. The compressed representation of sound can be encoded at multiple hierarchical levels. The plurality of hierarchical levels may include a base level and one or more hierarchical incremental levels. The plurality of layers may have components of a basic compressed audio representation or sound field assigned to them. In other words, the plurality of layers may include components of the underlying compressed auxiliary information. Components can be assigned to the corresponding levels in the corresponding component groups. Multiple components may be complementary components. The base layer may include basic auxiliary information for decoding the underlying compressed audio representation. Each layer may include a portion of enhancement auxiliary information including parameters for enhancing (eg, enhancing) the underlying rendered audio representation available from the data included in the corresponding layer and any layers below the corresponding layer. The decoder may include a processor configured to perform some or all of the steps of the methods in accordance with the third aspect mentioned above and the fourth aspect mentioned

- 6 043574 выше аспектом.- 6 043574 higher aspect.

В соответствии с другими аспектами способы, устройства и системы направлены на декодирование сжатого представления Higher Order Ambisonics (HOA) звука или звукового поля (пространственного звука или звукового поля высшего порядка). Устройство может иметь приемник, выполненный с возможностью принимать, или способ может принимать битовый поток, содержащий сжатое представление НОА, соответствующее множеству иерархических уровней, которые включают в себя базовый уровень и один или более иерархических улучшающих уровней. Множество уровней имеют присвоенные им компоненты базового сжатого представления звука или звукового поля, компоненты присвоены соответствующим уровням в соответствующих группах компонентов. Устройство может иметь декодер, выполненный с возможностью декодировать, или способ может декодировать сжатое представление НОА на основе базовой вспомогательной информации, которая связана с базовым уровнем, и на основе улучшающей вспомогательной информации, которая связана с одним или более иерархическими улучшающими уровнями. Базовая вспомогательная информация может включать в себя базовую независимую вспомогательную информацию, относящуюся к первым индивидуальным монауральным сигналам, которые будут декодироваться независимо от других монауральных сигналов. Каждый из одного или более иерархических улучшающих уровней может включать в себя часть улучшающей вспомогательной информации, включающей в себя параметры для улучшения базового воссозданного представления звука, доступные из данных, включенных в соответствующие уровни и любые уровни ниже соответствующего уровня.In accordance with other aspects, methods, devices and systems are directed to decoding a compressed Higher Order Ambisonics (HOA) representation of a sound or sound field (spatial sound or higher order sound field). The device may have a receiver configured to receive, or a method may receive, a bit stream containing a compressed representation of the HOA corresponding to a plurality of hierarchical levels that include a base level and one or more hierarchical enhancement levels. The plurality of layers have components of a basic compressed sound representation or sound field assigned to them, the components being assigned to corresponding layers in respective component groups. The apparatus may have a decoder configured to decode, or a method may decode, a compressed representation of the NLA based on basic auxiliary information that is associated with the base layer and based on enhancement auxiliary information that is associated with one or more hierarchical enhancement layers. The basic auxiliary information may include basic independent auxiliary information related to the first individual monaural signals that will be decoded independently of other monaural signals. Each of the one or more hierarchical enhancement layers may include a portion of enhancement auxiliary information including parameters for enhancing the underlying rendered audio representation available from the data included in the respective layers and any layers below the corresponding layer.

Базовая независимая вспомогательная информация может указывать, что первые индивидуальные монауральные сигналы представляют направленный сигнал с направлением падения. Базовая вспомогательная информация может дополнительно включать в себя базовую зависимую вспомогательную информацию, относящуюся ко вторым индивидуальным монауральным сигналам, которые будут декодироваться зависимо от других монауральных сигналов. Базовая зависимая вспомогательная информация может включать в себя основанные на векторах сигналы, которые распределены по направлениям в звуковом поле, причем распределение по направлениям определено посредством вектора. Компоненты вектора установлены равными нулю и не являются частью сжатого векторного представления.Basic independent supporting information may indicate that the first individual monaural signals represent a directional signal with a falling direction. The basic auxiliary information may further include basic dependent auxiliary information related to the second individual monaural signals that will be decoded dependently on the other monaural signals. The basic dependent auxiliary information may include vector-based signals that are distributed along directions in the sound field, the direction distribution being defined by a vector. The vector components are set to zero and are not part of the compressed vector representation.

Компоненты базового сжатого представления звука могут соответствовать монауральным сигналам, которые представляют либо преобладающие звуковые сигналы, либо последовательности коэффициентов представления НОА. Битовый поток включает в себя полезные нагрузки данных, соответственно связанные с множеством иерархических уровней. Улучшающая вспомогательная информация может включать в себя параметры, относящиеся по меньшей мере к одному из перечисленного: пространственное предсказание, синтез направленных подполосных сигналов и параметрическое дублирование звукового окружения. Улучшающая вспомогательная информация может включать в себя информацию, которая делает возможным предсказание недостающих частей звука или звукового поля на основе направленных сигналов. Может быть дополнительно определено для каждого уровня, был ли соответствующий уровень принят корректно, и индекс уровня, который находится непосредственно ниже наиболее низкого уровня, который не был принят корректно.Components of the underlying compressed sound representation may correspond to monaural cues that represent either predominant audio cues or sequences of NOA representation coefficients. The bit stream includes data payloads correspondingly associated with multiple hierarchical levels. The enhancing auxiliary information may include parameters related to at least one of spatial prediction, directional subband signal synthesis, and parametric surround duplication. The enhancement auxiliary information may include information that makes it possible to predict missing parts of the sound or sound field based on the directional signals. It may be further determined for each level whether the corresponding level was received correctly, and the index of the level that is immediately below the lowest level that was not received correctly.

В соответствии с другим аспектом описана программа. Программа может быть адаптирована для исполнения на процессоре и для выполнения некоторых или всех этапов способа, изложенных в настоящем документе, при ее исполнении на вычислительном устройстве.In accordance with another aspect, a program is described. The program may be adapted to be executed on a processor and to perform some or all of the steps of the method set forth herein when executed on a computing device.

В соответствии с еще одним аспектом описан запоминающий носитель. Запоминающий носитель может содержать программу, адаптированную для исполнения на процессоре и для выполнения некоторых или всех этапов способа, изложенных в настоящем документе, при ее исполнении на вычислительном устройстве.In accordance with yet another aspect, a storage medium is described. The storage medium may comprise a program adapted to be executed on a processor and to perform some or all of the steps of the method set forth herein when executed on a computing device.

Утверждения, сделанные в отношении любого из упомянутых выше аспектов или их вариантов осуществления, также относятся к соответствующим другим аспектам или их вариантам осуществления, как поймет специалист в области техники. Повторение этих утверждений для каждого аспекта или варианта осуществления было опущено для краткости.Statements made with respect to any of the above-mentioned aspects or embodiments thereof also apply to corresponding other aspects or embodiments thereof, as one skilled in the art will appreciate. Repetition of these statements for each aspect or embodiment has been omitted for brevity.

Способы и устройства, включающие в себя предпочтительные варианты осуществления, изложенные в настоящем документе, могут использоваться автономно или в сочетании с другими способами и системами, раскрытыми в этом документе. Кроме того, все аспекты способов и устройств, изложенные в настоящем документе, могут быть произвольным образом объединены. В частности, признаки пунктов формулы изобретения могут быть объединены друг с другом произвольным образом.The methods and devices, including the preferred embodiments set forth herein, may be used alone or in combination with other methods and systems disclosed herein. In addition, all aspects of the methods and devices set forth herein may be combined in any manner. In particular, the features of the claims can be combined with each other in any way.

Этапы способов и признаки устройств могут являться взаимозаменяемыми различным образом. В частности, подробности раскрытого способа могут быть реализованы как устройство, выполненное с возможностью исполнять некоторые или все этапы способа, и наоборот, как поймет специалист в области техники.Method steps and device features may be interchanged in various ways. In particular, the details of the disclosed method may be implemented as a device configured to perform some or all of the steps of the method, and vice versa, as one skilled in the art will understand.

Краткое описание чертежейBrief description of drawings

Изобретение разъяснено ниже иллюстративным образом со ссылкой на прилагаемые фигуры.The invention is explained below in an illustrative manner with reference to the accompanying figures.

Фиг. 1 - блок-схема последовательности этапов, иллюстрирующая пример способа многоуровневого кодирования в соответствии с вариантами осуществления раскрытия;Fig. 1 is a flowchart illustrating an example of a layered encoding method in accordance with embodiments of the disclosure;

- 7 043574 фиг. 2 - блок-схема, схематично иллюстрирующая пример стадии кодера в соответствии с вариантами осуществления раскрытия;- 7 043574 fig. 2 is a block diagram schematically illustrating an example of an encoder stage in accordance with embodiments of the disclosure;

фиг. 3 - блок-схема последовательности этапов, иллюстрирующая пример способа декодирования сжатого представления звука или звукового поля, который был закодирован в множестве иерархических уровней, в соответствии с вариантами осуществления раскрытия;fig. 3 is a flowchart illustrating an example of a method for decoding a compressed representation of a sound or sound field that has been encoded in a plurality of hierarchical levels, in accordance with embodiments of the disclosure;

фиг. 4А и 4В - блок-схемы, схематично иллюстрирующие примеры стадии декодера, в соответствии с вариантами осуществления раскрытия;fig. 4A and 4B are block diagrams schematically illustrating examples of a decoder stage, in accordance with embodiments of the disclosure;

фиг. 5 - блок-схема, схематично иллюстрирующая пример аппаратной реализации кодера в соответствии с вариантами осуществления раскрытия; и фиг. 6 - блок-схема, схематично иллюстрирующая пример аппаратной реализации декодера в соответствии с вариантами осуществления раскрытия.fig. 5 is a block diagram schematically illustrating an example of a hardware implementation of an encoder in accordance with embodiments of the disclosure; and fig. 6 is a block diagram schematically illustrating an example of a hardware implementation of a decoder in accordance with embodiments of the disclosure.

Осуществление изобретенияCarrying out the invention

Сначала будет описано сжатое представление звука (или звукового поля) (далее для краткости называемое сжатым представлением звука), к которому применимы способы и кодеры/декодеры в соответствии с настоящим раскрытием. В целом полное сжатое представление звука (или звукового поля) (далее для краткости называемое полным сжатым представлением звука) может содержать три следующих компонента (например, состоять из них): базовое сжатое представление звука (или звукового поля) (далее для краткости называемое базовым сжатым представлением звука), базовую вспомогательную информацию и улучшающую вспомогательную информацию.First, a compressed audio (or sound field) representation (hereinafter referred to as a compressed audio representation for brevity) to which the methods and encoders/decoders of the present disclosure are applicable will be described. In general, a complete compressed sound (or sound field) representation (hereinafter referred to as a full compressed sound representation for brevity) may contain (e.g., consist of) the following three components: a base compressed sound (or sound field) representation (hereinafter referred to as a base compressed representation for brevity). sound representation), basic auxiliary information and enhancement auxiliary information.

Само базовое сжатое представление звука содержит несколько компонентов (например, состоит из них) (например, взаимодополняющих компонентов). Базовое сжатое представление звука может принимать во внимание определенно наибольший процент полного сжатого представления звука. Базовое сжатое представление звука может состоять из монауральных транспортных сигналов, представляющих либо преобладающие звуковые сигналы, либо последовательности коэффициентов первоначального представления НОА.The basic compressed audio representation itself contains (eg, consists of) multiple components (eg, complementary components). The basic compressed audio representation can take into account by far the largest percentage of the overall compressed audio representation. The basic compressed sound representation may consist of monaural transport signals representing either the predominant sound signals or a sequence of coefficients of the original PLA representation.

Базовая вспомогательная информация нужна для декодирования базового сжатого представления звука и, как предполагается, имеет намного меньший размер по сравнению с базовым сжатым представлением звука. Это может быть сделано вплоть до ее наибольшей части несвязных частей, каждая из которых определяет восстановление только одного конкретного компонента базового сжатого представления звука. Базовая вспомогательная информация может содержать первую часть, которая может быть известна как независимая базовая вспомогательная информация, и вторую часть, которая может быть известна как дополнительная базовая вспомогательная информация.The basic auxiliary information is needed to decode the basic compressed audio representation and is expected to be much smaller in size compared to the basic compressed audio representation. This can be done down to its largest portion of disjointed parts, each of which determines the recovery of only one particular component of the underlying compressed audio representation. The basic auxiliary information may comprise a first part, which may be known as independent basic auxiliary information, and a second part, which may be known as additional basic auxiliary information.

И первая, и вторая части, независимая базовая вспомогательная информация и дополнительная базовая вспомогательная информация, могут определять восстановление конкретных компонентов базового сжатого представления звука. Вторая часть является факультативной и может быть опущена. В этом случае можно сказать, что сжатое представление звука содержит первую часть (например, базовую вспомогательную информацию).Both the first and second parts, independent basic auxiliary information and additional basic auxiliary information, may determine the recovery of specific components of the underlying compressed audio representation. The second part is optional and may be omitted. In this case, the compressed audio representation can be said to contain the first part (eg, basic supporting information).

Первая часть (например, базовая вспомогательная информация) может содержать вспомогательную информацию, описывающую индивидуальные (взаимодополняющие) компоненты базового сжатого представления звука, независимо от других (взаимодополняющих) компонентов. В частности, первая часть (например, базовая вспомогательная информация) может определять декодирование одного или более из множества компонентов индивидуально, независимо от других компонентов. Таким образом, первая часть может упоминаться как независимая базовая вспомогательная информация.The first part (eg, basic auxiliary information) may contain auxiliary information describing individual (complementary) components of the basic compressed audio representation, independent of other (complementary) components. In particular, the first part (eg, basic auxiliary information) may determine the decoding of one or more of the plurality of components individually, independently of the other components. Thus, the first part may be referred to as independent basic supporting information.

Вторая (факультативная) часть может содержать вспомогательную информацию, также известную как дополнительная базовая вспомогательная информация, может описывать индивидуальные (взаимодополняющие) компоненты базового сжатого представления звука в зависимости от других (взаимодополняющих) компонентов. Эта вторая часть может также упоминаться как зависимая базовая вспомогательная информация. В частности, зависимость может иметь следующие свойства:The second (optional) part may contain auxiliary information, also known as additional basic auxiliary information, which may describe individual (complementary) components of the basic compressed audio representation depending on other (complementary) components. This second part may also be referred to as dependent basic auxiliary information. In particular, a dependency may have the following properties:

Зависимая базовая вспомогательная информация для каждого индивидуального (взаимодополняющего) компонента базового сжатого представления звука может достигать своей наибольшей степени, когда другие определенные (взаимодополняющие) компоненты не содержатся в базовом сжатом представлении звука.The dependent underlying auxiliary information for each individual (complementary) component of the underlying compressed audio representation may reach its greatest extent when other specific (complementary) components are not contained in the underlying compressed audio representation.

В случае, если дополнительные определенные (взаимодополняющие) компоненты добавлены к базовому сжатому представлению звука, зависимая базовая вспомогательная информация для рассматриваемого индивидуального (взаимодополняющего) компонента может стать подмножеством первоначальной зависимой базовой вспомогательной информации, тем самым сокращая ее размер.In the event that additional specific (complementary) components are added to the underlying compressed audio representation, the dependent basic auxiliary information for the individual (complementary) component in question may become a subset of the original dependent basic auxiliary information, thereby reducing its size.

Улучшающая вспомогательная информация также является факультативной. Она может использоваться для улучшения или расширения (например, параметрического улучшения или расширения) базового сжатого представления звука. Ее размер, как может также предполагаться, намного меньше, чем у базового сжатого представления звука.Improving supporting information is also optional. It can be used to enhance or enhance (eg, parametrically enhance or expand) the underlying compressed audio representation. Its size can also be expected to be much smaller than that of the basic compressed audio representation.

Таким образом, в вариантах осуществления сжатое представление звука может содержать базовое сжатое представление звука, содержащее множество компонентов, базовую вспомогательную информа- 8 043574 цию для декодирования (например, восстановления) базового сжатого представления звука до базового воссозданного представления звука или звукового поля и улучшающую вспомогательную информацию, включающую в себя параметры для улучшения или расширения (например, параметрического улучшения или расширения) базового воссозданного представления звука. Сжатое представление звука может также содержать дополнительную базовую вспомогательную информацию для декодирования (например, восстановления) базового сжатого представления звука до базового воссозданного представления звука, которая может включать в себя информацию, которая определяет декодирование одного или более из множества компонентов в зависимости от соответствующих других компонентов.Thus, in embodiments, the compressed audio representation may comprise a base compressed audio representation comprising a plurality of components, basic auxiliary information for decoding (e.g., decompressing) the base compressed audio representation to a base reconstructed audio representation or sound field, and enhancement auxiliary information , including parameters for enhancing or enhancing (e.g., parametric enhancement or expansion) the underlying reconstructed audio representation. The compressed audio representation may also include additional basic auxiliary information for decoding (e.g., reconstructing) the base compressed audio representation to the base reconstructed audio representation, which may include information that specifies the decoding of one or more of the plurality of components depending on the corresponding other components.

Один пример такого типа полного сжатого представления звука задан посредством сжатого представления Higher Order Ambisonics (НОА) звукового поля (пространственного звукового поля высшего порядка), как определено посредством предварительной версии аудио стандарта MPEG-H 3D (ссылка 1), глава 12 и приложение С.5. Таким образом, сжатое представление звука может соответствовать сжатому представлению НОА звука (или звукового поля).One example of this type of full compressed audio representation is defined by a Higher Order Ambisonics (HOA) compressed representation of a sound field, as defined by the MPEG-H 3D Audio Standard Preview (Ref. 1), Chapter 12 and Appendix C. 5. Thus, a compressed representation of sound may correspond to a compressed PLA representation of sound (or sound field).

Для этого примера базовое сжатое представление звукового поля (базовое сжатое представление звука) может содержать несколько компонентов (например, может быть идентифицировано с их помощью). Компоненты могут представлять собой монауральные сигналы (например, соответствовать им). Монауральные сигналы могут представлять собой квантованные монауральные сигналы. Монауральные сигналы могут представлять либо преобладающие звуковые сигналы, либо последовательности коэффициентов окружающего компонента НОА звукового поля.For this example, the basic compressed audio field representation (the basic compressed audio representation) may contain multiple components (eg, may be identified by them). The components may represent (e.g., match) monaural signals. The monaural signals may be quantized monaural signals. Monaural signals can represent either predominant sound signals or sequences of coefficients of the ambient NOA component of the sound field.

Базовая вспомогательная информация может описывать, среди прочего, для каждого из этих монауральных сигналов, каким образом он вносит пространственный вклад в звуковое поле. Например, базовая вспомогательная информация может определять преобладающий звуковой сигнал как чисто направленный сигнал, означающий общую плоскую волну с некоторым направлением падения. В качестве альтернативы базовая вспомогательная информация может определять монауральный сигнал как последовательность коэффициентов первоначального представления НОА, имеющую некоторый индекс. Базовая вспомогательная информация также может быть разделена на первую часть и вторую часть, как указано выше. Первая часть является вспомогательной информацией (например, независимой базовой вспомогательной информацией), относящейся к конкретным индивидуальным монауральным сигналам. Эта независимая базовая вспомогательная информация независима от существования других монауральных сигналов. Такая вспомогательная информация может, например, определять монауральный сигнал для представления направленного сигнала (например, означающего общую плоскую волну) с некоторым направлением падения. В качестве альтернативы монауральный сигнал может быть определен как последовательность коэффициентов первоначального представления НОА, имеющую некоторый индекс. Первая часть может упоминаться как независимая базовая вспомогательная информация. В целом первая часть (например, базовая вспомогательная информация) может определять декодирование одного или более из множества монауральных сигналов индивидуально, независимо от других монауральных сигналов.Basic supporting information may describe, among other things, for each of these monaural signals how it contributes spatially to the sound field. For example, the underlying auxiliary information may define the predominant audio signal as a purely directional signal, meaning a general plane wave with some direction of incidence. Alternatively, the underlying auxiliary information may define the monaural signal as a sequence of coefficients of the original PLA representation having some index. The basic supporting information can also be divided into a first part and a second part as stated above. The first part is auxiliary information (eg, independent basic auxiliary information) related to specific individual monaural signals. This independent basic supporting information is independent of the existence of other monaural signals. Such auxiliary information may, for example, define a monaural signal to represent a directional signal (eg, indicating a general plane wave) with some direction of incidence. Alternatively, the monaural signal can be defined as a sequence of coefficients of the original representation of the NOA, having some index. The first part may be referred to as independent basic supporting information. In general, the first part (eg, basic auxiliary information) may determine the decoding of one or more of the plurality of monaural signals individually, independently of other monaural signals.

Вторая часть является вспомогательной информацией (например, дополнительной базовой вспомогательной информацией), относящейся к конкретным индивидуальным монауральным сигналам. Эта вспомогательная информация зависит от существования других монауральных сигналов. Такая вспомогательная информация может быть использована, например, если монауральные сигналы определены как основанные на векторах сигналы (см., например, ссылку 1, раздел 12.4.2.4.4). Эти сигналы распределены по направлениям в звуковом поле, причем распределение по направлениям может быть определено посредством вектора. В некотором режиме (см., например, CodedWecLength=1) отдельные компоненты этого вектора неявно установлены равными нулю и не являются частью сжатого векторного представления. Этими компонентами являются компоненты с индексами, равными индексам последовательностей коэффициентов первоначального представления НОА и части базового сжатого представления звука. Это означает, что если индивидуальные компоненты вектора закодированы, их общее количество может зависеть от базового сжатого представления звука. В частности, общее количество может зависеть от того, какие последовательности коэффициентов содержит первоначальное представление НОА.The second part is auxiliary information (eg, additional basic auxiliary information) related to specific individual monaural signals. This supporting information is dependent on the existence of other monaural signals. Such auxiliary information can be used, for example, if monaural signals are defined as vector-based signals (see, for example, reference 1, section 12.4.2.4.4). These signals are distributed along directions in the sound field, and the directional distribution can be defined by a vector. In some mode (see, for example, CodedWecLength=1), the individual components of this vector are implicitly set to zero and are not part of the compressed vector representation. These components are those with indices equal to the indices of the coefficient sequences of the original PLA representation and part of the underlying compressed audio representation. This means that if individual vector components are encoded, their total number may depend on the underlying compressed audio representation. In particular, the total number may depend on what sequences of coefficients the original PLA representation contains.

Если последовательности коэффициентов первоначального представления НОА не содержатся в базовом сжатом представлении звука, зависимая базовая вспомогательная информация для каждого основанного на векторе сигнала состоит из всех векторных компонентов и имеет свой наибольший размер. В случае, если последовательности коэффициентов первоначального представления НОА с некоторыми индексами добавляются к базовому сжатому представлению звука, векторные компоненты с этими индексами удаляются из вспомогательной информации для каждого основанного на векторе сигнала, тем самым сокращая размер зависимой базовой вспомогательной информации для основанных на векторах сигналов.If the coefficient sequences of the original HOA representation are not contained in the underlying compressed audio representation, the dependent underlying auxiliary information for each vector-based signal consists of all vector components and has its largest size. In the event that sequences of original HOA representation coefficients with certain indices are added to the base compressed audio representation, the vector components with these indices are removed from the auxiliary information for each vector-based signal, thereby reducing the size of the dependent base auxiliary information for the vector-based signals.

Улучшающая вспомогательная информация (например, улучшающая вспомогательная информация) может содержать параметры, относящиеся к (широкополосному) пространственному предсказание (см. ссылку 1, раздел 12.4.2.4.3), и/или параметры, относящиеся к синтезу направленных подполосных сигналов и параметрическому дублированию звукового окружения.The enhancement auxiliary information (e.g., enhancement auxiliary information) may comprise parameters related to (broadband) spatial prediction (see reference 1, section 12.4.2.4.3) and/or parameters related to directional subband signal synthesis and parametric audio duplication environment.

Параметры, относящиеся к (широкополосному) пространственному предсказанию может использо- 9 043574 ваться для (линейного) предсказания недостающих частей звукового поля из направленных сигналов.Parameters related to (broadband) spatial prediction can be used to (linearly) predict missing parts of the sound field from directional signals.

Синтез направленных подполосных сигналов и параметрическое дублирование звукового окружения являются инструментами сжатия, которые были недавно введены в аудио стандарт MPEG-H 3D с помощью поправки [см. ссылку 2, раздел 1]. Эти два инструмента позволяют зависимому от частоты параметрическому предсказанию дополнительных монауральных сигналов быть пространственно распределенным, чтобы дополнять пространственно неполное или несовершенным образом сжатое представление НОА. Предсказание может быть основано на последовательностях коэффициентов базового сжатого представления звука.Directional subband synthesis and parametric surround duplication are compression tools that were recently introduced into the MPEG-H 3D audio standard via an amendment [see link 2, section 1]. These two tools allow frequency-dependent parametric prediction of additional monaural signals to be spatially distributed to complement the spatially incomplete or imperfectly compressed representation of the NOA. The prediction may be based on sequences of coefficients of the underlying compressed audio representation.

Важно отметить, что упомянутый выше взаимодополняющий вклад в звуковое поле представлен в сжатом представлении НОА не посредством дополнительных квантованных сигналов, а посредством дополнительной вспомогательной информации сравнительно намного меньшего размера. Следовательно, два упомянутых инструмента кодирования особенно подходят для сжатия представлений НОА на низких скоростях передачи данных.It is important to note that the above-mentioned complementary contributions to the sound field are represented in the compressed PLA representation not through additional quantized signals, but through additional auxiliary information of a comparatively much smaller size. Therefore, the two mentioned encoding tools are particularly suitable for compressing PLA representations at low data rates.

Второй пример сжатого представления одного или более монауральных сигналов с упомянутой выше структурой может содержать закодированную спектральную информацию для несвязных частотных полос вплоть до некоторой верхней частоты, что может рассматриваться как базовое сжатое представление; базовую вспомогательную информацию, определяющую закодированную спектральную информацию (например, посредством количества и ширины закодированных частотных полос); и улучшающую вспомогательную информацию содержащую параметры копирования спектральной полосы (SBR) (например, состоящую из них), которые описывают, как параметрически воссоздать из базового сжатого представления спектральную информацию для полос более высокой частоты, которые не рассматриваются в базовом сжатом представлении.A second example of a compressed representation of one or more monaural signals with the structure mentioned above may contain encoded spectral information for disjoint frequency bands up to some upper frequency, which can be considered a basic compressed representation; basic auxiliary information defining the encoded spectral information (eg, by the number and width of encoded frequency bands); and enhancing auxiliary information comprising (eg, consisting of) spectral band copy (SBR) parameters that describe how to parametrically recreate, from the base compressed representation, spectral information for higher frequency bands that are not considered in the base compressed representation.

Настоящее раскрытие предлагает способ многоуровневого кодирования полного сжатого представления звука (или звукового поля), имеющего упомянутую выше структуру.The present disclosure provides a method for layered encoding of a complete compressed representation of a sound (or sound field) having the structure mentioned above.

Сжатие может быть основано на кадрах в том смысле, что оно обеспечивает сжатые представления (в форме пакетов данных, или эквивалентно полезной нагрузки кадров) для последовательных временных интервалов. Временные интервалы могут иметь равные или разные размеры. Эти пакеты данных, как может предполагаться, содержат флаг корректности, значение, указывающее их размер, а также фактические данные сжатого представлении. Далее без намеренного ограничения будет предполагаться, что сжатие является основанным на кадрах. Кроме того, если не указано иначе, и без намеренного ограничения будет сделан фокус на обработке одного кадра, и поэтому индекс кадра будет опущен. Каждая полезная нагрузка кадра рассматриваемого полного сжатого представления звука (или звукового поля), как предполагается, содержит J пакетов данных (или полезных нагрузок кадра), каждый для одного компонента базового сжатого представления звука, которые обозначены как BSRCj, j=1,...,J. Кроме того, предполагается, что пакет содержит независимую базовую вспомогательную информацию (базовую вспомогательную информацию), обозначенную как BSI_I, определяющую отдельные компоненты BSRCj базового сжатого представления звука, независимо от других компонентов. Факультативно может дополнительно предполагаться, что пакет содержит зависимую базовую вспомогательную информацию (дополнительную базовую вспомогательную информацию), обозначенную как BSID, определяющую отдельные компоненты BSRCj базового сжатого представления звука в зависимости от других компонентов.Compression may be frame-based in the sense that it provides compressed representations (in the form of data packets, or equivalent to frame payloads) for successive time slots. Time intervals can have equal or different sizes. These data packets may be expected to contain a validity flag, a value indicating their size, and the actual compressed data. In the following, without intentional limitation, it will be assumed that the compression is frame-based. Additionally, unless otherwise specified, and without intentional restriction, the focus will be on processing a single frame, and therefore the frame index will be omitted. Each frame payload of a given full compressed audio representation (or sound field) is assumed to contain J data packets (or frame payloads), each for one component of the underlying compressed audio representation, which are denoted BSRCj, j=1,... ,J. In addition, the packet is assumed to contain independent basic auxiliary information (basic auxiliary information), denoted BSI _I , defining individual components BSRCj of the basic compressed audio representation, independent of other components. Optionally, the packet may be further contemplated to contain dependent basic auxiliary information (additional basic auxiliary information), designated as a BSID, identifying individual components BSRCj of the base compressed audio representation depending on the other components.

Информация, содержащаяся в двух пакетах данных BSII и BSID, может быть факультативно сгруппирована в единственный пакет данных BSI базовой вспомогательной информации. Можно сказать, что единственный пакет данных BSI содержит, среди прочего, J частей, каждая из которых определяет один отдельный компонент BSRCj базового сжатого представления звука. Можно сказать, что каждая из этих частей, в свою очередь, содержит часть независимой вспомогательной информации и факультативно часть зависимой вспомогательной информации.The information contained in the two data packets BSII and BSID may optionally be grouped into a single Basic Ancillary Information data packet BSI. A single BSI data packet can be said to contain, among other things, J parts, each of which defines one distinct component BSRCj of the underlying compressed audio representation. Each of these parts can be said to in turn contain a piece of independent auxiliary information and optionally a piece of dependent auxiliary information.

В конечном счете, она может включать в себя полезную нагрузку улучшающей вспомогательной информации (улучшающей вспомогательной информации), обозначенную как ESI, с описанием того, как улучшить или расширить воссозданный звук (или звуковое поле) на основе полного базового сжатого представления звука.Ultimately, it may include an enhancement auxiliary information (enhancement auxiliary information) payload, denoted ESI, describing how to improve or expand the reconstructed sound (or sound field) based on the complete underlying compressed audio representation.

Предлагаемое решение для многоуровневого кодирования направлено на этапы, требующиеся для обеспечения возможности как для части сжатия, включающей в себя упаковку пакетов данных для передачи, а также для части приема и восстановления. Каждая часть будет подробно описана далее.The proposed multi-level coding solution addresses the steps required to enable both the compression part, which includes packaging data packets for transmission, and the reception and recovery part. Each part will be described in detail below.

Сначала будут описаны сжатие и упаковка (например, для передачи). В частности, будут описаны компоненты и элементы полного сжатого представления звука (или звукового поля) в случае многоуровневого кодирования.First, compression and packaging (for example, for transmission) will be described. In particular, the components and elements of a complete compressed audio representation (or sound field) in the case of multi-level coding will be described.

Фиг. 1 схематично иллюстрирует блок-схему последовательности этапов примера способа сжатия и упаковки (например, способа кодирования или способа многоуровневого кодирования сжатого представления звука или звукового поля).Fig. 1 schematically illustrates a flowchart of an example compression and packaging method (eg, an encoding method or a layered encoding method for a compressed audio or sound field representation).

Присвоение (например, распределение) индивидуальных полезных нагрузок базовому уровню и (M-1) улучшающим уровням может быть достигнуто посредством упаковщика транспортных уровней. Фиг. 2 схематично иллюстрирует блок-схему примера присвоения/распределения индивидуальных по- 10 043574 лезных нагрузок.The assignment (eg, distribution) of individual payloads to the base layer and (M-1) enhancement layers can be achieved through a transport layer packer. Fig. 2 schematically illustrates a block diagram of an example of assignment/distribution of individual payloads.

Как указано выше, полное сжатое представление 2100 звука может относиться, например, к сжатому представлению НОА, содержащему базовое сжатое представление звука. Полное сжатое представление 2100 звука может содержать множество компонентов (например, монауральные сигналы) 2110-1, ... 2110-J, независимую базовую вспомогательную информацию (базовую вспомогательную информацию) 2120, факультативную улучшающую вспомогательную информацию (улучшающую вспомогательную информацию) 2140 и факультативную зависимую базовую вспомогательную информацию (дополнительную базовую вспомогательную информацию) 2130. Базовая вспомогательная информация 2120 может являться информацией для декодирования базового сжатого представления звука в базовое воссозданное представление звука или звукового поля. Базовая вспомогательная информация 2120 может включать в себя информацию, которая определяет декодирование одного или более компонентов (например, монауральных сигналов) индивидуально, независимо от других компонентов. Улучшающая вспомогательная информация 2140 может включать в себя параметры для улучшения (например, расширения) базового воссозданного представления звука. Дополнительная базовая вспомогательная информация 2130 может являться (дополнительной) информацией для декодирования базового сжатого представления звука в базовое воссозданное представление звука и может включать в себя информацию, которая определяет декодирование одного или более из множества компонентов в зависимости от соответствующих других компонентов.As stated above, the overall compressed audio representation 2100 may refer, for example, to a compressed HOA representation containing a base compressed audio representation. The overall compressed audio representation 2100 may comprise a plurality of components (eg, monaural signals) 2110-1, ... 2110-J, independent basic auxiliary information (base auxiliary information) 2120, optional enhancement auxiliary information (enhancing auxiliary information) 2140, and optional dependent basic auxiliary information (additional basic auxiliary information) 2130. Basic auxiliary information 2120 may be information for decoding a basic compressed audio representation into a basic reconstructed audio or sound field representation. Basic auxiliary information 2120 may include information that specifies decoding of one or more components (eg, monaural signals) individually, independent of other components. Enhancement auxiliary information 2140 may include parameters for enhancing (eg, expanding) the underlying rendered audio representation. Additional basic auxiliary information 2130 may be (additional) information for decoding a basic compressed audio representation into a basic reconstructed audio representation and may include information that specifies decoding of one or more of a plurality of components depending on the corresponding other components.

Фиг. 2 иллюстрирует основополагающее допущение, в котором существует множество иерархических уровней, включающих в себя один базовый уровень (основной уровень) и один или более (иерархических) улучшающих уровней. Например, может иметься всего M уровней, т.е. один базовый уровень и M-1 улучшающих уровней. Множество иерархических уровней имеет последовательно увеличивающийся индекс уровня. Самое низкое значение индекса уровня (например, индекс 1 уровня) соответствует базовому уровню. Далее подразумевается, что уровни упорядочены от базового уровня, через улучшающие уровни, вплоть до полного наиболее высокого улучшающего уровня (т.е., полного наиболее высокого уровня).Fig. 2 illustrates the underlying assumption that there are multiple hierarchical levels, including one base level (core level) and one or more (hierarchical) enhancement levels. For example, there may be only M levels, i.e. one base level and M-1 upgrade levels. A set of hierarchical levels has a successively increasing level index. The lowest level index value (for example, level 1 index) corresponds to the base level. It is further understood that the levels are ordered from the base level, through the enhancement levels, up to the overall highest enhancement level (ie, the overall highest level).

Предложенный способ может быть выполнен на основе кадра (т.е., покадрово). В частности, сжатое представление 2100 звука может быть сжато для последовательных временных интервалов, например, временных интервалов равного размера. Каждый временной интервал может соответствовать кадру. Описанные ниже этапы могут быть выполнены для каждого последовательного временного интервала (например, кадра).The proposed method can be implemented on a frame-by-frame basis (i.e., frame by frame). In particular, the compressed audio representation 2100 may be compressed across successive time slots, eg, time slots of equal size. Each time slot can correspond to a frame. The steps described below may be performed for each successive time slot (eg, frame).

На этапе S1010 на фиг. 1 множество компонентов 2110 подразделяется на множество групп компонентов. Каждая из множества групп затем присваивается (например, добавляется или распределяется) соответствующему одному из множества иерархических уровней. При этом количество групп соответствует количеству уровней. Например, количество групп может быть равно количеству уровней, чтобы имелась одна группа компонентов для каждого уровня. Как указано выше, множество уровней может включать в себя базовый уровень и один или более (например, M-1) иерархических улучшающих уровней.At step S1010 in FIG. 1, a plurality of components 2110 is divided into a plurality of component groups. Each of the plurality of groups is then assigned (eg, added or distributed) to a corresponding one of the plurality of hierarchical levels. In this case, the number of groups corresponds to the number of levels. For example, the number of groups can be equal to the number of levels, so that there is one group of components for each level. As stated above, the plurality of layers may include a base layer and one or more (eg, M-1) hierarchical enhancement layers.

Другими словами, базовое сжатое представление звука подразделено на части, которые будут присвоены отдельным уровням. Без потери общности группировка может быть описана посредством M+1 чисел Jm, ш=0,...,М, где J₀=1 и J_M=J+1, в результате чего компоненты RSRCj присваиваются m-ому уровню для Jm-1<j<Jm.In other words, the basic compressed audio representation is divided into parts that will be assigned to individual layers. Without loss of generality, the grouping can be described by M+1 numbers Jm, m=0,...,M, where J ₀ =1 and J _M =J+1, as a result of which the components RSRCj are assigned to the m-th level for Jm- 1<j<Jm.

На этапе S1020 группы компонентов присваиваются своим соответствующим уровням. На этапе S1030 базовая вспомогательная информация 2120 добавляется (например, распределяется) к базовому уровню (т.е., к наиболее низкому из множества иерархических уровней).In step S1020, the component groups are assigned to their respective levels. At step S1030, the basic auxiliary information 2120 is added (eg, distributed) to the base level (ie, the lowest of the plurality of hierarchical levels).

Таким образом, вследствие ее небольшого размера предложено включать полную базовую вспомогательную информацию (базовую вспомогательную информацию и факультативную дополнительную базовую вспомогательную информацию) в базовый уровень, чтобы избежать ее ненужной фрагментации.Thus, due to its small size, it is proposed to include the complete basic auxiliary information (basic auxiliary information and optional additional basic auxiliary information) in the base layer to avoid unnecessary fragmentation thereof.

Если рассматриваемое сжатое представление звука содержит зависимую базовую вспомогательную информацию (дополнительную базовую вспомогательную информацию), способ дополнительно может содержать (не показано на фиг. 1) декомпозицию дополнительной базовой вспомогательной информации на множество частей 2130-1,..., 2130-M дополнительной базовой вспомогательной информации. Части дополнительной базовой вспомогательной информации затем могут быть добавлены (например, распределены) к базовому уровню. Другими словами, части дополнительной базовой вспомогательной информации могут быть включены в базовый уровень. Каждая часть дополнительной базовой вспомогательной информации может быть связана с соответствующим уровнем и может включать в себя информацию, которая определяет декодирование одного или более компонентов, присвоенных соответствующему уровню, в зависимости от других компонентов, присвоенных соответствующему уровню и любым уровням ниже соответствующего уровня.If the compressed audio representation in question contains dependent core auxiliary information (additional core auxiliary information), the method may further comprise (not shown in FIG. 1) decomposing the additional core auxiliary information into a plurality of additional core auxiliary information parts 2130-1,..., 2130-M. supporting information. Portions of additional basic auxiliary information can then be added (eg, distributed) to the base layer. In other words, pieces of additional basic auxiliary information may be included in the base layer. Each piece of additional basic auxiliary information may be associated with a corresponding layer and may include information that specifies the decoding of one or more components assigned to the corresponding layer depending on other components assigned to the corresponding layer and any layers below the corresponding layer.

Таким образом, в то время как независимая базовая вспомогательная информация BSI[ (базовая вспомогательная информация) 2120 оставляется без изменений для присвоения, зависимая базовая вспомогательная информация должна быть обработана специально для многоуровневого кодирования, чтобыThus, while the independent basic auxiliary information BSI[ (basic auxiliary information) 2120 is left unchanged for assignment, the dependent basic auxiliary information must be processed specifically for layered encoding so that

- 11 043574 позволить правильное декодирование на стороне приемника, с одной стороны, и сократить размер зависимой базовой вспомогательной информации для передачи, с другой стороны. Предложено выполнить декомпозицию зависимой базовой вспомогательной информации на частей, обозначенных как BSID,_m, ш=1,...,М, где m-ая часть содержит зависимую базовую вспомогательную информацию для каждого из компонентов BSRCj, J_m-1<j<J_m базового сжатого представления звука, присвоенного ш-ому уровню, в предположении, что факультативная зависимая базовая вспомогательная информация существует для рассматриваемого сжатого представления звука. В случае, если соответствующая зависимая вспомогательная информация не существует, для сжатого представления звука частей BSID,_m может предполагаться пустой.- 11 043574 allow correct decoding on the receiver side on the one hand, and reduce the size of the dependent basic auxiliary information for transmission on the other hand. It is proposed to decompose the dependent basic auxiliary information into parts designated as BSID, _m , w=1,...,M, where the m-th part contains the dependent basic auxiliary information for each of the components BSRCj, J _m-1 <j<J _m of the base compressed audio representation assigned to the th-th layer, under the assumption that optional dependent base auxiliary information exists for the compressed audio representation in question. In case corresponding dependent auxiliary information does not exist, for the compressed audio representation of the BSID parts, _m may be assumed to be empty.

Каждая часть зависимой базовой вспомогательной информации BSID,_m может зависеть от всех компонентов BSRCj, 1<j<J_m, содержащихся на всех уровнях вплоть до m-ого (т.е., содержащихся на всех уровнях j=1,...,m).Each piece of dependent basic auxiliary information BSID, _m may depend on all components BSRCj, 1<j<J _m contained in all layers up to the mth (i.e., contained in all layers j=1,..., m).

Если пакет BSII независимой базовой вспомогательной информации имеет пренебрежительно небольшой размер, разумно удерживать его как целое и добавлять (присваивать) его к базовому уровню. Факультативно подобная декомпозиция, как для зависимой базовой вспомогательной информации, также может быть выполнена для независимой базовой вспомогательной информации, обеспечивая пакеты BSII,_m, m=1,...,M. Это полезно для сокращения размера базового уровня посредством добавления (присвоения) частей независимой базовой вспомогательной информации к уровням с соответствующими компонентами базового сжатого представления звука.If the BSII packet of independent basic auxiliary information is negligibly small in size, it is reasonable to hold it as a whole and append it to the base layer. Optionally, a similar decomposition as for dependent basic auxiliary information can also be performed for independent basic auxiliary information, providing BSII packets, _m , m=1,...,M. This is useful for reducing the size of the base layer by adding (assigning) pieces of independent base auxiliary information to layers with corresponding components of the base compressed audio representation.

На этапе S1040 может быть определено множество частей 2140-1,...,2140-M улучшающей вспомогательной информации. Каждая часть улучшающей вспомогательной информации может включать в себя параметры для улучшения (например, расширения) воссозданного представления звука, доступные из данных, включенных в соответствующий уровень и любые уровни ниже соответствующего уровня.At step S1040, a plurality of enhancement auxiliary information pieces 2140-1,...,2140-M may be determined. Each piece of enhancement auxiliary information may include parameters for enhancing (eg, enhancing) the reconstructed audio representation available from data included in the corresponding layer and any layers below the corresponding layer.

Причина выполнения этого этапа состоит в том, что в случае многоуровневого кодирования важно реализовать, чтобы улучшающая вспомогательная информация должна была вычисляться для каждого дополнительного уровня, поскольку предполагается улучшить предварительный восстановленный звук (или звуковое поле), что, однако, зависит от доступных уровней для восстановления. В частности, предварительный восстановленный звук (или звуковое поле) для данного наиболее высокого декодируемого уровня (наиболее высокого применимого уровня) зависит от компонентов, включенных в наиболее высокий декодируемый уровень и любые уровни ниже наиболее высокого декодируемого уровня.The reason for performing this step is that in the case of multi-level encoding, it is important to realize that the enhancement auxiliary information must be calculated for each additional level, since it is intended to improve the preliminary reconstructed sound (or sound field), which, however, depends on the available levels for reconstruction . In particular, the preliminary reconstructed audio (or sound field) for a given highest decodable level (highest applicable level) depends on the components included in the highest decodable level and any levels below the highest decodable level.

Следовательно, сжатие должно обеспечить M индивидуальных пакетов данных улучшающей вспомогательной информации (частей улучшающей вспомогательной информации), обозначенных как ESI_m, m=1,...,M, где улучшающая вспомогательная информация в m-ом пакете данных ESI_m вычисляется, чтобы улучшить представление звука (или звукового поля), полученное из всех данных, содержащихся на базовом уровне улучшающих уровнях с индексами ниже m (например, всех данных, содержащихся на m-ом уровне и любых уровнях ниже m-ого уровня).Therefore, the compression must provide M individual enhancement auxiliary information data packets (enhancement auxiliary information pieces), denoted by ESI _m , m=1,...,M, where the enhancement auxiliary information in the mth data packet ESI _m is calculated to improve a representation of sound (or sound field) derived from all data contained in the base layer of enhancement layers with indices below m (eg, all data contained in the mth layer and any levels below the mth layer).

На этапе S1050 множество частей 2140-1,...,2140-M улучшающей вспомогательной информации присваивается (например, добавлено или распределяется) множеству уровней. Каждая из множества частей улучшающей вспомогательной информации присваивается соответствующему одному из множества уровней. Например, каждый из множества уровней включает в себя соответствующую часть улучшающей вспомогательной информации.In step S1050, a plurality of enhancement auxiliary information pieces 2140-1,...,2140-M are assigned (eg, added or allocated) to a plurality of layers. Each of the plurality of pieces of enhancement auxiliary information is assigned to a corresponding one of the plurality of levels. For example, each of the plurality of layers includes a corresponding piece of enhancing auxiliary information.

Присвоение базовой и/или улучшающей вспомогательной информации соответствующим уровням может быть указано в информации конфигурации, которая формируется посредством способа кодирования. Другими словами, соответствие между базовой и/или улучшающей вспомогательной информацией и соответствующими уровнями может быть указано в информации конфигурации. Кроме того, информация конфигурации может указывать для каждого уровня компоненты базового сжатого представления звука, которые присвоены (например, включены) этому уровню. Части дополнительной базовой вспомогательной информации, включенные в базовый уровень, все же могут соответствовать уровням, отличающимся от базового уровня.The assignment of the base and/or enhancement auxiliary information to the respective layers may be indicated in configuration information that is generated by the encoding method. In other words, the correspondence between the basic and/or enhancement auxiliary information and the corresponding layers may be indicated in the configuration information. In addition, the configuration information may indicate, for each layer, components of the underlying compressed audio representation that are assigned (eg, enabled) to that layer. Portions of additional basic auxiliary information included in the base layer may still correspond to layers other than the base layer.

Подводя итог, на стадии сжатия обеспечивается пакет данных кадра, обозначенный как FRAME, который имеет следующий состав:To summarize, the compression stage provides a frame data packet, designated FRAME, which has the following composition:

FRAME = [BSRCi ... BSRC_; BSIj BSI_Dil ... BSI_DM ES^ ... ESI_M] ₍₁₎ FRAME = [BSRCi ... BSRC _; BSIj BSI _Dil ... BSI _DM ES^ ... ESI _M ] ₍₁₎

Кроме того, пакеты BSII и BSI_D,_m для m=1,...,M могут бы быть объединены в единственный пакет BSI, в этом случае пакет данных кадра, обозначенный как FRAME, будет иметь следующий состав:In addition, the BSII and BSI packets _D , _m for m=1,...,M could be combined into a single BSI packet, in which case the frame data packet designated FRAME would have the following composition:

FRAME = [BSRCi BSRC₂ ... BSRC_; BSI Е5Ц ESI₂ ... ESI_M] ₍₂₎ FRAME = [BSRCi BSRC ₂ ... BSRC _; BSI E5C ESI ₂ ... ESI _M ] ₍₂₎

Порядок следования индивидуальных полезных нагрузок с пакетом данных кадра в общем случае может быть произвольным.The order of individual payloads with a frame data packet can generally be arbitrary.

Индивидуальные пакеты данных затем могут быть сгруппированы в полезных нагрузках, которые определены как специальные пакеты данных, которые содержат флаг корректности, значение, указывающее их размер, а также фактические сжатые данные представления. Использование полезных нагру- 12 043574 зок позволяет простое демультиплексирование на стороне приемника, предлагая преимущество возможности отбрасывать неактуальные полезные нагрузки без необходимости их анализа. Одна возможная группировка задана как присвоение (например, распределение) каждого BSRCj пакета j=1,...,J индивидуальной полезной нагрузке, обозначенной как ^{в ρ}ί, присвоение (например, распределение) m-ого пакета данных улучшающей вспомогательной информации ESIm и m-го пакета данных BSIDm зависимой вспомогательной информации одной улучшающей полезной нагрузке, обозначенной как ^ЕРт m=1,...,M;Individual data packets can then be grouped into payloads, which are defined as special data packets that contain a validity flag, a value indicating their size, and the actual compressed presentation data. The use of payloads allows simple demultiplexing at the receiver end, offering the advantage of being able to discard irrelevant payloads without having to analyze them. One possible grouping is given as an assignment (eg allocation) of each BSRCj packet j=1,...,J to an individual payload denoted as ^{in ρ} ί, assignment (eg allocation) of the mth data packet of enhancement auxiliary information ESIm and m th data packet BSIDm dependent auxiliary information to one enhancement payload, denoted as ^EP t m=1,...,M;

присвоение пакета независимой базовой вспомогательной информации BSII отдельной полезной нагрузке вспомогательной информации, обозначенной как BSIP.assigning the BSII Independent Basic Ancillary Information Packet to a separate Ancillary Information Payload designated BSIP.

Факультативно, если размер независимой базовой вспомогательной информации большой, каждый m-ый из ее компонентов, BSI_I>m, m=1,...,M, может быть присвоен (например, распределен) улучшающей полезной нагрузке т.Optionally, if the size of the independent basic auxiliary information is large, each m-th of its components, BSI _I>m , m=1,...,M, may be assigned (e.g., allocated) to an enhancement payload, i.e.

В этом случае полезная нагрузка BSIP вспомогательной информации является пустой и может быть проигнорирована.In this case, the BSIP Ancillary Information payload is empty and may be ignored.

Другая факультативная возможность состоит в том, чтобы присвоить все зависимые пакеты данных BSID,_m базовой вспомогательной информации полезной нагрузке BSIP вспомогательной информации, что является разумным, если размер зависимой базовой вспомогательной информации является небольшим.Another option is to assign all dependent BSID data packets, _m basic auxiliary information to the BSIP auxiliary information payload, which is reasonable if the size of the dependent basic auxiliary information is small.

В конечном счете может быть обеспечен пакет данных кадра, обозначенный как FRAME, имеющий следующий состав:Ultimately, a frame data packet, designated FRAME, may be provided having the following composition:

FRAME = [BPj ...^P_]BSlPEP₁ -ЕР_м] _m FRAME = [BPj ...^P _] BSlPEP ₁ -EP _m ] _m

Способ может дополнительно содержать (не показано на фиг. 1) формирование для каждого из множества уровней пакета транспортного уровня (например, пакета 2200 базового уровня и М-1 пакетов 2300-1, .., 2300-(M-1)) улучшающего уровня, включающих в себя данные соответствующего уровня (например, компоненты, базовую вспомогательную информацию и улучшающую вспомогательную информацию для базового уровня, или компоненты и улучшающую вспомогательную информацию для одного или более улучшающих уровней).The method may further comprise (not shown in FIG. 1) generating, for each of the multiple layers of a transport layer packet (e.g., base layer packet 2200 and M-1 packets 2300-1, .., 2300-(M-1)) an enhancement layer including data of the corresponding layer (eg, components, base auxiliary information and enhancement auxiliary information for the base layer, or components and enhancement auxiliary information for one or more enhancement layers).

Пакеты транспортного уровня для разных уровней могут иметь разные приоритеты передачи. Таким образом, способ может дополнительно содержать (не показано на фиг. 1) формирование транспортного потока для передачи данных множества уровней, причем базовый уровень имеет наиболее высокий приоритет передачи, и иерархические улучшающие уровни имеют убывающие приоритеты передачи. При этом более высокий приоритет передачи может соответствовать большей степени защиты от ошибок, и наоборот.Transport layer packets for different layers may have different transmission priorities. Thus, the method may further comprise (not shown in FIG. 1) generating a transport stream for transmitting data of multiple layers, with the base layer having the highest transmission priority and the hierarchical enhancement layers having decreasing transmission priorities. In this case, a higher transmission priority may correspond to a greater degree of error protection, and vice versa.

Если этапы не требуют некоторых других этапов в качестве предварительных условий, упомянутые выше этапы могут выполняться в любом порядке, и предполагается, что иллюстративный порядок, показанный на фиг. 1, не имеет ограничительного характера.Unless the steps require certain other steps as prerequisites, the above steps may be performed in any order, and it is intended that the exemplary order shown in FIG. 1 is not restrictive.

Фиг. 3 иллюстрирует способ декодирования сжатого представления звука или звукового поля для декодирования или восстановления. Примеры соответствующей стадии приема и восстановления схематично проиллюстрированы на блок-схемах на фиг. 4 А и 4В.Fig. 3 illustrates a method for decoding a compressed audio or sound field representation for decoding or reconstruction. Examples of the corresponding reception and recovery stage are schematically illustrated in the block diagrams of FIGS. 4 A and 4 B.

Как следует из предыдущего описания, сжатое представление звука может быть закодировано в множестве иерархических уровней. Множество уровней может иметь присвоенные им (например, может включать в себя) компоненты базового сжатого представления звука, компоненты присваиваются соответствующим уровням в соответствующих группах компонентов. Базовый уровень может включать в себя базовую вспомогательную информацию для декодирования базового сжатого представления звука. Каждый уровень может включать в себя одну из упомянутых выше частей улучшающей вспомогательной информации, включающей в себя параметры для улучшения базового воссозданного представления звука, доступных из данных, включенных в соответствующий уровень и любые уровни ниже соответствующего уровня.As follows from the previous description, a compressed audio representation can be encoded at multiple hierarchical levels. A plurality of layers may have components assigned to them (eg, may include) components of a basic compressed audio representation, the components being assigned to corresponding layers in respective component groups. The base layer may include basic auxiliary information for decoding the underlying compressed audio representation. Each layer may include one of the above-mentioned pieces of enhancement auxiliary information including parameters for enhancing the underlying rendered audio representation available from the data included in the corresponding layer and any layers below the corresponding layer.

Предложенный способ может быть выполнен на основе кадров (т.е., покадрово). В частности, восстановленное представление звука или звукового поля может быть сформировано для последовательных временных интервалов, например, временных интервалов равного размера. Временные интервалы могут являться, например, кадрами. Описанные ниже этапы могут быть выполнены для каждых последовательных временных интервалов (например, кадров).The proposed method can be implemented on a frame-by-frame basis (i.e., frame by frame). In particular, the reconstructed representation of the sound or sound field can be generated for successive time intervals, for example, time intervals of equal size. The time slots can be, for example, frames. The steps described below can be performed for each successive time intervals (eg, frames).

На этапе S3010 принимаются полезные нагрузки данных (например, пакеты транспортного уровня), соответствующие множеству уровней. Полезные нагрузки данных могут быть приняты как часть битового потока, который содержит сжатое представление НОА звука или звукового поля, представление соответствует множеству иерархических уровней. Иерархические уровни включают в себя базовый уровень и один или более иерархических улучшающих уровней. Множество уровней имеет присвоенные им ком- 13 043574 поненты базового сжатого представления звука или звукового поля. Компоненты присвоены соответствующим уровням в соответствующих группах компонентов.In step S3010, data payloads (eg, transport layer packets) corresponding to the plurality of layers are received. The data payloads may be received as part of a bitstream that contains a compressed PLA representation of a sound or sound field, a representation corresponding to multiple hierarchical levels. Hierarchical levels include a base level and one or more hierarchical enhancement levels. The plurality of layers have assigned to them components of the underlying compressed representation of the sound or sound field. The components are assigned to the corresponding levels in the corresponding component groups.

Пакеты индивидуальных уровней могут быть мультиплексированы для обеспечения принятого пакета кадра полного сжатого представления звука. Принятый пакет кадра может быть обозначен какThe individual layer packets may be multiplexed to provide the received frame packet with a complete compressed audio representation. The received frame packet may be designated as

[BSIj BSI_D ί BSI_{D м} ESI^ BSRC^ ... BSRC^ j j ... ESI^[BSIj BSI _D ί BSI _{D m} ESI^ BSRC^ ... BSRC^ jj ... ESI^

В альтернативном случае пакеты BSII и BSI_D,_m для m=1, ..., M объединены в единственный пакет BSI, пакеты индивидуальных уровней могут быть мультиплексированы для обеспечения принятого пакета кадра полного сжатого представления звука, обозначенного какAlternatively, the BSII and BSI packets _D , _m for m=1, ..., M are combined into a single BSI packet, the individual layer packets may be multiplexed to provide the received frame packet of a full compressed audio representation, denoted by

I[BSI ESL· BSRCi ... BSRCA _Ί τ ... ESI_M BSRC. ... BSRC,1I[BSI ESL· BSRCi ... BSRCA _Ί τ ... ESI _M BSRC. ...BSRC,1

[ ^{1 1 7}1 (5)[ ^{1 1 7} 1 (5)

В терминах полезных нагрузок принятый пакет кадра может быть задан какIn terms of payloads, the received frame packet can be given as

FRAME = [ВР_г ...ВР_]В5ГР~ЁР₁ - ₍₆₎ FRAME = [VR _g ...VR _] V5GR~ЁР ₁ - ₍₆₎

Принятый пакет кадра затем может быть передан на декомпрессор или декодер 4100. Если передача индивидуального уровня была безошибочной, флаг корректности по меньшей мере части содержащейся полезной нагрузки улучшающей вспомогательной информации (например, соответствующей части улучшающей вспомогательной информации) установлен равным истинному. В случае ошибки вследствие передачи индивидуального уровня флаг корректности по меньшей мере в полезной нагрузке улучшающей вспомогательной информации на этом уровне установлен равным ложному. Следовательно, корректность пакета уровня может быть определена на основе корректности содержащейся полезной нагрузки улучшающей вспомогательной информации (например, на основе ее флага корректности).The received frame packet may then be transmitted to decompressor or decoder 4100. If the individual layer transmission was error-free, the validity flag of at least a portion of the contained enhancement ancillary information payload (eg, a corresponding portion of the enhancement ancillary information) is set to true. In the event of an error due to an individual layer transmission, the correctness flag in at least the enhancement ancillary information payload at that layer is set to false. Therefore, the correctness of a layer packet can be determined based on the correctness of the enhancement auxiliary information payload contained (eg, based on its correctness flag).

В декомпрессоре 4100 принятый пакет кадра может быть демультиплексирован. С этой целью может использоваться информация размера каждой полезной нагрузки, чтобы избежать ненужного анализа данных индивидуальных полезных нагрузок.At decompressor 4100, the received frame packet may be demultiplexed. For this purpose, the size information of each payload can be used to avoid unnecessary data analysis of individual payloads.

На этапе S3020 первый индекс уровня, указывающий наиболее высокий уровень (например, наиболее высокий применимый уровень или наиболее высокий декодируемый уровень), определяется из множества уровней для использования для декодирования базового сжатого представления звука в базовое воссозданное представление звука или звукового поля.In step S3020, a first layer index indicating the highest layer (eg, the highest usable layer or the highest decodable layer) is determined from the plurality of layers to be used for decoding the base compressed audio representation into the base reconstructed audio or sound field representation.

Кроме того, на этапе S3020 может быть выбрано значение (например, индекс уровня) в наиболее высокого уровня (наиболее высокого применимого уровня), который будет использоваться для восстановления базового представления звука. Наиболее высокий улучшающий уровень, который будет фактически использоваться для восстановления базового представления звука, задан как NB-1 Поскольку каждый уровень содержит точно одну полезную нагрузку улучшающей вспомогательной информации (часть улучшающей вспомогательной информации), можно определить на основе полезной нагрузки улучшающей вспомогательной информации, является ли корректным содержащий уровень (например, был корректно принят). Следовательно, выбор может быть достигнут с использованием всех полезных нагрузок улучшающей вспомогательной информации ESI_m, m=1,...,М (или, соответственно, ^m, m=1,...,M).In addition, in step S3020, a value (eg, level index) in the highest level (highest applicable level) that will be used to restore the basic audio representation may be selected. The highest enhancement layer that will actually be used to restore the base audio representation is specified as NB-1. Since each layer contains exactly one enhancement auxiliary information payload (a portion of the enhancement auxiliary information), it can be determined based on the enhancement auxiliary information payload whether the containing level is correct (for example, it was accepted correctly). Therefore, selection can be achieved using all the enhancement auxiliary information payloads ESI _m , m=1,...,M (or, respectively, ^m, m=1,...,M).

На этапе S3030 получается базовое воссозданное представление звука. Базовое воссозданное представление звука может быть получено из компонентов, присвоенных наиболее высокому применимому уровню, указанному первым индексом уровня, и любым уровням ниже этого наиболее высокого применимого уровня с использованием базовой вспомогательной информации (или в целом с использованием базовой вспомогательной информации).In step S3030, a basic reconstructed audio representation is obtained. The basic reconstructed audio representation can be obtained from the components assigned to the highest applicable level indicated by the first level index, and any levels below that highest applicable level using the basic auxiliary information (or in general using the basic auxiliary information).

Полезные нагрузки компонентов BSRC₁,...,BSRCJ базового сжатого представления звука могут быть обеспечены наряду с (всеми) полезными нагрузками базовой вспомогательной информации (например, BSI или BSII и BSI_D,_m, m=1, ..., М) и значением NB процессору 4200 восстановления базового представления. Процессор 4200 восстановления базового представления (проиллюстрированный на фиг. 4А и 4В) воссоздает базовое представление звука (или звукового поля) с использованием только тех компонентов базового сжатого представления звука, которые содержатся на наиболее низких NB уровнях, которые представляют собой базовый уровень и NB-1 улучшающих уровней (т.е., уровни вплоть до уровня, указанного первым индексом уровня). В качестве альтернативы процессору 4200 восстановления базового представления могут быть обеспечены только полезные нагрузки компонентов базового сжатого представления звука, содержащиеся на наиболее низких NB уровнях вместе с соответствующими полезными нагрузками базовой вспомогательной информации.The base compressed audio representation component payloads BSRC ₁ ,...,BSRCJ may be provided along with (all) the base auxiliary information payloads (e.g. BSI or BSII and BSI _D , _m , m=1, ..., M) and the value NB to the base representation recovery processor 4200. The base representation reconstruction processor 4200 (illustrated in FIGS. 4A and 4B) reconstructs the base audio representation (or sound field) using only those components of the compressed audio base representation contained in the lowest NB layers, which are the base layer and NB-1. improving levels (i.e., levels up to the level indicated by the first level index). As an alternative, the base representation recovery processor 4200 may be provided with only the base audio compressed representation component payloads contained in the lowest NB layers along with the corresponding base ancillary information payloads.

Требуемая информация о том, какие компоненты базового сжатого представления звука (или звукового поля) содержатся на индивидуальных уровнях, предполагается известной декомпрессору 4100 из пакета данных с информацией конфигурации, которая предполагается отправленной и принятой перед пакетами данных кадра.The required information about which components of the underlying compressed audio representation (or sound field) are contained at the individual layers is assumed to be known to the decompressor 4100 from the configuration information data packet that is assumed to be sent and received before the frame data packets.

Чтобы обеспечить пакеты данных BSI_D,_m, m=1, ..., N_B зависимой вспомогательной информации и пакет данных ESINE улучшающей вспомогательной информации, все улучшающие полезные нагрузки могут быть введены частичный анализатор 4400 (см. фиг. 4В) декомпрессора 4100 вместе со значением NE и значением N_B.To provide BSI data packets _D , _m , m=1, ..., N _B of dependent auxiliary information and ESINE data packet of enhancement auxiliary information, all enhancement payloads can be input to the partial analyzer 4400 (see FIG. 4B) of the decompressor 4100 together with NE value and N _B value.

- 14 043574- 14 043574

Анализатор может отбросить все полезные нагрузки и пакеты данных, которые не будут использоваться для фактической восстановления. Если значение NE равно нулю, то может предполагаться, что все пакеты данных улучшающей вспомогательной информации являются пустыми.The analyzer can discard all payloads and data packets that will not be used for the actual recovery. If the NE value is zero, then all enhancement ancillary information data packets may be assumed to be empty.

Если базовый уровень включает в себя по меньшей мере одну зависимую полезную нагрузку базовой вспомогательной информации (часть дополнительной базовой вспомогательной информации), соответствующей соответствующему уровню, декодирование каждой индивидуальной полезной нагрузки зависимой базовой вспомогательной информации (например, BSI_D,m, m=1, ..., N_B (часть дополнительной базовой вспомогательной информации)) может включать в себя (i) декодирование части дополнительной базовой вспомогательной информации посредством ссылки на компоненты, присвоенные ее соответствующему уровню и любым уровням ниже соответствующего уровня (предварительное декодирование), и (ii) коррекцию части дополнительной базовой вспомогательной информации посредством ссылки на компоненты, присвоенные наиболее высокому применимому уровню и любым уровням между наиболее высоким применимым уровнем и соответствующим уровнем (коррекция). При этом дополнительная базовая вспомогательная информация, соответствующая соответствующему уровню, включает в себя информацию, которая определяет декодирование одного или более компонентов среди компонентов, присвоенных соответствующему уровню, в зависимости от других компонентов, присвоенных соответствующему уровню и любым уровням ниже соответствующего уровня.If the base layer includes at least one dependent base auxiliary information payload (part of the additional base auxiliary information) corresponding to the corresponding layer, decoding each individual dependent base auxiliary information payload (for example, BSI _D ,m, m=1, . .., N _B (additional basic auxiliary information part)) may include (i) decoding the additional basic auxiliary information portion by reference to components assigned to its corresponding layer and any layers below the corresponding layer (pre-decoding), and (ii) correcting a portion of the additional basic auxiliary information by reference to the components assigned to the highest applicable level and any levels between the highest applicable level and the corresponding level (correction). Here, the additional basic auxiliary information corresponding to the corresponding layer includes information that determines the decoding of one or more components among the components assigned to the corresponding layer depending on the other components assigned to the corresponding layer and any layers below the corresponding layer.

Затем базовое воссозданное представление звука может быть получено (например, сформировано) из компонентов, присвоенных наиболее высокому применимому уровню и любым уровням ниже наиболее высокого применимого уровня, с использованием базовой вспомогательной информации и скорректированных частей дополнительной базовой вспомогательной информации, полученных из частей дополнительной базовой вспомогательной информации, соответствующей уровням вплоть до наиболее высокого применимого уровня.The basic reconstructed audio representation may then be derived (eg, generated) from the components assigned to the highest applicable level and any levels below the highest applicable level, using the basic auxiliary information and the adjusted additional basic auxiliary information portions derived from the additional basic auxiliary information portions. , corresponding to levels up to the highest applicable level.

В частности, предварительное декодирование каждой полезной нагрузки BSI_D,_m, m=1, ..., N_B, может включать в себя использование ее зависимость от первых J_m-1 компонентов BSRC1, ..., BSRC(_Jm)_1 базово го сжатого представления звука, содержащихся на первых m уровнях, что предполагалось на стадии ко дирования.In particular, pre-decoding each payload BSI _D , _m , m=1, ..., N _B , may involve exploiting its dependence on the first J _m -1 components BSRC1, ..., BSRC( _Jm )_1 base th compressed representation of the sound contained in the first m levels, which was assumed at the encoding stage.

Последовательная коррекция каждой полезной нагрузки BSI_D,_m, m=1, ..., N_B, может включать в себя принятие во внимание, что базовый компонент звука наконец воссоздан из первых JNB-1 компонентовSequential correction of each BSI payload _D , _m , m=1, ..., N _B , may involve taking into account that the underlying audio component is finally recreated from the first JNB-1 components

BSRC1, ..., BSRC(j_nb)_ базового сжатого представления звука, содержащихся на первых N_B>m уровнях, что является большим количеством компонентов, чем предполагалось для предварительного декодирования. Следовательно, коррекция может быть достигнута посредством отбрасывания неадекватной информации, что возможно вследствие первоначально принятого свойства зависимой базовой вспомогательной информации, состоящего в том, что если некоторые взаимодополняющие компоненты добавляются к базовому сжатому представлению звука, зависимая базовая вспомогательная информация для каждого индивидуального (взаимодополняющего) компонента становится подмножеством первоначальной.BSRC1, ..., BSRC(j _n b)_ the underlying compressed representation of the audio contained in the first N _B >m layers, which is more components than expected for pre-decoding. Therefore, correction can be achieved by discarding inadequate information, which is possible due to the initially assumed property of the dependent base auxiliary information that if some complementary components are added to the underlying compressed audio representation, the dependent base auxiliary information for each individual (complementary) component becomes a subset of the original one.

На этапе S3040 может быть определен второй индекс уровня. Второй индекс уровня может указывать часть (части) улучшающей вспомогательной информации, которая должна использоваться для улучшения (например, расширения) базового воссозданного представления звука.In step S3040, the second level index may be determined. The second level index may indicate the portion(s) of enhancement auxiliary information that should be used to enhance (eg, enhance) the underlying reconstructed audio representation.

В дополнение к первому индексу уровня может быть определен индекс NE (второй индекс уровня) полезной нагрузки улучшающей вспомогательной информации (части второй улучшающей информации) для использования для восстановления. Второй индекс N_E уровня может всегда либо быть равен первому индексу N_B уровня, либо быть равен нулю. Улучшение может быть достигнуто либо всегда в соответствии с базовым представлением звука, полученным из наиболее высокого применимого уровня, либо ни когда.In addition to the first layer index, an NE index (second layer index) of the enhancement auxiliary information payload (part of the second enhancement information) to be used for reconstruction may be determined. The second index N _E of the level can always either be equal to the first index N _B of the level or be equal to zero. Improvement can be achieved either always according to the base sound representation derived from the highest applicable level, or never.

На этапе S3050 воссозданное представление звука или звукового поля получается (например, формируется) из базового воссозданного представления звука со ссылкой на второй индекс уровня.At step S3050, the reconstructed audio or sound field representation is obtained (eg, generated) from the base reconstructed audio representation with reference to the second level index.

Таким образом, воссозданное представление звука получается посредством (параметрического) улучшения или расширения базового воссозданного представления звука, например, посредством использования улучшающей вспомогательной информации (части улучшающей вспомогательной информации), указанной вторым индексом уровня. Как указано далее, второй индекс уровня может указывать на то, чтобы вообще не использовать какую-либо улучшающую вспомогательную информацию на данной стадии. Тогда воссозданное представление звука будет соответствовать базовому воссозданному представлению звука.Thus, the reconstructed audio representation is obtained by (parametrically) enhancing or extending the basic reconstructed audio representation, for example, by using the enhancement auxiliary information (a portion of the enhancement auxiliary information) indicated by the second level index. As discussed below, the second level index may indicate not to use any enhancement auxiliary information at all at this stage. The recreated sound representation will then match the base recreated sound representation.

С этой целью воссозданное базовое представление звука вместе со всеми полезными нагрузками ESI1,...,ESI_M улучшающей вспомогательной информации, полезными нагрузками базовой вспомогательной информации (например, BSI или BSI_b и BSI_D,_m, m=1, ..., M), и значением NE обеспечиваются процессору 4300 восстановления расширенного представления (проиллюстрированному на фиг. 4А и 4В), который вычисляет окончательное расширенное представление 2100' звука (или звукового поля) с использованием только полезной нагрузки ESINE улучшающей вспомогательной информации, и отбрасывая всеFor this purpose, the reconstructed audio base representation together with all enhancement auxiliary information payloads ESI1,...,ESI _M , base auxiliary information payloads (e.g. BSI or BSI _b and BSI _D , _m , m=1, ..., M), and the NE value are provided to the enhanced representation recovery processor 4300 (illustrated in FIGS. 4A and 4B), which calculates the final enhanced audio (or sound field) representation 2100' using only the enhancement auxiliary information payload ESINE, and discarding all

- 15 043574 другие полезные нагрузки улучшающей вспомогательной информации. В качестве альтернативы процессору 4300 восстановления улучшающего представления может быть обеспечена только полезная нагрузка ESINE улучшающей вспомогательной информации вместо всех полезных нагрузок улучшающей вспомогательной информации. Если значение NE равно нулю, все полезные нагрузки улучшающей вспомогательной информации отбрасываются (или в качестве альтернативы полезная нагрузка улучшающей вспомогательной информации не обеспечивается), и воссозданное финальное расширенное представление 2100' звука равно воссозданному основному представлению звука. Полезная нагрузка ESINE улучшающей вспомогательной информации может быть получена посредством частичного анализатора 4400.- 15 043574 other payloads of improving auxiliary information. As an alternative, only the enhancement auxiliary information payload ESINE may be provided to the enhancement view recovery processor 4300 instead of all the enhancement auxiliary information payloads. If the NE value is zero, all enhancement auxiliary information payloads are discarded (or alternatively, no enhancement auxiliary information payload is provided) and the recreated final enhanced audio representation 2100' is equal to the recreated main audio representation. The ESINE enhancement auxiliary information payload may be obtained by the partial analyzer 4400.

Фиг. 3 также в целом иллюстрирует декодирование сжатого представления НОА на основе базовой вспомогательной информации, которая связана с базовым уровнем, и на основе улучшающей вспомогательной информации, которая связана с одним или более иерархическими улучшающими уровнями.Fig. 3 also generally illustrates the decoding of a compressed HLA representation based on basic auxiliary information that is associated with a base layer and based on enhancement auxiliary information that is associated with one or more hierarchical enhancement layers.

Если этапы не требуют некоторых других этапов в качестве предварительных условий, упомянутые выше этапы могут выполняться в любом порядке, и предполагается, что иллюстративный порядок, показанный на фиг. 3, не имеет ограничительного характера.Unless the steps require certain other steps as prerequisites, the above steps may be performed in any order, and it is intended that the exemplary order shown in FIG. 3 is not restrictive.

Далее будут описаны подробности выбора уровней для восстановления (выбор первого и второго индексов уровней) на этапах S3020 и S3040.Next, details of selecting layers to restore (selecting first and second layer indices) in steps S3020 and S3040 will be described.

Определение первого индекса уровня может включать в себя определение для каждого уровня, был ли соответствующий уровень принят корректно. Определение первого индекса уровня может дополнительно включать в себя определение первого индекса уровня как индекса того уровня, который находится непосредственно ниже наиболее низкого уровня, который не был корректно принят. Был ли уровень принят корректно, может быть определено посредством оценки, была ли корректно принята полезная нагрузка улучшающей вспомогательной информации этого уровня. Это, в свою очередь, может быть сделано посредством оценки флагов корректности в полезных нагрузках улучшающей вспомогательной информации.Determining the first level index may include determining for each level whether the corresponding level was received correctly. Defining the first level index may further include defining the first level index as the index of that level that is immediately below the lowest level that was not correctly received. Whether a layer has been received correctly can be determined by judging whether the enhancement auxiliary information payload of that layer has been correctly received. This, in turn, can be done by evaluating the correctness flags in the enhancement ancillary information payloads.

Определение второго индекса уровня в общем случае может включать в себя либо определение второго индекса уровня как равного первому индексу уровня, либо определение значения индекса в качестве второго индекса уровня (например, значение 0 индекса), которое указывает, что не следует использовать какую-либо улучшающую вспомогательную информацию при получении воссозданного представления звука.Determining the second level index may generally involve either defining the second level index to be equal to the first level index, or defining an index value as the second level index (for example, index value 0) that indicates that no enhancement should be used. supporting information when obtaining a reconstructed representation of the sound.

В случае, если все пакеты данных кадра могут быть восстановлены независимо друг от друга, и номер NB наиболее высокого уровня (наиболее высокого применимого уровня) для фактического использования для восстановления базового представления звука, и индекс NE полезной нагрузки улучшающей вспомогательной информации для использования для восстановления могут быть установлены равными наибольшему номеру корректной полезной нагрузки улучшающей вспомогательной информации, который сам может быть определен посредством оценки флагов корректности в полезных нагрузках улучшающей вспомогательной информации. Используя знание размера каждой полезной нагрузки улучшающей вспомогательной информации, можно избежать сложного анализа фактических данных полезных нагрузок для определения их корректности.In the case that all data packets of a frame can be recovered independently of each other, both the NB number of the highest layer (highest applicable layer) to actually use for recovering the basic audio representation, and the enhancement auxiliary information payload index NE to use for recovery can be set equal to the highest number of valid enhancement ancillary information payloads, which itself can be determined by evaluating the correctness flags in the enhancement ancillary information payloads. By using knowledge of the size of each enhancement auxiliary information payload, complex analysis of the actual payload data to determine its correctness can be avoided.

Таким образом, второй индекс уровня может быть определен как равный первому индексу уровня, если сжатые представления звука для последовательных временных интервалов могут быть декодированы независимо. В этом случае воссозданное базовое представление звука может быть расширено на основе полезной нагрузки улучшающей вспомогательной информации наиболее высокого применимого уровня.Thus, the second level index can be determined to be equal to the first level index if the compressed audio representations for successive time intervals can be decoded independently. In this case, the reconstructed base audio representation may be enhanced based on the highest applicable level enhancement auxiliary information payload.

В случае, если используется это дифференциальное восстановление с межкадровыми зависимостями, в дополнение следует рассматривать решение от предыдущего кадра. Следует отметить, что с дифференциальным восстановлением обычно независимые пакеты данных кадра передаются с регулярными временными интервалами, чтобы позволить начинать восстановление с тех моментов времени, когда определение значении NB и NE становятся независимыми от кадров, и она выполняется, как описано выше.In case this differential reconstruction with inter-frame dependencies is used, the solution from the previous frame should be considered in addition. It should be noted that with differential reconstruction, typically independent frame data packets are transmitted at regular time intervals to allow reconstruction to begin at times when the determination of the NB and NE values become frame independent, and is performed as described above.

Для подробного разъяснения предложенного зависимого от кадров решения, самое большой номер (например, индекс уровня) корректной полезной нагрузки улучшающей вспомогательной информации для k-ого кадра обозначен как L(k), номер наиболее высокого уровня (например, индекс уровня) для выбора и использования для восстановления базового представления звука обозначен как NB(k), и номер (например, индекс уровня) полезной нагрузки улучшающей вспомогательной информации для использования для восстановления обозначен как NE(k).For a detailed explanation of the proposed frame-dependent solution, the highest number (eg, level index) of the correct enhancement auxiliary information payload for the kth frame is denoted as L(k), the highest level number (eg, level index) to select and use for restoring the basic audio representation is designated as NB(k), and the number (eg, level index) of the enhancement auxiliary information payload to use for restoration is designated as NE(k).

Используя эти обозначения, номер наиболее высокого уровня для использования для восстановления базового представления звука NB(k) может быть вычислен в соответствии сUsing these notations, the highest level number to use to reconstruct the underlying sound representation NB(k) can be calculated according to

W_B(k) = min(/V_B(k - l),L(k)). ₍₇₎ W _B (k) = min(/V _B (k - l),L(k)). ₍₇₎

Посредством выбора N_B(k) не больше, чем N_B(k-1) и L(k), обеспечивается, что вся информация, требуемая для дифференциального восстановления базового представления звука, является доступной.By choosing N _B (k) no greater than N _B (k-1) and L (k), it is ensured that all information required for differential reconstruction of the underlying audio representation is available.

Таким образом, если сжатые представления звука для последовательных временных интерваловThus, if compressed audio representations for successive time intervals

- 16 043574 (например, кадров) не могут быть декодированы независимо друг от друга, определение первого индекса уровня может содержать определение для каждого уровня, был ли соответствующий уровень принят корректно, и определение первого индекса уровня для данного временного интервала как меньшего индекса из первого индекса уровня временного интервала, предшествующего данному временному интервалу, и индекса уровня, который находится непосредственно ниже наиболее низкого уровня, который не был корректно принят.- 16 043574 (for example, frames) cannot be decoded independently of each other, the determination of the first level index may include determining for each level whether the corresponding level was received correctly, and determining the first level index for a given time interval as the lesser index of the first index the level of the time interval preceding the given time interval, and the level index that is immediately below the lowest level that was not correctly accepted.

Номер NE(k) полезной нагрузки улучшающей вспомогательной информации для использования для восстановления может быть определен в соответствии с „ №(0 ifN_BW = N_B№-l)The enhancement auxiliary information payload number NE(k) to be used for recovery can be determined according to „ No.(0 ifN _B W = N _B No.-l)

О elseOh else

L и eise ₍θ_} L and eise ₍ θ _}

При этом выбор 0 для N_E(k) указывает, что воссозданное базовое представление звука не должно улучшаться или расширяться с использованием улучшающей вспомогательной информации.However, selecting 0 for N _E (k) indicates that the reconstructed base representation of the sound should not be improved or expanded using enhancing auxiliary information.

Это означает, в частности, что при условии, что номер N_B(k) наиболее высокого уровня для использования для восстановления базового представления звука не изменяется, выбирается тот же самый соответствующий номер улучшающего уровня. Однако в случае изменения N_B(k) улучшение запрещается посредством установки N_E(k) равным нуль. Вследствие предполагаемого дифференциального восстановления улучшающей вспомогательной информации ее изменение в соответствии с N_B(k) невозможно, поскольку это потребовало бы восстановления соответствующего уровня улучшающей вспомогательной информации в предыдущем кадре, которая, как предполагается, не была выполнена.This means in particular that, provided that the highest layer number N _B (k) to be used for reconstructing the basic audio representation does not change, the same corresponding enhancement layer number is selected. However, in case of changing N _B (k), the improvement is prohibited by setting N _E (k) equal to zero. Due to the assumed differential recovery of the enhancement auxiliary information, changing it according to N _B (k) is not possible since this would require restoring the corresponding level of enhancement auxiliary information in the previous frame, which is assumed not to have been performed.

Таким образом, если сжатые представления звука для последовательных временных интервалов (например, кадров) не могут быть декодированы независимо друг от друга, определение второго индекса уровня может содержать определение, равен ли первый индекс уровня для данного временного интервала первому индексу уровня для предыдущего временного интервала. Если первый индекс уровня для данного временного интервала равен первому индексу уровня для предыдущего временного интервала, второй индекс уровня для данного временного интервала может быть определен (например, выбран) как равный первому индексу уровня для данного временного интервала. С другой стороны, если первый индекс уровня для данного временного интервала не равен первому индексу уровня для предыдущего временного интервала, значение индекса может быть определено (например, выбрано) как второй индекс уровня, который указывает, что не следует использовать какую-либо улучшающую вспомогательную информацию при получении воссозданного представления звука.Thus, if compressed audio representations for successive time intervals (eg, frames) cannot be decoded independently of each other, determining the second level index may include determining whether the first level index for a given time interval is equal to the first level index for a previous time interval. If the first level index for a given time interval is equal to the first level index for a previous time interval, the second level index for a given time interval may be determined (eg, selected) to be equal to the first level index for a given time interval. On the other hand, if the first level index for a given time interval is not equal to the first level index for a previous time interval, the index value may be determined (eg, selected) as the second level index, which indicates that no enhancement auxiliary information should be used when receiving a reconstructed representation of the sound.

В качестве альтернативы, если при восстановлении все полезные нагрузки улучшающей вспомогательной информации с номером вплоть до N_E(k) восстановлены параллельно, правило выбора в уравнении (4) может быть заменено:Alternatively, if during recovery all enhancement auxiliary information payloads with numbers up to N _E (k) are recovered in parallel, the selection rule in equation (4) can be replaced:

= ._Q.= . _Q.

Е D ( У )E D (U)

Наконец, следует отметить, что для дифференциальной восстановления номер наиболее высокого используемого уровня N_B может только увеличиваться в независимых пакетах данных кадра, тогда как уменьшение возможно в каждом кадре.Finally, it should be noted that for differential reconstruction, the number of the highest usable layer N _B can only increase in independent frame data packets, while decrement is possible in each frame.

Подразумевается, что предложенный способ многоуровневого кодирования сжатого представления звука может быть реализован кодером для многоуровневого кодирования сжатого представления звука. Такой кодер может содержать соответствующие блоки, выполненные с возможностью выполнять соответствующие описанные выше этапы. Пример такого кодера 5000 схематично проиллюстрирован на фиг. 5. Например, такой кодер 5000 может содержать блок 5010 подразделения компонентов, выполненный с возможностью выполнять упомянутый выше этап S1010, блок 5020 присвоения компонентов, выполненный с возможностью выполнять упомянутый выше этап S1020, блок 5030 присвоения базовой вспомогательной информации, выполненный с возможностью выполнять упомянутый выше этап S1030, блок 5040 разбиения улучшающей вспомогательной информации, выполненный с возможностью выполнять упомянутый выше этап S1040, и блок 5050 присвоения улучшающей вспомогательной информации, выполненный с возможностью, выполнять упомянутый выше этап S1050. Далее подразумевается, что соответствующие блоки такого кодера могут быть воплощены посредством процессора 5100 вычислительного устройства, который выполнено с возможностью выполнять обработку, выполняемую каждым из упомянутых соответствующих блоков, т.е., он выполнен с возможностью выполнять некоторые или все упомянутые выше этапы, а также любые дополнительные этапы предложенного метода кодирования. Кодер или вычислительное устройство могут дополнительно содержать память 5200, к которой процессор 5100 может осуществлять доступ.It is understood that the proposed layered compressed audio representation method can be implemented by an encoder for layered compressed audio representation encoding. Such an encoder may include corresponding blocks configured to perform the corresponding steps described above. An example of such an encoder 5000 is illustrated schematically in FIG. 5. For example, such encoder 5000 may include a component division unit 5010 configured to perform the above step S1010, a component assignment unit 5020 configured to perform the above step S1020, a basic auxiliary information assignment unit 5030 configured to perform the above step S1030, an enhancement auxiliary information splitting unit 5040 configured to execute the above-mentioned step S1040, and an enhancement auxiliary information assigning unit 5050 configured to execute the above-mentioned step S1050. It is further understood that the corresponding blocks of such an encoder may be implemented by a processor 5100 of a computing device, which is configured to perform the processing performed by each of the respective blocks, i.e., it is configured to perform some or all of the steps mentioned above, as well as any additional steps of the proposed encoding method. The encoder or computing device may further include a memory 5200 that can be accessed by the processor 5100.

Далее подразумевается, что предложенный способ декодирования сжатого представления звука, которое закодировано в множестве иерархических уровней, может быть реализован декодером для декодирования сжатого представления звука, которое закодировано в множестве иерархических уровней. Такой декодер может содержать соответствующие блоки, выполненные с возможностью выполнять соответствующие описанные выше этапы. Пример такого декодера 6000 схематично проиллюстрирован на фиг. 6. Например, такой декодер 6000 может содержать блок 6010 приема, выполненный с возможностью выIt is further contemplated that the proposed method for decoding a compressed audio representation that is encoded in a plurality of hierarchical levels can be implemented by a decoder for decoding a compressed audio representation that is encoded in a plurality of hierarchical levels. Such a decoder may include corresponding blocks configured to perform the corresponding steps described above. An example of such a decoder 6000 is illustrated schematically in FIG. 6. For example, such a decoder 6000 may include a receiving unit 6010 configured to

--

Claims

complete the above-mentioned step S3010, the first level index determining unit 6020, configured to perform the above-mentioned step S3020, the base recreation unit 6030, configured to perform the above-mentioned step S3030, the second level index determining unit 6040, configured to perform the above-mentioned step S3040, and a block 6050 configured to perform the above-mentioned step S3050. It is further understood that the corresponding blocks of such an encoder may be implemented by a processor 6100 of a computing device, which is configured to perform the processing performed by each of the respective blocks, i.e., it is configured to perform some or all of the steps mentioned above, as well as any additional steps of the proposed encoding method. The encoder or computing device may further include a memory 6200 that can be accessed by the processor 6100.

It should be noted that the description and drawings only illustrate the principles of the proposed methods and devices. Thus, it will be apparent that those skilled in the art will be able to create various structures that, although not expressly described or shown herein, embody the principles of the invention and are included within the spirit and scope thereof. In addition, all examples given herein are expressly intended for educational purposes only to assist the reader in understanding the principles of the proposed methods and devices, and the concepts brought by the inventors to the development of the field of technology, and should be construed as not limiting such special in the manner of the given examples and conditions. Moreover, all statements herein setting forth the principles, aspects and embodiments of the invention, as well as specific examples thereof, are intended to cover their equivalents.

The methods and apparatus described herein may be implemented as software, firmware, and/or hardware. Some components, for example, may be implemented as software running on a digital signal processor or microprocessor. Other components, for example, may be implemented as hardware and/or as application-specific integrated circuits. Signals encountered in the described methods and apparatus may be stored on media such as random access memory or optical storage media. They can be carried over networks such as radio networks, satellite networks, wireless networks or wired networks such as the Internet.

Literature Cited

1: ISO/IEC JTC1/SC29/WG11 23008-

3:2015(E). Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio, February 2015.

2: ISO/IEC JTC1/SC29/WG11 23008-

3:2015/PDAM3. Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio, AMENDMENT 3: MPEG-H 3D Audio Phase 2, July 2015.

CLAIM

1. A method for decoding a compressed representation of an audio or sound field of a Higher Order Ambisonics (HOA) system, the method comprising the steps of receiving a bit stream containing a compressed representation of the HOA, wherein the bit stream contains a plurality of hierarchical levels that include a base level and two or more hierarchical enhancement layers, wherein the bitstream contains at least a data payload corresponding to the plurality of hierarchical layers, and wherein the bitstream also contains basic side information that is associated with the base layer, and enhancement side information that is associated with two or more hierarchical enhancement layers, wherein the plurality of hierarchical layers have compressed HLA representation components of the sound or sound field assigned to them, wherein the two or more hierarchical enhancement layers comprise the highest applicable hierarchical enhancement layer, wherein each of the two or more hierarchical enhancement layers includes a portion of the enhancement auxiliary information including parameters for improving the underlying rendered audio representation available from the data included in the corresponding level and any levels below the corresponding level; and decoding the compressed SLAM representation based on the basic auxiliary information that is associated with the base layer and based on the enhancement auxiliary information portion that

- 18 043574 is associated with the highest applicable hierarchical improvement level, and based on the second part of the improvement auxiliary information, which is associated with any other level of two or more hierarchical improvement levels.

2. The method according to claim 1, in which the parameters contain at least one of the following: spatial prediction, synthesis of directional subband signals and parametric duplication of the sound environment.

3. The method of claim 1, wherein the enhancing auxiliary information includes information that enables missing parts of the sound or sound field to be predicted from the directional signals.

4. The method according to claim 1, further comprising the steps of determining for each level whether the corresponding level was accepted correctly; and determining the index of the level immediately below the lowest level that was not accepted correctly.

5. The method of claim 4, further comprising determining an additional level index that is either equal to the level index or indicates exclusion of enhancement auxiliary information during decoding.

6. The method of claim 1, wherein the base layer includes at least one piece of additional base auxiliary information associated with the corresponding layer, and includes information that determines the decoding of one or more components among the components assigned to the corresponding layer, depending on other components assigned to the corresponding level and any levels below the corresponding level, the method for each piece of additional basic auxiliary information comprising decoding the piece of additional basic auxiliary information by reference to components assigned to its corresponding level and any levels below the corresponding one level; and adjusting a portion of the additional basic auxiliary information by reference to components assigned to the highest applicable hierarchical enhancement level and any levels between the highest applicable hierarchical enhancement level and the corresponding layer, wherein the basic reconstructed audio representation is obtained from the components assigned to the highest applicable hierarchical enhancement level and any levels below the highest applicable hierarchical enhancement level, using the basic auxiliary information and adjusted portions of the additional basic auxiliary information obtained from the portions of the additional basic auxiliary information corresponding to the levels up to the highest applicable hierarchical enhancement level.

7. A permanent storage medium carrying computer-executable code, which, when executed by a processor, causes the processor to perform the method of claim 1.

8. An apparatus for decoding a compressed representation of an audio or audio field of a Higher Order Ambisonics (HOA) system, the apparatus comprising a receiver for receiving a bitstream containing a compressed representation of the HOA, wherein the bitstream comprises a plurality of hierarchical levels that include a base layer and two or more hierarchical enhancement layers, wherein the bitstream contains at least a data payload corresponding to the plurality of hierarchical layers, and wherein the bitstream also contains basic auxiliary information that is associated with the base layer, and enhancement auxiliary information that is associated with two or more hierarchical enhancement layers, wherein the plurality of hierarchical layers have compressed audio or sound field HLA representation components assigned to them, wherein the two or more hierarchical enhancement layers comprise the highest applicable hierarchical enhancement layer, and wherein each of the two or more hierarchical enhancement layers includes a portion of the enhancement supporting information including parameters for improving the underlying rendered audio representation available from the data included in the corresponding levels and any levels below the corresponding level; and a decoder for decoding the compressed NOA representation based on the base support information that is associated with the base layer, and based on the portion of the enhancement support information that is associated with the base layer, and based on the portion of the enhancement support information that is associated with the highest applicable hierarchical enhancement layer. , and not based on a second piece of improving auxiliary information that is associated with any other level of two or more hierarchical improving levels.

-