EA042232B1 - ENCODING AND DECODING AUDIO USING REPRESENTATION TRANSFORMATION PARAMETERS - Google Patents

ENCODING AND DECODING AUDIO USING REPRESENTATION TRANSFORMATION PARAMETERS Download PDF

Info

Publication number
EA042232B1
EA042232B1 EA202090186 EA042232B1 EA 042232 B1 EA042232 B1 EA 042232B1 EA 202090186 EA202090186 EA 202090186 EA 042232 B1 EA042232 B1 EA 042232B1
Authority
EA
Eurasian Patent Office
Prior art keywords
representation
playback stream
stream
playback
signals
Prior art date
Application number
EA202090186
Other languages
Russian (ru)
Inventor
Дирк Йерун БРЕБАРТ
Дэвид М. КУПЕР
Лейф Дж. Самуэльссон
Йерун КОППЕНС
Ронда Джой Уилсон
Хейко ПУРНХАГЕН
Александр Штальман
Original Assignee
Долби Интернешнл Аб
Долби Лабораторис Лайсэнзин Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Интернешнл Аб, Долби Лабораторис Лайсэнзин Корпорейшн filed Critical Долби Интернешнл Аб
Publication of EA042232B1 publication Critical patent/EA042232B1/en

Links

Description

Настоящее изобретение относится к области обработки сигналов, и, в частности, в нем раскрыта система для эффективной передачи звуковых сигналов, содержащих составляющие пространственного представления, т.е. звуковые составляющие, связанные с различными пространственными местоположениями.The present invention relates to the field of signal processing, and in particular, it discloses a system for the efficient transmission of audio signals containing spatial representation components, i.e. audio components associated with different spatial locations.

Предпосылки изобретенияBackground of the invention

Любое обсуждение текущего уровня техники в данном описании никоим образом не следует рассматривать как допущение того, что данный уровень широко известен или образует часть общедоступных знаний в данной области.Any discussion of the current state of the art in this specification should in no way be construed as an admission that the state of the art is widely known or forms part of the public knowledge in the field.

Создание содержимого, кодирование, распространение и воспроизведение звука обычно выполняется в формате на основе каналов, т.е. одна конкретная целевая система воспроизведения предусмотрена для содержимого во всей экосистеме содержимого. Примерами таких звуковых форматов целевых систем воспроизведения являются монофонический, стереофонический, 5.1, 7.1 и т.д.Content creation, encoding, distribution and playback of audio is typically done in a channel-based format, i.e. one specific playback target system is provided for content across the entire content ecosystem. Examples of such target playback system audio formats are mono, stereo, 5.1, 7.1, and so on.

Если содержимое подлежит воспроизведению иной системой воспроизведения, нежели предназначенная, может применяться понижающее или повышающее микширование. Например, содержимое в формате 5.1 может быть воспроизведено стереофонической системой воспроизведения путем использования специальных уравнений понижающего микширования. Другим примером является воспроизведение содержимого, кодированного в формате стерео, системой динамиков формата 7.1, которое может включать процесс т.н. повышающего микширования, который может управляться или может не управляться информацией, присутствующей в стереофоническом сигнале. Системой, характеризующейся возможностью осуществления повышающего микширования, является Dolby Pro Logic от Dolby Laboratories Inc (Roger Dressier, Dolby Pro Logic Surround Decoder, Principles of Operation, www.Dolby.com).If the content is to be played by a different playback system than the intended one, downmixing or upmixing may be applied. For example, 5.1 content can be reproduced by a stereo playback system by using special downmix equations. Another example is the playback of stereo-encoded content on a 7.1 speaker system, which may include a process called upmixing, which may or may not be controlled by the information present in the stereo signal. A system capable of upmixing is Dolby Pro Logic from Dolby Laboratories Inc (Roger Dressier, Dolby Pro Logic Surround Decoder, Principles of Operation, www.Dolby.com).

Альтернативной системой звукового формата является формат звуковых объектов, такой как формат, предусмотренный системой Dolby Atmos, см. Robinson, C. Q., Mehta, S., Tsingos, N. (2012) Scalable format and tools to extend the possibilities of cinema audio Motion Imaging Journal, SMPTE, 121(8), 63-69. В формате данного типа объектам заданы конкретные местоположения вокруг слушателя, которые могут являться переменными во времени. В таком формате на основе объектов содержимое представляется способом, инвариантным к конкретной системе воспроизведения. Следовательно, для преобразования содержимого в представление, подходящее для конкретной системы воспроизведения, такой как система громкоговорителей или наушники, требуется специализированный процесс представления.An alternative sound format system is the sound object format, such as that provided by Dolby Atmos, see Robinson, C. Q., Mehta, S., Tsingos, N. (2012) Scalable format and tools to extend the possibilities of cinema audio Motion Imaging Journal , SMPTE, 121(8), 63-69. In this type of format, objects are given specific locations around the listener, which may be time-varying. In such an object-based format, content is represented in a manner that is invariant to a particular rendering system. Therefore, a specialized presentation process is required to convert content into a representation suitable for a particular playback system, such as a speaker system or headphones.

Если стереофоническое, многоканальное или основанное на объектах содержимое подлежит воспроизведению через наушники, часто требуется сымитировать многоканальную систему динамиков (для содержимого на основе каналов) или набор виртуальных источников звука (для содержимого на основе объектов) посредством импульсных характеристик для головы (head-related impulse response, HRIR) или бинауральных импульсных характеристик для помещения (binaural room impulse responses, BRIR), имитирующих акустический путь от каждого громкоговорителя к барабанным перепонкам в соответственно безэховой или эховой среде (имитированной). В частности, звуковые сигналы могут быть свернуты с HRIR или BRIR для восстановления интерауральных разностей уровней (inter-aural level difference, ILD), интерауральных временных разностей (inter-aural time difference, ITD) и спектральных меток, позволяющих слушателю определять местоположение каждого отдельного канала. Достижению определенного воспринимаемого расстояния также способствует имитирование акустической среды (реверберация). Обратимся к фиг. 1, на которой показано схематическое общее представление хода обработки данных при представлении двух объектных или канальных сигналов xi 10, 11, считанных из запоминающего устройства 12 для содержимого для обработки 4 при помощи четырех HRIR, например, 14. Выходные данные HRIR затем суммируются 15, 16 для каждого канального сигнала, чтобы получить выходные данные для наушников для воспроизведения слушателю через наушники 18. Базовый принцип HRIR разъяснен, например, в публикации Wightman, F. L., Kistler, D. J. (1989b). Headphone simulation of free-field listening. I. Stimulus synthesis, J. Acoust. Soc. Am. 85, 858-867. Результирующий стереофонический сигнал 15, 16 наушников часто называют бинауральным сигналом, бинауральным представлением или (бинауральным) представлением для наушников. Более того, такое бинауральное представление предназначено (или специально рассчитано) для воспроизведения через наушники, в отличие от представления для громкоговорителей, предназначенного для воспроизведения системой громкоговорителей, которая согласуется с каналами, представленными в сигнале (сигналах) представления для громкоговорителей. Эти различные системы воспроизведения называются модальностями, например, одна модальность воспроизведения состоит из наушников, тогда как другая модальность воспроизведения содержит один или более громкоговорителей. Независимо от модальности воспроизведения, на основании входного потока, такого как многоканальный или основанный на объектах формат содержимого, могут быть представлены (сгенерированы) различные представления (стереофоническое, бинауральное, 5.1). В идеале, для обеспече- 1 042232 ния того, чтобы художественный замысел был правильно передан слушателю, представления генерируются, или представляются, для конкретных модальностей воспроизведения. В случае воспроизведения через наушники это предполагает применение HRIR или BRIR для создания бинаурального представления, тогда как для громкоговорителей обычно используются методики амплитудного панорамирования. Таким образом, такой процесс представления может применяться как в отношении входного содержимого на основе каналов (5.1, 7.1 и т.п.), так и в отношении погружающего содержимого на основе объектов, такого как Dolby Atmos. В последнем случае в отношении каждого входного объекта обычно независимо используется амплитудное панорамирование (в представлениях для громкоговорителей) или BRIR (в представлениях для наушников) с последующим суммированием вкладов отдельных объектов в результирующий бинауральный сигнал.When stereo, multi-channel, or object-based content is to be played back through headphones, it is often necessary to simulate a multi-channel speaker system (for channel-based content) or a set of virtual sound sources (for object-based content) via head-related impulse response. , HRIR) or binaural room impulse responses (BRIR), which simulate the acoustic path from each speaker to the eardrums in an anechoic or echoic environment (simulated), respectively. In particular, audio signals can be convolved with HRIR or BRIR to reconstruct inter-aural level differences (ILD), inter-aural time differences (ITD), and spectral labels, allowing the listener to locate each individual channel. . Achieving a certain perceived distance is also facilitated by simulating the acoustic environment (reverberation). Let us turn to Fig. 1, which shows a schematic overview of the progress of data processing when presenting two object or channel signals xi 10, 11 read from the content memory 12 for processing 4 with four HRIRs, for example, 14. The output of the HRIRs is then summed 15, 16 for each channel signal to produce a headphone output for playback to a listener through headphones 18. The basic principle of HRIR is explained, for example, in Wightman, F. L., Kistler, D. J. (1989b). Headphone simulations of free-field listening. I. Stimulus synthesis, J. Acoust. soc. Am. 85, 858-867. The resulting headphone stereo signal 15, 16 is often referred to as a binaural signal, binaural presentation, or headphone (binaural) presentation. Moreover, such a binaural presentation is designed (or specifically designed) for playback through headphones, as opposed to a speaker presentation intended for playback by a speaker system that matches the channels represented in the speaker presentation signal(s). These different playback systems are called modalities, for example, one playback modality consists of headphones, while another playback modality contains one or more loudspeakers. Regardless of the playback modality, based on an input stream, such as a multi-channel or object-based content format, various representations (stereo, binaural, 5.1) can be presented (generated). Ideally, to ensure that the artistic intent is correctly communicated to the listener, representations are generated, or presented, for specific rendering modalities. In the case of headphone playback, this involves using HRIR or BRIR to create a binaural presentation, while amplitude panning techniques are typically used for loudspeakers. Thus, such a presentation process can be applied to both channel-based input content (5.1, 7.1, etc.) and object-based immersive content such as Dolby Atmos. In the latter case, amplitude panning (in loudspeaker representations) or BRIR (in headphone representations) is typically used independently for each input object, followed by summing the individual object contributions to the resulting binaural signal.

Процесс свертки для получения бинаурального представления, предназначенного для воспроизведения наушниками, можно построить так, что метки определения местоположения источника звука, присутствующие в (безэховых) HRTF (head-related transfer functions, передаточных функциях головы), восстанавливаются для каждого ввода независимо, в зависимости от (намеченного, воспринимаемого) положения входного канала или объекта, тогда как имитированная эховая среда может быть, по меньшей мере, частично, использована совместно по общему алгоритму для двух или большего количества вводов. С этой целью один или более входных сигналов микшируются, или комбинируются, в один или более входных сигналов алгоритма имитирования среды, которые впоследствии обрабатываются для генерирования выходных сигналов имитирования среды, которые могут быть скомбинированы с выходными данными безэхового процесса свертки с использованием HRTF. Алгоритм имитирования среды может имитировать ранние отражения, позднюю реверберацию или и то, и другое, и он может быть реализован посредством известных методик, таких как свертка, задержки, сети задержки обратной связи, всечастотные фильтры и т.п.The convolution process to obtain a binaural representation intended for headphone playback can be constructed such that the audio source location cues present in the (anechoic) HRTFs (head-related transfer functions) are reconstructed for each input independently, depending on (intended, perceived) position of the input channel or object, while the simulated echo environment can be, at least in part, shared by a common algorithm for two or more inputs. To this end, one or more inputs are mixed, or combined, into one or more environment simulation algorithm inputs, which are subsequently processed to generate environment simulation outputs that can be combined with the output of an anechoic convolution process using HRTF. The environment simulation algorithm may simulate early reflections, late reverbs, or both, and may be implemented by known techniques such as convolution, delays, feedback delay networks, all-pass filters, and the like.

Подход на основе свертки с HRIR/BRIR сопровождается несколькими недостатками, одним из которых является существенный объем обработки данных свертки, необходимый для воспроизведения через наушники. Свертку с HRIR или BRIR необходимо применять для каждого входного объекта или канала по отдельности, и, таким образом, сложность обычно возрастает линейно относительно количества каналов или объектов. Поскольку наушники часто используют в сочетании с питающимися от аккумулятора переносными устройствами, высокая вычислительная сложность нежелательна, так как это может существенно сокращать время автономной работы от аккумулятора. Более того, при представлении звукового содержимого на основе объектов, которое может содержать, например, более 100 одновременно активных объектов, сложность свертки с HRIR может быть существенно выше, чем для традиционного содержимого на основе каналов.The HRIR/BRIR convolution approach comes with several drawbacks, one of which is the significant amount of convolution data processing required for headphone playback. The HRIR or BRIR convolution needs to be applied to each input feature or channel individually, and thus the complexity typically increases linearly with the number of channels or features. Because headphones are often used in conjunction with battery-powered portable devices, high computational complexity is undesirable as this can significantly reduce battery life. Moreover, when presenting object-based audio content, which may contain, for example, more than 100 simultaneously active objects, the complexity of convolution with HRIR can be significantly higher than for traditional channel-based content.

Одним из решений для уменьшения вычислительной нагрузки является применение процессов свертки выше по потоку в цепочке обработки данных. Например, в ходе этапа создания содержимого или кодирования. В данном частном случае, называемом бинауральным предварительным представлением, результирующий бинауральный сигнал, или бинауральное представление, создаваемое в ходе этапа предварительного представления, содержит все метки определения местоположения, предназначенные для воспроизведения наушниками, и в устройстве воспроизведения дополнительная обработка данных не требуется. Недостатком данного способа является то, что вводимые метки определения местоположения источника звука, которые присутствуют в HRIR (такие как интерауральные временные разности (ITD, interaural time differences), интерауральные разности уровней (ILD, interaural level differences), спектральные метки и реверберация), ухудшают воспринимаемое качество при воспроизведении данного конкретного бинаурального представления громкоговорителями, поскольку указанные метки определения местоположения будут применяться фактически дважды: один раз - алгоритмически, на этапе предварительного представления, и один раз - акустически, как следствие акустического пути между громкоговорителями и ушами слушателя.One solution to reduce the computational load is to apply convolution processes upstream in the data processing chain. For example, during the content creation or coding phase. In this particular case, called binaural preview, the resulting binaural signal, or binaural representation, generated during the preview step contains all of the location cues intended to be played back by the headphones, and no further data processing is required in the playback device. The disadvantage of this method is that the input sound source location marks that are present in HRIR (such as interaural time differences (ITD, interaural time differences), interaural level differences (ILD, interaural level differences), spectral marks and reverberation) degrade perceived quality when this particular binaural presentation is played back by the loudspeakers, since said location cues will actually be applied twice: once algorithmically, during the pre-presentation stage, and once acoustically, as a consequence of the acoustic path between the loudspeakers and the listener's ears.

Краткое описание сущности изобретенияBrief description of the essence of the invention

Целью изобретения в его предпочтительном варианте осуществления является создание усовершенствованного варианта осуществления кодирования и декодирования звуковых сигналов для воспроизведения.The aim of the invention in its preferred embodiment is to provide an improved embodiment of the encoding and decoding of audio signals for playback.

В соответствии с первым аспектом настоящего изобретения предусматривается способ кодирования входного аудиопотока, содержащего одну или более звуковых составляющих, причем каждая звуковая составляющая связана с пространственным местоположением, и способ содержит этапы получения первого представления потока воспроизведения для входного аудиопотока, причем первое представление потока воспроизведения представляет собой набор из M1 сигналов, предназначенных для воспроизведения первой системой воспроизведения звука, получения второго представления потока воспроизведения для входного аудиопотока, при этом второе представление потока воспроизведения представляет собой набор из M2 сигналов, предназначенных для воспроизведения второй системой воспроизведения звука, определения набора параметров преобразования, пригодных для преобразования промежуточного представления потока воспроизведения в приближение второго представления потока воспроизведения, причем промежуточное представление потока воспроизведения представляет собой одно из первого предAccording to a first aspect of the present invention, there is provided a method for encoding an input audio stream comprising one or more audio components, each audio component being associated with a spatial location, and the method comprising the steps of obtaining a first playback stream representation for the input audio stream, the first playback stream representation being a set of M1 signals intended to be reproduced by the first sound reproduction system, obtaining a second representation of the playback stream for the input audio stream, while the second representation of the reproduction stream is a set of M2 signals intended to be reproduced by the second sound reproduction system, determining a set of conversion parameters suitable for conversion the intermediate representation of the playback stream to the approximation of the second representation of the playback stream, and the intermediate representation of the playback stream The work is one of the first

- 2 042232 ставления потока воспроизведения, результата понижающего микширования первого представления потока воспроизведения и результата повышающего микширования первого представления потока воспроизведения, при этом параметры преобразования определяются путем минимизации величины разницы между приближением второго представления потока воспроизведения и вторым представлением потока воспроизведения, и кодирования первого представления потока воспроизведения и набора параметров преобразования для передачи в декодер.- 2 042232 setting the playback stream, the result of the downmix of the first representation of the playback stream and the result of the upmix of the first representation of the playback stream, wherein the transformation parameters are determined by minimizing the amount of difference between the approximation of the second representation of the playback stream and the second representation of the playback stream, and encoding the first representation of the playback stream and a set of transformation parameters for transmission to the decoder.

В соответствии со вторым аспектом настоящего изобретения предусматривается способ декодирования представлений потока воспроизведения из потока данных, причем способ включает этапы приема и декодирования первого представления потока воспроизведения, при этом первое представление потока воспроизведения представляет собой набор из M1 сигналов, предназначенных для воспроизведения первой системой воспроизведения звука, прием и декодирование набора параметров преобразования, пригодных для преобразования промежуточного представления потока воспроизведения в приближение второго представления потока воспроизведения, при этом второе представление потока воспроизведения представляет собой набор из M2 сигналов, предназначенных для воспроизведения второй системой воспроизведения звука, при этом промежуточное представление потока воспроизведения представляет собой одно из первого представления потока воспроизведения, результата понижающего микширования первого представления потока воспроизведения или результата повышающего микширования первого представления потока воспроизведения, при этом параметры преобразования обеспечивают то, что величина разницы между приближением второго представления потока воспроизведения и вторым представлением потока воспроизведения является минимальной, и применения параметров преобразования к промежуточному представлению потока воспроизведения для получения приближения второго представления потока воспроизведения.According to a second aspect of the present invention, there is provided a method for decoding playback stream representations from a data stream, the method comprising the steps of receiving and decoding a first playback stream representation, wherein the first playback stream representation is a set of M1 signals to be reproduced by a first audio playback system, receiving and decoding a set of transformation parameters suitable for converting the intermediate representation of the playback stream to an approximation of the second representation of the playback stream, wherein the second representation of the playback stream is a set of M2 signals intended for reproduction by the second audio playback system, while the intermediate representation of the playback stream is one of the first playback stream representation, the downmix result of the first playback stream representation, or and a result of upmixing the first playback stream representation, wherein the transformation parameters ensure that the amount of difference between the approximation of the second reproduction stream representation and the second reproduction stream representation is minimal, and applying the transformation parameters to the intermediate representation of the playback stream to obtain an approximation of the second representation of the playback stream.

В некоторых вариантах осуществления первая система воспроизведения звука может содержать ряд динамиков в фиксированных пространственных местоположениях, а вторая система воспроизведения звука может содержать набор наушников, примыкающих к ушам слушателя. Первое или второе представление потока воспроизведения может представлять собой эховое или безэховое бинауральное представление.In some embodiments, the first audio playback system may include a number of speakers at fixed spatial locations, and the second audio playback system may include a set of headphones adjacent to the listener's ears. The first or second representation of the playback stream may be an echo or anechoic binaural presentation.

Параметры преобразования предпочтительно являются переменными во времени и зависящими от частоты.The conversion parameters are preferably time-varying and frequency-dependent.

Параметры преобразования предпочтительно определяются путем минимизации величины разницы между результатом применения параметров преобразования к первому представлению потока воспроизведения и вторым представлением потока воспроизведения.The transformation parameters are preferably determined by minimizing the amount of difference between the result of applying the transformation parameters to the first representation of the playback stream and the second representation of the playback stream.

В соответствии с еще одним аспектом настоящего изобретения предусматривается способ кодирования звуковых каналов или звуковых объектов в виде потока данных, включающий этапы: приема N входных звуковых каналов или объектов; вычисления набора из M сигналов, где M < N, путем образования комбинаций N входных звуковых каналов или объектов, при этом набор из M сигналов предназначен для воспроизведения первой системой воспроизведения звука; вычисления набора переменных во времени параметров W преобразования, преобразующих набор из M сигналов, предназначенных для воспроизведения первой системой воспроизведения звука, в приближенное воспроизведение второй системой воспроизведения звука, при этом приближенное воспроизведение приближенно воспроизводит любые эффекты пространственного представления, получаемые путем воспроизведения N входных звуковых каналов или объектов второй системой воспроизведения; и комбинирования M сигналов и параметров W преобразования в поток данных, передаваемый в декодер.In accordance with yet another aspect of the present invention, a method is provided for encoding audio channels or audio objects as a data stream, comprising the steps of: receiving N input audio channels or objects; calculating a set of M signals, where M < N, by forming combinations of N input audio channels or objects, while the set of M signals is intended to be reproduced by the first sound reproduction system; calculating a set of time-varying transform parameters W converting a set of M signals to be reproduced by the first audio reproduction system into approximate reproduction by the second audio reproduction system, wherein the approximation reproduces approximately any spatial presentation effects obtained by reproducing the N input audio channels, or objects by the second playback system; and combining the M signals and the transform parameters W into a data stream to be transmitted to the decoder.

В некоторых вариантах осуществления параметры преобразования образуют матрицу усиления размером M1xM2 , которая может применяться непосредственно к первому представлению потока воспроизведения с образованием указанного приближения второго представления потока воспроизведения. В некоторых вариантах осуществления M1 равно M2, т.е. оба представления, первое и второе, содержат одинаковое количество каналов. В частном случае, оба представления, первое и второе, представляют собой стереофонические представления, т.е. M1=M2=2.In some embodiments, the transform parameters form an M1xM2 gain matrix that can be applied directly to the first playback stream representation to form said approximation of the second playback stream representation. In some embodiments, M1 is equal to M2, i. e. both views, first and second, contain the same number of channels. In a particular case, both representations, the first and second, are stereo representations, i.e. M1=M2=2.

Специалистам в данной области следует принять во внимание, что первый поток представления, кодируемый в кодере, может представлять собой многоканальное представление для громкоговорителей, например, окружающее или погружающее (трехмерное) представление для громкоговорителей, такое как представление в формате 5.1, 7.1, 5.1.2, 5.1.4, 7.1.2 или 7.1.4. В такой ситуации во избежание увеличения вычислительной сложности или для ее минимизации, в соответствии с одним из вариантов осуществления настоящего изобретения, этап определения набора параметров преобразования может включать понижающее микширование первого представления потока воспроизведения в промежуточное представление с меньшим количеством каналов.Those skilled in the art will appreciate that the first presentation stream encoded in the encoder may be a multi-channel speaker presentation, such as a surround or immersive (3D) speaker presentation, such as a 5.1, 7.1, 5.1.2 presentation. , 5.1.4, 7.1.2 or 7.1.4. In such a situation, in order to avoid or minimize computational complexity, in accordance with one embodiment of the present invention, the step of determining the set of transformation parameters may include downmixing the first representation of the playback stream into an intermediate representation with fewer channels.

В частном примере это промежуточное представление представляет собой двухканальное представление. В данном случае параметры преобразования, таким образом, являются пригодными для преобразования промежуточного двухканального представления во второе представление потока воспроизведения. Первое представление потока воспроизведения может представлять собой окружающее или погруIn a particular example, this intermediate representation is a two-channel representation. In this case, the conversion parameters are thus suitable for converting the intermediate two-channel representation into the second representation of the playback stream. The first representation of the playback stream may be ambient or immersive.

- 3 042232 жающее представление для громкоговорителей.- 3 042232 live presentation for loudspeakers.

Поток данных может дополнительно содержать параметры оценки диалоговых сигналов, при этом способ дополнительно включает: применение параметров оценки диалоговых сигналов к сигналам, предназначенным для воспроизведения первой системой воспроизведения звука, для получения одного или более оценочных диалоговых сигналов; вычитание одного или более оценочных диалоговых сигналов из сигналов, предназначенных для воспроизведения первой системой воспроизведения звука, для получения промежуточного сигнала с подавленным диалогом; применение промежуточного сигнала с подавленным диалогом к процессу имитирования акустической среды для получения одного или более сигналов имитированной акустической среды; и комбинирование одного или более сигналов имитированной акустической среды с аудиопотоком, пригодным для воспроизведения второй системой воспроизведения звука.The data stream may further comprise dialog signal evaluation parameters, the method further comprising: applying the dialogue signal evaluation parameters to the signals to be reproduced by the first audio playback system to obtain one or more evaluation dialogue signals; subtracting one or more estimated dialogue signals from the signals intended to be reproduced by the first sound reproduction system to obtain an intermediate signal with suppressed dialogue; applying the dialogue-suppressed intermediate signal to the acoustic environment simulation process to obtain one or more simulated acoustic environment signals; and combining one or more of the simulated acoustic environment signals with an audio stream suitable for playback by the second audio playback system.

Поток данных может дополнительно содержать параметры W (WF, WE) генерирования входных сигналов процесса имитирования акустической среды, при этом способ дополнительно включает: применение параметров W (WF, WE) генерирования входных сигналов процесса имитирования акустической среды к сигналам, предназначенным для воспроизведения первой системой воспроизведения звука, для получения одного или более входных сигналов процесса имитирования акустической среды; применение одного или более входных сигналов процесса имитирования акустической среды к процессу имитирования акустической среды для получения одного или более сигналов имитированной акустической среды; и комбинирование одного или более сигналов имитированной акустической среды с аудиопотоком, пригодным для воспроизведения второй системой воспроизведения звука.The data stream may further comprise parameters W (W F , WE) of generating input signals of the process of simulating the acoustic environment, while the method further includes: applying the parameters W (W F , WE) of generating input signals of the process of simulating the acoustic environment to the signals intended to reproduce the first a sound reproduction system for receiving one or more input signals of the process of simulating the acoustic environment; applying one or more acoustic environment simulation process inputs to the acoustic environment simulation process to produce one or more simulated acoustic environment signals; and combining one or more of the simulated acoustic environment signals with an audio stream suitable for playback by the second audio playback system.

Один или более сигналов имитированной акустической среды предпочтительно могут содержать один или более из сигналов ранних отражений и сигналов поздней реверберации. Процесс имитирования акустической среды может включать один или более из процесса имитирования ранних отражений и процесса имитирования поздней реверберации. Процесс имитирования ранних отражений может включать обработку одного или более входных сигналов процесса имитирования акустической среды посредством элемента задержки. В некоторых вариантах осуществления процесс имитирования поздней реверберации может включать обработку одного или более входных сигналов процесса имитирования акустической среды посредством сети задержки обратной связи.One or more simulated acoustic environment signals may preferably comprise one or more of early reflection signals and late reverberation signals. The acoustic environment simulation process may include one or more of an early reflection simulation process and a late reverberation simulation process. The early reflection simulation process may include processing one or more input signals of the acoustic environment simulation process through a delay element. In some embodiments, the late reverberation simulation process may include processing one or more acoustic environment simulation process inputs via a feedback delay network.

Поток данных предпочтительно может содержать дополнительные параметры W (WF, WE) генерирования входных сигналов процесса имитирования акустической среды, при этом способ дополнительно включает этапы: применения дополнительных параметров W (WF, WE) генерирования входных сигналов процесса имитирования акустической среды к сигналам, предназначенным для воспроизведения первой системой воспроизведения звука, для получения одного или более дополнительных входных сигналов процесса имитирования акустической среды; применения одного или более дополнительных входных сигналов процесса имитирования акустической среды к дополнительному процессу имитирования акустической среды для получения одного или более дополнительных сигналов имитированной акустической среды; и комбинирования одного или более дополнительных сигналов имитированной акустической среды с одним или более из одного или более сигналов имитированной акустической среды и аудиопотоком, пригодным для воспроизведения второй системой воспроизведения звука.The data stream may preferably contain additional parameters W (W F , WE) of generating input signals of the process of simulating the acoustic environment, while the method further includes the steps of: applying additional parameters W (W F , W E ) of generating input signals of the process of simulating the acoustic environment to the signals, intended to be reproduced by the first sound reproduction system, to receive one or more additional input signals of the process of simulating the acoustic environment; applying one or more additional acoustic simulation process inputs to the additional acoustic environment simulation process to produce one or more additional acoustic simulation process inputs; and combining one or more additional simulated acoustic environment signals with one or more of the one or more simulated acoustic environment signals and an audio stream suitable for playback by the second audio playback system.

Процесс имитирования акустической среды может быть настроен в соответствии с одним или более параметрами, при этом данные параметры зависят от одного или более из пользовательских настроек и информации, включенной в поток данных.The acoustic environment simulation process may be configured in accordance with one or more parameters, these parameters being dependent on one or more of the user's preferences and information included in the data stream.

В соответствии с еще одним аспектом настоящего изобретения, предусматривается кодер для кодирования входного аудиопотока, содержащего одну или более звуковых составляющих, в котором каждая звуковая составляющая связана с пространственным местоположением, причем кодер содержит: первый блок представления для представления первого представления потока воспроизведения входного аудиопотока, причем первое представление потока воспроизведения представляет собой набор из M1 сигналов, предназначенных для воспроизведения первой системой воспроизведения звука, второй блок представления для представления второго представления потока воспроизведения входного аудиопотока, причем второе представление потока воспроизведения представляет собой набор из M2 сигналов, предназначенных для воспроизведения второй системой воспроизведения звука, блок определения параметров преобразования для определения набора параметров преобразования, пригодных для преобразования промежуточного представления потока воспроизведения в приближение второго представления потока воспроизведения, при этом промежуточное представление потока воспроизведения представляет собой одно из первого представления потока воспроизведения, результата понижающего микширования первого представления потока воспроизведения и результата повышающего микширования первого представления потока воспроизведения, при этом параметры преобразования определяются путем минимизации величины разницы между приближением второго представления потока воспроизведения и вторым представлением потока воспроизведения, и блок кодирования для кодирования первого представления потока воспроизведения и набора параметров преобразования для передачи в декодер.In accordance with yet another aspect of the present invention, an encoder is provided for encoding an input audio stream comprising one or more audio components, wherein each audio component is associated with a spatial location, the encoder comprising: a first presentation unit for representing a first representation of the playback stream of the input audio stream, wherein the first playback stream representation is a set of M1 signals to be reproduced by the first audio playback system, the second presentation unit to represent the second playback stream representation of the input audio stream, the second playback stream representation is a set of M2 signals to be reproduced by the second audio playback system , a transform parameter determiner for determining a set of transform parameters suitable for transforming the intermediate representation of the playback stream approximation of the second representation of the playback stream, while the intermediate representation of the playback stream is one of the first representation of the playback stream, the result of the downmix of the first representation of the playback stream and the result of the upmix of the first representation of the playback stream, while the transformation parameters are determined by minimizing the amount of difference between the approximation a second representation of the playback stream and a second representation of the playback stream, and an encoding unit for encoding the first representation of the playback stream and a set of transformation parameters for transmission to the decoder.

В соответствии с еще одним аспектом настоящего изобретения предусмотрен декодер для декодирования представлений потока воспроизведения из потока данных, содержащий блок базового декодера,In accordance with another aspect of the present invention, a decoder is provided for decoding representations of a playback stream from a data stream, comprising a base decoder block,

- 4 042232 выполненный с возможностью приема и декодирования первого представления потока воспроизведения, при этом первое представление потока воспроизведения представляет собой набор из M1 сигналов, предназначенных для воспроизведения первой системой воспроизведения звука, и приема и декодирования набора параметров преобразования, пригодных для преобразования промежуточного представления потока воспроизведения в приближение второго представления потока воспроизведения, при этом второе представление потока воспроизведения представляет собой набор из M2 сигналов, предназначенных для воспроизведения второй системой воспроизведения звука, при этом промежуточное представление потока воспроизведения представляет собой одно из первого представления потока воспроизведения, результата понижающего микширования первого представления потока воспроизведения и результата повышающего микширования первого представления потока воспроизведения, при этом параметры преобразования обеспечивают то, что величина разницы между приближением второго представления потока воспроизведения и вторым представлением потока воспроизведения является минимальной.- 4 042232 configured to receive and decode a first representation of the playback stream, wherein the first representation of the playback stream is a set of M1 signals intended to be reproduced by the first audio playback system, and to receive and decode a set of conversion parameters suitable for converting the intermediate representation of the playback stream approximation of the second playback stream representation, wherein the second playback stream representation is a set of M2 signals to be reproduced by the second audio playback system, wherein the intermediate playback stream representation is one of the first playback stream representation, the downmix result of the first playback stream representation and the result of the upmix of the first representation of the playback stream, wherein the transformation parameters ensure that The difference between the approximation of the second representation of the playback stream and the second representation of the playback stream is minimal.

Декодер дополнительно содержит матричный умножитель для применения параметров преобразования к промежуточному представлению потока воспроизведения для получения приближения второго представления потока воспроизведения.The decoder further comprises a matrix multiplier for applying transform parameters to the intermediate representation of the playback stream to obtain an approximation of the second representation of the playback stream.

В соответствии с дополнительным аспектом настоящего изобретения предусмотрен декодер для декодирования ряда звуковых каналов и/или звуковых объектов из потока данных, при этом поток данных содержит набор из M сигналов для воспроизведения первой системой воспроизведения звука и параметры W преобразования, приспособленные для преобразования M сигналов для воспроизведения второй системой воспроизведения звука, причем декодер содержит: блок базового декодера для отделения M сигналов и W параметров преобразования от потока данных, при этом M сигналов разделяется на, по меньшей мере, высоко- и низкочастотные полосы; матричный умножитель для применения W параметров преобразования к M сигналов для получения набора выходных сигналов с частотным разделением; и блок обратного преобразования, приспособленный для преобразования набора выходных сигналов с частотным разделением в ряд выходных сигналов во временной области, пригодных для воспроизведения второй системой воспроизведения звука.According to a further aspect of the present invention, a decoder is provided for decoding a number of audio channels and/or audio objects from a data stream, the data stream comprising a set of M signals for playback by a first audio playback system and conversion parameters W adapted to convert the M signals for playback. a second audio playback system, the decoder comprising: a base decoder unit for separating the M signals and W transform parameters from the data stream, wherein the M signals are separated into at least high and low frequency bands; a matrix multiplier for applying the W transform parameters to the M signals to obtain a set of frequency division output signals; and a deconverter adapted to convert the set of frequency division output signals into a series of time domain output signals suitable for reproduction by the second audio reproduction system.

В некоторых вариантах осуществления декодер может дополнительно содержать: блок реверберации, приспособленный для добавления реверберации к набору выходных сигналов с частотным разделением перед преобразованием блоком обратного преобразования.In some embodiments, the decoder may further comprise: a reverb block adapted to add reverb to the set of frequency division outputs before being converted by the inverse transform block.

В некоторых вариантах осуществления первая система воспроизведения звука может содержать набор динамиков, а вторая система воспроизведения звука может содержать набор наушников, при этом параметры W преобразования обеспечивают бинаурализацию набора выходных сигналов с частотным разделением в том смысле, что второе представление потока воспроизведения представляет собой эховое или безэховое бинауральное представление.In some embodiments, the first sound reproduction system may comprise a set of speakers and the second sound reproduction system may comprise a set of headphones, where the transform parameters W provide binauralization of the set of frequency division outputs in the sense that the second representation of the playback stream is an echo or an anechoic binaural performance.

В соответствии с дополнительным аспектом настоящего изобретения предусмотрен кодер для кодирования входного аудиопотока, содержащего одну или более звуковых составляющих, при этом каждая звуковая составляющая связана с пространственным местоположением, при этом система содержит первый блок кодирования для кодирования входного аудиопотока для первой модальности воспроизведения, который выводит первое представление потока воспроизведения; блок определения параметров преобразования для определения ряда параметров преобразования для отображения первого представления потока воспроизведения во второе представление потока воспроизведения; и второй блок кодирования для кодирования первого представления потока воспроизведения и параметров преобразования в выходной поток кодирования.According to a further aspect of the present invention, an encoder is provided for encoding an input audio stream comprising one or more audio components, each audio component being associated with a spatial location, the system comprising a first coding unit for encoding the input audio stream for a first playback modality, which outputs a first representation of the playback stream; a transformation parameter determination unit for determining a number of transformation parameters for mapping the first representation of the playback stream to the second representation of the reproduction stream; and a second encoding unit for encoding the first representation of the playback stream and the transformation parameters into an output encoding stream.

Блок определения параметров преобразования определяет ряд параметров преобразования путем минимизации абсолютного значения величины расхождения между требуемым вторым представлением потока воспроизведения и результатом применения ряда параметров преобразования к первому представлению потока воспроизведения. Термин ряд может относиться к свойству наличия переменных во времени параметров преобразования и/или зависящих от частоты параметров преобразования. Второе представление потока воспроизведения может содержать бинаурализованный звук для воспроизведения наушниками.The transform parameter determiner determines the transform parameter set by minimizing the absolute value of the amount of difference between the desired second playback stream representation and the result of applying the transform parameter series to the first playback stream representation. The term series may refer to the property of having time-varying transform parameters and/or frequency-dependent transform parameters. The second representation of the playback stream may contain binauralized audio for playback with headphones.

В соответствии с дополнительным аспектом настоящего изобретения предусмотрен способ получения звукового сигнала для представления наушниками, причем способ включает этапы приема потока данных, содержащего кодированный безэховый бинауральный сигнал и параметры W (WF, WE) генерирования входного сигнала процесса имитирования акустической среды; декодирования кодированного безэхового бинаурального сигнала для получения декодированного безэхового бинаурального сигнала; применения параметров W (WF, WE) генерирования входных сигналов процесса имитирования акустической среды к декодированному безэховому бинауральному сигналу для получения одного или более входных сигналов процесса имитирования акустической среды; применения одного или более входных сигналов процесса имитирования акустической среды к процессу имитирования акустической среды для получения одного или более сигналов имитированной акустической среды и комбинирования одного или более сигналов имитированной акустической среды и декодированного безэхового бинаурального сигнала для получения звукового сигнала для представления наушниками.In accordance with a further aspect of the present invention, there is provided a method for obtaining an audio signal for presentation by headphones, the method comprising the steps of receiving a data stream containing an encoded anechoic binaural signal and generating parameters W (W F , WE) of an acoustic environment simulation process input signal; decoding the encoded anechoic binaural signal to obtain a decoded anechoic binaural signal; applying parameters W (WF, WE) of generating acoustic environment simulation process inputs to the decoded anechoic binaural signal to obtain one or more acoustic environment simulation process inputs; applying one or more acoustic simulation process inputs to the acoustic environment simulation process to produce one or more simulated acoustic environment signals and combining one or more simulated acoustic environment signals and a decoded anechoic binaural signal to produce an audio signal for presentation by headphones.

- 5 042232- 5 042232

В некоторых вариантах осуществления один или более сигналов имитированной акустической среды предпочтительно представляют собой один или более из сигналов ранних отражений и сигналов поздней реверберации. Процесс имитирования акустической среды может включать один или более из процесса имитирования ранних отражений и процесса имитирования поздней реверберации. Процесс имитирования ранних отражений может включать обработку одного или более входных сигналов процесса имитирования акустической среды посредством элемента задержки. Процесс имитирования поздней реверберации может включать обработку одного или более входных сигналов процесса имитирования акустической среды посредством сети задержки обратной связи.In some embodiments, one or more of the simulated acoustic environment signals are preferably one or more of early reflection signals and late reverberation signals. The acoustic environment simulation process may include one or more of an early reflection simulation process and a late reverberation simulation process. The early reflection simulation process may include processing one or more input signals of the acoustic environment simulation process through a delay element. The late reverberation simulation process may include processing one or more inputs of the acoustic environment simulation process through a feedback delay network.

Поток данных предпочтительно может содержать дополнительные параметры W (WF, WE) генерирования входных сигналов процесса имитирования акустической среды, при этом способ может дополнительно включать этапы применения дополнительных параметров W (WF, WE) генерирования входных сигналов процесса имитирования акустической среды к декодированному безэховому бинауральному сигналу для получения одного или более дополнительных входных сигналов процесса имитирования акустической среды; применения одного или более дополнительных входных сигналов процесса имитирования акустической среды к дополнительному процессу имитирования акустической среды для получения одного или более дополнительных сигналов имитированной акустической средыи комбинирования одного или более дополнительных сигналов имитированной акустической среды с одним или более сигналами имитированной акустической среды и/или декодированным безэховым бинауральным сигналом.The data stream may preferably contain additional acoustic environment simulation process input parameters W (W F , WE), wherein the method may further comprise the steps of applying the acoustic environment simulation additional process input parameters W (W F , WE) to the decoded anechoic binaural a signal for receiving one or more additional inputs to the process of simulating the acoustic environment; applying one or more additional acoustic simulation process inputs to the additional acoustic environment simulation process to produce one or more additional simulated acoustic environment signals and combining one or more additional simulated acoustic environment signals with one or more simulated acoustic environment signals and/or decoded anechoic binaural signal.

В соответствии с дополнительным аспектом настоящего изобретения предусмотрен декодер для получения звукового сигнала для представления наушниками, при этом декодер содержит один или более процессоров, выполненных с возможностью приема потока данных, содержащего кодированный безэховый бинауральный сигнал и параметры W (WF, WE) генерирования входных сигналов процесса имитирования акустической среды; декодирования кодированного безэхового бинаурального сигнала для получения декодированного безэхового бинаурального сигнала; применения параметров W (WF, WE) генерирования входных сигналов процесса имитирования акустической среды к декодированному безэховому бинауральному сигналу для получения одного или более входных сигналов процесса имитирования акустической среды; применения одного или более входных сигналов процесса имитирования акустической среды к процессу имитирования акустической среды для получения одного или более сигналов имитированной акустической среды и комбинирования одного или более сигналов имитированной акустической среды и декодированного безэхового бинаурального сигнала для получения звукового сигнала для представления наушниками.In accordance with a further aspect of the present invention, a decoder is provided for obtaining an audio signal for presentation by headphones, wherein the decoder comprises one or more processors configured to receive a data stream containing an encoded anechoic binaural signal and parameters W (W F , WE) of generating input signals the process of simulating the acoustic environment; decoding the encoded anechoic binaural signal to obtain a decoded anechoic binaural signal; applying parameters W (WF, WE) of generating acoustic environment simulation process inputs to the decoded anechoic binaural signal to obtain one or more acoustic environment simulation process inputs; applying one or more acoustic simulation process inputs to the acoustic environment simulation process to produce one or more simulated acoustic environment signals and combining one or more simulated acoustic environment signals and a decoded anechoic binaural signal to produce an audio signal for presentation by headphones.

Краткое описание графических материаловBrief description of graphic materials

Варианты осуществления изобретения ниже будут описаны с отсылкой к сопроводительным графическим материалам, на которых на фиг. 1 показано схематическое общее представление процесса свертки с HRIR для двух объектов источников, в котором каждый канал или объект обрабатывается парой HRIR/BRIR.Embodiments of the invention will be described below with reference to the accompanying drawings, in which FIG. 1 shows a schematic overview of the HRIR devolution process for two source objects, in which each channel or object is processed by an HRIR/BRIR pair.

На фиг. 2 схематически показано бинауральное предварительно представленное содержимое, воспроизводимое громкоговорителями (известный уровень техники);In FIG. 2 schematically shows binaural pre-rendered content played back by loudspeakers (prior art);

на фиг. 3 схематически показано бинауральное предварительно представленное содержимое, воспроизводимое громкоговорителями;in fig. 3 schematically shows binaural pre-rendered content played back by loudspeakers;

на фиг. 4 схематически показано получение коэффициентов w для обработки представления для громкоговорителей для воспроизведения наушниками;in fig. 4 schematically shows the derivation of w coefficients for processing the presentation for loudspeakers for headphone playback;

на фиг. 5 схематически показаны коэффициенты W (WE), используемые для реконструкции безэхового сигнала и одного раннего отражения (с дополнительным этапом объемной задержки);in fig. 5 schematically shows the W(WE) coefficients used to reconstruct an anechoic signal and one early reflection (with an additional volume delay step);

на фиг. 6 схематически показан процесс использования коэффициентов W (WF), используемых для реконструкции безэхового сигнала и входного сигнала FDN из выходных данных базового декодера.in fig. 6 schematically shows the process of using the coefficients W (W F ) used to reconstruct the anechoic signal and the FDN input signal from the base decoder output.

На фиг. 7 схематически показаны получение и обработка коэффициентов w для обработки безэхового представления для наушников и громкоговорителей.In FIG. 7 schematically shows the acquisition and processing of w coefficients for processing anechoic representation for headphones and loudspeakers.

На фиг. 8a, 8b показаны структурные схемы кодера/декодера в соответствии с дополнительным вариантом осуществления настоящего изобретения.In FIG. 8a, 8b show block diagrams of an encoder/decoder in accordance with a further embodiment of the present invention.

На фиг. 9a показана структурная схема декодера в соответствии с дополнительным вариантом осуществления настоящего изобретения.In FIG. 9a is a block diagram of a decoder in accordance with a further embodiment of the present invention.

На фиг. 9b показана структурная схема упрощенной версии декодера, показанного на фиг. 9a.In FIG. 9b is a block diagram of a simplified version of the decoder shown in FIG. 9a.

Подробное описаниеDetailed description

Варианты осуществления предусматривают способ представления звука на основе каналов и/или объектов с низкой битовой скоростью передачи данных и низкой сложностью, который является пригодным для воспроизведения (бинаурального) громкоговорителями и наушниками. Этот способ выполняется путем (1) создания и кодирования представления, предназначенного для воспроизведения конкретной системой воспроизведения (например, без ограничения, громкоговорителями), и (2) добавления дополнительных метаданных, делающих возможным преобразование данного конкретного представления в модифицированное представление, пригодное для другой системы воспроизведения (например, наушниEmbodiments provide a low bit rate, low complexity channel and/or object based audio presentation method that is suitable for (binaural) loudspeaker and headphone playback. This method is performed by (1) creating and encoding a representation intended for playback by a particular playback system (eg, without limitation, speakers), and (2) adding additional metadata that makes it possible to convert this particular presentation into a modified representation suitable for another playback system. (e.g. headphones

- 6 042232 ков). Данное конкретное представление может называться первым представлением воспроизведения аудиопотока, тогда как модифицированное представление может называться вторым представлением воспроизведения аудиопотока. Первое представление может содержать набор из M1 каналов, тогда как второе представление может содержать набор из M2 каналов. Количество каналов может являться равным (M1=M2 ) или различным. Метаданные могут иметь форму набора параметров, возможно, переменных во времени и по частоте.- 6 042232 kov). This particular view may be referred to as the first playback view of the audio stream, while the modified view may be referred to as the second playback view of the audio stream. The first view may contain a set of M1 channels, while the second view may contain a set of M2 channels. The number of channels may be equal (M1=M2 ) or different. The metadata may take the form of a set of parameters, possibly variable in time and frequency.

В одной из реализаций метаданные преобразования обеспечивают средства преобразования стереофонического представления для громкоговорителей в бинауральное представление для наушников с возможностью включения ранних отражений и поздней реверберации. Кроме того, для звукового содержимого на основе объектов виртуальные акустические атрибуты, в частности (относительный) уровень поздней реверберации и/или уровневые, спектральные и временные характеристики одного или более ранних отражений могут контролироваться для каждого объекта.In one implementation, the transformation metadata provides a means of converting a stereo speaker representation to a binaural headphone representation, with the ability to include early reflections and late reverberation. In addition, for object-based audio content, virtual acoustic attributes, in particular the (relative) late reverberation level and/or the level, spectral, and timing characteristics of one or more early reflections, can be controlled for each object.

Варианты осуществления направлены на исключение артефактов и/или повышение качества воспроизведения и на сохранение художественного замысла при помощи метаданных, управляющих воспроизведением одной или более системами воспроизведения. В частности, варианты осуществления включают метаданные с объектным, канальным или гибридным представлениями сигнала, повышающие качество воспроизведения тогда, когда компоновка системы воспроизведения не соответствует компоновке, предусмотренной в ходе создания содержимого. Как таковое, применение и/или эффект в результате применения метаданных будет зависеть от предназначенных и фактических систем воспроизведения.Embodiments are directed to eliminating artifacts and/or improving playback quality and preserving artistic intent by using metadata that controls playback by one or more playback systems. In particular, embodiments include metadata with object, channel, or hybrid signal representations that enhance playback quality when the layout of the playback system does not match the layout envisaged during content creation. As such, the application and/or effect resulting from the application of the metadata will depend on the intended and actual rendering systems.

Бинауральное предварительно представленное содержимое, воспроизводимое громкоговорителямиBinaural pre-rendered content played through loudspeakers

Как описано в разделе о предпосылках, воспроизведение громкоговорителями бинаурального предварительно представленного содержимого может приводить к неестественному тембру из-за того, что спектральные метки, неотъемлемо присутствующие в HRIR или BRIR, применяются дважды: один раз в ходе предварительного представления и еще раз - в ходе воспроизведения в акустической среде. Кроме того, каждое воспроизведение бинаурального предварительно представленного содержимого будет неотъемлемо включать азимутальные метки определения местоположения, также применяемые дважды, что вызывает неверное пространственное отображение и ошибки определения местоположения.As described in the background section, loudspeaker playback of binaural pre-rendered content may result in an unnatural timbre due to the spectral labels inherent in HRIR or BRIR being applied twice: once during pre-rendering and again during playback. in an acoustic environment. In addition, each playback of the binaural pre-rendered content will inherently include azimuth location marks also applied twice, which causes spatial mismapping and location errors.

На фиг. 2 показан данный вариант осуществления обработки 20. Канал или объект 21 первоначально подвергается свертке 22 с HRIR 23 перед кодированием 25. Таким образом, перед кодированием содержимое на основе каналов или объектов подвергается имитированию воспроизведения громкоговорителями посредством обработки HRIR или BRIR. Впоследствии обработанный сигнал кодируется 25, декодируется 26 и воспроизводится громкоговорителями 27, что вносит вышеупомянутые артефакты.In FIG. 2 shows this embodiment of processing 20. Channel or object 21 is initially convolved 22 with HRIR 23 before encoding 25. Thus, before encoding, channel or object based content is subjected to simulated speaker playback through HRIR or BRIR processing. Subsequently, the processed signal is encoded 25, decoded 26 and reproduced by loudspeakers 27, which introduces the aforementioned artifacts.

Спектральные артефакты, возникающие в результате двойного применения акустического пути от динамиков к барабанным перепонкам, могут быть, по меньшей мере, частично скомпенсированы путем применения зависящего от частоты коэффициента усиления или ослабления в ходе декодирования или воспроизведения. Данные параметры усиления или ослабления могут впоследствии кодироваться и включаться в содержимое. Для воспроизведения наушниками данные параметры могут быть отброшены, тогда как для воспроизведения громкоговорителями к сигналам перед воспроизведением применяются кодированные коэффициенты усиления.Spectral artifacts resulting from the dual application of the acoustic path from the speakers to the eardrums can be at least partially compensated for by applying a frequency-dependent gain or attenuation during decoding or playback. These gain or attenuation parameters may subsequently be encoded and included in the content. For headphone playback, these parameters can be discarded, while for speaker playback, coded gains are applied to the signals before playback.

Один из вариантов осуществления пригодного последовательного хода 30 обработки данных показан на фиг. 3. В данной схеме, когда воспроизведение предназначено для громкоговорителей, метаданные усиления предварительно вычисляются 31 при создании представления. Метаданные являются кодированными с бинаурально обработанными сигналами. В ходе декодирования информация метаданных также декодируется 32. Затем она используются для применения коэффициента 33 усиления к декодированному сигналу для уменьшения значимости артефактов. Для воспроизведения наушниками, с другой стороны, этапы 31-33 не требуются (исключаются), и декодированная информация может применяться непосредственно для воспроизведения наушниками.One embodiment of a suitable sequential data processing path 30 is shown in FIG. 3. In this scheme, when playback is for loudspeakers, gain metadata is precalculated 31 when the presentation is created. The metadata is encoded with binaural processed signals. During decoding, the metadata information is also decoded 32. It is then used to apply a gain factor 33 to the decoded signal to reduce the significance of artifacts. For headphone playback, on the other hand, steps 31-33 are not required (excluded), and the decoded information can be applied directly to headphone playback.

Пример реализацииImplementation example

В одной из реализаций для вычисления метаданных 31 усиления входные сигналы xi[n] с дискретным временным индексом n и входным индексом i анализируются в частотно-временных мозаиках. Для составления частотно-временных мозаик, каждый из входных сигналов xi[n] можно разбить на временные кадры, а каждый кадр, в свою очередь, может быть разделен на полосы частот. Полосы частот могут быть получены, например, посредством такого блока фильтров, как блок квадратурных зеркальных фильтров (quadrature mirror filter, QMF), дискретного преобразования Фурье (discrete Fourier transform, DFT), дискретного косинусного преобразования (discrete cosine transform, DCT) или любых других средств разбиения входных сигналов на множество полос частот. Результатом данного преобразования является то, что входной сигнал xi[n] для входных данных с индексом i и дискретно-временным индексом n представляется сигналами xi[k,b] подполос для временного интервала (или кадра) k и подполосы b. Краткосрочная энергия в частотно-временной мозаике (K,B) имеет вид:In one implementation, to calculate gain metadata 31, input signals xi[n] with discrete time index n and input index i are analyzed in time-frequency tiles. To compile time-frequency mosaics, each of the input signals x i [n] can be divided into time frames, and each frame, in turn, can be divided into frequency bands. The frequency bands can be obtained, for example, by means of a filter bank such as a quadrature mirror filter (QMF), a discrete Fourier transform (DFT), a discrete cosine transform (DCT), or any other means for dividing the input signals into a plurality of frequency bands. The result of this transformation is that the input signal xi[n] for input data with index i and discrete-time index n is represented by subband signals xi[k,b] for slot (or frame) k and subband b. The short-term energy in the frequency-time mosaic (K,B) has the form:

- 7 042232 σ 2. (К, В) = х j [k, b] xf [k, b], ьл ев,к где B, K - наборы частотных (b) и временных (k) индексов, соответствующих требуемой частотновременной мозаике.- 7 042232 σ 2. (К, В) = х j [k, b] xf [k, b], bl ev, k where B, K are sets of frequency (b) and time (k) indices corresponding to the required mosaic.

Представление бинауральных сигналов yl[n], yr[n] в области дискретного времени для левого и правого уха соответственно имеет вид:The representation of binaural signals yl[n], y r [n] in the discrete time domain for the left and right ear, respectively, has the form:

У1Ы = ^Х; [и] * Ъц [η] yrW = У t Xj [η] * hr j [n] iY1Y = ^X; [u] * bc [η] y r W = Y t Xj [η] * h r j [n] i

где hl,i, hr,i - HRIR или BRIR, соответствующая входному индексу i для левого и правого ушей соответственно. Иными словами, пара yl[n], yr[n] бинауральных сигналов может быть создана путем комбинирования свертки и суммирования входных данных i. Впоследствии эти бинауральные сигналы могут быть преобразованы в частотно-временные мозаики с использованием такого же процесса, как процесс, примененный к сигналам xi[k, b]. Таким образом, для данных бинауральных сигналов в частотной области краткосрочная энергия в частотно-временной мозаике (K, B) может быть вычислена как:where hl,i, h r ,i - HRIR or BRIR corresponding to the input index i for the left and right ears, respectively. In other words, a pair of yl[n], y r [n] binaural signals can be created by combining the convolution and summation of the input i. Subsequently, these binaural signals can be converted into time-frequency mosaics using the same process as the process applied to the xi[k, b] signals. Thus, for given binaural signals in the frequency domain, the short-term energy in the frequency-time mosaic (K, B) can be calculated as:

Оу. (К, В) = уДкЛ]у/[к,Ь]OU. (K, B) \u003d udkL]y / [k, b]

ЪЛ ев, кЪL ev, k

Далее на основании сохранения энергии в каждой частотно-временной мозаике, просуммированной по входным объектам i в числителе и по бинауральным сигналам j в знаменателе, могут быть составлены метаданные w(K, В) усиления:Further, based on the conservation of energy in each frequency-time mosaic summed over input objects i in the numerator and over binaural signals j in the denominator, gain metadata w(K, B) can be compiled:

Метаданные w(K,B) могут быть затем подвержены квантованию, кодированию и включены в битовый поток аудиокодека. Затем декодер будет применять метаданные w(K, В) к кадру K и полосе B обоих сигналов yl и yr (входное представление) для получения выходного представления. Такое использование общих метаданных w(K, B), примененных как к yl, так и к yr, обеспечивает сохранение стереофонического баланса входного представления.The metadata w(K,B) may then be quantized, encoded and included in the audio codec bitstream. The decoder will then apply the metadata w(K, B) to frame K and band B of both signals y l and y r (input representation) to obtain an output representation. This use of common metadata w(K, B) applied to both yl and y r ensures that the stereo balance of the input representation is preserved.

Помимо вышеописанного способа, в котором бинауральные сигналы yl[n], yr[n] создаются посредством свертки во временной области, процесс бинаурального представления является также применимым в частотной области. Иными словами, вместо первоначального вычисления бинауральных сигналов yl[n], yr[n] во временной области можно вместо этого преобразовать входные сигналы xi[n] в представление в частотной области и применить процесс свертки с HRIR в частотной области для генерирования представления бинауральных сигналов yj[k, b] в частотной области, например, при помощи способов быстрой свертки в частотной области. При таком подходе представление бинауральных сигналов yj[k, b] в частотной области получается без необходимости в генерировании этих сигналов во временной области, и для него не требуется применение блока фильтров или преобразование для применения в отношении бинауральных сигналов во временной области.In addition to the above-described method in which the binaural signals yl[n], y r [n] are created by convolution in the time domain, the binaural presentation process is also applicable in the frequency domain. In other words, instead of initially calculating the binaural signals yl[n], y r [n] in the time domain, you can instead convert the input signals xi[n] into a frequency domain representation and apply a convolution process with HRIR in the frequency domain to generate a representation of the binaural signals yj[k, b] in the frequency domain, for example, using fast convolution methods in the frequency domain. With this approach, the frequency domain representation of the binaural signals yj[k, b] is obtained without the need to generate these signals in the time domain, and it does not require the use of a filter bank or transformation to be applied to the binaural signals in the time domain.

Воспроизводимое наушниками стереофоническое содержимое, включая безэховое бинауральное представлениеHeadphone-playable stereo content, including anechoic binaural presentation

В данной реализации стереофонический сигнал, предназначенный для воспроизведения громкоговорителями, кодируется в сочетании с дополнительными данными для способствования воспроизведению данного сигнала для громкоговорителей через наушники. Если дан набор входных объектов или каналов xi[n], то набор сигналов zs[n] для громкоговорителей обычно генерируется посредством коэффициентов gi,s усиления амплитудного панорамирования, представляющих коэффициент усиления объекта i в динамике s:In this implementation, a stereo signal intended for speaker playback is encoded in combination with side data to facilitate playback of the signal for speakers through headphones. Given a set of input features or channels xi[n], then a set of speaker signals zs[n] is typically generated by amplitude panning gains gi,s representing the gain of feature i at speaker s:

zsW = 2 gLsX|[n] z sW = 2 g Ls X|[n]

Для содержимого на основе каналов коэффициенты gi,s усиления амплитудного панорамирования обычно являются постоянными, тогда как для содержимого на основе объектов, в котором предполагаемое положение объекта представляется при помощи переменных во времени метаданных, коэффициенты усиления, соответственно, будут переменными во времени.For channel-based content, the gains gi, s of the amplitude panning gains are typically constant, while for object-based content in which the estimated position of the object is represented by time-varying metadata, the gains will correspondingly be time-varying.

Если даны сигналы zs[n], подлежащие кодированию и декодированию, то набор коэффициентов w требуется найти так, чтобы, если эти коэффициенты применяются к сигналам zs[n], то результирующие модифицированные сигналы yl, yr, составленные какGiven signals z s [n] to be encoded and decoded, then a set of coefficients w must be found such that, if these coefficients are applied to signals z s [n], then the resulting modified signals yl, y r , composed as

- 8 042232 точно соответствовали бинауральному представлению первоначальных входных сигналов xi[n] в соответствии с выражениями = ^W^Zs- 8 042232 exactly matched the binaural representation of the original input signals xi[n] according to the expressions = ^ W ^ Z s

У1Ы = 2 Xi [η] * hy[n]Y1Y = 2 Xi [η] * h y [n]

Коэффициенты w можно найти путем минимизации L2-критерия E между требуемым и фактическим бинауральными представлениями е= lyi-yil2 +1угг12 w — arg min(E) The coefficients w can be found by minimizing the L2 -criterion E between the required and actual binaural representations

Решение для минимизации ошибки E можно получить при помощи решений в замкнутом виде, методов градиентного спуска или любого другого подходящего итеративного метода минимизации функции ошибок. В качестве одного примера такого решения можно записать различные этапы представления в матричной записи:A solution to minimize the error E can be obtained using closed-form solutions, gradient descent methods, or any other suitable iterative method for minimizing the error function. As one example of such a solution, one can write the various stages of representation in a matrix notation:

Y = ХНY = XH

Z = XGZ=XG

Y = XGW = ZWY=XGW=ZW

Данная матричная запись основана на одноканальном кадре, содержащем N дискретных значений, представленных в виде одного столбца х,· = и матриц как комбинаций нескольких каналов i = {1, ..., I}, каждый из которых представлен в матрице одним вектором-столбцомThis matrix notation is based on a single-channel frame containing N discrete values represented as a single column x, = and matrices as combinations of several channels i = {1, ..., I}, each of which is represented in the matrix by a single column vector

Решение для W, которое минимизирует E, имеет видThe solution for W that minimizes E is

W = (G^X^XG + el)-1G*X*XH где (*) - оператор комплексно-сопряженного транспонирования,W = (G^X^XG + el) -1 G*X*XH where (*) is the complex conjugate transposition operator,

I - единичная матрица и е - постоянная регуляризации.I is the identity matrix and e is the regularization constant.

Данное решение отличается от способа на основе коэффициентов усиления тем, что сигнал Y генерируется матрицей, а не скаляром W, применяемым к сигналу Z, что предусматривает возможность наличия скрещивающихся членов (например, второго сигнала Y, являющегося (частично) реконструированным из первого сигнала Z).This solution differs from the gain-based approach in that the Y signal is generated by a matrix rather than a W scalar applied to the Z signal, which allows for the possibility of having crossover terms (e.g., a second Y signal being (partially) reconstructed from the first Z signal) .

В идеале коэффициенты w определяются для каждой частотно-временной мозаики для минимизации ошибки E в каждой частотно-временной мозаике.Ideally, the coefficients w are determined for each time-frequency tile to minimize the error E in each time-frequency tile.

В приведенных выше фрагментах описания для определения матричных коэффициентов использовался критерий минимальной среднеквадратичной ошибки (L2-критерий). Без потери общности вместо или в дополнение к принципу минимальной среднеквадратичной ошибки, аналогично могут быть использованы другие хорошо известные критерии или методы вычисления матричных коэффициентов. Например, матричные коэффициенты могут быть вычислены с использованием членов более высокого порядка или путем минимизации Ll-критерия (например, критерия наименьшего абсолютного отклонения). Кроме того, могут быть использованы разнообразные методы, включающие методики неотрицательного разложения или оптимизации, непараметрические оценки, оценки максимального правдоподобия и т.п. В дополнение, матричные коэффициенты могут быть вычислены с использованием итеративных процессов или процессов градиентного спуска, методов интерполяции, эвристических методов, динамического программирования, машинного обучения, нечеткой оптимизации, имитированной закалки, или могут быть использованы решения в замкнутом виде и методики анализа через синтез. И последнее, но не менее важное, оценка матричных коэффициентов может быть ограничена различными способами, например при помощи ограничения диапазона значений, регуляризирующих членов, суперпозиции требований сохранения энергии и т.п.In the above fragments of the description, the criterion of the minimum standard error (L2-criterion) was used to determine the matrix coefficients. Without loss of generality, instead of or in addition to the principle of minimum mean square error, other well-known criteria or methods for calculating matrix coefficients can similarly be used. For example, matrix coefficients can be computed using higher order terms or by minimizing an Ll test (eg, Least Absolute Deviation test). In addition, a variety of techniques may be used, including non-negative decomposition or optimization techniques, non-parametric estimators, maximum likelihood estimators, and the like. In addition, matrix coefficients can be calculated using iterative or gradient descent processes, interpolation methods, heuristic methods, dynamic programming, machine learning, fuzzy optimization, simulated hardening, or closed-form solutions and analysis-by-synthesis techniques can be used. Last but not least, the estimation of matrix coefficients can be limited in various ways, for example, by limiting the range of values, regularizing terms, superposition of energy conservation requirements, and so on.

- 9 042232- 9 042232

В ситуациях практического применения HRIR или BRIR hy,^ будет включать зависящие от частоты задержки и/или сдвиги по фазе. Соответственно, коэффициенты w могут являться комплекснозначными с мнимой составляющей, по существу отличной от нуля.In practical applications of HRIR or BRIR hy,^ will include frequency dependent delays and/or phase shifts. Accordingly, the coefficients w may be complex-valued with an imaginary component substantially different from zero.

Один из вариантов реализации обработки данных в данном варианте осуществления показан 40 на фиг. 4. Звуковое содержимое 41 обрабатывается блоком 42 анализирующих гибридных комплексных квадратурных зеркальных фильтров (hybrid complex quadrature mirror filter, HCQMF) в сигналы подполос. Затем для генерирования бинауральных сигналов Y, к выходным данным блока фильтров применяются 43 HRIR 44. Параллельно входные данные представляются 45 для воспроизведения громкоговорителями, в результате чего образуются сигналы Z громкоговорителей. В дополнение, из сигналов Z громкоговорителей и бинауральных сигналов Y вычисляются 46 коэффициенты (или весовые коэффициенты) w, причем они включаются в битовый поток 48 базового кодера. Могут быть использованы различные базовые кодеры, такие как, например, MPEG-1 Layer 1, 2, 3, раскрытые в публикации Brandenburg, K., & Bosi, M. (1997). Overview of MPEG audio: Current and future standards for low bit-rate audio coding. Journal of the Audio Engineering Society, 45(1/2), 4-21 or Riedmiller, J., Mehta, S., Tsingos, N., & Boon, P. (2015). Immersive and Personalized Audio: A Practical System for Enabling Interchange, Distribution, and Delivery of NextGeneration Audio Experiences. Motion Imaging Journal, SMPTE, 124(5), 1-23, которые включаются посредством ссылки. Если базовый кодер не обладает способностью использования сигналов подполос в качестве входных данных, эти сигналы подполос могут сначала быть преобразованы во временную область с использованием блока 47 синтезирующих гибридных комплексных квадратурных зеркальных фильтров (HCQMF).One embodiment of data processing in this embodiment is shown at 40 in FIG. 4. Audio content 41 is processed by a hybrid complex quadrature mirror filter (HCQMF) analysis unit 42 into subband signals. Then, 43 HRIRs 44 are applied to the output data of the filter bank to generate binaural Y signals. In parallel, the input data is presented 45 for playback by loudspeakers, resulting in Z loudspeaker signals. In addition, coefficients (or weights) w are calculated 46 from the Z speaker signals and the Y binaural signals and included in the core encoder bitstream 48 . Various base encoders can be used, such as, for example, MPEG-1 Layer 1, 2, 3, disclosed in Brandenburg, K., & Bosi, M. (1997). Overview of MPEG audio: Current and future standards for low bit-rate audio coding. Journal of the Audio Engineering Society, 45(1/2), 4-21 or Riedmiller, J., Mehta, S., Tsingos, N., & Boon, P. (2015). Immersive and Personalized Audio: A Practical System for Enabling Interchange, Distribution, and Delivery of NextGeneration Audio Experiences. Motion Imaging Journal, SMPTE, 124(5), 1-23, which are incorporated by reference. If the core encoder does not have the ability to use subband signals as input, these subband signals may first be converted to the time domain using a synthesis hybrid complex quadrature mirror filter (HCQMF) block 47 .

На стороне декодирования, если декодер выполнен с возможностью воспроизведения для наушников, коэффициенты извлекаются 49 и применяются 50 к сигналам базового декодера перед синтезом 51 HCQMF и воспроизведением 52. Если базовый кодер не вырабатывает сигналы в области HCQMF, может потребоваться необязательный блок 54 анализирующих фильтров HCQMF, как показано на фиг. 4. Таким образом, сигналы, кодированные базовым кодером, предназначены для воспроизведения громкоговорителями, тогда как коэффициенты преобразования сигналов громкоговорителей в бинауральные сигналы определяются в кодере и применяются в декодере. Декодер может быть дополнительно оснащен функциональной возможностью коррекции пользователем, и, таким образом, в режиме воспроизведения для наушников пользователь может выбирать воспроизведение наушниками обычных сигналов громкоговорителей, а не бинаурально обработанных сигналов. В данном случае декодер игнорирует весовые коэффициенты. Наконец, если декодер настроен на воспроизведение через громкоговорители, весовые коэффициенты могут быть проигнорированы и сигналы базового декодера могут воспроизводиться системой воспроизведения через громкоговорители либо непосредственно, либо после повышающего микширования или понижающего микширования для соответствия компоновке системы воспроизведения через громкоговорители.On the decoding side, if the decoder is capable of playing back headphones, the coefficients are extracted 49 and applied 50 to the core decoder signals before HCQMF synthesis 51 and playback 52. If the core encoder does not produce signals in the HCQMF domain, an optional HCQMF analysis filter bank 54 may be required as shown in FIG. 4. Thus, the signals encoded by the core encoder are intended to be reproduced by the loudspeakers, while the conversion coefficients of the loudspeaker signals to binaural signals are determined in the encoder and applied in the decoder. The decoder can be further equipped with user equalization functionality, and thus, in headphone playback mode, the user can choose to play normal speaker signals rather than binaurally processed signals on the headphones. In this case, the decoder ignores the weights. Finally, if the decoder is configured for loudspeaker playback, the weights can be ignored and the base decoder signals can be played back through the loudspeakers either directly or after upmixing or downmixing to suit the loudspeaker playback system layout.

Будет очевидно, что способы, описанные в предшествующих параграфах, не ограничиваются использованием блоков квадратурных зеркальных фильтров, поскольку могут с не меньшим успехом использоваться как блоки фильтров другой конструкции, так и краткосрочные дискретные преобразования Фурье с обработкой методом окна.It will be apparent that the methods described in the preceding paragraphs are not limited to quadrature mirror filter banks, as other filter bank designs as well as windowed short-term discrete Fourier transforms can be used with equal success.

Данная схема обладает различными преимуществами по сравнению с традиционными подходами. Эти преимущества включают следующие: 1) сложность декодера лишь в самой малой степени превышает сложность обычно стереофонического воспроизведения, поскольку дополнение в декодер состоит только из простой (зависящей от времени и частоты) матрицы, управляемой при помощи информации битового потока; 2) Данный подход является пригодным для содержимого на основе каналов и на основе объектов, и он не зависит от количества объектов или каналов, присутствующих в содержимом; 3) HRTF становятся параметрами настройки кодера, т.е. они могут быть модифицированы, улучшены, изменены или приспособлены в любой момент времени вне зависимости от совместимости декодера. Для декодеров, представленных в данной области техники, HRTF могут по-прежнему быть оптимизированы или настроены в соответствии с требованиями пользователя без необходимости в модификации этапов обработки данных на стороне декодера; 4) Битовая скорость передачи данных является чрезвычайно низкой по сравнению с битовыми скоростями передачи данных, необходимыми для многоканального содержимого или содержимого на основе объектов, поскольку из кодера в декодер необходимо передать лишь небольшое количество сигналов громкоговорителей (как правило, один или два) с дополнительными данными (с низкой скоростью передачи) для коэффициентов w; 5) Один и тот же битовый поток может быть верно воспроизведен громкоговорителями и наушниками; 6) Битовый поток может быть составлен масштабируемым образом; если, в контексте конкретной услуги, в конечной точке гарантировано использование только громкоговорителей, то коэффициенты w могут быть удалены из битового потока без последствий для традиционного представления громкоговорителями; 7) Отличительные признаки передовых кодеков, действующие в отношении представлений для громкоговорителей, такие как управление громкостью, усиление диалога и т.д., будут продолжать действовать по назначению (при воспроизведении громкоговорителями); 8) За счет масштабирования коэффициентов w, громкость бинаурального представления может обрабатываться независимо от громкости воспроизведения громкоговорителями;This scheme has various advantages over traditional approaches. These advantages include: 1) the complexity of the decoder is only marginally greater than the complexity of conventional stereo playback, since the addition to the decoder consists only of a simple (time and frequency dependent) matrix driven by bitstream information; 2) This approach is suitable for both channel-based and object-based content, and is independent of the number of objects or channels present in the content; 3) HRTFs become encoder settings, i.e. they may be modified, improved, changed or adapted at any time, regardless of decoder compatibility. For decoders present in the art, HRTFs can still be optimized or customized according to user requirements without the need to modify the processing steps on the decoder side; 4) The bit rate is extremely low compared to the bit rates required for multi-channel or object-based content because only a small number of speaker signals (typically one or two) with additional data needs to be sent from the encoder to the decoder (with low bit rate) for coefficients w; 5) The same bit stream can be correctly reproduced by loudspeakers and headphones; 6) The bitstream can be composed in a scalable manner; if, in the context of a particular service, only loudspeakers are guaranteed at the endpoint, then the coefficients w can be removed from the bitstream without affecting the traditional loudspeaker representation; 7) Features of advanced codecs that apply to speaker presentations, such as volume control, dialogue enhancement, etc., will continue to work as intended (when played back by speakers); 8) By scaling the w factors, the loudness of the binaural presentation can be processed independently of the loudspeaker reproduction loudness;

- 10 042232- 10 042232

9) Слушатели, использующие наушники, могут выбирать прослушивание бинаурального или традиционного стереофонического представления вместо принудительного прослушивания того или другого.9) Listeners using headphones can choose to listen to a binaural or traditional stereo performance instead of being forced to listen to one or the other.

Расширение с ранними отражениямиExtension with early reflections

Часто для повышения реалистичности бинаурального представления требуется включение в бинауральные сигналы одного или более ранних отражений, используемых вследствие наличия пола, стен или потолка. Если отражение имеет бликовую природу, то оно может быть само по себе интерпретировано как бинауральное представление, в котором соответствующие HRIR содержат эффект поглощения поверхностью, увеличения задержки и пониженный общий уровень из-за увеличения длины акустического пути от источника звука к барабанным перепонкам.Often, in order to increase the realism of the binaural presentation, it is necessary to include one or more early reflections in the binaural signals, used due to the presence of a floor, walls or ceiling. If the reflection is of a specular nature, then it can itself be interpreted as a binaural presentation, in which the corresponding HRIRs contain the effect of surface absorption, increased delay, and reduced overall level due to increased acoustic path length from the sound source to the eardrums.

Эти свойства могут быть зарегистрированы модифицированной схемой, такой как схема, показанная 60 на фиг. 5, которая представляет собой модификацию схемы, показанной на фиг. 4. В кодере 64 коэффициенты W определяются для (1) реконструкции безэхового бинаурального представления из представления для громкоговорителей (коэффициенты WY) и (2) для реконструкции бинаурального представления отражения из представления для громкоговорителей (коэффициенты WE). В данном случае безэховое бинауральное представление определяется с помощью HRIR Ha бинаурального представления, что приводит к паре Y безэховых бинауральных сигналов, тогда как раннее отражение определяется с помощью HRIR He, приводящими к паре сигналов E раннего отражения. Для того чтобы сделать возможной параметрическую реконструкцию раннего отражения из микшированного стереофонического сигнала, важно, чтобы задержка, вызванная большей длиной пути раннего отражения, была удалена из HRIR He в кодере, и чтобы данная конкретная задержка была применена в декодере.These properties can be registered with a modified circuit, such as the circuit shown 60 in FIG. 5 which is a modification of the circuit shown in FIG. 4. In encoder 64, W coefficients are determined for (1) reconstructing the anechoic binaural representation from the speaker representation (WY coefficients) and (2) for reconstructing the binaural reflection representation from the loudspeaker representation (WE coefficients). In this case, the anechoic binaural presentation is determined by HRIR H a of the binaural presentation, resulting in a pair of Y anechoic binaural signals, while the early reflection is determined by HRIR H e , resulting in a pair of early reflection signals E. In order to enable parametric early reflection reconstruction from the mixed stereo signal, it is important that the delay caused by the longer early reflection path length be removed from HRIR H e in the encoder and that this particular delay be applied in the decoder.

Декодер будет генерировать пару безэховых сигналов и пару сигналов раннего отражения путем применения коэффициентов W (WY; WE) к сигналам громкоговорителей. Для имитирования большей длины пути для раннего отражения, раннее отражение впоследствии обрабатывается посредством этапа 68 задержки. Параметр задержки блока 68 может быть включен в битовый поток кодера или может представлять собой параметр, определяемый пользователем, или он может быть сделан не зависящим от имитированной акустической среды или зависящим от фактической акустической среды, в которой находится слушатель.The decoder will generate a pair of anechoic signals and a pair of early reflection signals by applying coefficients W (W Y ; WE) to the loudspeaker signals. To simulate a longer path length for early reflection, the early reflection is subsequently processed by a delay step 68 . The block delay parameter 68 may be included in the encoder bitstream, or may be a user-defined parameter, or may be made independent of the simulated acoustic environment or dependent on the actual acoustic environment in which the listener is located.

Расширение с поздней реверберациейLate reverb extension

Для включения в бинауральное представление имитирования поздней реверберации может быть использован такой алгоритм поздней реверберации, как сеть задержки обратной связи (FDN, feedbackdelay network). FDN принимает в качестве входных данных один или более объектов или каналов и вырабатывает (в случае бинаурального ревербератора) два сигнала поздней реверберации. В качестве входных данных в FDN в традиционном алгоритме могут быть использованы выходные данные декодера (или результат его понижающего микширования). Данный подход обладает значительным недостатком. Во многих случаях использования может потребоваться регулировка величины поздней реверберации для каждого объекта. Например, при уменьшении величины поздней реверберации повышается разборчивость диалога.A late reverberation algorithm such as a feedback delay network (FDN) can be used to include a late reverberation simulation in the binaural representation. The FDN takes as input one or more objects or channels and produces (in the case of a binaural reverb) two late reverb signals. The output of the decoder (or the result of its downmix) can be used as input to the FDN in the traditional algorithm. This approach has a significant drawback. In many use cases, it may be necessary to adjust the amount of late reverb for each object. For example, reducing the amount of late reverb increases the intelligibility of dialogue.

В одном из альтернативных вариантов осуществления управление величиной реверберации для каждого объекта или каждого канала может создаваться аналогично тому, как из стереофонического микшированного сигнала составляются безэховое бинауральное представление или бинауральное представление ранних отражений.In one alternative embodiment, a per-object or per-channel reverberation amount control can be created in a manner similar to how an anechoic binaural representation or a binaural early reflection representation is composed from a stereo downmix signal.

Как показано на фиг. 6, для дополнительного приспособления к поздней реверберации могут быть выполнены различные модификации предыдущих схем. В кодере 81 вычисляется 82 входной сигнал F FDN, который может представлять собой взвешенную комбинацию входных данных. Указанные весовые коэффициенты могут зависеть от содержимого, например, в результате разметки вручную в ходе создания содержимого или автоматической классификации при помощи интеллектных алгоритмов анализа медиаданных. Сам входной сигнал FDN отбрасывается блоком 83 оценки весовых коэффициентов, но данные WF коэффициентов, делающие возможной оценку, реконструкцию или приближение входного сигнала FDN из представления для громкоговорителей включаются 85 в битовый поток. В декодере 86 входной сигнал FDN реконструируется 88, обрабатывается самой FDN и включается 89 в бинауральный выходной сигнал для слушателя 91.As shown in FIG. 6, various modifications to the previous circuits can be made to further accommodate the late reverberation. The encoder 81 calculates 82 the input signal F FDN, which may be a weighted combination of the input data. These weights may be content dependent, such as manual markup during content creation, or automatic classification using intelligent media analysis algorithms. The FDN input signal itself is discarded by the weight estimator 83, but the coefficient data WF enabling estimation, reconstruction, or approximation of the FDN input signal from the speaker representation is included 85 in the bitstream. At the decoder 86, the FDN input signal is reconstructed 88, processed by the FDN itself, and included 89 in the binaural output signal for the listener 91.

В дополнение, FDN может быть составлена так, что она допускает несколько (два или более) вводов, и, таким образом, пространственные величины входных сигналов сохраняются на выходе FDN. В этих случаях в битовый поток включаются данные коэффициентов, делающие возможной оценку каждого входного сигнала FDN из представления для громкоговорителей.In addition, the FDN can be composed such that it allows multiple (two or more) inputs, and thus the spatial magnitudes of the input signals are stored at the output of the FDN. In these cases, coefficient data is included in the bitstream, making it possible to evaluate each FDN input signal from the speaker representation.

В этом случае может потребоваться управление определением пространственного местоположения объекта или канала относительно входных данных FDN.In this case, it may be necessary to control the determination of the spatial location of the object or channel relative to the FDN input.

В некоторых случаях может быть возможно генерирование входных сигналов имитирования поздней реверберации (например, FDN) в ответ на параметры, присутствующие в потоке данных для другого назначения (например, параметров, специально не предназначенных для применения к базовым сигналам для генерирования входных сигналов FDN). Например, в одной примерной системе усиления диалога диалоговый сигнал реконструируется из набора базовых сигналов путем применения к этим базовымIn some cases, it may be possible to generate late reverb simulation inputs (eg, FDN) in response to parameters present in the data stream for another destination (eg, parameters not specifically designed to be applied to the underlying signals to generate FDN inputs). For example, in one exemplary dialog amplification system, a dialog signal is reconstructed from a set of base signals by applying to those base signals

- 11 042232 сигналам параметров усиления диалога. Диалоговый сигнал затем улучшается (например, усиливается) и микшируется обратно в базовые сигналы (что, таким образом, усиливает диалоговые составляющие относительно остальных составляющих базовых сигналов). Как описано выше, часто требуется составление входного сигнала FDN таким образом, чтобы он не содержал диалоговые составляющие. Таким образом, в системах, где уже доступны параметры усиления диалога, можно реконструировать требуемый входной сигнал FDN без диалога (или, по меньшей мере, с подавленным диалогом) путем, в первую очередь, реконструкции диалогового сигнала из базового сигнала и параметров усиления диалога, а затем вычитания (например, аннулирования) диалогового сигнала из базовых сигналов. В такой системе специализированные параметры для реконструкции входного сигнала FDN из базовых сигналов могут не являться обязательными (так как вместо них могут быть использованы параметры усиления диалога) и, таким образом, могут быть исключены, что приводит к уменьшению необходимой скорости передачи данных параметров без потери функциональных возможностей.- 11 042232 dialogue gain parameter signals. The dialogue signal is then enhanced (eg, amplified) and mixed back into the base signals (thus amplifying the dialogue components relative to the rest of the base signals). As described above, it is often desirable to compose the input FDN signal in such a way that it does not contain dialogue components. Thus, in systems where dialogue gain parameters are already available, it is possible to reconstruct the desired FDN input without dialogue (or at least dialogue suppressed) by first reconstructing the dialogue signal from the base signal and dialogue gain parameters, and then subtracting (eg, canceling) the dialog signal from the underlying signals. In such a system, specialized parameters for reconstructing the FDN input signal from the base signals may not be necessary (since dialogue gain parameters may be used instead) and thus may be omitted, resulting in a reduction in the required parameter data rate without loss of functionality. opportunities.

Комбинирование ранних отражений и поздней реверберацииCombination of early reflections and late reverbs

Несмотря на то, что в предшествующих разделах обозначены расширения безэхового представления за счет раннего отражения (отражений) и поздней реверберации, также возможны их комбинации. Например, система может содержать: 1) коэффициенты WY для определения безэхового представления из представления для громкоговорителей; 2) дополнительные коэффициенты WE для определения определенного количества ранних отражений из представления для громкоговорителей; 3) дополнительные коэффициенты WF для определения одного или более входных сигналов поздней реверберации из представления для громкоговорителей, что позволяет управлять величиной поздней реверберации для каждого объекта.Although the preceding sections have indicated extensions of the anechoic performance through early reflection(s) and late reverberation, combinations of these are also possible. For example, the system may contain: 1) WY coefficients to determine the anechoic representation from the loudspeaker representation; 2) additional WE coefficients to determine a certain number of early reflections from the loudspeaker view; 3) additional WFs to determine one or more late reverb inputs from the loudspeaker view, allowing you to control the amount of late reverb for each object.

Безэховое представление как первое представлениеAnechoic performance as first performance

Несмотря на то, что использование представления для громкоговорителей в качестве первого представления, подлежащего кодированию базовым кодером, обладает преимуществом обеспечения обратной совместимости с декодерами, не обладающими способностью интерпретации или обработки данных w преобразования, указанное первое представление не ограничено представлением для воспроизведения громкоговорителями. На фиг. 7 показано схематическое представление способа 100 кодирования и декодирования звукового содержимого 105 для воспроизведения наушниками 130 или громкоговорителями 140. Кодер 101 принимает входное звуковое содержимое 105 и обрабатывает эти сигналы при помощи блока 106 фильтров HCQMF. Впоследствии на основании базы 104 данных HRIR/HRTF элементом 109 свертки с HRIR генерируется безэховое представление Y. В дополнение, элементом 108, вычисляющим и применяющим матрицу G панорамирования громкоговорителей, вырабатывается представление Z для громкоговорителей. Кроме того, элемент 107 вырабатывает входной микшированный сигнал F FDN.While using the speaker representation as the first representation to be encoded by the core encoder has the advantage of being backward compatible with decoders lacking the ability to interpret or process the transform data w, said first representation is not limited to the speaker reproduction representation. In FIG. 7 shows a schematic representation of a method 100 for encoding and decoding audio content 105 for playback by headphones 130 or speakers 140. Encoder 101 receives input audio content 105 and processes these signals with an HCQMF filter bank 106 . Subsequently, based on the HRIR/HRTF database 104, an anechoic Y representation is generated by the HRIR convolution element 109. In addition, an element 108 calculating and applying the speaker panning matrix G generates a Z representation for the speakers. In addition, the element 107 generates the input mixed signal F FDN.

Безэховый сигнал Y, необязательно, преобразовывается во временную область с использованием блока 110 синтезирующих фильтров HCQMF и кодируется базовым кодером 111. Блок 114 оценки преобразования вычисляет параметры WF (112), делающие возможной реконструкцию входного сигнала F FDN из безэхового представления Y, а также параметры WZ (113) для реконструкции представления Z для громкоговорителей из безэхового представления Y. Параметры 112 и 113 включаются в битовый поток базового кодера. В качестве альтернативы или в дополнение, несмотря на то, что это не показано на фиг. 7, блок оценки преобразования может вычислять параметры WE, делающие возможной реконструкцию сигнала E раннего отражения из безэхового представления Y.The anechoic signal Y is optionally transformed into the time domain using the HCQMF synthesis filter bank 110 and encoded by the core encoder 111. The transform estimator 114 calculates parameters WF(112) enabling the reconstruction of the FDN input signal F from the anechoic Y representation, as well as the parameters W Z (113) to reconstruct the Z representation for loudspeakers from the anechoic Y representation. Parameters 112 and 113 are included in the core encoder bitstream. Alternatively or in addition, although not shown in FIG. 7, the transform estimator may compute parameters W E enabling reconstruction of the early reflection signal E from the anechoic representation Y.

Декодер имеет два режима работы, показанных как режим 102 декодера, предназначенный для прослушивания 130 через наушники, и режим 103 декодера, предназначенный для воспроизведения 140 громкоговорителями. В случае воспроизведения наушниками базовый декодер 115 декодирует безэховое представление Y и декодирует параметры WF преобразования. Впоследствии параметры WF преобразования применяются к безэховому представлению Y при помощи блока 116 матрицирования для получения оценочного входного сигнала FDN, который впоследствии обрабатывается FDN 117 для получения сигнала поздней реверберации. Этот сигнал поздней реверберации микшируется с безэховым представлением Y при помощи сумматора 150, после которого следует блок 118 синтезирующих фильтров HCQMF, для получения представления 130 для наушников. Если также имеются параметры WE, декодер может применять эти параметры к безэховому представлению Y для получения оценочного сигнала раннего отражения, который впоследствии обрабатывается посредством задержки и микшируется с безэховым представлением Y.The decoder has two modes of operation, shown as decoder mode 102 intended for listening 130 through headphones and decoder mode 103 intended for playback 140 by loudspeakers. In the case of headphone playback, the core decoder 115 decodes the anechoic Y representation and decodes the transform parameters WF. Subsequently, the WF transform parameters are applied to the anechoic representation of Y by a matrix block 116 to obtain an estimated FDN input signal, which is subsequently processed by the FDN 117 to obtain a late reverb signal. This late reverb signal is mixed with an anechoic Y representation by an adder 150 followed by an HCQMF synthesis filter bank 118 to obtain a headphone representation 130. If W E parameters are also present, the decoder may apply these parameters to the Y anechoic representation to obtain an early reflection estimate, which is subsequently processed through a delay and mixed with the Y anechoic representation.

В случае воспроизведения громкоговорителями декодер действует в режиме 103, в котором базовый декодер 115 декодирует безэховое представление Y, а также параметры WZ. Впоследствии этап 116 матрицирования применяет параметры WZ в отношении безэхового представления Y для получения оценки, или приближения, представления Z для громкоговорителей. Позднее этот сигнал преобразовывается во временную область блоком 118 синтезирующих фильтров HCQMF и воспроизводится громкоговорителями 140.In the case of speaker playback, the decoder operates in mode 103, in which the base decoder 115 decodes the anechoic Y representation as well as the W Z parameters. Subsequently, a matrixing step 116 applies the W Z parameters to the anechoic Y representation to obtain an estimate, or approximation, of the Z representation for the loudspeakers. This signal is later converted to the time domain by the HCQMF synthesis filter bank 118 and reproduced by the speakers 140.

Наконец, следует отметить, что система, показанная на фиг. 7, необязательно может эксплуатироваться при отсутствии определения и передачи параметров WZ. В этом режиме работы представление Z для громкоговорителей нельзя сгенерировать из безэхового представления Y. Однако по причине того,Finally, it should be noted that the system shown in FIG. 7 may optionally be operated in the absence of defining and transmitting parameters W Z . In this mode of operation, the Z representation for loudspeakers cannot be generated from the anechoic Y representation. However, due to

- 12 042232 что определяются и передаются параметры WE и/или WF, из безэхового представления можно сгенерировать представление для наушников, содержащее составляющие ранних отражений и/или поздней реверберации из безэхового представления.- 12 042232 that the parameters WE and/or W F are determined and transmitted, a headphone representation containing early reflections and/or late reverb components from the anechoic representation can be generated from the anechoic representation.

Многоканальное представление для громкоговорителейMulti-channel presentation for loudspeakers

Специалистам в данной области следует принять во внимание, что первое представление потока воспроизведения, закодированное в кодере, может представлять собой многоканальное представление, например, окружающее или погружающее представление для громкоговорителей, такое как представление в форматах 5.1, 7.1, 7.1.4 и т.д. Обсужденные выше, например, со ссылкой на фиг. 4, варианты осуществления изобретения, в которых второе представление потока воспроизведения представляет собой стереофоническое представление, будут действовать аналогичным образом, хотя размер матриц будет откорректирован. Например, в то время как для преобразования из одного стереофонического представления в другое стереофоническое представление достаточной является матрица параметров размером 2x2, для преобразования пятиканального окружающего представления в стереофоническое представление требуется матрица размером 5x2, а для преобразования из окружающего представления в формате 5.1 (пять каналов полной полосы пропускания и канал низкочастотных эффектов (low-frequency effects, LFE)) в стереофоническое представление - матрица размером 6x2. Как следствие, количество дополнительной информации, необходимой для представления параметров преобразования, будет увеличиваться вместе с числом каналов в представлении для громкоговорителей, и соответствующим образом также будет увеличиваться вычислительная сложность процесса декодирования.Those skilled in the art will appreciate that the first representation of the playback stream encoded in the encoder may be a multi-channel representation, such as a surround or immersive presentation for speakers such as 5.1, 7.1, 7.1.4, etc. . Discussed above, for example, with reference to FIG. 4, embodiments of the invention in which the second representation of the playback stream is a stereo representation will operate in a similar manner, although the size of the matrices will be corrected. For example, while a 2x2 parameter matrix is sufficient to convert from one stereo view to another stereo view, a 5x2 matrix is required to convert a five-channel surround view to a stereo view, and a 5x2 matrix is required to convert from a 5.1 surround view (five full-bandwidth channels). and the low-frequency effects (LFE) channel into a stereo representation - a 6x2 matrix. As a consequence, the amount of side information needed to represent the transform parameters will increase along with the number of channels in the speaker representation, and the computational complexity of the decoding process will also increase accordingly.

Во избежание или для минимизации этого возрастания вычислительной сложности при преобразовании первого представления с M1 каналов во второе представление с M2 каналов, где M1>M2, например, когда окружающее или погружающее представление для громкоговорителей преобразовывается в бинауральное стереофоническое представление, перед определением параметров преобразования может являться преимущественным понижающее микширование первого представления в промежуточное представление. Например, окружающее представление в формате 5.1 может быть подвергнуто понижающему микшированию в стереофоническое представление для громкоговорителей в формате 2.0.To avoid or minimize this increase in computational complexity when converting a first representation from M1 channels to a second representation from M2 channels, where M1>M2, for example, when a surround or immersive presentation for loudspeakers is converted to a binaural stereo representation, it may be advantageous to determine the transformation parameters before downmixing the first view into an intermediate view. For example, a 5.1 surround presentation may be downmixed to stereo for 2.0 speakers.

На фиг. 8a показан кодер 200, в котором звуковое содержимое 201 представляется блоком 202 представления в окружающее представление S для громкоговорителей формата 5.1, которое кодируется базовым кодером 203. Представление S в формате 5.1 также преобразовывается модулем 204 понижающего микширования в полученное в результате понижающего микширования промежуточное двухканальное (стереофоническое) представление Z. Например, левый канал, Z (ZL), может быть выражен как взвешенная сумма левого канала (SL), левого бокового канала (SLS), центрального канала (SC) и канала низкочастотных эффектов (SLFE) окружающего представления S в соответствии со следующим уравнением:In FIG. 8a shows an encoder 200 in which the audio content 201 is represented by a presentation unit 202 into a 5.1 speaker surround representation S, which is encoded by a base encoder 203. ) representation of Z. For example, the left channel, Z (ZL), can be expressed as the weighted sum of the left channel (SL), left side channel (SLS), center channel (SC), and low frequency effects channel (SLFE) of the surround representation S, according to with the following equation:

ZL = (SL + a*SC + b*SLS + c*SLFE), где a, b и c представляют собой соответствующие постоянные, например a=b=sqrt(0,5)=0,71 и c=0,5.ZL = (SL + a*SC + b*SLS + c*SLFE) where a, b and c are the respective constants, e.g. a=b=sqrt(0.5)=0.71 and c=0.5 .

Звуковое содержимое также вводится в блок 205 бинаурального представления, выполненный с возможностью представления безэхового бинаурального сигнала Y. Блок 206 вычисления параметров принимает безэховый сигнал Y и стереофонический сигнал Z, полученный в результате понижающего микширования, и вычисляет параметры WY преобразования стереофонического сигнала в безэховый сигнал. В сравнении с вышеописанной фиг. 4 блок 202 представления представляет собой многоканальный вариант блока 45 представления, так как выходные данные в обоих случаях доставляются в базовый кодер 203/48. Блоки 205 и 206 в принципе идентичны блокам 43 и 46.Audio content is also input to a binaural presentation unit 205 configured to present an anechoic binaural Y signal. A parameter calculation unit 206 receives an anechoic Y signal and a downmixed stereo Z signal, and calculates stereo-to-anechoic conversion parameters W Y . Compared to the above-described FIG. 4, the presentation block 202 is a multi-channel version of the presentation block 45, since the output data in both cases is delivered to the base encoder 203/48. Blocks 205 and 206 are basically identical to blocks 43 and 46.

Кроме того, кодер также может содержать блок 207 (соответствующий блоку 82, показанному на фиг. 6) для представления входного сигнала FDN, и тогда блок 206 может быть выполнен с возможностью вычисления также и набора параметров WF FDN (соответствующих блоку 83 на фиг. 6).In addition, the encoder may also include a block 207 (corresponding to block 82 shown in FIG. 6) for representing the input FDN signal, in which case block 206 can be configured to calculate also a set of W F FDN parameters (corresponding to block 83 in FIG. 6).

На фиг. 8b показан декодер 210, в котором базовый декодер 211 принимает и декодирует окружающее представление S в формате 5.1, а также наборы параметров WY и WF. Окружающее представление S преобразовывается в полученный в результате понижающего микширования двухканальный (стереофонический) сигнал Z посредством модуля 212 понижающего микширования, действующего таким же образом, как его эквивалент 204 в кодере. Первый блок 213 матрицирования применяет параметры WY к стереофоническому представлению Z для создания реконструированного безэхового сигнала Y. Второй блок 214 матрицирования применяет параметры WF к стереофоническому представлению Z для создания реконструированного входного сигнала FDN. Входной сигнал FDN используется в FDN 215 для создания сигнала поздней реверберации, который добавляется 216 к реконструированному безэховому сигналу Y для создания бинауральных выходных данных. Следует отметить, что обработка в блоках 213-216 аналогична таковой для декодера 86, показанного на фиг. 6.In FIG. 8b shows a decoder 210 in which the base decoder 211 receives and decodes a 5.1 surround representation S and parameter sets W Y and W F . The surround representation S is converted to the downmixed two-channel (stereo) signal Z by the downmixer 212, operating in the same manner as its equivalent 204 in the encoder. The first matrixer 213 applies the W Y parameters to the Z stereo representation to create a reconstructed anechoic Y signal. The second matrixer 214 applies the W F parameters to the Z stereo representation to create the reconstructed FDN input signal. The FDN input signal is used in the FDN 215 to create a late reverb signal, which is added 216 to the reconstructed anechoic Y signal to create a binaural output. It should be noted that the processing in blocks 213-216 is similar to that of decoder 86 shown in FIG. 6.

Для менее высоких битовых скоростей передачи данных известно использование параметрических способов передачи представления в формате 5.1 при помощи полученного в результате понижающего микширования сигнала в формате 2.1 и набора параметров связи, см., например, публикацию ETSI TS 103 190-1 V1.2.1 (2015-06). В такой системе базовый декодер фактически выполняет повышающее микширование для создания декодированного представления в формате 5.1. Если вариант осуществления,For lower bit rates, it is known to use parametric methods to transmit a 5.1 representation using a downmixed 2.1 signal and a set of communication parameters, see for example ETSI Publication TS 103 190-1 V1.2.1 (2015- 06). In such a system, the underlying decoder actually performs the upmix to produce a decoded 5.1 representation. If the embodiment

- 13 042232 показанный на фиг. 8b, реализуется в таком декодере, результатом будет декодер, показанный на фиг. 9a.- 13 042232 shown in FIG. 8b is implemented in such a decoder, the result will be the decoder shown in FIG. 9a.

Следует отметить, что базовый декодер 311, показанный на фиг. 9a, содержит модуль 312 повышающего микширования для повышающего микширования представления в формате 2.1 в представление в формате 5.1. Представление в формате 5.1 затем подвергается понижающему микшированию в представление в формате 2.0 при помощи модуля 212 понижающего микширования, как показано на фиг. 8b.It should be noted that the base decoder 311 shown in FIG. 9a includes an upmixer 312 for upmixing a 2.1 view into a 5.1 view. The 5.1 presentation is then downmixed to the 2.0 presentation by the downmixer 212 as shown in FIG. 8b.

Однако в данном контексте, если представление в формате 2.1 уже включено в битовый поток, повышающее микширование в формат 5.1 не требуется и может быть опущено для упрощения декодера. Такой упрощенный декодер показан на фиг. 9b. Здесь базовый декодер 411 декодирует только представление в формате 2.1. Это представление принимается упрощенным модулем 412 понижающего микширования, выполненным с возможностью преобразования представления в формате 2.1 в представление в формате 2.0 в соответствии с уравнениями:However, in this context, if the 2.1 representation is already included in the bitstream, the 5.1 upmix is not required and can be omitted to simplify the decoder. Such a simplified decoder is shown in FIG. 9b. Here, the base decoder 411 only decodes the 2.1 representation. This representation is received by a simplified downmixer 412, configured to convert the 2.1 representation to a 2.0 representation according to the equations:

Lo = a*L + b*LFELo = a*L + b*LFE

Ro = a*R + b*LFE где L, R и LFE обозначают левый и правый каналы полной полосы пропускания и канал низкочастотных эффектов декодированного представления в формате 2.1, при этом а и b представляют собой соответствующие постоянные, оказывающие воздействие на повышающее и понижающее микширование, выполняемое модулями 312 и 212, показанными на фиг. 9a.Ro = a*R + b*LFE where L, R and LFE denote the full bandwidth left and right channels and the low frequency effects channel of the decoded 2.1 presentation, with a and b being the respective constants affecting the upmix and downmix executed by modules 312 and 212 shown in FIG. 9a.

Процесс, описанный на фиг. 9a и 9b, предполагает получение в результате понижающего микширования сигнала в формате 2.1 и соответствующих параметров связи. Аналогичный подход может быть использован в системе, в которой используется, например, полученный в результате понижающего микширования сигнал в формате 3.1 и соответствующие параметры связи. В качестве альтернативы, система, показанная на фиг. 8a и 8b, также может переносить дополнительную вспомогательную информацию, позволяющую выполнять повышающее микширование представления в формате 5.1 в представление на основе объектов, как обсуждено в публикации ETSI TS 103 190-1 V1.2.1 (2015-06).The process described in FIG. 9a and 9b assumes a downmix of a 2.1 signal and associated communication parameters. A similar approach can be used in a system that uses, for example, a downmixed 3.1 signal and related communication parameters. Alternatively, the system shown in FIG. 8a and 8b can also carry additional ancillary information to allow upmixing of a 5.1 representation to an object-based representation, as discussed in ETSI TS 103 190-1 V1.2.1 (2015-06).

ТолкованияInterpretations

Отсылка в данном описании к одному варианту осуществления, некоторым вариантам осуществления или одному из вариантов осуществления означает, что конкретный отличительный признак, конструкция или характеристика, описанная в связи с данным вариантом осуществления, включена в по меньшей мере один вариант осуществления настоящего изобретения. Поэтому появления фразы в одном варианте осуществления, в некоторых вариантах осуществления или в одном из вариантов осуществления в различных местах данного описания могут, но необязательно, относиться к одному и тому же варианту осуществления изобретения. Кроме того, конкретные отличительные признаки, конструкции или характеристики могут комбинироваться в одном или более вариантах осуществления любым подходящим образом, что должно быть очевидно из данного описания для специалистов средней квалификации в данной области.Reference herein to one embodiment, some embodiments, or one of the embodiments means that a particular feature, structure, or characteristic described in connection with a given embodiment is included in at least one embodiment of the present invention. Therefore, the occurrences of the phrase in one embodiment, in some embodiments, or in one of the embodiments at various places in this specification may, but need not, refer to the same embodiment of the invention. In addition, specific features, designs, or characteristics may be combined in one or more embodiments in any suitable manner, as will be apparent from this description to those of ordinary skill in the art.

В рамках данного описания использование порядковых числительных первый, второй, третий и т.д. для описания обычного объекта указывает единственно на то, что производится отсылка к различным примерам сходных объектов, и они не предназначены для обозначения того, что объекты, описанные таким образом, должны находиться в данной последовательности во времени, в пространстве, по рангу или любым иным образом.Within the framework of this description, the use of ordinal numbers first, second, third, etc. for describing an ordinary object indicates solely that reference is made to various examples of similar objects, and are not intended to indicate that the objects described in this way must be in a given sequence in time, space, rank, or in any other way. .

В приведенной ниже формуле изобретения и в данном описании любой из терминов содержащий, состоящий из или который содержит является неограничивающим термином, что означает включение по меньшей мере следующих за ним элементов/отличительных признаков, но не исключение остальных. Поэтому термин содержащий при его использовании в формуле изобретения не следует интерпретировать как ограничивающий в отношении средств или элементов, или этапов, перечисляемых после него. Например, объем выражения устройство, содержащее А и В не следует ограничивать устройствами, содержащими только элементы А и В. Если любой из используемых в данном описании терминов включающий или который включает также представляет собой неограничивающий термин, который также означает включение, по меньшей мере, элементов/отличительных признаков, следующих за этим термином, но не исключение остальных. Таким образом, включающий является синонимом и означает содержащий.In the following claims and in this description, any of the terms containing, consisting of, or which contains is a non-limiting term, which means the inclusion of at least the following elements/features, but not the exclusion of the rest. Therefore, the term containing when used in the claims should not be interpreted as limiting the means or elements or steps listed after it. For example, the scope of the expression device containing A and B should not be limited to devices containing only elements A and B. If any of the terms used in this description including or which includes also is a non-limiting term that also means the inclusion of at least /distinguishing features following this term, but not excluding the rest. Thus, including is synonymous and means containing.

В рамках данного описания термин примерный используется в смысле представления примеров, в отличие от указания свойства. Т.е. примерный вариант осуществления - это вариант осуществления, предусмотренный в качестве примера, но не обязательно являющийся одним из вариантов осуществления примерного свойства.As used herein, the term exemplary is used in the sense of presenting examples, as opposed to indicating a property. Those. an exemplary embodiment is an embodiment provided as an example, but not necessarily one of the embodiments of an exemplary property.

Следует понимать, что в приведенном выше описании примерных вариантов осуществления изобретения различные отличительные признаки изобретения иногда группируются в один вариант осуществления изобретения, фигуру или их описание для выбора оптимального пути описания и для обеспечения понимания одного или более различных аспектов изобретения. Такой способ раскрытия, однако, не следует интерпретировать как отражение намерение того, что заявленное изобретение требует большего количества отличительных признаков, чем количество признаков, которые в прямой форме перечисленыIt should be understood that in the above description of exemplary embodiments of the invention, various features of the invention are sometimes grouped into one embodiment, figure, or description thereof in order to select the optimal way of describing and to provide an understanding of one or more different aspects of the invention. This mode of disclosure, however, should not be interpreted as reflecting the intention that the claimed invention requires more features than the number of features that are expressly listed.

- 14 042232 в каждом пункте формулы изобретения. Вместо этого, как отражает нижеследующая формула изобретения, особенности изобретения заключаются менее чем во всех отличительных признаках вышеописанного одного варианта осуществления изобретения. Поэтому формула изобретения, следующая за разделом Подробное описание, таким образом безоговорочно включена в этот раздел Подробное описание, причем каждый пункт формулы самостоятельно представляет собой отдельный вариант осуществления данного изобретения.- 14 042232 in each claim. Instead, as the following claims reflect, the features of the invention lie in less than all of the features of the one embodiment described above. Therefore, the claims following the Detailed Description section are thus irrevocably incorporated into this Detailed Description section, with each claim on its own representing a separate embodiment of the present invention.

Кроме того, несмотря на то, что некоторые варианты осуществления изобретения, описанные в данном описании, включают одни, а не другие отличительные признаки, включенные в другие варианты осуществления изобретения, комбинации отличительных признаков из различных вариантов осуществления изобретения подразумеваются как находящиеся в пределах объема изобретения и образующие другие варианты осуществления изобретения, как должно быть понятно специалистам в данной области. Например, в нижеследующей формуле изобретения любые заявленные варианты осуществления изобретения могут быть использованы в любой комбинации.In addition, although some embodiments of the invention described in this specification include some and not other features included in other embodiments of the invention, combinations of features from various embodiments of the invention are intended to be within the scope of the invention and forming other embodiments of the invention, as will be understood by those skilled in the art. For example, in the following claims, any claimed embodiments of the invention may be used in any combination.

Кроме того, некоторые варианты осуществления изобретения описаны в данном описании как способ или комбинация элементов способа, которые могут быть реализованы процессором вычислительной системы, или другими средствами осуществления такой функции. Таким образом, процессор с необходимыми командами для осуществления указанного способа или элемента способа образует средства для осуществления способа или элемента способа. Кроме того, описанный в данном описании элемент варианта осуществления устройства представляет собой пример средств осуществления функции, выполняемой элементом для осуществления изобретения.In addition, some embodiments of the invention are described herein as a method or combination of elements of a method that can be implemented by a computer system processor, or other means for performing such a function. Thus, the processor, with the necessary instructions for carrying out said method or method element, forms the means for carrying out the method or method element. In addition, the device embodiment element described herein is an example of the means for carrying out the function performed by the element for carrying out the invention.

В приведенном в данном документе описании изложено множество конкретных деталей. Однако следует понимать, что варианты осуществления изобретения могут использоваться на практике без этих конкретных деталей. В других случаях хорошо известные способы, конструкции и технологии подробно не показаны для того, чтобы не делать менее ясным понимание данного описания.In the description provided herein, many specific details are set forth. However, it should be understood that embodiments of the invention may be practiced without these specific details. In other instances, well-known methods, structures, and techniques are not shown in detail so as not to obscure the understanding of this disclosure.

Аналогично, следует обратить внимание, что термин связанный при его использовании в формуле изобретения не следует интерпретировать как ограничивающийся только прямыми соединениями. Могут использоваться термины связанный и соединенный наряду с их производными. Следует понимать, что эти термины не предполагаются как синонимы друг друга. Таким образом, объем выражения устройство A, связанное с устройством B не следует ограничивать устройствами или системами, в которых вывод устройства A непосредственно соединен с вводом устройства B. Это означает, что существует путь между выводом устройства A и вводом устройства B, который может представлять собой путь, содержащий другие устройства или средства. Связанный может означать то, что два или большее количество элементов находятся или в прямом физическом, или электрическом контакте, или то, что два или большее количество элементов не находятся в прямом контакте друг с другом, однако по-прежнему кооперируются или взаимодействуют друг с другом.Likewise, it should be noted that the term "linked" when used in the claims should not be interpreted as being limited to direct connections only. The terms bound and connected, along with their derivatives, may be used. It should be understood that these terms are not intended to be synonymous with each other. Thus, the scope of the expression device A associated with device B should not be limited to devices or systems in which the output of device A is directly connected to the input of device B. This means that there is a path between the output of device A and the input of device B, which can be path containing other devices or facilities. Connected can mean that two or more elements are in either direct physical or electrical contact, or that two or more elements are not in direct contact with each other but still cooperate or interact with each other.

Таким образом, в то время как здесь описано то, что рассматривается как предпочтительные варианты осуществления изобретения, специалистам в данной области должно быть понятно, что в них могут вноситься другие и дополнительные модификации без отступления от идеи изобретения, и подразумевается, что все указанные изменения и модификации заявляются как включенные в объем изобретения. Например, любые приведенные выше формулы являются только примерами процедур, которые могут использоваться. Функциональные возможности могут добавляться к структурным схемам или исключаться из структурных схем, а операции могут быть подвержены взаимному обмену между функциональными блоками. Этапы могут добавляться к способам или исключаться из способов, описанных в пределах объема настоящего изобретения.Thus, while what are considered to be preferred embodiments of the invention are described herein, it should be understood by those skilled in the art that other and additional modifications may be made to them without departing from the spirit of the invention, and it is understood that all such changes and modifications are claimed to be included within the scope of the invention. For example, any of the above formulas are only examples of procedures that may be used. Functionality may be added to or removed from block diagrams, and operations may be interchanged between functional blocks. Steps may be added to or omitted from the methods described within the scope of the present invention.

Claims (15)

ФОРМУЛА ИЗОБРЕТЕНИЯCLAIM 1. Способ кодирования входного аудиопотока, содержащего одну или более звуковых составляющих, отличающийся тем, что каждая звуковая составляющая связана с пространственным местоположением, причем способ включает этапы представления первого представления потока воспроизведения указанного входного аудиопотока, причем указанное первое представление потока воспроизведения представляет собой набор из M1 сигналов, предназначенных для воспроизведения первой системой воспроизведения звука;1. A method for encoding an input audio stream containing one or more audio components, characterized in that each audio component is associated with a spatial location, and the method includes the steps of presenting a first representation of the playback stream of the specified input audio stream, and the specified first representation of the playback stream is a set of M1 signals intended to be reproduced by the first sound reproduction system; представления второго представления потока воспроизведения указанного входного аудиопотока, при этом указанное второе представление потока воспроизведения представляет собой набор из двух сигналов, предназначенных для воспроизведения второй системой воспроизведения звука, при этом одно из первого представления потока воспроизведения и второго представления потока воспроизведения представляет собой представление для громкоговорителей и при этом одно из первого представления потока воспроизведения и второго представления потока воспроизведения представляет собой эховое или безэховое бинауральное представление;representing a second playback stream representation of said input audio stream, wherein said second reproduction stream representation is a set of two signals to be reproduced by a second audio playback system, wherein one of the first reproduction stream representation and the second reproduction stream representation is a speaker representation, and wherein one of the first representation of the playback stream and the second representation of the playback stream is an echo or anechoic binaural presentation; определения набора параметров преобразования, пригодных для преобразования промежуточного представления потока воспроизведения, которое представляет собой набор из M3 сигналов, в приближеdetermining a set of conversion parameters suitable for converting an intermediate representation of the playback stream, which is a set of M3 signals, to approximately - 15 042232 ние второго представления потока воспроизведения, при этом набор параметров преобразования образует матрицу усиления размером M3x2, которая при применении непосредственно к промежуточному представлению потока воспроизведения матричным умножением образует указанное приближение второго представления потока воспроизведения, и причем промежуточное представление потока воспроизведения представляет собой одно из первого представления потока воспроизведения и результата понижающего микширования первого представления потока воспроизведения;- 15 042232 a second representation of the playback stream, wherein the set of transformation parameters forms a gain matrix of size M3x2, which, when applied directly to the intermediate representation of the playback stream by matrix multiplication, forms the specified approximation of the second representation of the playback stream, and wherein the intermediate representation of the playback stream is one of the first representing the playback stream and the downmix result of the first representation of the playback stream; причем параметры преобразования определяются путем минимизации величины разницы между вторым представлением потока воспроизведения и приближением второго представления потока воспроизведения, образованного применением параметров преобразования к промежуточному представлению потока воспроизведения; и кодирования первого представления потока воспроизведения и указанного набора параметров преобразования для передачи в декодер.moreover, the transformation parameters are determined by minimizing the amount of difference between the second representation of the playback stream and the approximation of the second representation of the playback stream formed by applying the transformation parameters to the intermediate representation of the playback stream; and encoding the first representation of the playback stream and the specified set of transformation parameters for transmission to the decoder. 2. Способ по п.1, отличающийся тем, что указанные параметры преобразования являются переменными во времени и/или зависящими от частоты.2. Method according to claim 1, characterized in that said conversion parameters are time-varying and/or frequency-dependent. 3. Способ по любому из предыдущих пунктов, отличающийся тем, что M1=2.3. The method according to any of the previous paragraphs, characterized in that M1=2. 4. Способ по любому из пп.1-2, отличающийся тем, что M1>2, M3=2, и при этом способ дополнительно включает образование промежуточного представления потока воспроизведения путем понижающего микширования первого представления потока воспроизведения в двухканальное представление.4. The method according to any one of claims 1 to 2, wherein M1>2, M3=2, and wherein the method further comprises generating an intermediate playback stream representation by downmixing the first playback stream representation into a two-channel representation. 5. Способ декодирования представлений потока воспроизведения из потока данных, причем способ включает этапы приема и декодирования первого представленного представления потока воспроизведения, при этом указанное первое представленное представление потока воспроизведения представляет собой набор из M1 сигналов, предназначенных для воспроизведения первой системой воспроизведения звука;5. A method for decoding representations of a playback stream from a data stream, the method comprising the steps of receiving and decoding a first presented representation of the playback stream, said first presented representation of the playback stream being a set of M1 signals to be reproduced by a first audio playback system; приема и декодирования набора параметров преобразования, пригодных для преобразования промежуточного представления потока воспроизведения, которое представляет собой набор из M3 сигналов, в приближение второго представленного представления потока воспроизведения, при этом указанное второе представленное представление потока воспроизведения представляет собой набор из двух сигналов, предназначенных для воспроизведения второй системой воспроизведения звука, при этом набор параметров преобразования образуют матрицу усиления размером M3x2, которая при применении непосредственно к промежуточному представлению потока воспроизведения матричным умножением образует указанное приближение второго представления потока воспроизведения;receiving and decoding a set of transformation parameters suitable for converting an intermediate representation of the playback stream, which is a set of M3 signals, to an approximation of the second presented representation of the playback stream, while said second presented representation of the playback stream is a set of two signals intended to reproduce the second by an audio playback system, wherein the set of transformation parameters form an M3x2 gain matrix which, when applied directly to an intermediate representation of the playback stream by matrix multiplication, produces said approximation of the second representation of the playback stream; при этом одно из первого представленного представления потока воспроизведения и второго представленного представления потока воспроизведения представляет собой представление для громкоговорителей, и при этом одно из первого представленного представления потока воспроизведения и второго представленного представления потока воспроизведения представляет собой эховое или безэховое бинауральное представление, и причем промежуточное представление потока воспроизведения представляет собой одно из первого представленного представления потока воспроизведения и результата понижающего микширования первого представленного представления потока воспроизведения;wherein one of the first presented representation of the playback stream and the second presented representation of the playback stream is a presentation for speakers, and wherein one of the first presented representation of the playback stream and the second presented representation of the playback stream is an echo or anechoic binaural presentation, and wherein the intermediate representation of the stream the playback is one of the first presented representation of the playback stream and the downmix result of the first presented representation of the playback stream; причем параметры преобразования определяются кодером для обеспечения того, что величина разницы между вторым представленным представлением потока воспроизведения и приближением второго представленного представления потока воспроизведения, образованного применением параметров преобразования к промежуточному представлению потока воспроизведения, является минимальной; и применения указанных параметров преобразования к указанному промежуточному представлению потока воспроизведения для получения указанного приближения второго представленного представления потока воспроизведения.wherein the transform parameters are determined by the encoder to ensure that the amount of difference between the second represented representation of the playback stream and an approximation of the second represented representation of the playback stream formed by applying the transform parameters to the intermediate representation of the playback stream is minimal; and applying said transformation parameters to said intermediate representation of the playback stream to obtain said approximation of the second represented representation of the playback stream. 6. Способ по п.5, отличающийся тем, что указанные параметры преобразования являются переменными во времени и/или зависящими от частоты.6. Method according to claim 5, characterized in that said conversion parameters are time-varying and/or frequency-dependent. 7. Способ по п.5, отличающийся тем, что M1=2.7. Method according to claim 5, characterized in that M1=2. 8. Способ по любому из пп.5, 6, отличающийся тем, что M1>2, M3=2, и при этом способ дополнительно включает образование промежуточного представления потока воспроизведения путем понижающего микширования первого представленного представления потока воспроизведения в двухканальное представление.8. The method according to any one of claims 5, 6, characterized in that M1>2, M3=2, and the method further includes generating an intermediate playback stream representation by downmixing the first presented playback stream representation into a two-channel representation. 9. Способ по п.8, отличающийся тем, что первое представленное представление потока воспроизведения представляет собой окружающее или погружающее представление, такое как представление в формате 5.1, 7.1 или 7.1.4.9. The method of claim 8, wherein the first presentation of the playback stream is an ambient or immersive presentation, such as a 5.1, 7.1, or 7.1.4 presentation. 10. Способ по п.8, отличающийся тем, что первое представленное представление потока воспроизведения представляет собой представление в формате 2.1, и при этом указанный этап понижающего микширования включает преобразование представления в формате 2.1 в стереофоническое представление в формате 2.0 в соответствии с уравнениями10. The method of claim 8, wherein the first representation of the playback stream presented is a 2.1 representation, and wherein said downmixing step comprises converting the 2.1 representation to a 2.0 stereo representation according to the equations Lo = a*L + b*LFELo = a*L + b*LFE Ro = a*R + b*LFERo = a*R + b*LFE - 16 042232 где L, R и LFE обозначают левый и правый каналы полной полосы пропускания и канал низкочастотных эффектов декодированного представления в формате 2.1, при этом a и b представляют собой соответствующие постоянные.- 16 042232 where L, R and LFE denote the full bandwidth left and right channels and the low frequency effects channel of the decoded 2.1 presentation, with a and b being the respective constants. 11. Способ по п.5, отличающийся тем, что приближение второго представленного представления потока воспроизведения представляет собой безэховое бинауральное представление и при этом способ дополнительно включает прием и декодирование одного или более дополнительных наборов параметров преобразования, пригодных для преобразования промежуточного представления потока воспроизведения в один или более входных сигналов процесса имитирования акустической среды;11. The method of claim 5, wherein the approximation of the second represented representation of the playback stream is an anechoic binaural representation, and wherein the method further comprises receiving and decoding one or more additional sets of transform parameters suitable for converting the intermediate representation of the playback stream into one or more inputs to the process of simulating the acoustic environment; применение одного или более дополнительных наборов параметров преобразования к промежуточному представлению потока воспроизведения для генерирования одного или более входных сигналов процесса имитирования акустической среды;applying one or more additional sets of transformation parameters to the intermediate representation of the playback stream to generate one or more inputs to the process of simulating the acoustic environment; применение одного или более входных сигналов процесса имитирования акустической среды к одному или более процессам имитирования акустической среды для получения одного или более сигналов имитированной акустической среды и комбинирование одного или более сигналов имитированной акустической среды с приближением второго представленного представления потока воспроизведения.applying one or more acoustic simulation process inputs to one or more acoustic environment simulation processes to produce one or more simulated acoustic environment signals; and combining one or more simulated acoustic environment signals to approximate a second represented playback stream representation. 12. Способ по п.5, отличающийся тем, что он дополнительно включает прием и декодирование одного или более наборов параметров оценки диалоговых сигналов, пригодных для преобразования промежуточного представления потока воспроизведения в один или более оценочных диалоговых сигналов;12. The method of claim 5, further comprising receiving and decoding one or more dialog signal evaluation parameter sets suitable for converting an intermediate representation of the playback stream into one or more evaluation dialog signals; применение одного или более наборов параметров оценки диалога к промежуточному представлению потока воспроизведения для генерирования одного или более оценочных диалоговых сигналов;applying one or more sets of dialogue evaluation parameters to the intermediate representation of the playback stream to generate one or more evaluation dialogue signals; вычитание одного или более оценочных диалоговых сигналов из промежуточного представления потока воспроизведения для получения одного или более сигналов с подавленным диалогом;subtracting one or more estimated dialogue signals from the intermediate representation of the playback stream to obtain one or more signals with suppressed dialogue; применение одного или более сигналов с подавленным диалогом к одному или более процессам имитирования акустической среды для получения одного или более сигналов имитированной акустической среды и комбинирование одного или более сигналов имитированной акустической среды с приближением второго представленного представления потока воспроизведения.applying one or more dialogue-suppressed signals to one or more acoustic simulation processes to obtain one or more simulated acoustic environment signals; and combining one or more simulated acoustic environment signals to approximate the second represented representation of the playback stream. 13. Кодер для кодирования входного аудиопотока, содержащего одну или более звуковых составляющих, причем каждая звуковая составляющая связана с пространственным местоположением, причем кодер содержит первый блок представления для представления первого представления потока воспроизведения указанного входного аудиопотока, при этом указанное первое представление потока воспроизведения представляет собой набор из M1 сигналов, предназначенных для воспроизведения первой системой воспроизведения звука;13. An encoder for encoding an input audio stream containing one or more audio components, each audio component is associated with a spatial location, and the encoder contains a first representation unit for representing a first representation of the playback stream of the specified input audio stream, while the specified first representation of the playback stream is a set of M1 signals to be reproduced by the first sound reproduction system; второй блок представления для представления второго представления потока воспроизведения указанного входного аудиопотока, при этом указанное второе представление потока воспроизведения представляет собой набор из двух сигналов, предназначенных для воспроизведения второй системой воспроизведения звука, при этом одно из первого представления потока воспроизведения и второго представления потока воспроизведения представляет собой представление для громкоговорителей и при этом одно из первого представления потока воспроизведения и второго представления потока воспроизведения представляет собой эховое или безэховое бинауральное представление;a second presentation unit for presenting a second reproduction stream representation of said input audio stream, said second reproduction stream representation being a set of two signals to be reproduced by the second audio playback system, wherein one of the first reproduction stream representation and the second reproduction stream representation is a speaker presentation, wherein one of the first playback stream presentation and the second playback stream presentation is an echo or anechoic binaural presentation; блок определения параметров преобразования для определения набора параметров преобразования, пригодных для преобразования промежуточного представления потока воспроизведения, которое представляет собой набор из M3 сигналов, в приближение второго представления потока воспроизведения, при этом набор параметров преобразования образует матрицу усиления размером M3x2, которая при применении непосредственно к промежуточному представлению потока воспроизведения матричным умножением образует указанное приближение второго представления потока воспроизведения, причем промежуточное представление потока воспроизведения представляет собой одно из первого представления потока воспроизведения и результата понижающего микширования первого представления потока воспроизведения, и причем параметры преобразования определяются путем минимизации величины разницы между вторым представлением потока воспроизведения и приближением второго представления потока воспроизведения, образованного применением параметров преобразования к промежуточному представлению потока воспроизведения; и блок кодирования для кодирования первого представления потока воспроизведения и указанного набора параметров преобразования для передачи в декодер.a transformation parameter determination unit for determining a set of transformation parameters suitable for converting the intermediate representation of the playback stream, which is a set of M3 signals, into an approximation of the second representation of the playback stream, wherein the set of transformation parameters forms a gain matrix of size M3x2, which, when applied directly to the intermediate representation of the playback stream by matrix multiplication forms the specified approximation of the second representation of the playback stream, and the intermediate representation of the playback stream is one of the first representation of the playback stream and the result of downmixing the first representation of the playback stream, and wherein the transformation parameters are determined by minimizing the amount of difference between the second representation of the playback stream and approximation of the second representation of the playback stream formed by applying the parameter into transformations to an intermediate representation of the playback stream; and an encoding unit for encoding the first representation of the playback stream and the specified set of transformation parameters for transmission to the decoder. 14. Декодер для декодирования представлений потока воспроизведения из потока данных, причем декодер содержит блок базового декодера, выполненный с возможностью приема и декодирования первого представленного представления потока воспроизведения, при14. A decoder for decoding representations of the playback stream from the data stream, the decoder comprising a base decoder unit configured to receive and decode the first presented representation of the playback stream, when - 17 042232 этом указанное первое представленное представление потока воспроизведения представляет собой набор из M1 сигналов, предназначенных для воспроизведения первой системой воспроизведения звука, и приема и декодирования набора параметров преобразования, пригодных для преобразования промежуточного представления потока воспроизведения, которое представляет собой набор из M3 сигналов, в приближение второго представленного представления потока воспроизведения, при этом указанное второе представленное представление потока воспроизведения представляет собой набор из двух сигналов, предназначенных для воспроизведения второй системой воспроизведения звука, при этом набор параметров преобразования образует матрицу усиления размером M3x2, которая при применении непосредственно к промежуточному представлению потока воспроизведения матричным умножением образует указанное приближение второго представления потока воспроизведения, при этом одно из первого представленного представления потока воспроизведения и второго представленного представления потока воспроизведения представляет собой представление для громкоговорителей, и при этом одно из первого представленного представления потока воспроизведения и второго представленного представления потока воспроизведения представляет собой эховое или безэховое бинауральное представление, и причем промежуточное представление потока воспроизведения представляет собой одно из первого представленного представления потока воспроизведения и результата понижающего микширования первого представленного представления потока воспроизведения, причем параметры преобразования определяются кодером для обеспечения того, что величина разницы между вторым представленным представлением потока воспроизведения и приближением второго представления потока воспроизведения, образованного применением параметров преобразования к промежуточному представлению потока воспроизведения, является минимальной; и матричный умножитель для применения указанных параметров преобразования к указанному промежуточному представлению потока воспроизведения для получения указанного приближения второго представленного представления потока воспроизведения.- 17 042232 this first presented representation of the playback stream is a set of M1 signals intended to be reproduced by the first sound reproduction system, and receiving and decoding a set of conversion parameters suitable for converting the intermediate representation of the playback stream, which is a set of M3 signals, into an approximation of the second represented representation of the playback stream, wherein said second represented representation of the playback stream is a set of two signals intended to be reproduced by the second sound reproduction system, the set of transformation parameters forming a gain matrix of size M3x2, which, when applied directly to the intermediate representation of the playback stream matrix multiplication forms the specified approximation of the second representation of the playback stream, while one of the first representation of the stream in and the second presented representation of the playback stream is a speaker view, and wherein one of the first presented representation of the playback stream and the second presented representation of the playback stream is an echo or anechoic binaural representation, and wherein the intermediate representation of the playback stream is one of the first presented representation of the playback stream a playback stream and a downmix result of the first represented representation of the playback stream, wherein the transform parameters are determined by the encoder to ensure that the amount of difference between the second presented representation of the playback stream and an approximation of the second representation of the playback stream formed by applying the transform parameters to the intermediate representation of the playback stream is minimal; and a matrix multiplier for applying said transformation parameters to said intermediate representation of the playback stream to obtain said approximation of the second represented representation of the playback stream. 15. Внутренний носитель данных, на котором хранится компьютерный программный продукт кодера, содержащий сегменты компьютерного программного кода, которые при их исполнении в компьютерном процессоре вызывают выполнение компьютерным процессором способа по любому из пп.1-12.15. An internal storage medium storing an encoder computer program product comprising computer program code segments which, when executed in the computer processor, cause the computer processor to execute the method of any one of claims 1-12.
EA202090186 2015-08-25 2016-08-24 ENCODING AND DECODING AUDIO USING REPRESENTATION TRANSFORMATION PARAMETERS EA042232B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US62/209,735 2015-08-25
EP15189094.4 2015-10-09

Publications (1)

Publication Number Publication Date
EA042232B1 true EA042232B1 (en) 2023-01-25

Family

ID=

Similar Documents

Publication Publication Date Title
AU2021203143B2 (en) Audio encoding and decoding using presentation transform parameters
AU2014295309B2 (en) Apparatus, method, and computer program for mapping first and second input channels to at least one output channel
CN108600935B (en) Audio signal processing method and apparatus
CN108353242B (en) Audio decoder and decoding method
EP3569000B1 (en) Dynamic equalization for cross-talk cancellation
US11721348B2 (en) Acoustic environment simulation
EP3409029A1 (en) Binaural dialogue enhancement
EA042232B1 (en) ENCODING AND DECODING AUDIO USING REPRESENTATION TRANSFORMATION PARAMETERS