EA034250B1 - Параметрическое микширование звуковых сигналов - Google Patents

Параметрическое микширование звуковых сигналов Download PDF

Info

Publication number
EA034250B1
EA034250B1 EA201790753A EA201790753A EA034250B1 EA 034250 B1 EA034250 B1 EA 034250B1 EA 201790753 A EA201790753 A EA 201790753A EA 201790753 A EA201790753 A EA 201790753A EA 034250 B1 EA034250 B1 EA 034250B1
Authority
EA
Eurasian Patent Office
Prior art keywords
channel
signal
channels
additional
audio signal
Prior art date
Application number
EA201790753A
Other languages
English (en)
Other versions
EA201790753A1 (ru
Inventor
Ларс ВИЛЛЕМОЕС
Хейко ПУРНХАГЕН
Хайди-Мария Лехтонен
Original Assignee
Долби Интернешнл Аб
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Интернешнл Аб filed Critical Долби Интернешнл Аб
Publication of EA201790753A1 publication Critical patent/EA201790753A1/ru
Publication of EA034250B1 publication Critical patent/EA034250B1/ru

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

В предложенном изобретении в блоке кодирования блок понижающего микширования формирует первый и второй каналы сигнала понижающего микширования как линейные комбинации соответственно первой и второй групп каналов M-канального звукового сигнала; блок анализа определяет параметры повышающего микширования для параметрического восстановления звукового сигнала и параметры микширования. В блоке декодирования блок декорреляции выводит декоррелированный сигнал на основе сигнала понижающего микширования; и блок микширования определяет коэффициенты микширования на основе параметров микширования или параметров повышающего микширования и формирует K-канальный выходной сигнал как линейную комбинацию сигнала понижающего микширования и декоррелированного сигнала согласно коэффициентам микширования. Каналы выходного сигнала аппроксимируют линейные комбинации K групп каналов соответственно звукового сигнала. K групп составляют иное разбиение звукового сигнала, чем первая и вторая группы, и 2≤K<M.

Description

Область техники, к которой относится изобретение
Раскрываемое в настоящем документе изобретение в целом относится к кодированию и декодированию звуковых сигналов, и в частности к микшированию каналов сигнала понижающего микширования на основании связанных метаданных.
Предпосылки изобретения
Системы проигрывания звука, содержащие несколько громкоговорителей, часто используют для воспроизведения звуковой сцены, представленной многоканальным звуковым сигналом, при этом соответствующие каналы многоканального звукового сигнала проигрываются на соответствующих громкоговорителях. Многоканальный звуковой сигнал может, например, быть записан посредством ряда акустических преобразователей или может быть сгенерирован оборудованием авторской разработки звука. Во многих ситуациях имеют место ограничения полосы пропускания для передачи звукового сигнала на проигрывающее оборудование и/или ограниченный объем для хранения звукового сигнала в памяти компьютера или переносном устройстве хранения данных. Существуют системы кодирования звука для параметрического кодирования звуковых сигналов с целью уменьшения требуемых полосы пропускания или объема памяти. На стороне кодера эти системы, как правило, подвергают многоканальный звуковой сигнал понижающему микшированию в сигнал понижающего микширования, который, как правило, представляет собой монофонический (один канал) или стереофонический (два канала) сигнал понижающего микширования, и извлекают дополнительную информацию, описывающую свойства каналов посредством параметров, подобных разностям уровней и взаимной корреляции. Сигнал понижающего микширования и дополнительную информацию затем кодируют и направляют на сторону декодера. На стороне декодера многоканальный звуковой сигнал восстанавливают, т.е. аппроксимируют, из сигнала понижающего микширования под управлением параметров из дополнительной информации.
В виду широкого диапазона устройств и систем различных типов, доступных для проигрывания многоканального звукового содержимого, включая развивающийся сегмент, нацеленный на конечных пользователей в их домах, имеется потребность в новых и альтернативных способах эффективного кодирования многоканального звукового содержимого с целью уменьшения требований к полосе пропускания и/или требуемого объема памяти устройства хранения, облегчения восстановления многоканального звукового сигнала на стороне декодера и/или повышения точности воспроизведения многоканального звукового сигнала при восстановлении на стороне декодера. Также имеется потребность в облегчении проигрывания кодированного многоканального звукового содержимого на системах динамиков различных типов, в том числе на системах с количеством динамиков, меньшим количества каналов, имеющихся в оригинальном многоканальном звуковом содержимом.
Краткое описание графических материалов
В дальнейшем приведенные для примера варианты осуществления будут описаны более подробно и со ссылкой на сопроводительные графические материалы, на которых фиг. 1 - обобщенная функциональная схема блока кодирования для кодирования M-канального сигнала как двухканального сигнала понижающего микширования и связанных метаданных согласно одному из примерных вариантов осуществления;
фиг. 2 - обобщенная функциональная схема системы кодирования звука, содержащей блок кодирования, представленный на фиг. 1, согласно одному из примерных вариантов осуществления;
фиг. 3 - блок-схема способа кодирования звука для кодирования M-канального звукового сигнала как двухканального сигнала понижающего микширования и связанных метаданных согласно одному из примерных вариантов осуществления;
фиг. 4-6 - схемы альтернативных способов разбиения 11.1-канального (или 7.1+4 канального, или
7.1.4-канального) звукового сигнала на группы каналов, представляемых соответствующими каналами сигнала понижающего микширования, согласно примерным вариантам осуществления;
фиг. 7 - обобщенная функциональная схема блока декодирования для предоставления двухканального выходного сигнала на основе двухканального сигнала понижающего микширования и связанных параметров повышающего микширования согласно одному из примерных вариантов осуществления;
фиг. 8 - обобщенная функциональная схема системы декодирования звука, содержащей блок декодирования, представленный на фиг. 7, согласно одному из примерных вариантов осуществления;
фиг. 9 - обобщенная функциональная схема блока декодирования для предоставления двухканального выходного сигнала на основе двухканального сигнала понижающего микширования и связанных параметров микширования согласно одному из примерных вариантов осуществления;
фиг. 10 - блок-схема способа декодирования звука для предоставления двухканального выходного сигнала на основе двухканального сигнала понижающего микширования и связанных метаданных согласно одному из примерных вариантов осуществления;
фиг. 11 - схематическое изображение машиночитаемого носителя согласно одному из примерных
- 1 034250 вариантов осуществления;
фиг. 12 - обобщенная функциональная схема блока декодирования для предоставления Kканального выходного сигнала на основе двухканального сигнала понижающего микширования и связанных параметров повышающего микширования согласно одному из примерных вариантов осуществления;
фиг. 13-14 - схемы альтернативных способов разбиения 11.1-канального (или 7.1+4 канального, или
7.1.4- канального) звукового сигнала на группы каналов согласно примерным вариантам осуществления;
фиг. 15-16 - схемы альтернативных способов разбиения 13.1-канального (или 9.1+4 канального, или
9.1.4- канального) звукового сигнала на группы каналов согласно примерным вариантам осуществления.
Все фигуры являются схематическими и в целом лишь показывают части, необходимые для освещения изобретения, тогда как другие части могут быть опущены или могут являться лишь предполагаемыми.
Описание примерных вариантов осуществления
В рамках настоящего документа звуковой сигнал может представлять собой отдельный звуковой сигнал, звуковую часть аудиовизуального сигнала или мультимедийного сигнала или любой из этих сигналов в сочетании с метаданными.
В рамках настоящего документа канал представляет собой звуковой сигнал, связанный с предварительно определенным/фиксированным пространственным положением/ориентацией или неопределенным пространственным положением, таким как левое или правое.
I. Обзор: сторона декодера.
Согласно первому аспекту примерные варианты осуществления предлагают системы декодирования звука, способы декодирования звука и связанные компьютерные программные продукты. Предлагаемые системы декодирования, способы и компьютерные программные продукты согласно первому аспекту могут в целом обладать одними и теми же признаками и преимуществами.
Согласно примерным вариантам осуществления предусматривается способ декодирования звука, включающий прием двухканального сигнала понижающего микширования. Сигнал понижающего микширования связан с метаданными, содержащими параметры повышающего микширования для параметрического восстановления M-канального звукового сигнала на основе сигнала понижающего микширования, где M>4. Первый канал сигнала понижающего микширования соответствует линейной комбинации первой группы из одного или более каналов M-канального звукового сигнала, а второй канал сигнала понижающего микширования соответствует линейной комбинации второй группы из одного или более каналов M-канального звукового сигнала. Первая и вторая группы составляют разбиение M каналов M-канального звукового сигнала. Способ декодирования звука дополнительно включает прием по меньшей мере части метаданных; генерирование декоррелированного сигнала на основе по меньшей мере одного канала сигнала понижающего микширования; определение набора коэффициентов микширования на основе принятых метаданных; и формирование двухканального выходного сигнала как линейной комбинации сигнала понижающего микширования и декоррелированного сигнала согласно коэффициентам микширования. Коэффициенты микширования определяют так, что первый канал выходного сигнала аппроксимирует линейную комбинацию третьей группы из одного или более каналов M-канального звукового сигнала, и так, что второй канал выходного сигнала аппроксимирует линейную комбинацию четвертой группы из одного или более каналов M-канального звукового сигнала. Коэффициенты микширования также определяют так, что третья и четвертая группы составляют разбиение M каналов Mканального звукового сигнала, и так, что как третья, так и четвертая группы содержат по меньшей мере один канал из первой группы.
М-канальный звуковой сигнал был закодирован как двухканальный сигнал понижающего микширования, и параметры повышающего микширования для параметрического восстановления Mканального звукового сигнала. При кодировании M-канального звукового сигнала на стороне кодера формат кодирования может быть выбран, например, для облегчения восстановления M-канального звукового сигнала из сигнала понижающего микширования, для повышения точности воспроизведения Mканального звукового сигнала при его восстановлении из сигнала понижающего микширования и/или для повышения эффективности кодирования сигнала понижающего микширования. Этот выбор формата кодирования может быть выполнен путем осуществления выбора первой и второй групп и формирования каналов сигнала понижающего микширования как соответствующих линейных комбинаций каналов в соответствующих группах.
Авторы настоящего изобретения осознали, что, хотя выбранный формат кодирования может облегчать восстановление M-канального звукового сигнала из сигнала понижающего микширования, сигнал понижающего микширования сам по себе может не быть пригодным для воспроизведения с использованием конкретной конфигурации с двумя динамиками. Более пригодным для конкретной двухканальной установки воспроизведения, чем сигнал понижающего микширования, может быть выходной сигнал, соответствующий другому разбиению M-канального звукового сигнала на третью и четвертую группы. Поэтому предоставление выходного сигнала на основе сигнала понижающего микширования и принятых метаданных может повышать воспринимаемое слушателем качество двухканального воспроизведения
- 2 034250 и/или повышать точность воспроизведения двухканального воспроизведения на звуковое поле, представленное M-канальным звуковым сигналом.
Авторы настоящего изобретения также осознали, что вместо первоначального восстановления Mканального звукового сигнала из сигнала понижающего микширования и затем генерирования альтернативного двухканального представления M-канального звукового сигнала (например, путем аддитивного микширования), альтернативное двухканальное представление, предоставляемое выходным сигналом, может быть более эффективно сгенерировано из сигнала понижающего микширования и принятых метаданных с использованием того факта, что некоторые каналы M-канального звукового сигнала сгруппированы вместе сходным образом в обоих двухканальных представлениях. Формирование выходного сигнала как линейной комбинации сигнала понижающего микширования и декоррелированного сигнала может, например, снижать вычислительную сложность на стороне декодера и/или уменьшать количество компонентов или этапов обработки, применяемых для получения альтернативного двухканального представления M-канального звукового сигнала.
Первый канал сигнала понижающего микширования мог, например, быть сформирован на стороне кодера как линейная комбинация первой группы из одного или более каналов. Аналогично второй канал сигнала понижающего микширования мог, например, быть сформирован на стороне кодера как линейная комбинация второй группы из одного или более каналов.
Каналы M-канального звукового сигнала могут, например, образовывать подмножество большего количества каналов, совместно представляющих звуковое поле.
Будет понятно, что, поскольку и третья и четвертая группы содержат по меньшей мере один канал из первой группы, разбиение, предоставляемое третьей и четвертой группами, отличается от разбиения, предоставляемого первой и второй группами.
Декоррелированный сигнал служит для повышения воспринимаемой слушателем размерности звукового содержимого сигнала понижающего микширования. Генерирование декоррелированного сигнала может, например, включать применение линейного фильтра к одному или более каналам сигнала понижающего микширования.
Формирование выходного сигнала может, например, включать применение по меньшей мере некоторых коэффициентов микширования к каналам сигнала понижающего микширования и по меньшей мере некоторых коэффициентов микширования к одному или более каналам декоррелированного сигнала.
В одном примерном варианте осуществления принятые метаданные могут содержать параметры повышающего микширования и коэффициенты микширования могут быть определены путем обработки параметров повышающего микширования, например путем выполнения математических операций (например, включающих арифметические операции) в отношении параметров повышающего микширования. Параметры повышающего микширования, как правило, являются уже определенными на стороне кодера и предоставленными вместе с сигналом понижающего микширования для параметрического восстановления M-канального звукового сигнала на стороне декодера. Параметры повышающего микширования несут информацию о M-канальном звуковом сигнале, который может быть использован для предоставления выходного сигнала на основе сигнала понижающего микширования. Определение на стороне декодера коэффициентов микширования на основе параметров повышающего микширования уменьшает необходимость генерирования дополнительных метаданных на стороне кодера и позволяет сократить объем данных, передаваемых со стороны кодера.
В одном примерном варианте осуществления принятые метаданные могут содержать параметры микширования, отличающиеся от параметров повышающего микширования. В настоящем примерном варианте осуществления коэффициенты микширования могут быть определены на основе принятых метаданных и, таким образом, на основе параметров микширования. Для облегчения определения коэффициентов микширования параметры микширования могут быть уже определены на стороне кодера и переданы на сторону декодера. Более того, использование параметров микширования для определения коэффициентов микширования позволяет управлять коэффициентами микширования со стороны кодера. Поскольку оригинальный M-канальный звуковой сигнал доступен на стороне кодера, параметры микширования могут, например, быть настроены на стороне кодера так, чтобы повысить точность воспроизведения двухканального выходного сигнала как двухканального представления M-канального звукового сигнала. Параметры микширования могут, например, представлять собой сами коэффициенты микширования, или параметры микширования могут предусматривать более компактное представление коэффициентов микширования. Коэффициенты микширования могут, например, быть определены путем обработки параметров микширования, например согласно предварительно определенному правилу. Параметры микширования могут, например, содержать три независимо присваиваемых параметра.
В одном примерном варианте осуществления коэффициенты микширования могут быть определены независимо от любых значений параметров повышающего микширования, что позволяет настраивать коэффициенты микширования независимо от параметров повышающего микширования и позволяет повышать точность воспроизведения двухканального выходного сигнала как двухканального представления M-канального звукового сигнала.
В одном примерном варианте осуществления можно полагать, что M=5, т.е. M-канальный звуковой
- 3 034250 сигнал может представлять собой пятиканальный звуковой сигнал. Способ декодирования звука в данном примерном варианте осуществления можно использовать, например, для пяти обычных каналов одного из принятых в настоящее время аудиоформатов 5.1 или для пяти каналов с левой или с правой стороны в многоканальном звуковом сигнале 11.1. Альтернативно можно полагать, что M=4 или M>6.
В одном примерном варианте осуществления каждый коэффициент усиления, задающий вклад канала M-канального звукового сигнала в одну из линейных комбинаций, которой соответствуют каналы сигнала понижающего микширования, может совпадать с коэффициентом усиления, задающим вклад канала M-канального звукового сигнала в одну из линейных комбинаций, аппроксимируемых каналами выходного сигнала. Тот факт, что эти коэффициенты усиления в настоящем примерном варианте осуществления совпадают, позволяет упростить предоставление выходного сигнала на основе сигнала понижающего микширования. В частности, можно уменьшить количество декоррелированных каналов, используемых для аппроксимации линейных комбинаций третьей и четвертой групп на основе сигнала понижающего микширования.
Для разных каналов M-канального звукового сигнала, например, могут быть использованы разные коэффициенты усиления.
В первом примере все коэффициенты усиления могут иметь значение 1. В первом примере первый и второй каналы сигнала понижающего микширования могут относиться к невзвешенным суммам соответственно первой и второй групп, а первый и второй каналы выходного сигнала могут аппроксимировать невзвешенные суммы соответственно третьего и четвертого наборов.
Во втором примере по меньшей мере один из коэффициентов усиления может иметь значение, отличающееся от 1. Во втором примере первый и второй каналы сигнала понижающего микширования могут относиться к взвешенным суммам соответственно первой и второй групп, а первый и второй каналы выходного сигнала могут аппроксимировать взвешенные суммы соответственно третьего и четвертого наборов.
В одном примерном варианте осуществления способ декодирования может дополнительно включать прием битового потока, представляющего сигнал понижающего микширования и метаданные; и извлечение из битового потока сигнала понижающего микширования и принятой части метаданных. Иными словами, принятые метаданные, используемые для определения коэффициентов микширования, сначала могли быть извлечены из битового потока. Из битового потока могут быть извлечены, например, все метаданные, включая параметры повышающего микширования. В одном альтернативном примере из битового потока могут быть извлечены только метаданные, необходимые для определения коэффициентов микширования, а извлечение дополнительных метаданных может, например, быть заблокировано.
В одном примерном варианте осуществления декоррелированный сигнал может представлять собой одноканальный сигнал, а выходной сигнал может быть сформирован путем включения не более чем одного канала декоррелированного сигнала в линейную комбинацию сигнала понижающего микширования и декоррелированного сигнала, т.е. в линейную комбинацию, из которой получают выходной сигнал. Авторы настоящего изобретения осознали, что для предоставления двухканального выходного сигнала нет необходимости в восстановлении M-канального звукового сигнала и что, поскольку в восстановлении полного M-канального звукового сигнала нет необходимости, количество каналов декоррелированного сигнала может быть уменьшено.
В одном примерном варианте осуществления коэффициенты микширования могут быть определены так, что два канала выходного сигнала принимают от декоррелированного сигнала вклады равной величины (например, равной амплитуды). Вклады декоррелированного сигнала в соответствующий канал выходного сигнала могут иметь противоположные знаки. Иными словами, коэффициенты микширования можно определить так, что сумма коэффициента микширования, задающего вклад канала декоррелированного сигнала в первый канал выходного сигнала, и коэффициента микширования, задающего вклад того же канала декоррелированного сигнала во второй канал выходного сигнала, имеет значение 0.
В настоящем примерном варианте осуществления величина (например, амплитуда) звукового содержимого, происходящего из декоррелированного сигнала (т.е. звукового содержимого для увеличения размерности сигнала понижающего микширования), может, например, быть равной в обоих каналах выходного сигнала.
В одном примерном варианте осуществления формирование выходного сигнала может представлять собой проецирование из трех каналов в два канала, т.е. проецирование из двух каналов сигнала понижающего микширования и одного канала декоррелированного сигнала в два канала выходного сигнала. Например, выходной сигнал может быть прямо получен как линейная комбинация сигнала понижающего микширования и декоррелированного сигнала без первоначального восстановления полных M каналов M-канального звукового сигнала.
В одном примерном варианте осуществления коэффициенты микширования могут быть определены так, что сумма коэффициента микширования, задающего вклад первого канала сигнала понижающего микширования в первый канал выходного сигнала, и коэффициента микширования, задающего вклад первого канала сигнала понижающего микширования во второй канал выходного сигнала, имеет значение, равное единице. В частности, один из коэффициентов микширования может быть получен из пара- 4 034250 метров повышающего микширования (например, передан как явное значение или может быть получен из параметров повышающего микширования после выполнения вычислений на компактном представлении, как разъясняется в других разделах данного раскрытия), а другой может быть легко вычислен при помощи требования равенства единице суммы обоих коэффициентов микширования.
В дополнение или альтернативно коэффициенты микширования могут быть определены так, что сумма коэффициента микширования, задающего вклад второго канала сигнала понижающего микширования в первый канал выходного сигнала, и коэффициента микширования, задающего вклад второго канала сигнала понижающего микширования во второй канал выходного сигнала, имеет значение, равное единице.
В одном примерном варианте осуществления первая группа может состоять из двух или трех каналов. Канал сигнала понижающего микширования, соответствующего линейной комбинации двух или трех каналов, а не соответствующий линейной комбинации четырех или более каналов, может повышать точность воспроизведения M-канального звукового сигнала при восстановлении декодером, выполняющим параметрическое восстановление всех M каналов. Способ декодирования согласно настоящему примерному варианту осуществления может быть совместим с таким форматом кодирования.
В одном примерном варианте осуществления M-канальный звуковой сигнал может содержать три канала, представляющих разные горизонтальные направления в среде воспроизведения для Mканального звукового сигнала, и два канала, представляющих направления, отделенные по вертикали от направлений трех каналов в среде воспроизведения. Иными словами, M-канальный звуковой сигнал может содержать три канала, предназначенных для воспроизведения источниками звука, расположенными, по существу, на такой же высоте, как и слушатель (или ухо слушателя) и/или распространяющими звук, по существу, горизонтально, и два канала, предназначенных для воспроизведения источниками звука, расположенными на других высотах и/или распространяющими звук (по существу) негоризонтально. Эти два канала могут представлять, например, поднятые направления.
В одном примерном варианте осуществления первая группа может состоять из трех каналов, представляющих разные горизонтальные направления в среде воспроизведения для M-канального звукового сигнала, а вторая группа может состоять из двух каналов, представляющих направления, отделенные по вертикали от направлений трех каналов в среде воспроизведения. Вертикальное разбиение M-канального звукового сигнала, предоставляемое первой и второй группами, в настоящем примерном варианте осуществления может повышать точность воспроизведения M-канального звукового сигнала, восстанавливаемого декодером, выполняющим параметрическое восстановление всех M каналов, например в случаях, когда вертикальное измерение является важным для общего впечатления от звукового поля, представляемого M-канальным звуковым сигналом. Способ декодирования согласно настоящему примерному варианту осуществления может быть совместимым с форматом кодирования, предусматривающим это вертикальное разбиение.
В одном примерном варианте осуществления одна из третьей и четвертой групп может содержать оба из двух каналов, представляющих направления, отделенные по вертикали от направлений трех каналов в среде воспроизведения. Альтернативно каждая из третьей и четвертой групп может содержать один из двух каналов, представляющих направления, отделенные по вертикали от направлений трех каналов в среде воспроизведения, т.е. третья и четвертая группы могут содержать по одному из этих двух каналов каждая.
В одном примерном варианте осуществления декоррелированный сигнал может быть получен путем обработки линейной комбинации каналов сигнала понижающего микширования, например, включая применение линейного фильтра к линейной комбинации каналов из каналов сигнала понижающего микширования. Альтернативно декоррелированный сигнал может быть получен на основе не более чем одного из каналов сигнала понижающего микширования, например путем обработки канала сигнала понижающего микширования (например, включая применение линейного фильтра). Если, например, вторая группа каналов состоит из единственного канала, и второй канал сигнала понижающего микширования соответствует этому единственному каналу, то декоррелированный сигнал может, например, быть получен путем обработки только первого канала сигнала понижающего микширования.
В одном примерном варианте осуществления первая группа может состоять из N каналов, где N>3, и первая группа может быть восстановлена в виде линейной комбинации первого канала сигнала понижающего микширования и Щ-1)-канального декоррелированного сигнала путем применения коэффициентов повышающего микширования первого типа, именуемых в данном документе коэффициентами сухого повышающего микширования, к первому каналу сигнала понижающего микширования, и коэффициентов повышающего микширования второго типа, именуемых в данном документе коэффициентами влажного повышающего микширования, к каналам Щ-1)-канального декоррелированного сигнала. В настоящем примерном варианте осуществления принятые метаданные могут содержать параметры повышающего микширования первого типа, именуемые в данном документе параметрами сухого повышающего микширования, и параметры повышающего микширования второго типа, именуемые в данном документе параметрами влажного повышающего микширования. Определение коэффициентов микширования может включать определение коэффициентов сухого повышающего микширования на основе
- 5 034250 параметров сухого повышающего микширования; заполнение промежуточной матрицы, содержащей больше элементов, чем количество принятых параметров влажного повышающего микширования, на основе принятых параметров влажного повышающего микширования и знания о том, что промежуточная матрица принадлежит к предварительно определенному классу матриц; получение коэффициентов влажного повышающего микширования путем умножения промежуточной матрицы на предварительно определенную матрицу, при этом коэффициенты влажного повышающего микширования соответствуют матрице, являющейся результатом умножения, и содержат больше коэффициентов, чем количество элементов в промежуточной матрице; обработку коэффициентов влажного и сухого повышающего микширования.
В настоящем примерном варианте осуществления количество коэффициентов влажного повышающего микширования для восстановления первой группы каналов больше количества принятых параметров влажного повышающего микширования. Используя знание предварительно определенной матрицы и класса предварительно определенной матрицы для получения коэффициентов влажного повышающего микширования из принятых параметров влажного повышающего микширования, можно уменьшить объем информации, необходимой для параметрического восстановления первой группы каналов, что позволяет уменьшить объем метаданных, передаваемых вместе с сигналом понижающего микширования со стороны кодера. Путем уменьшения объема данных, необходимых для параметрического восстановления, можно сократить полосу пропускания, требующуюся для передачи параметрического представления M-канального звукового сигнала, и/или объем памяти, требующейся для хранения такого представления.
(И-1)-канальный декоррелированный сигнал может быть сгенерирован на основе первого канала сигнала понижающего микширования и служит для увеличения воспринимаемой слушателем размерности содержимого восстановленной первой группы каналов.
Класс предварительно определенной матрицы может быть связан с известными свойствами, по меньшей мере, некоторых матричных элементов, справедливыми для всех матриц в классе, такими как определенные взаимосвязи между некоторыми из матричных элементов или равенство нулю некоторых матричных элементов. Знание этих свойств позволяет заполнять промежуточную матрицу на основе меньшего количества параметров влажного повышающего микширования, чем полное количество матричных элементов в промежуточной матрице. Сторона декодера обладает знанием, по меньшей мере, о свойствах элементов и взаимосвязях между элементами, которые ей необходимо вычислить из всех матричных элементов на основе меньшего количества параметров влажного повышающего микширования.
То, каким образом определять и применять предварительно определенную матрицу и класс предварительно определенной матрицы, более подробно описано на страницах от 16 (строка 15) до 20 (строка 2) предварительной заявки на патент США №61/974544; имя первого автора изобретения Lars Villemoes; дата подачи 3 апреля 2014 г. Примеры предварительно определенной матрицы см. в конкретном уравнении (9) вышеуказанной заявки.
В одном примерном варианте осуществления принятые метаданные могут содержать N(N-1)/2 параметров влажного повышающего микширования. В настоящем примерном варианте осуществления заполнение промежуточной матрицы может включать получение значений для (N-1)2 матричных элементов на основе принятых N(N-1)/2 параметров влажного повышающего микширования и знания о том, что промежуточная матрица принадлежит к классу предварительно определенной матрицы. Это может включать вставку значений параметров влажного повышающего микширования непосредственно как матричных элементов или обработку параметров влажного повышающего микширования надлежащим образом с целью получения значений для матричных элементов. В настоящем примерном варианте осуществления предварительно определенная матрица может содержать N(N-1) элементов и набор коэффициентов влажного повышающего микширования может содержать N(N-1) коэффициентов. Например, принятые метаданные могут содержать не более N(N-1)/2 независимо присваиваемых параметров влажного повышающего микширования и/или количество параметров влажного повышающего микширования может составлять не более половины количества коэффициентов влажного повышающего микширования для восстановления первой группы каналов.
В одном примерном варианте осуществления принятые метаданные могут содержать (N-1) параметров сухого повышающего микширования. В настоящем примерном варианте осуществления коэффициенты сухого повышающего микширования могут включать N коэффициентов, и коэффициенты сухого повышающего микширования могут быть определены на основе принятых (N-1) параметров сухого повышающего микширования и на основе предварительно определенного отношения между коэффициентами сухого повышающего микширования. Например, принятые метаданные могут содержать не более (N-1) независимо присваиваемых параметров сухого повышающего микширования.
В одном примерном варианте осуществления класс предварительно определенной матрицы может представлять собой одно из следующего: нижнюю или верхнюю треугольные матрицы, при этом известные свойства всех матриц в классе включают равенство нулю предварительно определенных матричных элементов; симметричные матрицы, при этом известные свойства всех матриц в классе включают равенство предварительно определенных матричных элементов (по любую из сторон от главной диагонали); и произведения ортогональной матрицы и диагональной матрицы, при этом известные свойства всех матриц в классе включают известные отношения между предварительно определенными матричными эле- 6 034250 ментами. Иными словами, класс предварительно определенной матрицы может представлять собой класс нижних треугольных матриц, класс верхних треугольных матриц, класс симметричных матриц или класс произведений ортогональной матрицы и диагональной матрицы. Общим свойством каждого из приведенных выше классов является то, что его размерность меньше полного количества матричных элементов.
В одном примерном варианте осуществления способ декодирования может дополнительно включать прием сигнальной информации, указывающей (выбранный) один из по меньшей мере двух форматов кодирования M-канального звукового сигнала, при этом форматы кодирования относятся к соответствующим разным разбиениям каналов M-канального звукового сигнала на соответствующие первую и вторую группы, связанные с каналами сигнала понижающего микширования. В настоящем примерном варианте осуществления третья и четвертая группы могут быть предварительно определенными и коэффициенты микширования могут быть определены так, что единственное разбиение M-канального звукового сигнала на третью и четвертую группы каналов, аппроксимируемых каналами выходного сигнала, сохраняется (т.е. является общим) по меньшей мере для двух форматов кодирования.
В настоящем примерном варианте осуществления декоррелированный сигнал может, например, быть определен на основе указанного формата кодирования и по меньшей мере одного канала сигнала понижающего микширования.
В настоящем примерном варианте осуществления при определении сигнала понижающего микширования и метаданных на стороне кодера могло быть использовано по меньшей мере два разных формата кодирования и способ декодирования может обрабатывать различия между форматами кодирования путем настройки коэффициентов микширования и необязательно также декоррелированного сигнала. В случае когда обнаруживается переключение с первого формата кодирования на второй формат кодирования, способ декодирования может, например, включать выполнение интерполяции от параметров микширования, связанных с первым форматом кодирования, к параметрам микширования, связанным со вторым форматом кодирования.
В одном примерном варианте осуществления способ декодирования может дополнительно включать пропускание сигнала понижающего микширования как выходного сигнала в ответ на получение сигнальной информации, указывающей конкретный формат кодирования. В настоящем примерном варианте осуществления конкретный формат кодирования может соответствовать разбиению каналов Mканального звукового сигнала, совпадающему с разбиением, определяемым третьей и четвертой группами. В настоящем примерном варианте осуществления разбиение, предоставляемое каналами сигнала понижающего микширования, может совпадать с разбиением, которое должно быть предоставлено каналами выходного сигнала, и в обработке сигнала понижающего микширования может не быть необходимости. Поэтому сигнал понижающего микширования может быть пропущен как выходной сигнал.
В одном примерном варианте осуществления способ декодирования может включать подавление вклада декоррелированного сигнала в выходной сигнал в ответ на получение сигнальной информации, указывающей конкретный формат кодирования. В настоящем примерном варианте осуществления конкретный формат кодирования может соответствовать разбиению каналов M-канального звукового сигнала, совпадающему с разбиением, определяемым третьей и четвертой группами. В настоящем примерном варианте осуществления разбиение, предоставляемое каналами сигнала понижающего микширования, может совпадать с разбиением, которое должно быть предоставлено каналами выходного сигнала, и в декорреляции может не быть необходимости.
В одном примерном варианте осуществления в первом формате кодирования первая группа может состоять из трех каналов, представляющих разные горизонтальные направления в среде воспроизведения для M-канального звукового сигнала, а вторая группа каналов может состоять из двух каналов, представляющих направления, отделенные по вертикали от направлений трех каналов в среде воспроизведения. Во втором формате кодирования каждая из первой и второй групп может содержать один из двух каналов.
Согласно примерным вариантам осуществления предусматривается система декодирования звука, содержащая блок декодирования, выполненный с возможностью приема двухканального сигнала понижающего микширования. Сигнал понижающего микширования связан с метаданными, содержащими параметры повышающего микширования для параметрического восстановления M-канального звукового сигнала на основе сигнала понижающего микширования, где M>4. Первый канал сигнала понижающего микширования соответствует линейной комбинации первой группы из одного или более каналов Mканального звукового сигнала, а второй канал сигнала понижающего микширования соответствует линейной комбинации второй группы из одного или более каналов M-канального звукового сигнала. Первая и вторая группы составляют разбиение M каналов M-канального звукового сигнала. Блок декодирования также выполнен с возможностью приема по меньшей мере части метаданных; и предоставления двухканального выходного сигнала на основе сигнала понижающего микширования и принятых метаданных. Блок декодирования содержит блок декорреляции, выполненный с возможностью приема по меньшей мере одного канала сигнала понижающего микширования и вывода на его основе декоррелированного сигнала. Блок декодирования также содержит блок микширования, выполненный с возможностью определения набора коэффициентов микширования на основе принятых метаданных и формирования выходного сигнала как линейной комбинации сигнала понижающего микширования и декоррелиро- 7 034250 ванного сигнала согласно коэффициентам микширования. Блок микширования выполнен с возможностью определения коэффициентов микширования так, что первый канал выходного сигнала аппроксимирует линейную комбинацию третьей группы из одного или более каналов M-канального звукового сигнала, и так, что второй канал выходного сигнала аппроксимирует линейную комбинацию четвертой группы из одного или более каналов M-канального звукового сигнала. Блок микширования также выполнен с возможностью определения коэффициентов микширования так, что третья и четвертая группы составляют разбиение M каналов M-канального звукового сигнала, и так, что как третья, так и четвертая группы содержат по меньшей мере один канал из первой группы.
В одном примерном варианте осуществления система декодирования звука может также содержать дополнительный блок декодирования, выполненный с возможностью приема дополнительного двухканального сигнала понижающего микширования. Этот дополнительный сигнал понижающего микширования может быть связан с дополнительными метаданными, содержащими дополнительные параметры повышающего микширования для параметрического восстановления дополнительного M-канального звукового сигнала на основе дополнительного сигнала понижающего микширования. Первый канал дополнительного сигнала понижающего микширования может соответствовать линейной комбинации первой группы из одного или более каналов дополнительного M-канального звукового сигнала, а второй канал дополнительного сигнала понижающего микширования может соответствовать линейной комбинации второй группы из одного или более каналов дополнительного M-канального звукового сигнала. Первая и вторая группы каналов дополнительного M-канального звукового сигнала могут составлять разбиение M каналов дополнительного M-канального звукового сигнала. Дополнительный блок декодирования может быть также выполнен с возможностью приема по меньшей мере части дополнительных метаданных; и предоставления дополнительного двухканального выходного сигнала на основе дополнительного сигнала понижающего микширования и принятых дополнительных метаданных. Дополнительный блок декодирования может содержать дополнительный блок декорреляции, выполненный с возможностью приема по меньшей мере одного канала дополнительного сигнала понижающего микширования и вывода на его основе дополнительного декоррелированного сигнала. Дополнительный блок декодирования может также содержать дополнительный блок микширования, выполненный с возможностью определения набора дополнительных коэффициентов микширования на основе принятых дополнительных метаданных и формирования дополнительного выходного сигнала как линейной комбинации дополнительного сигнала понижающего микширования и дополнительного декоррелированного сигнала согласно дополнительным коэффициентам микширования. Дополнительный блок микширования может быть выполнен с возможностью определения дополнительных коэффициентов микширования так, что первый канал дополнительного выходного сигнала аппроксимирует линейную комбинацию третьей группы из одного или более каналов дополнительного M-канального звукового сигнала, и так, что второй канал дополнительного выходного сигнала аппроксимирует линейную комбинацию четвертой группы из одного или более каналов дополнительного M-канального звукового сигнала. Дополнительный блок микширования может быть также выполнен с возможностью определения дополнительных коэффициентов микширования так, что третья и четвертая группы каналов дополнительного M-канального звукового сигнала составляют разбиение M каналов дополнительного M-канального звукового сигнала, и так, что как третья, так и четвертая группы сигналов дополнительного M-канального звукового сигнала содержат по меньшей мере один канал из первой группы каналов дополнительного M-канального звукового сигнала.
В настоящем примерном варианте осуществления дополнительный блок декодирования, дополнительный блок декорреляции и дополнительный блок микширования могут, например, быть функционально эквивалентными (или выполненными аналогично) соответственно блоку декодирования, блоку декорреляции и блоку микширования. Альтернативно по меньшей мере один из дополнительного блока декодирования, дополнительного блока декорреляции и дополнительного блока микширования может, например, быть выполнен с возможностью выполнения по меньшей мере одного вычисления и/или интерполяции иного типа, чем выполняемые соответствующим блоком из блока декодирования, блока декорреляции и блока микширования.
В настоящем примерном варианте осуществления дополнительный блок декодирования, дополнительный блок декорреляции и дополнительный блок микширования могут, например, быть применены независимо от блока декодирования, блока декорреляции и блока микширования.
В одном примерном варианте осуществления система декодирования может дополнительно содержать демультиплексор, выполненный с возможностью извлечения из битового потока сигнала понижающего микширования, по меньшей мере части метаданных и дискретно кодированного звукового канала. Система декодирования может дополнительно содержать блок одноканального декодирования, применяемый для декодирования дискретно кодированного звукового канала. Дискретно закодированный звуковой канал может, например, быть закодирован в битовом потоке с использованием перцептивного аудиокодека, такого как Dolby Digital или MPEG AAC, и блок одноканального декодирования может, например, содержать основной декодер для декодирования дискретно закодированного звукового канала. Блок одноканального декодирования может, например, быть применен для декодирования дис- 8 034250 кретно кодированного звукового канала независимо от блока декодирования.
Согласно примерным вариантам осуществления предусматривается компьютерный программный продукт, содержащий машиночитаемый носитель с командами для выполнения любого из способов согласно первому аспекту.
Согласно вышеописанным примерным вариантам осуществления системы, способа и компьютерного программного продукта декодирования звука согласно первому аспекту выходной сигнал может представлять собой K-канальный сигнал, где 2<K<M, вместо двухканального сигнала, и K каналов выходного сигнала могут соответствовать разбиению M-канального звукового сигнала на K групп вместо двух каналов выходного сигнала, соответствующих разбиению M-канального сигнала на две группы.
Более конкретно согласно примерным вариантам осуществления предусматривается способ декодирования звука, включающий прием двухканального сигнала понижающего микширования. Сигнал понижающего микширования связан с метаданными, содержащими параметры повышающего микширования для параметрического восстановления M-канального звукового сигнала на основе сигнала понижающего микширования, где M>4. Первый канал сигнала понижающего микширования соответствует линейной комбинации первой группы из одного или более каналов M-канального звукового сигнала, а второй канал сигнала понижающего микширования соответствует линейной комбинации второй группы из одного или более каналов M-канального звукового сигнала. Первая и вторая группы составляют разбиение M каналов M-канального звукового сигнала. Способ декодирования звука может дополнительно включать прием по меньшей мере части метаданных; генерирование декоррелированного сигнала на основе по меньшей мере одного канала сигнала понижающего микширования; определение набора коэффициентов микширования на основе принятых метаданных; и формирование K-канального выходного сигнала как линейной комбинации сигнала понижающего микширования и декоррелированного сигнала согласно коэффициентам микширования, где 2<K<M. Коэффициенты микширования могут быть определены так, что каждый из K каналов выходного сигнала аппроксимирует линейную комбинацию группы из одного или более каналов M-канального звукового сигнала (и поэтому каждый из K каналов выходного сигнала соответствует группе из одного или более каналов M-канального звукового сигнала), при этом группы, относящиеся к соответствующим каналам выходного сигнала, составляют разбиение M каналов M-канального звукового сигнала на K групп из одного или более каналов; и по меньшей мере две из K групп содержат по меньшей мере один канал из первой группы.
М-канальный звуковой сигнал был закодирован как двухканальный сигнал понижающего микширования, и параметры повышающего микширования для параметрического восстановления Mканального звукового сигнала. При кодировании M-канального звукового сигнала на стороне кодера формат кодирования может быть выбран, например, для облегчения восстановления M-канального звукового сигнала из сигнала понижающего микширования, для повышения точности воспроизведения Mканального звукового сигнала при его восстановлении из сигнала понижающего микширования и/или для повышения эффективности кодирования сигнала понижающего микширования. Этот выбор формата кодирования может быть выполнен путем осуществления выбора первой и второй групп и формирования каналов сигнала понижающего микширования как соответствующих линейных комбинаций каналов в соответствующих группах.
Авторы настоящего изобретения осознали, что, хотя выбранный формат кодирования может облегчать восстановление M-канального звукового сигнала из сигнала понижающего микширования, сигнал понижающего микширования сам по себе может не быть пригодным для воспроизведения с использованием конкретной конфигурации с K динамиками, K-канальный выходной сигнал, соответствующий разбиению M-канального звукового сигнала на K групп, может являться более пригодным для конкретной K-канальной установки воспроизведения, чем сигнал понижающего микширования. Поэтому предоставление выходного сигнала на основе сигнала понижающего микширования и принятых метаданных может повышать воспринимаемое слушателем качество K-канального воспроизведения и/или повышать точность воспроизведения K-канальным воспроизведением в звуковое поле, представляемое Mканальным звуковым сигналом.
Авторы настоящего изобретения также осознали, что вместо первоначального восстановления Mканального звукового сигнала из сигнала понижающего микширования и затем генерирования Kканального представления M-канального звукового сигнала (например, путем аддитивного микширования), K-канальное представление, предоставляемое выходным сигналом, может быть более эффективно сгенерировано из сигнала понижающего микширования и принятых метаданных с использованием того факта, что некоторые каналы M-канального звукового сигнала сгруппированы вместе сходным образом в двухканальном представлении, предоставляемом сигналом понижающего микширования, и K-канальном представлении, которое необходимо предоставить. Формирование выходного сигнала как линейной комбинации сигнала понижающего микширования и декоррелированного сигнала может, например, снижать вычислительную сложность на стороне декодера и/или уменьшать количество компонентов или этапов обработки, применяемых для получения K-канального представления M-канального звукового сигнала.
Под тем, что K групп составляют разбиение каналов M-канального звукового сигнала, подразуме- 9 034250 вается, что K групп являются непересекающимися и вместе содержат все каналы M-канального звукового сигнала.
Формирование K-канального выходного сигнала может, например, включать применение, по меньшей мере, некоторых из коэффициентов микширования к каналам сигнала понижающего микширования и, по меньшей мере, некоторых коэффициентов микширования к одному или более каналам декоррелированного сигнала.
Первый и второй каналы сигнала понижающего микширования могут, например, соответствовать (взвешенным или невзвешенным) суммам каналов соответственно в первой и второй группах из одного или более каналов.
K каналов выходного сигнала могут, например, аппроксимировать (взвешенные или невзвешенные) суммы каналов соответственно в K групп из одного или более каналов.
В некоторых примерных вариантах осуществления K=2, K=3 или K=4. В некоторых примерных вариантах осуществления M=5 или M=6.
В одном примерном варианте осуществления декоррелированный сигнал может представлять собой двухканальный сигнал, а выходной сигнал может быть сформирован путем включения не более чем двух каналов декоррелированного сигнала в линейную комбинацию сигнала понижающего микширования и декоррелированного сигнала, т.е. в линейную комбинацию, из которой получают выходной сигнал. Авторы настоящего изобретения осознали, что для предоставления двухканального выходного сигнала нет необходимости в восстановлении M-канального звукового сигнала, и что, поскольку в восстановлении полного M-канального звукового сигнала нет необходимости, количество каналов декоррелированного сигнала может быть уменьшено.
В одном примерном варианте осуществления K=3 и формирование выходного сигнала может представлять собой проецирование из четырех каналов в три канала, т.е. проецирование из двух каналов сигнала понижающего микширования и двух каналов декоррелированного сигнала в три канала выходного сигнала. Например, выходной сигнал может быть прямо получен как линейная комбинация сигнала понижающего микширования и декоррелированного сигнала без первоначального восстановления полных M каналов M-канального звукового сигнала.
В одном примерном варианте осуществления коэффициенты микширования могут быть определены так, что пара каналов выходного сигнала принимает от канала декоррелированного сигнала вклады равной величины (например, равной амплитуды). Вклады этого канала декоррелированного сигнала в соответствующий канал из пары могут иметь противоположные знаки. Иными словами, коэффициенты микширования могут быть определены так, что сумма коэффициента микширования, задающего вклад канала декоррелированного сигнала в (например, первый) канал выходного сигнала, и коэффициента микширования, задающего вклад того же канала декоррелированного сигнала в другой (например, второй) канал выходного сигнала, имеет значение 0. K-канальный выходной сигнал может, например, содержать один или более каналов, не принимающих какой-либо вклад от данного конкретного канала декоррелированного сигнала.
В одном примерном варианте осуществления коэффициенты микширования могут быть определены так, что сумма коэффициента микширования, задающего вклад первого канала сигнала понижающего микширования в (например, первый) канал выходного сигнала, и коэффициента микширования, задающего вклад первого канала сигнала понижающего микширования в другой (например, второй) канал выходного сигнала, имеет значение 1. В частности, один из коэффициентов микширования может, например, быть получен из параметров повышающего микширования (например, передан как явное значение или может быть получен из параметров повышающего микширования после выполнения вычислений на компактном представлении, как разъясняется в других разделах данного раскрытия), а другой может быть легко вычислен при помощи требования равенства единице суммы обоих коэффициентов микширования. K-канальный выходной сигнал может, например, содержать один или более каналов, не принимающих какой-либо вклад от первого канала сигнала понижающего микширования.
В одном примерном варианте осуществления коэффициенты микширования могут быть определены так, что сумма коэффициента микширования, задающего вклад второго канала сигнала понижающего микширования в (например, первый) канал выходного сигнала, и коэффициента микширования, задающего вклад второго канала сигнала понижающего микширования в другой (например, второй) канал выходного сигнала, имеет значение, равное единице, K-канальный выходной сигнал может, например, содержать один или более каналов, не принимающих какой-либо вклад от второго канала сигнала понижающего микширования.
В одном примерном варианте осуществления способ может включать прием сигнальной информации, указывающей (выбранный) один из по меньшей мере двух форматов кодирования M-канального звукового сигнала. Форматы кодирования могут относиться к соответствующим разным разбиениям каналов M-канального звукового сигнала на соответствующие первую и вторую группы, связанные с каналами сигнала понижающего микширования. K групп могут быть определены предварительно. Коэффициенты микширования могут быть определены так, что единственное разбиение M-канального звукового сигнала на K групп каналов, аппроксимируемых каналами выходного сигнала, сохраняется (т.е. является
- 10 034250 общим) по меньшей мере для двух форматов кодирования.
В одном примерном варианте осуществления декоррелированный сигнал может содержать два канала. Первый канал декоррелированного сигнала может быть получен на основе первого канала сигнала понижающего микширования, например, путем обработки не более чем первого канала сигнала понижающего микширования. Второй канал декоррелированного сигнала может быть получен на основе второго канала сигнала понижающего микширования, например, путем обработки не более чем второго канала сигнала понижающего микширования.
II. Обзор: сторона кодера.
Согласно второму аспекту примерные варианты осуществления предлагают системы кодирования звука, а также способы кодирования звука и связанные компьютерные программные продукты. Предлагаемые системы, способы и компьютерные программные продукты кодирования согласно второму аспекту могут в целом обладать одними и теми же признаками и преимуществами. Более того, преимущества, представленные выше для признаков систем, способов и компьютерных программных продуктов декодирования согласно первому аспекту в целом могут иметь силу и для соответствующих признаков систем, способов и компьютерных программных продуктов кодирования согласно второму аспекту.
Согласно примерным вариантам осуществления предусматривается способ кодирования звука, включающий прием M-канального звукового сигнала, где M>4: и вычисление двухканального сигнала понижающего микширования на основе M-канального звукового сигнала. Первый канал сигнала понижающего микширования формируют как линейную комбинацию первой группы из одного или более каналов M-канального звукового сигнала, а второй канал сигнала понижающего микширования формируют как линейную комбинацию второй группы из одного или более каналов M-канального звукового сигнала. Первая и вторая группы составляют разбиение M каналов M-канального звукового сигнала. Способ кодирования дополнительно включает определение параметров повышающего микширования для параметрического восстановления M-канального звукового сигнала из сигнала понижающего микширования: и определение параметров микширования для получения на основе сигнала понижающего микширования двухканального выходного сигнала, при этом первый канал выходного сигнала аппроксимирует линейную комбинацию третьей группы из одного или более каналов M-канального звукового сигнала и при этом второй канал выходного сигнала аппроксимирует линейную комбинацию четвертой группы из одного или более каналов M-канального звукового сигнала. Третья и четвертая группы составляют разбиение M каналов M-канального звукового сигнала, и как третья, так и четвертая группы содержат по меньшей мере один канал из первой группы. Способ кодирования дополнительно включает вывод сигнала понижающего микширования и метаданных для совместного хранения или передачи, при этом метаданные содержат параметры повышающего микширования и параметры микширования.
Каналы сигнала понижающего микширования соответствуют разбиению M каналов M-канального звукового сигнала на первую и вторую группы и могут, например, предоставлять эффективное с точки зрения количества битов двухканальное представление M-канального звукового сигнала и/или двухканальное представление, делающее возможным параметрическое восстановление M-канального звукового сигнала с высокой точностью воспроизведения.
Авторы настоящего изобретения осознали, что, несмотря на то, что используемое двухканальное представление может облегчать восстановление M-канального звукового сигнала из сигнала понижающего микширования, сигнал понижающего микширования сам по себе может не быть пригодным для воспроизведения с использованием конкретной схемы с двумя динамиками. Параметры микширования, выводимые вместе с сигналом понижающего микширования и параметрами повышающего микширования, позволяют получать двухканальный выходной сигнал на основе сигнала понижающего микширования. Выходной сигнал, соответствующий другому разбиению M-канального звукового сигнала на третью и четвертую группы каналов, может являться более пригодным для конкретной двухканальной установки воспроизведения, чем сигнал понижающего микширования. Поэтому предоставление выходного сигнала на основе сигнала понижающего микширования и параметров микширования может повышать воспринимаемое слушателем качество двухканального воспроизведения и/или повышать точность воспроизведения двухканального воспроизведения на звуковое поле, представленное M-канальным звуковым сигналом.
Первый канал сигнала понижающего микширования может, например, быть сформирован как сумма каналов в первой группе или как ее масштабирование. Иными словами, первый канал сигнала понижающего микширования может, например, быть сформирован как сумма каналов (т.е. сумма звукового содержимого из соответствующих каналов, например, сформированная путем аддитивного микширования на основе отдельных выборок или коэффициентов преобразования) в первой группе или как версия такой суммы с измененным масштабом (например, полученная путем суммирования каналов и умножения суммы на коэффициент изменения масштаба). Аналогично второй канал сигнала понижающего микширования может, например, быть сформирован как сумма каналов во второй группе или как ее масштабирование. Первый канал выходного сигнала может, например, аппроксимировать сумму каналов третьей группы или ее масштабирование, а второй канал выходного сигнала может, например, аппроксимировать сумму каналов четвертой группы или ее масштабирование.
- 11 034250
Например, M-канальный звуковой сигнал может представлять собой пятиканальный звуковой сигнал. Способ кодирования звука можно использовать, например, для пяти обычных каналов одного из принятых в настоящее время аудиоформатов 5.1 или для пяти каналов с левой или с правой стороны в многоканальном звуковом сигнале 11.1. Альтернативно можно полагать, что M=4 или M>6.
В одном примерном варианте осуществления параметры микширования могут задавать соответствующие вклады сигнала понижающего микширования и декоррелированного сигнала в выходной сигнал. По меньшей мере, некоторые параметры микширования могут быть определены путем минимизации вклада декоррелированного сигнала среди таких параметров микширования, которые приводят к тому, что каналы выходного сигнала представляют собой сохраняющие ковариацию аппроксимации для линейных комбинаций (или сумм) соответственно первой и второй групп каналов. Вклад декоррелированного сигнала может, например, быть минимизирован в том смысле, что минимизируют энергию или амплитуду сигнала этого вклада.
Линейная комбинация третьей группы, которую должен аппроксимировать первый канал выходного сигнала, и линейная комбинация четвертой группы, которую должен аппроксимировать второй канал выходного сигнала, могут, например, соответствовать двухканальному звуковому сигналу, имеющему первую ковариационную матрицу. Каналы выходного сигнала, представляющие собой сохраняющие ковариацию аппроксимации для линейных комбинаций соответственно первой и второй групп каналов, могут, например, соответствовать тому, что ковариационная матрица выходного сигнала совпадает (или, по меньшей мере, по существу, совпадает) с первой ковариационной матрицей.
Среди сохраняющих ковариацию аппроксимаций уменьшенный размер (например, энергия или амплитуда) вклада декоррелированного сигнала может служить признаком повышенной точности воспроизведения аппроксимации, воспринимаемой слушателем в ходе воспроизведения. Использование параметров микширования, уменьшающих вклад декоррелированного сигнала, может повышать точность воспроизведения выходного сигнала как двухканального представления M-канального звукового сигнала.
В одном примерном варианте осуществления первая группа каналов может состоять из N каналов, где N>3, и, по меньшей мере, некоторые параметры повышающего микширования могут быть применимыми для параметрического восстановления первой группы каналов из первого канала сигнала понижающего микширования и Щ-1)-канального декоррелированного сигнала, определяемого на основе первого канала сигнала понижающего микширования. В настоящем примерном варианте осуществления определение параметров повышающего микширования может включать определение набора коэффициентов повышающего микширования первого типа, именуемых коэффициентами сухого повышающего микширования, с целью определения линейного отображения первого канала сигнала понижающего микширования, аппроксимирующего первую группу каналов; и определение промежуточной матрицы на основе разности между ковариацией принятой первой группы каналов и ковариацией первой группы каналов, аппроксимированной путем линейного отображения первого канала сигнала понижающего микширования. При умножении на предварительно определенную матрицу промежуточная матрица может соответствовать набору коэффициентов повышающего микширования второго типа, именуемых коэффициентами влажного повышающего микширования, определяющих линейное отображение декоррелированного сигнала как часть параметрического восстановления первой группы каналов. Набор коэффициентов влажного повышающего микширования может включать больше коэффициентов, чем количество элементов в промежуточной матрице. В настоящем примерном варианте осуществления параметры повышающего микширования могут включать параметры повышающего микширования первого типа, именуемые параметрами сухого повышающего микширования, из которых могут быть получены коэффициенты сухого повышающего микширования, и параметры повышающего микширования второго типа, именуемые параметрами влажного повышающего микширования, уникальным образом определяющие промежуточную матрицу при условии, что промежуточная матрица принадлежит к предварительно определенному классу матриц. Промежуточная матрица может содержать больше элементов, чем количество параметров влажного повышающего микширования.
В настоящем примерном варианте осуществления копия для параметрического восстановления первой группы каналов на стороне декодера содержит в качестве одного из вкладов сигнал сухого повышающего микширования, сформированный путем линейного отображения первого канала сигнала понижающего микширования, и в качестве дополнительного вклада - сигнал влажного повышающего микширования, сформированный путем линейного отображения декоррелированного сигнала. Набор коэффициентов сухого повышающего микширования определяет линейное отображение первого канала сигнала понижающего микширования, а набор коэффициентов влажного повышающего микширования определяет линейное отображение декоррелированного сигнала. Путем вывода параметров влажного повышающего микширования, количество которых меньше количества коэффициентов влажного повышающего микширования и из которых коэффициенты влажного повышающего микширования могут быть получены на основе предварительно определенной матрицы и предварительно определенного класса матрицы, можно уменьшить объем информации, передаваемой на сторону декодера для предоставления возможности восстановления M-канального звукового сигнала. Путем уменьшения объема данных,
- 12 034250 необходимых для параметрического восстановления, можно сократить полосу пропускания, требующуюся для передачи параметрического представления M-канального звукового сигнала, и/или объем памяти, требующейся для хранения такого представления.
Промежуточная матрица может, например, быть определена так, что ковариация сигнала, полученного путем линейного отображения декоррелированного сигнала, дополняет ковариацию первой группы каналов, аппроксимированных путем линейного отображения первого канала сигнала понижающего микширования.
То, каким образом определять и применять предварительно определенную матрицу и класс предварительно определенной матрицы, более подробно описано на страницах от 16 (строка 15) до 20 (строка 2) предварительной заявки на патент США №61/974544; имя первого автора изобретения Lars Villemoes; дата подачи 3 апреля 2014 г. Примеры предварительно определенной матрицы см. в конкретном уравнении (9) вышеуказанной заявки.
В одном примерном варианте осуществления определение промежуточной матрицы может включать определение промежуточной матрицы таким образом, что ковариация сигнала, полученного путем линейного отображения декоррелированного сигнала, определяемого набором коэффициентов влажного повышающего микширования, аппроксимирует разность или, по существу, совпадает с разностью между ковариацией принятой первой группы каналов и ковариацией первой группы каналов, аппроксимированной путем линейного отображения первого канала сигнала понижающего микширования. Иными словами, промежуточная матрица может быть определена так, что копия восстановления первой группы каналов, полученная как сумма сигнала сухого повышающего микширования, сформированного путем линейного отображения первого канала сигнала понижающего микширования, и сигнала влажного повышающего микширования, сформированного путем линейного отображения декоррелированного сигнала, полностью или, по меньшей мере, приблизительно восстанавливает ковариацию принятой первой группы каналов.
В одном примерном варианте осуществления параметры влажного повышающего микширования могут включать не более N(N-1)/2 независимо присваиваемых параметров влажного повышающего микширования. В настоящем примерном варианте осуществления промежуточная матрица может содержать (N-1)2 матричных элементов и может быть уникальным образом определена параметрами влажного повышающего микширования при условии, что промежуточная матрица принадлежит к предварительно определенному классу матриц. В настоящем примерном варианте осуществления набор коэффициентов влажного повышающего микширования может содержать N(N-1) коэффициентов.
В одном примерном варианте осуществления набор коэффициентов сухого повышающего микширования может содержать N коэффициентов. В настоящем примерном варианте осуществления параметры сухого повышающего микширования могут содержать не более N-1 параметров сухого повышающего микширования и набор коэффициентов сухого повышающего микширования может быть получен из N-1 параметров сухого повышающего микширования с использованием предварительно определенного правила.
В одном примерном варианте осуществления предварительно определенный набор коэффициентов сухого повышающего микширования может определять линейное отображение первого канала сигнала понижающего микширования, соответствующее аппроксимации первой группы каналов с минимальной среднеквадратической ошибкой, т.е. среди набора линейных отображений первого канала сигнала понижающего микширования определенный набор коэффициентов сухого повышающего микширования может определять линейное отображение, наилучшим образом аппроксимирующее первую группу каналов в смысле минимальной среднеквадратической ошибки.
В одном примерном варианте осуществления способ кодирования может дополнительно включать выбор одного из по меньшей мере двух форматов кодирования, при этом форматы кодирования относятся к соответствующим разным разбиениям каналов M-канального звукового сигнала на соответствующие первую и вторую группы, связанные с каналами сигнала понижающего микширования. Первый и второй каналы сигнала понижающего микширования могут быть сформированы как линейные комбинации соответственно первой и второй группы из одного или более каналов M-канального звукового сигнала в соответствии с выбранным форматом кодирования. Параметры повышающего микширования и параметры микширования могут быть определены на основе выбранного формата кодирования. Способ кодирования может дополнительно включать предоставление сигнальной информации, указывающей выбранный формат кодирования. Сигнальная информация может, например, представлять собой вывод для совместного хранения и/или передачи с сигналом понижающего микширования и метаданными.
М-канальный звуковой сигнал, восстанавливаемый на основе сигнала понижающего микширования и параметров повышающего микширования, может представлять собой сумму сигнала сухого повышающего микширования, сформированного путем применения коэффициентов сухого повышающего микширования к сигналу понижающего микширования; и сигнала влажного повышающего микширования, сформированного путем применения коэффициентов влажного повышающего микширования к декоррелированному сигналу, определенному на основе сигнала понижающего микширования. Выбор формата кодирования может быть произведен, например, на основе разности между ковариацией приня- 13 034250 того M-канального звукового сигнала и ковариацией M-канального звукового сигнала, аппроксимированного сигналом сухого повышающего микширования, для соответствующих форматов кодирования. Выбор формата кодирования может, например, быть сделан на основе коэффициентов влажного повышающего микширования для соответствующих форматов кодирования, например на основе соответствующих сумм квадратов коэффициентов влажного повышающего микширования для соответствующих форматов кодирования. Выбранный формат кодирования может, например, быть связан с минимальной из сумм квадратов соответствующих форматов кодирования.
Согласно примерным вариантам осуществления предусматривается система кодирования звука, содержащая блок кодирования, выполненный с возможностью кодирования M-канального звукового сигнала как двухканального сигнала понижающего микширования и связанных с ним метаданных, где M>4, и вывода сигнала понижающего микширования и метаданных для совместного хранения или передачи. Блок кодирования содержит блок понижающего микширования, выполненный с возможностью вычисления сигнала понижающего микширования на основе M-канального звукового сигнала. Первый канал сигнала понижающего микширования формируют как линейную комбинацию первой группы из одного или более каналов M-канального звукового сигнала, а второй канал сигнала понижающего микширования формируют как линейную комбинацию второй группы из одного или более каналов M-канального звукового сигнала. Первая и вторая группы составляют разбиение M каналов M-канального звукового сигнала. Блок кодирования дополнительно содержит блок анализа, выполненный с возможностью определения параметров повышающего микширования для параметрического восстановления M-канального звукового сигнала из сигнала понижающего микширования; и параметров микширования для получения на основе сигнала понижающего микширования двухканального выходного сигнала. Первый канал выходного сигнала аппроксимирует линейную комбинацию третьей группы из одного или более каналов M-канального звукового сигнала, а второй канал выходного сигнала аппроксимирует линейную комбинацию четвертой группы из одного или более каналов M-канального звукового сигнала. Третья и четвертая группы составляют разбиение M каналов M-канального звукового сигнала. Как третья, так и четвертая группы содержат по меньшей мере один канал из первой группы. Метаданные содержат параметры повышающего микширования и параметры микширования.
Согласно примерным вариантам осуществления предусматривается компьютерный программный продукт, содержащий машиночитаемый носитель с командами для выполнения любого из способов согласно второму аспекту.
Согласно вышеописанным примерным вариантам осуществления системы, способа и компьютерного программного продукта кодирования звука согласно второму аспекту выходной сигнал может представлять собой K-канальный сигнал, где 2<K<M вместо двухканального сигнала и K каналов выходного сигнала могут соответствовать разбиению M-канального звукового сигнала на K групп вместо двух каналов выходного сигнала, соответствующих разбиению M-канального сигнала на две группы.
Более конкретно согласно примерным вариантам осуществления предусматривается способ кодирования звука, включающий прием M-канального звукового сигнала, где M>4; и вычисление двухканального сигнала понижающего микширования на основе M-канального звукового сигнала. Первый канал сигнала понижающего микширования формируют как линейную комбинацию первой группы из одного или более каналов M-канального звукового сигнала, а второй канал сигнала понижающего микширования формируют как линейную комбинацию второй группы из одного или более каналов Mканального звукового сигнала. Первая и вторая группы составляют разбиение M каналов M-канального звукового сигнала. Способ кодирования может дополнительно включать определение параметров повышающего микширования для параметрического восстановления M-канального звукового сигнала из сигнала понижающего микширования; и определение параметров микширования для получения на основе сигнала понижающего микширования K-канального выходного сигнала, при этом 2<K<M, при этом каждый из K каналов выходного сигнала аппроксимирует линейную комбинацию группы из одного или более каналов M-канального звукового сигнала. Группы, относящиеся к соответствующим каналам выходного сигнала, могут составлять разбиение M каналов M-канального звукового сигнала на K групп из одного или более каналов, и по меньшей мере две из K групп могут содержать по меньшей мере один канал из первой группы. Способ кодирования может дополнительно включать вывод сигнала понижающего микширования и метаданных для совместного хранения или передачи, при этом метаданные содержат параметры повышающего микширования и параметры микширования.
В одном примерном варианте осуществления параметры микширования могут задавать соответствующие вклады сигнала понижающего микширования и декоррелированного сигнала в выходной сигнал. По меньшей мере, некоторые параметры микширования могут быть определены путем минимизации вклада декоррелированного сигнала среди таких параметров микширования, которые приводят к тому, что каналы выходного сигнала представляют собой сохраняющие ковариацию аппроксимации для линейных комбинаций (или сумм) одного или более каналов из соответствующих K групп каналов. Вклад декоррелированного сигнала может, например, быть минимизирован в том смысле, что минимизируют энергию или амплитуду сигнала этого вклада.
- 14 034250
Линейные комбинации каналов из K групп, которые должны аппроксимировать K каналов выходного сигнала, могут, например, соответствовать K-канальному звуковому сигналу, имеющему первую ковариационную матрицу. Каналы выходного сигнала, представляющие собой сохраняющие ковариацию аппроксимации для линейных комбинаций каналов из K групп каналов, соответственно могут, например, соответствовать тому, что ковариационная матрица выходного сигнала совпадает (или, по меньшей мере, по существу, совпадает) с первой ковариационной матрицей.
Среди сохраняющих ковариацию аппроксимаций уменьшенный размер (например, энергия или амплитуда) вклада декоррелированного сигнала может служить признаком повышенной точности воспроизведения аппроксимации, воспринимаемой слушателем в ходе воспроизведения. Использование параметров микширования, уменьшающих вклад декоррелированного сигнала, может повышать точность воспроизведения выходного сигнала как K-канального представления M-канального звукового сигнала.
III. Обзор: машиночитаемый носитель.
Согласно третьему аспекту примерные варианты осуществления предлагают машиночитаемые носители. Преимущества, представленные выше для признаков систем, способов и компьютерных программных продуктов согласно первому и/или второму аспектам, могут в целом иметь силу и для соответствующих признаков машиночитаемых носителей согласно третьему аспекту.
Согласно примерным вариантам осуществления предусматривается носитель данных, представляющий двухканальный сигнал понижающего микширования и параметры повышающего микширования, предоставляющие возможность параметрического восстановления M-канального звукового сигнала на основе сигнала понижающего микширования, где M>4. Первый канал сигнала понижающего микширования соответствует линейной комбинации первой группы из одного или более каналов M-канального звукового сигнала, а второй канал сигнала понижающего микширования соответствует линейной комбинации второй группы из одного или более каналов M-канального звукового сигнала. Первая и вторая группы составляют разбиение M каналов M-канального звукового сигнала. Носитель данных дополнительно представляет параметры микширования, предоставляющие возможность предоставлять двухканальный выходной сигнал на основе сигнала понижающего микширования. Первый канал выходного сигнала аппроксимирует линейную комбинацию третьей группы из одного или более каналов Mканального звукового сигнала, а второй канал выходного сигнала аппроксимирует линейную комбинацию четвертой группы из одного или более каналов M-канального звукового сигнала. Третья и четвертая группы составляют разбиение M каналов M-канального звукового сигнала. Как третья, так и четвертая группы содержат по меньшей мере один канал из первой группы.
В одном примерном варианте осуществления данные, представляемые носителем данных, могут быть упорядочены во временных кадрах и могут быть разделены на уровни таким образом, что для данного временного кадра сигнал понижающего микширования и связанные параметры микширования для этого временного кадра могут быть извлечены независимо от связанных параметров повышающего микширования. Например, носитель данных может быть разделен на уровни таким образом, что сигнал понижающего микширования и связанные параметры микширования для этого временного кадра могут быть извлечены без извлечения и/или осуществления доступа к связанным параметрам повышающего микширования. Согласно примерным вариантам осуществления машиночитаемого носителя (или носителя данных) согласно третьей особенности, описанным выше, выходной сигнал может представлять собой K-канальный сигнал, где 2<K<M, вместо двухканального сигнала, и K каналов выходного сигнала могут соответствовать разбиению M-канального звукового сигнала на K групп вместо двух каналов выходного сигнала, соответствующих разбиению M-канального сигнала на две группы.
Более конкретно согласно примерным вариантам осуществления предусматривается машиночитаемый носитель (или носитель данных), представляющий двухканальный сигнал понижающего микширования и параметры повышающего микширования, предоставляющие возможность параметрического восстановления M-канального звукового сигнала на основе сигнала понижающего микширования, где M>4. Первый канал сигнала понижающего микширования соответствует линейной комбинации первой группы из одного или более каналов M-канального звукового сигнала, а второй канал сигнала понижающего микширования соответствует линейной комбинации второй группы из одного или более каналов M-канального звукового сигнала. Первая и вторая группы составляют разбиение M каналов Mканального звукового сигнала. Носитель данных может дополнительно представлять параметры микширования, предоставляющие возможность предоставлять K-канальный выходной сигнал на основе сигнала понижающего микширования, где 2<K<M. Каждый канал выходного сигнала может аппроксимировать линейную комбинацию (например, взвешенную или невзвешенную сумму) группы из одного или более каналов M-канального звукового сигнала. Группы, относящиеся к соответствующим каналам выходного сигнала, могут составлять разбиение M каналов M-канального звукового сигнала на K групп из одного или более каналов. По меньшей мере две из K групп могут содержать по меньшей мере один канал из первой группы.
Дополнительные примерные варианты осуществления определены в зависимых пунктах формулы изобретения. Следует отметить, что примерные варианты осуществления включают все комбинации при
- 15 034250 знаков, даже если они перечислены во взаимно разных пунктах формулы изобретения.
IV. Примерные варианты осуществления.
На фиг. 4-6 проиллюстрированы альтернативные способы разбиения 11.1-канального звукового сигнала на группы каналов для параметрического кодирования 11.1-канального звукового сигнала как
5.1-канального звукового сигнала или для воспроизведения 11.1-канального звукового сигнала в системе динамиков, содержащей пять громкоговорителей и один сабвуфер.
11.1-канальный звуковой сигнал содержит каналы L (левый), LS (левый боковой), LB (левый задний), TFL (верхний передний левый), TBL (верхний задний левый), R (правый), RS (правый боковой), RB (правый задний), TFR (верхний передний правый), TBR (верхний задний правый), С (центральный) и LFE (низкочастотных эффектов). Пять каналов L, LS, LB, TFL и TBL образуют пятиканальный звуковой сигнал, представляющий левое полупространство в среде воспроизведения 11.1-канального звукового сигнала. Три канала L, LS и LB представляют разные горизонтальные направления в среде воспроизведения, а два канала TFL и TBL представляют направления, отделенные по вертикали от направлений трех каналов L, LS и LB. Два канала TFL и TBL могут, например, быть предназначены для воспроизведения в потолочных динамиках. Аналогично пять каналов R, RS, RB, TFR и TBR образуют дополнительный пятиканальный звуковой сигнал, представляющий правое полупространство среды воспроизведения, при этом три канала R, RS и RB представляют разные горизонтальные направления в среде воспроизведения и два канала TFR и TBR представляют направления, отделенные по вертикали от направлений трех каналов R, RS и RB.
Для того чтобы представить 11.1-канальный звуковой сигнал как 5.1-канальный звуковой сигнал, совокупность каналов L, LS, LB, TFL, TBL, R, RS, RB, TFR, TBR, С и LFE можно разбить на группы каналов, представляемые соответствующими каналами понижающего микширования и связанными метаданными. Пятиканальный звуковой сигнал L, LS, LB, TFL, TBL можно представить посредством двухканального сигнала понижающего микширования L1, L2 и связанных метаданных, тогда как дополнительный пятиканальный звуковой сигнал R, RS, RB, TFR, TBR можно представить посредством дополнительного двухканального сигнала R1, R2 понижающего микширования и связанных дополнительных метаданных. Каналы С и LFE могут быть сохранены как отдельные каналы также и в 5.1 -канальном представлении 11.1-канального звукового сигнала.
На фиг. 4 представлен первый формат F1 кодирования, в котором пятиканальный звуковой сигнал L, LS, LB, TFL, TBL разбит на первую группу 401 каналов L, LS, LB и вторую группу 402 каналов TFL, TBL и в котором дополнительный пятиканальный звуковой сигнал R, RS, RB, TFR, TBR разбит на дополнительную первую группу 403 каналов R, RS, RB и дополнительную вторую группу 404 каналов TFR, TBR. В первом формате F1 кодирования первая группа каналов 401 представлена первым каналом L1 двухканального сигнала понижающего микширования, а вторая группа 402 каналов представлена вторым каналом L2 двухканального сигнала понижающего микширования. Первый канал L1 сигнала понижающего микширования может соответствовать сумме первой группы 401 каналов согласно
Ц = L + LS + LB, а второй канал L2 сигнала понижающего микширования может соответствовать сумме второй группы 402 каналов согласно
L2 = TFL + TBL.
В некоторых примерных вариантах осуществления некоторые или все каналы перед суммированием могут быть подвергнуты изменению масштаба таким образом, что первый канал L1 сигнала понижающего микширования может соответствовать линейной комбинации первой группы 401 каналов согласно L1=c1L+c2LS+c3LB, а второй канал L2 сигнала понижающего микширования может соответствовать линейной комбинации второй группы 402 каналов согласно L2=c4TFL+c5TBL. Коэффициенты с2, с3, с4, с5, усиления, например, могут совпадать, тогда как коэффициент c1 усиления, например, может иметь отличающееся значение; например, c1 может соответствовать полному отсутствию изменения масштаба. Например, могут быть использованы значения c1=1 и c2=c3=c4=c5=1/^2. Однако до тех пор, пока коэффициенты c1,..., c5 усиления, применяемые к соответствующим каналам L, LS, LB, TFL, TBL для первого формата F1 кодирования, совпадают с коэффициентами усиления, применяемыми к этим каналам в других форматах F2 и F3 кодирования, описанных ниже со ссылкой на фиг. 5 и 6, эти коэффициенты усиления не оказывают влияния на описываемые ниже вычисления. Следовательно, уравнения и аппроксимация, выводимые ниже для каналов L, LS, LB, TFL, TBL также применимы и для версий c1L, c2LS, c3LB, c4TFL, c5TBL этих каналов с измененным масштабом. Если, с другой стороны, в разных форматах кодирования применяют разные коэффициенты усиления, то, по меньшей мере, некоторые из выполняемых ниже вычислений могут потребовать модификации; например, в интересах предоставления более достоверных аппроксимаций может быть рассмотрена возможность включения дополнительных декорреляторов.
Аналогично дополнительная первая группа 403 каналов представлена посредством первого канала R1 дополнительного сигнала понижающего микширования, а дополнительная вторая группа 404 каналов представлена посредством второго канала R2 дополнительного сигнала понижающего микширования.
Первый формат F1 кодирования предусматривает специально предназначенные каналы L2 и R2 понижающего микширования для представления потолочных каналов TFL, TBL, TFR и TBR. Поэтому ис- 16 034250 пользование первого формата F 1 кодирования может предоставить возможность параметрического восстановления 11.1 -канального звукового сигнала с относительно высокой точностью воспроизведения, в случаях когда, например, для общего впечатления от этого 11.1-канального звукового сигнала важно вертикальное измерение в среде воспроизведения.
На фиг. 5 представлен второй формат F2 кодирования, в котором пятиканальный звуковой сигнал L, LS, LB, TFL, TBL разбит на третью 501 и четвертую 502 группы каналов, представляемых соответствующими каналами L1 и L2, где каналы L1 и L2 относятся к суммам соответствующих групп каналов, например с использованием для изменения масштаба тех же коэффициентов c5 усиления, что и в первом формате F1 кодирования. Аналогично дополнительный пятиканальный звуковой сигнал R, RS, RB, TFR, TBR разбивают на дополнительные третью 503 и четвертую 504 группы каналов, представляемые соответствующими каналами R1 и R2.
Второй формат F2 кодирования не предусматривает специально предназначенные каналы понижающего микширования для представления потолочных каналов TFL, TBL, TFR и TBR, но может предоставлять возможность параметрического восстановления 11.1-канального звукового сигнала с относительно высокой точностью воспроизведения, например в тех случаях, когда вертикальное измерение в среде воспроизведения не так важно для общего впечатления от 11.1-канального звукового сигнала. Второй формат F2 кодирования может также быть более пригодным для 5.1-канального воспроизведения, чем первый формат F1 кодирования.
На фиг. 6 представлен третий формат F3 кодирования, в котором пятиканальный звуковой сигнал L, LS, LB, TFL, TBL разбит на пятую 601 и шестую 602 группы каналов, представляемые соответствующими каналами L1 и L2 сигнала понижающего микширования, где каналы L1 и L2 относятся к суммам соответствующих групп каналов, например с использованием для изменения масштаба тех же коэффициентов c1,..., c5 усиления, что и в первом формате F1 кодирования. Аналогично дополнительный пятиканальный сигнал R, RS, RB, TFR, TBR разбит на дополнительные пятую 603 и шестую 604 группы каналов, представляемые соответствующими каналами R1 и R2.
В третьем формате F3 кодирования четыре канала LS, LB, TFL и TBL представлены вторым каналом L2. Несмотря на то, что параметрическое восстановление 11.1-канального звукового сигнала с высокой точностью воспроизведения в третьем формате F3 кодирования потенциально может являться более сложным, чем в других форматах кодирования, третий формат F3 кодирования можно использовать, например, для 5.1-канального воспроизведения.
Авторы настоящего изобретения осознали, что метаданные, связанные с 5.1-канальным представлением 11.1-канального звукового сигнала согласно одному из форматов F1, F2, F3 кодирования, можно использовать для генерирования 5.1-канального представления согласно другим форматам F1, F2, F3 кодирования без первоначального восстановления оригинального 11.1-канального сигнала. Пятиканальный сигнал L, LS, LB, TFL, TBL, представляющий левую полуплоскость 11.1-канального звукового сигнала, и дополнительный пятиканальный сигнал R, RS, RB, TFR, TBR, представляющий правую полуплоскость, могут быть обработаны аналогично.
Предположим, что три канала x1, х2, х3 были сложены с образованием канала m1 понижающего микширования согласно m1=x12+x3 и что восстановлению подлежат x1 и х^у Все три канала x1, х2, x3 можно восстановить из канала m понижающего микширования как
АОчУ £>2 (mJ χΊ· х2 Лз.
ΓΡιι Р121 r с2 ПЦ + Р21 Р22
Сз1 Lpsi Р32 L
ΓΡιι
Р121
Р31
Р32 путем использования параметров ci5 1 <i<3 и py, 1<i<3, 1<j<2 повышающего микширования, определенных на стороне кодера, и независимых декорреляторов D1 и D2. Предполагая, что используемые параметры повышающего микширования удовлетворяют щ+сЦщЛ и p1k+p2k+p3k=0 для k= 1, 2, то сигналы x1 и х23 можно восстановить как
что можно выразить как
ШНЛЕЛДЬ”·.) (1) где два декоррелятора D1 и D2 были заменены единственным декоррелятором D1, и где p1 2=p112+p122. Если два канала х4 и х5 были сложены с образованием второго канала m2 понижающего микширования согласно то сигналы x и х2345 можно восстановить как
Как описано ниже, уравнение (2) можно использовать для генерирования сигналов, согласующихся с третьим форматом F3 кодирования, на основе сигналов, согласующихся с первым форматом F1 кодирования.
- 17 034250
Каналы χ и х5 можно восстановить как
с использованием декоррелятора D3 и параметров повышающего микширования, удовлетворяющих d1+d2=1 и qi+q2=0. Сигналы x+χ и х235 и можно восстановить на основе уравнений (1) и (3) как
и как
Х1 + Х4 Ί Г Cj 2 + Х351 ~ [1 -С1
- di.
И+[Л]Di(ami+ftm2) (4) где вклады двух декорреляторов D1 и D3 (т.е. декорреляторов, относящихся к типу с сохранением энергии их входного сигнала) были аппроксимированы вкладом единственного декоррелятора D1 (т.е. декоррелятора, относящегося к типу с сохранением энергии его входного сигнала). Эта аппроксимация может быть связана с очень малой воспринимаемой потерей точности воспроизведения, особенно если каналы m1, m2 понижающего микширования являются некоррелированными и если значения a=p1 и b=q1 используются для весовых коэффициентов a и b. Формат кодирования, согласно которому каналы m1, m2 понижающего микширования генерируют на стороне кодера, мог быть выбран, например, в попытке сохранить низкую корреляцию между каналами m1, m2 понижающего микширования. Как описано ниже, уравнение (4) можно использовать для генерирования сигналов, согласующихся со вторым форматом F2 кодирования, на основе сигналов, согласующихся с первым форматом F1 кодирования.
Структуру уравнения (4) можно необязательно привести к виду С1 ^11 Г771! .1 - Ci 1 - di lm2 где коэффициент g=(a2+b2)1/2 усиления используется для настройки мощности входного сигнала в декоррелятор D1. Также можно использовать и другие значения коэффициента усиления, такие как g=(a2+b2)1/v для 0<ν<1.
Если для предоставления параметрического представления 11.1 -канального сигнала используется первый формат F1 кодирования, а для представления звукового содержимого на стороне декодера желателен второй формат F2 кодирования, то применение аппроксимации согласно уравнению (4) как к левой, так и к правой сторонам с указанием тильдами аппроксимированной сущности некоторых левосторонних величин (четырех каналов выходного сигнала) дает rLil
С 0 0 di,L 0 1 0
Ri 0 С1,Я 0 0 0 1
с = 0 0 1 0 0 0 0
1 — C1,L 0 0 1 dlrL 0 -1 0
Ь?2] . 0 1 — C1,R 0 0 1 — dR 0 -1.
где согласно второму формату F2 кодирования и
L± ~ L+TFL
L2 -LS+LB+TBL,
R^R+TFR и R2 -RS+RB+TBR, где SL=D(aLL1+bLL2) и SR=D(aRR1+bRR2) где C1,L, d1,L, aL, bL и C1,R, d1,R, aR, bR соответственно версии для левых каналов и правых каналов параметров c1, d1, а, b из уравнения (4) и где D обозначает оператор декорреляции. Таким образом, аппроксимацию второго формата F2 кодирования можно получить из первого формата F1 кодирования на основе параметров повышающего микширования для параметрического восстановления 11.1-канального звукового сигнала без необходимости в фактическом восстановлении
11.1-канального звукового сигнала.
Если для предоставления параметрического представления 11.1-канального сигнала используется первый формат F1 кодирования, а для представления звукового содержимого на стороне декодера желателен третий формат F3 кодирования, то применение аппроксимации согласно уравнению (2) как к левой, так и к правой сторонам с указанием аппроксимированной сущности некоторых левосторонних величин дает
- 18 034250
L,
й C1,L 0 0 0 0 P1.L 0
0 C1,R 0 0 0 0 P1,R c
С 0 0 1 0 0 0 0 L2
1-41 0 0 1 0 ~P1,L 0 *2
by . 0 1 — C1,R 0 0 1 0 ~P1,R- D(L.) LD(^)J
(6) где согласно третьему формату F3 кодирования ζ ~L и ζ ~ LS+LB+TFL+TBL,
R[ ~R и ίζ ~ RS+RB+TFR+TBR, где Сцъ, Pil и c^R, p1R соответственно версии для левых каналов и правых каналов параметров c1 и Pi из уравнения (2) и где D обозначает оператор декорреляции. Таким образом, аппроксимацию третьего формата F3 кодирования можно получить из первого формата F1 кодирования на основе параметров повышающего микширования для параметрического восстановления 11.1-канального звукового сигнала без необходимости в фактическом восстановлении 11.1-канального звукового сигнала.
Если для предоставления параметрического представления 11.1-канального звукового сигнала используется второй формат F2 кодирования, а для представления звукового содержимого на стороне декодера желателен первый формат F1 кодирования или третий формат F3 кодирования, то отношения, подобные представленным в уравнениях (5) и (6), можно вывести с использованием тех же соображений.
Если для предоставления параметрического представления 11.1-канального звукового сигнала используется третий формат F3 кодирования, а для представления звукового содержимого на стороне декодера желателен первый формат F1 кодирования или второй формат F2 кодирования, то можно использовать, по меньшей мере, некоторые из вышеописанных соображений. Однако, поскольку шестая группа 602 каналов, представляемая каналом L2> содержит четыре канала LS, LB, TFL, TBL, например для левой стороны (и аналогично для правой стороны), можно использовать более одного декоррелированного канала, а другой канал ^ι, представляющий только канал L, может, например, не быть включен в качестве ввода в любой из декорреляторов.
Как описано выше, параметры повышающего микширования для параметрического восстановления
11.1-канального звукового сигнала из 5.1-канального параметрического представления (согласующегося с одним из форматов F1, F2, F3 кодирования) можно использовать для получения альтернативного 5.1канального представления 11.1-канального звукового сигнала (согласующегося с каким-либо другим из форматов F1, F2, F3 кодирования). В других примерных вариантах осуществления альтернативное 5.1канальное представление может быть получено на основе параметров микширования, специально определенных для этой цели на стороне кодера. Теперь будет описан один из способов определения таких параметров микширования.
При условии, что два звуковых сигнала y1=u1+u2 и y2=u3+u4 формируют из четырех звуковых сигналов u1, u2, u3, u4, можно получить аппроксимацию двух звуковых сигналов z1=u1+u3 и z2=u2+u4. Разность z1-z2 можно оценить из y1 и y2 как оценку наименьших квадратов согласно ζι-ζ2 = αρι + β>’2 X где сигнал r рассогласования ортогонален как у1, так и у2. Используя то, что z1+z2=y1+y2, можно вывести, что
Для того чтобы прийти к аппроксимации, восстанавливающей верную ковариационную структуру сигналов z1 и z2, сигнал r рассогласования можно заменить декоррелированным сигналом той же мощности, например в форме yD(y1+y2), где D обозначает декорреляцию и где параметр γ подобран для сохранения мощности сигнала. С использованием другой параметризации уравнения (7) аппроксимацию мож но выразить как
ЕMl - сЬ + L 1 rfh + [Д] + Уд (8)
Если для предоставления параметрического представления 11.1-канального сигнала используется первый формат F1 кодирования, а для представления звукового содержимого на стороне декодера желателен второй формат F2 кодирования, то применение аппроксимации согласно уравнению (8), где z1=L+TFL, z2=LS+LB+TBL, y1=L+LS+LB и y2=TFL+TBL с левой стороны и z1=R+TFR, z2=RS+RB+TBR, y1=R+RS+RB и y2=TFR+TBR с правой стороны с указанием тильдами аппроксимированной сущности некоторых левосторонних величин дает
- 19 034250 (9)
Nil
И cL 0 0 dL 0 Yl 0 /?i
R1 0 CR 0 0 dR 0 Yr C
с 0 0 1 0 0 0 0 G
1 Cl 0 0 1 di 0 ~Yl 0
. 0 1 — 0 0 1-^ 0 ~Yr- rL LrRJ
где, согласно первому формату F кодирования, и
A -L+TFL
LS+LB+TBL, /?>/?+ TFR и R2 -RS+RB+TBR, где rL=D(Li+L2) и rR=D(Ri+R2), где cL, dL, γι. и cR, dR, yR соответственно версии для левых каналов и для правых каналов параметров с, d, γ из уравнения (8) и где D обозначает декорреляцию. Таким образом, аппроксимацию второго формата F2 кодирования можно получить из первого формата F1 кодирования на основе параметров cL, dL, yl, cR, dR и ';'R микширования, например определенных с этой целью на стороне кодера и переданных на сторону декодера вместе с сигналами понижающего микширования. Использование параметров микширования позволяет улучшить управление со стороны кодера. Поскольку оригинальный 11.1 -канальный звуковой сигнал доступен на стороне кодера, параметры микширования могут, например, быть настроены на стороне кодера так, чтобы повышать точность воспроизведения аппроксимации второго формата F2 кодирования.
Аналогично аппроксимацию третьего формата F3 кодирования можно получить из первого формата F1 кодирования на основе подобных параметров микширования. Подобные аппроксимации первого формата F1 кодирования и третьего формата F3 кодирования также можно получить из второго формата F2 кодирования.
Как можно видеть в уравнении (9), два канала выходного сигнала G? G принимают от декоррелированного сигнала rL вклады равной величины, но противоположных знаков. Соответствующая ситуация справедлива и для вкладов декоррелированных сигналов SL и D(L1) соответственно в уравнениях (5) и (6).
Как можно видеть в уравнении (9), сумма коэффициента cL микширования, задающего вклад первого канала L1 сигнала понижающего микширования в первый канал G выходного сигнала, и коэффициента l-cL микширования, задающего вклад первого канала L1 сигнала понижающего микширования во второй канал G выходного сигнала, имеет значение 1. Соответствующие отношения также справедливы и в уравнениях (5) и (6).
Фиг. 1 представляет собой обобщенную функциональную схему блока 100 кодирования для кодирования M-канального сигнала как двухканального сигнала понижающего микширования и связанных метаданных согласно одному примерному варианту осуществления.
М-канальный звуковой сигнал показан здесь на примере пятиканального сигнала L, LS, LB, TFL и TBL, описанного со ссылкой на фиг. 4, а сигнал понижающего микширования показан на примере первого канала L1 и второго канала L2, вычисленных согласно первому формату F1 кодирования, описанному со ссылкой на фиг. 4. Могут быть предусмотрены примерные варианты осуществления, в которых блок 100 кодирования вычисляет сигнал понижающего микширования согласно любому из форматов кодирования, описанных со ссылкой на фиг. 4-6. Также могут быть предусмотрены примерные варианты осуществления, в которых блок 100 кодирования вычисляет сигнал понижающего микширования на основе M-канального звукового сигнала, где M>4. В частности, будет понятно, что вычисления и аппроксимации, подобные описанным выше и приводящие к уравнениям (5), (6) и (9), могут быть выполнены для примерных вариантов осуществления, где M=4 или М>6.
Блок 100 кодирования содержит блок 110 понижающего микширования и блок 120 анализа. Блок 110 понижающего микширования вычисляет сигнал понижающего микширования на основе пятиканального звукового сигнала путем формирования первого канала L1 сигнала понижающего микширования как линейной комбинации (например, как суммы) первой группы 401 каналов пятиканального звукового сигнала и путем формирования второго канала L2 сигнала понижающего микширования как линейной комбинации (например, как суммы) второй группы 402 каналов пятиканального звукового сигнала. Первая и вторая группы 401, 402 составляют разбиение пяти каналов L, LS, LB, TFL, TBL пятиканального звукового сигнала. Блок 120 анализа определяет параметры aLU повышающего микширования для параметрического восстановления пятиканального звукового сигнала из сигнала понижающего микширования в параметрическом декодере. Блок 120 анализа также определяет параметры aLM микширования для получения на основе сигнала понижающего микширования двухканального выходного сигнала.
В настоящем примерном варианте осуществления выходной сигнал представляет собой двухканальное представление пятиканального звукового сигнала согласно второму формату F2 кодирования,
- 20 034250 описанному со ссылкой на фиг. 5. Однако также могут быть предусмотрены примерные варианты осуществления, в которых выходной сигнал представляет пятиканальный звуковой сигнал согласно любому из форматов кодирования, описанных со ссылкой на фиг. 4-6.
Первый канал Ч выходного сигнала аппроксимирует линейную комбинацию (например, сумму) третьей группы 501 каналов пятиканального звукового сигнала, а второй канал ^2 выходного сигнала аппроксимирует линейную комбинацию (например, сумму) четвертой группы 502 каналов пятиканального звукового сигнала. Третья и четвертая группы 501, 502 составляют другое разбиение пяти каналов L, LS, LB, TFL, TBL пятиканального звукового сигнала, чем предоставляемое первой и второй группами 401, 402 каналов. В частности, третья группа 501 содержит канал L из первой группы 401, тогда как четвертая группа 502 содержит каналы LS и LB из первой группы 401.
Блок 100 кодирования выводит сигнал L1, L2 понижающего микширования и связанные метаданные для совместного хранения и/или передачи на сторону декодера. Метаданные содержат параметры aLU повышающего микширования и параметры aLM микширования. Параметры aLM микширования могут нести достаточную информацию для применения уравнения (9) с целью получения выходного сигнала ^1» J-2 на основе сигнала L1, L2 понижающего микширования. Параметры aLM микширования могут содержать, например, параметры cL, dL, yL или даже все элементы крайней левой матрицы в уравнении (9).
Фиг. 2 представляет собой обобщенную функциональную схему системы 200 кодирования звука, содержащей блок 100 кодирования, описанный со ссылкой на фиг. 1, согласно одному примерному варианту осуществления. В настоящем примерном варианте осуществления звуковое содержимое, например записанное одним или более акустическими преобразователями 201 или сгенерированное оборудованием 201 авторской разработки звука, предоставлено в форме 11.1-канального звукового сигнала, описанного со ссылкой к фиг. 4-6. Блок 202 анализа с квадратурным зеркальным фильтром (QMF) преобразовывает пятиканальный звуковой сигнал L, LS, LB, TFL, TBL, один временной сегмент за другим, в область QMF для обработки блоком 100 кодирования пятиканального звукового сигнала в форме частотно-временных мозаик. Система 200 кодирования звука содержит дополнительный блок 203 кодирования, аналогичный блоку 100 кодирования и приспособленный для кодирования дополнительного пятиканального звукового сигнала R, RS, RB, TFR и TBR как дополнительного двухканального сигнала понижающего микширования R1, R2 и связанных метаданных, содержащих дополнительные параметры aRU повышающего микширования и дополнительные параметры aRM микширования. Дополнительные параметры aRM микширования могут содержать, например, параметры cR, dR и yR из уравнения (9). Блок 202 анализа QMF также преобразовывает дополнительный пятиканальный звуковой сигнал R, RS, RB, TFR и TBR в область QMF для обработки посредством дополнительного блока 203 кодирования. Сигнал L1L2 понижающего микширования, выводимый блоком 100 кодирования, преобразовывают обратно из области QMF посредством блока 204 синтеза QMF и преобразовывают в область модифицированного дискретного косинусного преобразования (MDCT) посредством блока 205 преобразования. Блоки 206 и 207 квантования подвергают квантованию соответственно параметры aLU повышающего микширования и параметры aLM микширования. Например, может быть использовано равномерное квантование с величиной шага 0,1 или 0,2 (безразмерной) с последующим энтропийным кодированием в форме кодирования методом Хаффмана. Более грубое квантование с величиной шага 0,2 может быть использовано, например, для экономии полосы пропускания передачи, а более тонкое квантование с величиной шага 0,1 может быть использовано, например, для повышения точности воспроизведения восстановления на стороне декодера. Аналогично дополнительный сигнал R1, R2 понижающего микширования, выводимый дополнительным блоком 203 кодирования, преобразовывают обратно из области QMF блоком 208 синтеза QMF и преобразовывают в область MDCT блоком 209 преобразования. Блоки 210 и 211 квантования подвергают квантованию соответственно дополнительные параметры aRU повышающего микширования и дополнительные параметры aRM микширования. Каналы С и LFE также преобразовывают в область MDCT соответствующими блоками 214 и 215 преобразования. Преобразованные в MDCT сигналы понижающего микширования и каналы, а также квантованные метаданные затем объединяют мультиплексором 216 в битовый поток В для передачи на сторону декодера. Система 200 кодирования звука может также содержать основной кодер (не показан на фиг. 2), выполненный с возможностью кодирования сигнала L1, L2 понижающего микширования, дополнительного сигнала R1, R2 понижающего микширования и каналов С и LFE с использованием перцептивного аудиокодека, такого как Dolby Digital или MPEG AAC, перед предоставлением сигналов понижающего микширования и каналов С и LFE на мультиплексор 216. K сигналу L1, L2 понижающего микширования, дополнительному сигналу R1R2 понижающего микширования и каналу С перед формированием битового потока В может быть применен отсекающий коэффициент усиления, соответствующий, например, -8,7 дБ.
Фиг. 3 представляет собой блок-схему способа 300 кодирования звука, выполняемого системой 200 кодирования звука, согласно одному примерному варианту осуществления. Способ 300 кодирования звука включает прием 310 пятиканального звукового сигнала L, LS, LB, TFL, TBL; вычисление 320 двухканального сигнала L1, L2 понижающего микширования на основе пятиканального звукового сигнала;
- 21 034250 определение 330 параметров aLU повышающего микширования; определение 340 параметров aLM микширования; и вывод 350 сигнала понижающего микширования и метаданных для совместного хранения и/или передачи, при этом метаданные содержат параметры aLU повышающего микширования и параметры aLM микширования.
Фиг. 7 представляет собой обобщенную функциональную схему блока 700 декодирования для предоставления двухканального выходного сигнала G на основе двухканального сигнала Lj, L2 понижающего микширования и связанных метаданных согласно примерному варианту осуществления.
В настоящем примерном варианте осуществления сигнал L1, L2 понижающего микширования представляет собой сигнал L1, L2 понижающего микширования, выводимый блоком 100 кодирования, описанным со ссылкой на фиг. 1, и связан как с параметрами aLU повышающего микширования, так и с параметрами aLM микширования, выводимыми блоком 100 кодирования. Как описано со ссылкой на фиг. 1 и 4, параметры aLU повышающего микширования приспособлены для параметрического восстановления пятиканального звукового сигнала L, LS, LB, TFL, TBL на основе сигнала L1, L2 понижающего микширования. Однако также могут быть предусмотрены варианты осуществления, в которых параметры aLU повышающего микширования приспособлены для параметрического восстановления M-канального звукового сигнала, где M=4 или M>6.
В настоящем примерном варианте осуществления первый канал L1 сигнала понижающего микширования соответствует линейной комбинации (например, сумме) первой группы 401 каналов пятиканального звукового сигнала, а второй канал L2 сигнала понижающего микширования соответствует линейной комбинации (например, сумме) второй группы 402 каналов пятиканального звукового сигнала. Первая и вторая группы 401, 402 составляют разбиение пяти каналов L, LS, LB, TFL, TBL пятиканального звукового сигнала.
В настоящем примерном варианте осуществления блок 700 декодирования принимает двухканальный сигнал L1, L2 понижающего микширования ^параметры aLU повышающего микширования и предоставляет двухканальный выходной сигнал U на основе сигнала L1, L2 понижающего микширования и параметров aLU повышающего микширования. Блок 700 декодирования содержит блок 710 декорреляции и блок 720 микширования. Блок 710 декорреляции принимает сигнал L1, L2 понижающего микширования и выводит на его основе и в соответствии с параметрами повышающего микширования (ср. уравнения (4) и (5)) одноканальный декоррелированный сигнал D. Блок 720 микширования определяет набор коэффициентов микширования на основе параметров aLU повышающего микширования и формирует выходной сигнал V как линейную комбинацию сигнала L1, L2 понижающего микширования и декоррелированного сигнала D согласно коэффициентам микширования. Иными словами, блок 720 микширования выполняет проецирование из трех каналов в два канала.
В настоящем примерном варианте осуществления блок 700 декодирования выполнен с возможностью предоставления выходного сигнала G согласно второму формату F2 кодирования, описанному со ссылкой на фиг. 5, и, таким образом, формирует выходной сигнал G согласно уравнению (5). Иными словами, коэффициенты микширования соответствуют элементам в крайней левой матрице уравнения (5) и могут быть определены блоком микширования на основе параметров aLU повышающего микширования.
Таким образом, блок 720 микширования определяет коэффициенты микширования так, что первый канал выходного сигнала аппроксимирует линейную комбинацию (например, сумму) третьей группы 501 каналов пятиканального звукового сигнала L, LS, LB, TFL, TBL, и так, что второй канал G выходного сигнала аппроксимирует линейную комбинацию (например, сумму) четвертой группы каналов пятиканального звукового сигнала L, LS, LB, TFL, TBL. Как описано со ссылкой на фиг. 5, третья и четвертая группы 501, 502 составляют разбиение пяти каналов сигнала L, LS, LB, TFL, TBL пятиканального звукового сигнала, и как третья, так и четвертая группы 501, 502 содержат по меньшей мере один канал из первой группы 401 каналов.
В некоторых примерных вариантах осуществления коэффициенты, используемые для параметрического восстановления пятиканального звукового сигнала L, LS, LB, TFL, TBL из сигнала L1, L2 понижающего микширования и декоррелированного сигнала, могут быть представлены параметрами aLU повышающего микширования в компактной форме, содержащей меньше параметров, чем количество фактических коэффициентов, используемых для параметрического восстановления. В таких вариантах осуществления фактические коэффициенты могут быть выведены на стороне декодера на основе знания конкретной используемой компактной формы.
Фиг. 8 представляет собой обобщенную функциональную схему системы 800 декодирования звука, содержащей блок 700 декодирования, описанный со ссылкой на фиг. 7, согласно одному примерному варианту осуществления.
Блок 801 приема, например содержащий демультиплексор, принимает битовый поток В, переданный из системы 200 кодирования звука, описанной со ссылкой на фиг. 2, и извлекает сигнал L1, L2 пони- 22 034250 жающего микширования и связанные параметры aLU повышающего микширования, дополнительный сигнал Rj, R2 понижающего микширования и связанные дополнительные параметры aRU повышающего микширования, а также каналы С и LFE из битового потока В.
Хотя параметры aLM микширования и дополнительные параметры aRM микширования могут быть доступны в битовом потоке В, в настоящем примерном варианте осуществления эти параметры системой 800 декодирования звука не используются. Иными словами, система 800 декодирования звука согласно настоящему примерному варианту осуществления совместима с битовыми потоками, из которых такие параметры микширования могут не извлекаться. Блок декодирования, использующий параметры aLM микширования, будет описан более подробно ниже со ссылкой на фиг. 9.
В случае когда сигнал L1, L2 понижающего микширования, дополнительный сигнал R1, R2 понижающего микширования и/или каналы С и LFE закодированы в битовом потоке В с использованием перцептивного аудиокодека, такого как Dolby Digital, MPEG AAC или их усовершенствованных вариантов, система 800 декодирования звука может содержать основной декодер (не показан на фиг. 8), выполненный с возможностью декодирования соответствующих сигналов и каналов при их извлечении из битового потока В.
Блок 802 преобразования преобразовывает сигнал Lb L2 понижающего микширования путем выполнения обратного MDCT, а блок 803 анализа QMF преобразовывает сигнал Lb L2 понижающего микширования в область QMF для обработки сигнала Lb L2 понижающего микширования блоком 700 декодирования в форме частотно-временных мозаик. Блок 804 деквантования выполняет деквантование параметров aLU повышающего микширования, например из энтропийно кодированного формата, перед их подачей в блок 700 декодирования. Как описано со ссылкой на фиг. 2, квантование могло быть выполнено с одной из двух разных величин шага, например 0,1 или 0,2. Используемая по факту величина шага может быть предварительно определена или может быть передана сигналами в систему 800 декодирования звука со стороны кодера, например посредством битового потока В.
В настоящем примерном варианте осуществления система 800 декодирования звука содержит дополнительный блок 805 декодирования, аналогичный блоку 700 декодирования. Этот дополнительный блок 805 декодирования выполнен с возможностью приема дополнительного двухканального сигнала R1, R2 понижающего микширования, описанного со ссылкой на фиг. 2-4, и дополнительных метаданных, содержащих дополнительные параметры aRU повышающего микширования для параметрического восстановления дополнительного пятиканального звукового сигнала R, RS, RB, TFR, TBR на основе дополнительного сигнала R1, R2 понижающего микширования. Дополнительный блок 805 декодирования выполнен с возможностью предоставления дополнительного двухканального выходного сигнала A L на основе сигнала понижающего микширования и дополнительных aRU параметров повышающего микширования. Дополнительный выходной сигнал ^1’ L обеспечивает представление дополнительного пятиканального звукового сигнала R, RS, RB, TFR, TBR, согласующегося со вторым форматом F2 кодирования, описанным со ссылкой на фиг. 5.
Блок 806 преобразования преобразовывает дополнительный сигнал R1, R2 понижающего микширования путем выполнения обратного MDCT, а блок 807 анализа QMF преобразовывает дополнительный сигнал R1, R2 понижающего микширования в область QMF для обработки дополнительного сигнала R1, R2 понижающего микширования дополнительным блоком 805 декодирования в форме частотновременных мозаик. Блок 808 деквантования выполняет деквантование дополнительных параметров aRU повышающего микширования, например из энтропийно кодированного формата, перед их подачей в дополнительный блок 805 декодирования.
В тех примерных вариантах осуществления, где к сигналу L1, L2 понижающего микширования, дополнительному сигналу R1R2 понижающего микширования и каналу С на стороне кодера был применен отсекающий коэффициент усиления, для компенсации отсекающего коэффициента усиления в системе 800 декодирования звука к этим сигналам может быть применен соответствующий коэффициент усиления, например соответствующий 8,7 дБ.
В примерном варианте осуществления, описанном со ссылкой на фиг. 8, выходной сигнал A L и дополнительный выходной сигнал ^1’ ^2, выводимые соответственно блоком 700 декодирования и дополнительным блоком 805 декодирования, преобразовывают обратно из области QMF блоком 811 синтеза QMF перед их предоставлением вместе с каналами С и LFE в качестве вывода системы 800 декодирования звука для воспроизведения на системе 812 с несколькими динамиками, содержащей, например, пять динамиков и сабвуфер. Блоки 809, 810 преобразования преобразовывают каналы С и LFE во временную область путем выполнения обратного MDCT перед включением этих каналов в вывод системы 800 декодирования звука.
Каналы С и LFE могут, например, быть извлечены из битового потока В в дискретно кодированной форме, и система 800 декодирования может, например, содержать блоки одноканального декодирования (не показаны на фиг. 8), выполненные с возможностью декодирования соответствующих дискретно кодированных каналов. Блок одноканального декодирования может, например, содержать основные деко- 23 034250 деры для декодирования звукового содержимого, закодированного с использованием перцептивного аудиокодека, такого как Dolby Digital, MPEG AAC или их усовершенствований.
Фиг. 9 представляет собой обобщенную функциональную схему альтернативного блока 900 декодирования согласно одному примерному варианту осуществления. Блок 900 декодирования подобен блоку 700 декодирования, описанному со ссылкой на фиг. 7, за исключением того, что блок 900 декодирования использует параметры aLM микширования, предоставляемые блоком 100 кодирования, описанным со ссылкой на фиг. 1, вместо использования параметров aLU повышающего микширования, также предоставляемых блоком 100 кодирования.
Подобно блоку 700 декодирования, блок 900 декодирования содержит блок 910 декорреляции и блок 920 микширования. Блок 910 декорреляции выполнен с возможностью приема сигнала L1, L2 понижающего микширования, предоставляемого блоком 100 кодирования, описанным со ссылкой на фиг. 1, и вывода на основе сигнала L1, L2 понижающего микширования одноканального декоррелированного сигнала D. Блок 920 микширования определяет набор коэффициентов микширования на основе параметров aLM микширования и формирует выходной сигнал ^2 как линейную комбинацию сигнала L1, L2 понижающего микширования и декоррелированного сигнала D согласно коэффициентам микширования. Блок 920 микширования определяет параметры микширования независимо от параметров aLU повышающего микширования и формирует выходной сигнал ^2 путем выполнения проецирования из трех каналов в два.
В настоящем примерном варианте осуществления блок 900 декодирования выполнен с возможностью предоставления выходного сигнала ^2 согласно второму формату F2 кодирования, описанному со ссылкой на фиг. 5, и, таким образом, формирует выходной сигнал ^2 согласно уравнению (9). Иными словами, принятые параметры aLM микширования могут содержать параметры cL, dL, yL в крайней левой матрице уравнения (9), и параметры aLM микширования могли быть определены на стороне кодера, как описано в отношении уравнения (9). Таким образом, блок 920 микширования определяет коэффициенты микширования так, что первый канал выходного сигнала аппроксимирует линейную комбинацию (например, сумму) третьей группы 501 каналов пятиканального звукового сигнала L, LS, LB, TFL, TBL, описанного со ссылкой на фиг. 4-6, и так, что второй канал ^2 выходного сигнала аппроксимирует линейную комбинацию (например, сумму) четвертой группы 502 каналов пятиканального звукового сигнала L, LS, LB, TFL, TBL.
Сигнал L1, L2 понижающего микширования и параметры aLM микширования могут, например, быть извлечены из битового потока В, выводимого системой 200 кодирования звука, описанной со ссылкой на фиг. 2. Параметры aLU повышающего микширования, также закодированные в битовом потоке В, могут не быть использованы блоком 900 декодирования согласно настоящему примерному варианту осуществления, и вследствие этого извлекать их из битового потока В не нужно.
Фиг. 10 представляет собой блок-схему способа 1000 декодирования звука для предоставления двухканального выходного сигнала на основе двухканального сигнала понижающего микширования и связанных параметров повышающего микширования согласно одному примерному варианту осуществления. Способ 1000 декодирования может, например, быть выполнен системой 800 декодирования звука, описанной со ссылкой на фиг. 8.
Способ 1000 декодирования включает прием 1010 двухканального сигнала понижающего микширования, который связан с метаданными, содержащими параметры повышающего микширования для параметрического восстановления пятиканального звукового сигнала L, LS, LB, TFL, TBL, описанного со ссылкой на фиг. 4-6, на основе сигнала понижающего микширования. Сигнал понижающего микширования может, например, представлять собой сигнал L1, L2 понижающего микширования, описанный со ссылкой на фиг. 1, и может являться согласующимся с первым форматом F1 кодирования, описанным в отношении фиг. 4. Способ 1000 декодирования дополнительно включает прием 1020, по меньшей мере, некоторых метаданных. Принятые метаданные могут, например, содержать параметры aLU повышающего микширования и/или параметры aLM микширования, описанные со ссылкой на фиг. 1. Способ 1000 декодирования дополнительно включает генерирование 1040 декоррелированного сигнала на основе по меньшей мере одного канала сигнала понижающего микширования; определение 1050 набора коэффициентов микширования на основе принятых метаданных; и формирование 1060 двухканального выходного сигнала как линейной комбинации сигнала понижающего микширования и декоррелированного сигнала согласно коэффициентам микширования. Двухканальный выходной сигнал может, например, представлять собой двухканальный выходной сигнал Ь2, описанный со ссылкой на фиг. 7 и 8, и может быть согласующимся со вторым форматом F2 кодирования, описанным со ссылкой на фиг. 5. Иными словами, коэффициенты микширования могут быть определены так, что первый канал выходного сигнала аппроксимирует линейную комбинацию третьей группы 501 каналов, а второй канал ^2 выходного сигнала аппроксимирует линейную комбинацию четвертой группы 502 каналов.
- 24 034250
Способ 1000 декодирования может необязательно включать прием 1030 сигнальной информации, указывающей, что принятый сигнал L1,L2 понижающего микширования является согласующимся с одним из первого формата F1 кодирования и второго формата F2 кодирования, описанными со ссылкой на фиг. 4 и 5 соответственно. Третья и четвертая группы 501, 502 могут быть определены предварительно, и коэффициенты микширования могут быть определены так, что единственное разбиение пятиканального звукового сигнала L, LS, LB, TFL, TBL на третью и четвертую группы 501, 502 каналов, аппроксимированные каналами выходного сигнала Х ^2, сохраняется для обоих возможных форматов F1, F2 кодирования принятого сигнала понижающего микширования. Способ 1000 декодирования может необязательно включать пропускание 1070 сигнала L1, L2 понижающего микширования как выходного сигнала Li, L2 (и/или подавление вклада декоррелированного сигнала в выходной сигнал) в ответ на получение сигнальной информации, указывающей, что принятый сигнал понижающего микширования является согласующимся со вторым форматом F2 кодирования, поскольку тогда формат кодирования принятого сигнала L1,L2 понижающего микширования совпадает с форматом кодирования, который должен быть обеспечен в выходном сигнале X ^2·
На фиг. 11 представлено схематическое изображение машиночитаемого носителя 1100 согласно одному примерному варианту осуществления. Машиночитаемый носитель 1100 представляет двухканальный сигнал L1, L2 понижающего микширования, описанный со ссылкой на фиг. 1 и 4; параметры aLU повышающего микширования, описанные со ссылкой на фиг. 1, предоставляющие возможность параметрического восстановления пятиканального звукового сигнала L, LS, LB, TFL, TBL на основе сигнала L1 ,L2 понижающего микширования; и параметры aLM микширования, описанные со ссылкой на фиг. 1.
Будет понятно, что, хотя блок 100 кодирования, описанный со ссылкой на фиг. 1, выполнен с возможностью кодирования 11.1-канального звукового сигнала согласно первому формату F1 кодирования и предоставления параметров aLM микширования для предоставления выходного сигнала, согласованного со вторым форматом F2 кодирования, могут быть предусмотрены подобные блоки кодирования, выполненные с возможностью кодирования 11.1-канального звукового сигнала согласно любому из форматов F1, F2, F3 кодирования и предоставления параметров микширования для предоставления выходного сигнала, согласованного с любым из форматов F1, F2, F3 кодирования.
Также будет понятно, что, хотя блоки 700, 900 декодирования, описанные со ссылкой на фиг. 7 и 9, выполнены с возможностью предоставления выходного сигнала, согласующегося со вторым форматом F2 кодирования, на основе сигнала понижающего микширования, согласующегося с первым форматом F1 кодирования, могут быть предусмотрены подобные блоки декодирования, выполненные с возможностью предоставления выходного сигнала, согласующегося с любым из форматов F1, F2, F3 кодирования, на основе сигнала понижающего микширования, согласующегося с любым из форматов F1, F2, F3 кодирования.
Поскольку шестая группа 602 каналов, описанная со ссылкой на фиг. 6, содержит четыре канала, будет понятно, что предоставление выходного сигнала, согласующегося с первым или вторым форматами F1, F2 кодирования, на основе сигнала понижающего микширования, согласующегося с третьим форматом F3 кодирования, может, например, включать использование более чем одного декоррелированного канала; и/или использование не более чем одного из каналов сигнала понижающего микширования в качестве ввода в блок декорреляции.
Будет понятно, что, хотя вышеописанные примеры были сформулированы в выражении 11.1канального звукового сигнала, описанного со ссылкой на фиг. 4-6, могут быть предусмотрены системы кодирования и системы декодирования, содержащие, соответственно, любое количество блоков кодирования или блоков декодирования и выполненные с возможностью обработки звуковых сигналов, содержащих любое количество M-канальных звуковых сигналов.
Фиг. 12 представляет собой обобщенную функциональную схему блока 1200 декодирования для предоставления K-канального выходного сигнала ^ι···’ С на основе двухканального сигнала L1, L2 понижающего микширования и связанных метаданных согласно одному примерному варианту осуществления. Блок 1200 декодирования подобен блоку 700 декодирования, описанному со ссылкой на фиг. 7, за исключением того, что блок 1200 декодирования предоставляет K-канальный выходной сигнал Li,··, Бк, где 2<K<M, вместо двухканального выходного сигнала Х L2.
Более конкретно блок 1200 декодирования выполнен с возможностью приема двухканального сигнала L1, L2 понижающего микширования, который связан с метаданными, при этом метаданные содержат параметры aLU повышающего микширования для параметрического восстановления M-канального звукового сигнала на основе сигнала L1, L2 понижающего микширования, где M>4. Первый канал L1 сигнала L1, L2 понижающего микширования соответствует линейной комбинации (или сумме) первой группы из одного или более каналов M-канального звукового сигнала (например, первой группы 401, описанной со ссылкой на фиг. 4). Второй канал L2 сигнала L1, L2 понижающего микширования соответствует линейной комбинации (или сумме) второй группы (например, второй группы 402, описанной со ссылкой на фиг. 4) из одного или более каналов M-канального звукового сигнала. Первая и вторая группы составляют разбиение M каналов M-канального звукового сигнала. Иными словами, первая и вторая группы являются
- 25 034250 непересекающимися и вместе содержат все каналы M-канального звукового сигнала.
Блок 1200 декодирования выполнен с возможностью приема по меньшей мере части метаданных (например, метаданных, содержащих параметры aLU повышающего микширования) и предоставления Kканального выходного сигнала LK на основе сигнала L1, L2 понижающего микширования и принятых метаданных. Блок 1200 декодирования содержит блок 1210 декорреляции, выполненный с возможностью приема по меньшей мере одного канала сигнала L1, L2 понижающего микширования и вывода на его основе декоррелированного сигнала D. Блок 1200 декодирования дополнительно содержит блок 1220 микширования, выполненный с возможностью определения набора коэффициентов микширования на основе принятых метаданных и формирования выходного сигнала ^ь···, LK как линейной комбинации сигнала L1,L2 понижающего микширования и декоррелированного сигнала D согласно коэффициентам микширования. Блок 1220 микширования выполнен с возможностью определения коэффициентов микширования так, что каждый из K каналов выходного сигнала Α···> Л аппроксимирует линейную комбинацию группы из одного или более каналов M-канального звукового сигнала. Коэффициенты микширования определяют так, что группы, относящиеся к соответствующим каналам выходного сигнала LK, составляют разбиение М каналов M-канального звукового сигнала на K групп из одного или более каналов, и так, что по меньшей мере две из этих K групп содержат по меньшей мере один канал из первой группы каналов M-канального сигнала (т.е. из группы, соответствующей первому каналу L1 сигнала понижающего микширования).
Декоррелированный сигнал D может, например, представлять собой одноканальный сигнал. Как указано на фиг. 12, декоррелированный сигнал D может, например, представлять собой двухканальный сигнал. В некоторых примерных вариантах осуществления декоррелированный сигнал D может содержать более двух каналов.
М-канальный сигнал может, например, представлять собой пятиканальный сигнал L, LS, LB, TFL, TBL, описанный со ссылкой на фиг. 4, а сигнал L1, L2 понижающего микширования может, например, представлять собой двухканальное представление пятиканального сигнала L, LS, LB, TFL, TBL согласно любому из форматов F1, F2, F3 кодирования, описанных со ссылкой на фиг. 4-6.
Система 800 декодирования звука, описанная со ссылкой на фиг. 8, вместо блоков 700 и 805 декодирования может, например, содержать один или более блоков 1200 декодирования, относящихся к типу, описанному со ссылкой на фиг. 12, а система 812 с несколькими динамиками может, например, содержать более пяти громкоговорителей и сабвуфер, которые описаны со ссылкой на фиг. 8.
Система 800 декодирования звука может, например, быть приспособлена для выполнения способа декодирования звука, подобного способу 1000 декодирования звука, описанному со ссылкой на фиг. 10, за исключением того, что вместо двухканального выходного сигнала предоставляют K-канальный выходной сигнал.
Примерные реализации блока 1200 декодирования и системы 800 декодирования звука будут описаны ниже со ссылкой на фиг. 12-16.
Подобно фиг. 4-6, на фиг. 12-13 представлены альтернативные способы разбиения 11.1-канального звукового сигнала на группы из одного или более каналов.
Для того чтобы представить 11.1-канальный (или 7.1+4-канальный, или 7.1.4-канальный) звуковой сигнал как 7.1-канальный (или 5.1+2-канальный, или 5.1.2-канальный) звуковой сигнал, совокупность каналов L, LS, LB, TFL, TBL, R, RS, RB, TFR, TBR, С и LFE можно разбить на группы каналов, представляемые соответствующими каналами. Пятиканальный звуковой сигнал L, LS, LB, TFL, TBL можно представить посредством трехканального сигнала L1, L2, L3, тогда как дополнительный пятиканальный звуковой сигнал R, RS, RB, TFR, TBR можно представить посредством дополнительного трехканального сигнала R1, R2, R3. Каналы С и LFE могут быть сохранены как отдельные каналы также и в 7.1-канальном представлении 11.1-канального звукового сигнала.
На фиг. 13 представлен четвертый формат F4 кодирования, предусматривающий 7.1-канальное представление 11.1-канального звукового сигнала. В четвертом формате F4 кодирования пятиканальный звуковой сигнал L, LS, LB, TFL, TBL разбивают на первую группу 1301 каналов, содержащую только канал L, вторую группу 1302 каналов, содержащую каналы LS, LB, и третью группу 1303 каналов, содержащую каналы TFL, TBL. Каналы L1, L2, L3 трехканального сигнала L1, L2, L3 относятся к линейным комбинациям (например, взвешенным или невзвешенным суммам) соответствующих групп 1301, 1302, 1303 каналов. Аналогично дополнительный пятиканальный звуковой сигнал R, RS, RB, TFR, TBR разбивают на дополнительную первую группу 1304, содержащую канал R, дополнительную вторую группу 1305, содержащую каналы RS, RB, и дополнительную третью группу 1306, содержащую каналы TFR, TBR. Каналы R1, R2, R3 дополнительного трехканального сигнала R1, R2, R3 относятся к линейным комбинациям (например, взвешенным или невзвешенным суммам) соответствующих дополнительных групп 1304, 1305, 1306 каналов.
Авторы настоящего изобретения осознали, что метаданные, связанные с 5.1-канальным представлением 11.1-канального звукового сигнала согласно одному из первого, второго и третьего форматов F1, F2,
- 26 034250
F3 кодирования, можно использовать для генерирования 7.1-канального представления согласно четвертому формату F4 кодирования без первоначального восстановления оригинального 11.1-канального сигнала. Пятиканальный сигнал L, LS, LB, TFL, TBL представляет левую полуплоскость 11.1-канального звукового сигнала, а дополнительный пятиканальный сигнал R, RS, RB, TFR, TBR представляет правую полуплоскость, и они могут быть обработаны аналогично.
Следует напомнить, что два канала х4 и x5 могут быть восстановлены из суммы m2=x4-x5 с использованием уравнения (3).
Если для предоставления параметрического представления 11.1-канального сигнала используется второй формат F2 кодирования, а для 7.1-канального представления звукового содержимого на стороне декодера желателен четвертый формат F4 кодирования, то аппроксимация, обеспечиваемая уравнением (1), может быть применена один раз с
Xi = TBL, х2 = LS, х3 = LB, и один раз с
Αχ = TBR, х2 = RS, Хз = RB, и аппроксимация, обеспечиваемая уравнением (3), может быть применена один раз с х4 = L,x5 = TFL, и один раз с х4 = R,Xs = TFR.
С указанием тильдами аппроксимированной сущности некоторых из левосторонних величин (шести каналов выходного сигнала), такое применение уравнений (1) и (3) дает
Г 1
Ml М
Я1 С
С М
М = А
r2 £>(Li)
М D(L2)
ВД
Lp(/?2)J
где
' ^1,L 0 0 0 0
0 di'R 0 0 0
0 0 1 0 0
A - 0 0 0 1 - 0
0 0 0 0 1 — C1,R
1 - dlfL 0 0 clfL 0
. 0 1 ^AR 0 0 C1,R
и где согласно четвертому формату F4 кодирования (Ю)
41,L 0 0 0 -
0 0 4i,r 0
0 0 0 0
0 -PlrL 0 0
0 0 0 ~P1,R
41,L P1,L 0 0
0 0 ~4i,r Pl,R -
Lj ~ L, L2~ LS+LB, L3 ~ TFL+TBL,
R2 ~ RS+RB,
R3 ~ TFR+TBR.
В приведенной выше матрице А параметры c1;L, p1L и c1 R, p1>R представляют собой соответственно версии для левых каналов и правых каналов параметров c1, p1 повышающего микширования из уравнения (1), параметры d1;L, q1L и d1;R, q1R представляют собой соответственно версии для левых каналов и правых каналов параметров d1, q1 повышающего микширования из уравнения (3) и D обозначает оператор декорреляции. Таким образом, аппроксимацию четвертого формата F4 кодирования можно получить из второго формата F2 кодирования на основе параметров повышающего микширования (например, параметров aLU, aRU повышающего микширования, описанных со ссылкой на фиг. 1 и 2) для параметрического восстановления 11.1-канального звукового сигнала без необходимости в фактическом восстановлении 11.1-канального звукового сигнала.
Два экземпляра блока 1200 декодирования, описанного со ссылкой на фиг. 12 (с K=3, M=5 и двухканальным декоррелированным сигналом D), могут предоставить трехканальные выходные сигналы Мъ М и 7?!, R2, R3, аппроксимирующие трехканальные сигналы L1, L2, L3 и R1, R2, R3 четвертого формата F4 кодирования. Более конкретно, блоки 1220 микширования блоков 1200 декодирования могут определять коэффициенты микширования на основе параметров повышающего микширования согласно матрице А из уравнения (10). Система декодирования звука, подобная системе 800 декодирования звука, описанной со ссылкой на фиг. 8, может применять два таких блока 1200 декодирования для
- 27 034250 предоставления 7.1-канального представления звукового сигнала 11.1 для 7.1-канального воспроизведения.
Если для предоставления параметрического представления 11.1 -канального сигнала используется первый формат F1 кодирования, а для представления звукового содержимого на стороне декодера желателен четвертый формат F4 кодирования, то аппроксимация, обеспечиваемая уравнением (1), может быть применена один раз с %1 = L, х2 = LS, х3 = LB, и один раз с
Хз =R,x2 = RS, Хз = RB.
С указанием тильдами аппроксимированной сущности некоторых из левосторонних величин (шести каналов выходного сигнала), такое применение уравнения (1) дает
Г L1
' C1,L 0 0 0 0 Pl.L 0 0 0-
0 C1,R 0 0 0 0 0 Pij? 0 c
С 0 0 1 0 0 0 0 0 0
Д = 1 — C1,L 0 0 0 0 -P1,L 0 0 0
*2 0 1 - C1,R 0 0 0 0 0 ~P1,R 0 D(LA
Д 0 0 0 1 0 0 0 0 0 D(L2)
U?3J 0 0 0 0 1 0 0 0 0- Ld(/?2)J
(11)
АД
R±~R, где согласно четвертому формату F4 кодирования
L2 ~ LS+LB, L3 = TFL+TBL (не аппроксимированные), /?2 ~ RS+RB, R3 = TFR+TBR (не аппроксимированные).
В приведенном выше уравнении (11) параметры c1;L, p1)L и c1;R, p1;R представляют собой версии соответственно для левых каналов и правых каналов параметров c1, p1 из уравнения (1), a D обозначает оператор декорреляции. Таким образом, аппроксимацию четвертого формата F4 кодирования можно получить из первого формата F1 кодирования на основе параметров повышающего микширования для параметрического восстановления 11.1-канального звукового сигнала без необходимости в фактическом восстановлении 11.1-канального звукового сигнала.
Два экземпляра блока 1200 декодирования, описанного со ссылкой на фиг. 12 (с K=3, M=5), могут предоставить трехканальные выходные сигналы Д» Д» Д и R2, Ю- аппроксимирующие трехканальные сигналы L1, L2, L3 и R1, R2, R3 четвертого формата F4 кодирования. Более конкретно блоки 1220 микширования блоков декодирования могут определять коэффициенты микширования на основе параметров повышающего микширования согласно уравнению (11). Система декодирования звука, подобная системе 800 декодирования звука, описанной со ссылкой на фиг. 8, может применять два таких блока 1200 декодирования для предоставления 7.1-канального представления звукового сигнала 11.1 для 7.1 канального воспроизведения.
Как можно увидеть из уравнения (11), фактически требуется только два декоррелированных канала. Несмотря на то, что декоррелированные каналы D(L2) и D(R2) не являются необходимыми для предоставления четвертого формата F4 кодирования из первого формата F1 кодирования, такие декорреляторы могут, например, все равно поддерживать в запущенном (или активном) состоянии, так что буферы/устройства памяти декорреляторов поддерживают в обновленном и доступном состоянии на случай изменения формата кодирования сигнала понижающего микширования, например на второй формат F2 кодирования. Следует напомнить, что при предоставлении четвертого формата F4 кодирования из второго формата F2 кодирования применяют четыре декоррелированных канала (см. уравнение (10) и связанную матрицу А).
Если для предоставления параметрического представления 11.1-канального звукового сигнала используется третий формат F3 кодирования, а для представления звукового содержимого на стороне декодера желателен четвертый формат F4 кодирования, то отношения, подобные представленным в уравнениях (10) и (11), можно вывести с использованием тех же соображений. Система декодирования звука, подобная системе 800 декодирования звука, описанной со ссылкой на фиг. 8, может применять два блока 1200 декодирования для предоставления 7.1-канального представления звукового сигнала 11.1 согласно четвертому формату F4 кодирования.
Для того чтобы представить 11.1-канальный звуковой сигнал как 9.1-канальный (или 5.1+4канальный, или 5.1.4-канальный) звуковой сигнал, совокупность каналов L, LS, LB, TFL, TBL, R, RS, RB, TFR, TBR, С и LFE можно разбить на группы каналов, представляемые соответствующими каналами. Пятиканальный звуковой сигнал L, LS, LB, TFL, TBL можно представить посредством четырехканального сигнала L1, L2, L3, L4, тогда как дополнительный пятиканальный звуковой сигнал R, RS, RB, TFR, TBR можно представить посредством дополнительного четырехканального сигнала R1, R2, R3, R4. Каналы С и
- 28 034250
LFE могут быть сохранены как отдельные каналы также и в 9.1-канальном представлении 11.1канального звукового сигнала.
На фиг. 14 представлен пятый формат F5 кодирования, предоставляющий 9.1-канальное представление 11.1-канального звукового сигнала. В пятом формате кодирования пятиканальный звуковой сигнал L, LS, LB, TFL, TBL разбивают на первую группу 1401 каналов, содержащую только канал L, вторую группу 1402 каналов, содержащую каналы LS, LB, третью группу 1403 каналов, содержащую только канал TFL, и четвертую группу 1404 каналов, содержащую только канал TBL. Каналы L1, L2, L3, L4 четырехканального сигнала L1, L2, L3, L4 относятся к линейным комбинациям (например, взвешенным или невзвешенным суммам) соответствующих групп 1401, 1402, 1403, 1404 из одного или более каналов. Аналогично дополнительный пятиканальный звуковой сигнал R, RS, RB, TFR, TBR разбивают на дополнительную первую группу 1405, содержащую канал R, дополнительную вторую группу 1406, содержащую каналы RS, RB, дополнительную третью группу 1407, содержащую канал TFR, и дополнительную четвертую группу 1408, содержащую канал TBR. Каналы R1, R2, R3, R4 дополнительного четырехканального сигнала R1, R2, R3, R4 относятся к линейным комбинациям (например, в'звешенным или невзвешенным суммам) соответствующих дополнительных групп 1405, 1406, 1407, 1408 из одного или более каналов.
Авторы настоящего изобретения осознали, что метаданные, связанные с 5.1-канальным представлением 11.1-канального звукового сигнала согласно одному из форматов F1, F2, F3 кодирования, можно использовать для генерирования 9.1-канального представления согласно пятому формату F5 кодирования без первоначального восстановления оригинального 11.1-канального сигнала. Пятиканальный сигнал L, LS, LB, TFL, TBL, представляющий левую полуплоскость 11.1-канального звукового сигнала, и дополнительный пятиканальный сигнал R, RS, RB, TFR, TBR, представляющий правую полуплоскость, могут быть обработаны аналогично.
Если для предоставления параметрического представления 11.1-канального сигнала используется второй формат F2 кодирования, а для представления звукового содержимого на стороне декодера желателен пятый формат F5 кодирования, то аппроксимация, обеспечиваемая уравнением (1), может быть применена один раз с
Xi = TBL, x2 = LS, Xj = LB, и один раз с %1 = TBR, х2 = RS, Хз = RB, и аппроксимация согласно уравнению (3) может быть применена один раз с х4 = £, Х5 = TFL, и один раз с х4 = R,x5 = TFR.
С указанием тильдами аппроксимированной сущности некоторых из левосторонних величин (восьми каналов выходного сигнала), такое применение уравнений (1) и (3) дает
Г к Ί
С С
l2
*2 = А r2
Ьз D(M
R3 D(L2)
D(RJ
я4. h(/?2)J
где
Г dliL 0 0 0
0 0 0
0 0 1 0
0 0 0 1 — C1,L
A = 0 0 0 0
1 ~ dyi 0 0 0
0 1 d-yR 0 0
0 0 0 C1,L
. 0 0 0 0
(12)
0 41,L 0 0 o
0 0 0 4i,r 0
0 0 0 0 0
0 0 ~P1,L 0 0
1 ~ C1,R 0 0 0 “Pi.fi
0 -41,L 0 0 0
0 0 0 41,R 0
0 0 Pl.L 0 0
C1,fi 0 0 0 P1,R -
и где согласно пятому формату F5 кодирования
- 29 034250
Li ~L, L2 ~ LS+LB, L3 TFL, L4 ~ TBL
~R, A, ~ RS+RB, R3 TFR, Y ~ TBR.
В приведенной выше матрице А параметры c1;L, Pi,l и c1;R, p1;R представляют собой соответственно версии для левых каналов и правых каналов параметров с1, p1 повышающего микширования из уравнения (1), d1 l, q1 l и d1 r, q1>R представляют собой соответственно версии для левых каналов и правых каналов параметров db q1 повышающего микширования из уравнения (3), и D обозначает оператор декорреляции. Таким образом, аппроксимацию пятого формата F5 кодирования можно получить из второго формата F2 кодирования на основе параметров повышающего микширования для параметрического восстановления 11.1-канального звукового сигнала без необходимости в фактическом восстановлении 11.1канального звукового сигнала.
Два экземпляра блока 1200 декодирования, описанного со ссылкой на фиг. 12 (с K=4, M=5 и двухканальным декоррелированным сигналом D), могут предоставить четырехканальные выходные сигналы A L2, L3, L4 и R±, R2, R39R49 аппроксимирующие четырехканальные сигналы L1, L2, L3, L4 и R1, R2, R3, R4 пятого формата F5 кодирования. Более конкретно блоки 1220 микширования блоков декодирования могут определять коэффициенты микширования на основе параметров повышающего микширования согласно уравнению (12). Система декодирования звука, подобная системе 800 декодирования звука, описанной со ссылкой на фиг. 8, может применять два таких блока 1200 декодирования для предоставления 9.1-канального представления звукового сигнала 11.1 для 9.1-канального воспроизведения.
Если для предоставления параметрического представления 11.1-канального сигнала используется первый F1 или третий F3 формат кодирования, а для представления звукового содержимого на стороне декодера желателен пятый формат F5 кодирования, то отношения, подобные представленным в уравнении (12), можно вывести с использованием тех же соображений.
На фиг. 15-16 представлены альтернативные способы разбиения 13.1-канального (или 9.1+4канального, или 9.1.4-канального) звукового сигнала на группы каналов для представления 13.1канального звукового сигнала соответственно как 5.1-канального звукового сигнала и 7.1-канального сигнала.
13.1-канальный звуковой сигнал содержит каналы LW (левый широкий), LSCRN (левый экранный), LS (левый боковой), LB (левый задний), TFL (верхний передний левый), TBL (верхний задний левый), RW (правый широкий), RSCRN (правый экранный), RS (правый боковой), RB (правый задний), TFR (верхний передний правый), TBR (верхний задний правый), С (центральный) и LFE (низкочастотных эффектов). Шесть каналов LW, LSCRN, LS, LB, TFL и TBL образуют шестиканальный звуковой сигнал, представляющий левое полупространство в среде воспроизведения 13.1-канального звукового сигнала. Четыре канала LW, LSCRN, LS и LB представляют разные горизонтальные направления в среде воспроизведения, и два канала TFL и TBL представляют направления, отделенные по вертикали от направлений четырех каналов LW, LSCRN, LS и LB. Два канала TFL и TBL могут, например, быть предназначены для воспроизведения в потолочных динамиках. Аналогично шесть каналов RW, RSCRN, RS, RB, TFR и TBR образуют дополнительный шестиканальный звуковой сигнал, представляющий правое полупространство среды воспроизведения, при этом четыре канала RW, RSCRN, RS и RB представляют разные горизонтальные направления в среде воспроизведения, и два канала TFR и TBR представляют направления, отделенные по вертикали от направлений четырех каналов RW, RSCRN, RS и RB.
На фиг. 15 представлен шестой формат F6 кодирования, в котором шестиканальный звуковой сигнал LW, LSCRN, LS, LB, TFL, TBL разбивают на первую группу 1501 каналов LW, LSCRN, TFL и вторую группу 1502 каналов LS, LB, TBL и в котором дополнительный шестиканальный звуковой сигнал RW, RSCRN, RS, RB, TFR, TBR разбивают на дополнительную первую группу 1503 каналов RW, RSCRN, TFR и дополнительную вторую группу 1504 каналов RS, RB, TBR. Каналы L1, L2 двухканального сигнала L1, L2 понижающего микширования относятся к линейным комбинациям (например, взвешенным или невзвешенным суммам) соответствующих групп 1501, 1502 каналов.
Аналогично каналы R1, R2 дополнительного двухканального сигнала R1, R2 понижающего микширования относятся к линейным комбинациям (например, взвешенным или невзвешенным суммам) соответствующих дополнительных групп 1503, 1504 каналов.
На фиг. 16 представлен седьмой формат F7 кодирования, в котором шестиканальный звуковой сигнал LW, LSCRN, LS, LB, TFL, TBL разбивают на первую группу 1601 каналов LW, LSCRN, вторую группу 1602 каналов LS, LB и третью группу 1603 каналов TFL, TBL и в котором дополнительный шестиканальный звуковой сигнал RW, RSCRN, RS, RB, TFR, TBR разбивают на дополнительную первую группу 1604 каналов RW, RSCRN, дополнительную вторую группу 1605 каналов RS, RB и дополнительную третью группу 1606 каналов TFR, TBR. Три канала L1, L2, L3 относятся к линейным комбинациям (например, взвешенным или невзвешенным суммам) соответствующих групп 1601, 1602, 1603 каналов. Аналогично три дополнительных канала R1, R2, R3 относятся к линейным комбинациям (например, взвешенным или невзвешенным суммам) соответствующих дополнительных групп 1604, 1605, 1606 каналов.
Авторы настоящего изобретения осознали, что метаданные, связанные с 5.1-канальным представле
- 30 034250 нием 13.1-канального звукового сигнала согласно шестому формату F6 кодирования, можно использовать для генерирования 7.1-канального представления согласно седьмому формату F7 кодирования без первоначального восстановления оригинального 13.1-канального сигнала. Шестиканальный сигнал LW, LSCRN, LS, LB, TFL, TBL, представляющий левую полуплоскость 13.1-канального звукового сигнала, и дополнительный шестиканальный сигнал RW, RSCRN, RS, RB, TFR, TBR, представляющий правую полуплоскость, могут быть обработаны аналогично.
Следует напомнить, что два канала х4 и x5 могут быть восстановлены из суммы m2 \4-\5 с использованием уравнения (3).
Если для предоставления параметрического представления 13.1-канального сигнала используется шестой формат F6 кодирования, а на стороне декодера для 7.1-канального (или 5.1+2-канального, или 5.1.2-канального) представления звукового содержимого желателен седьмой формат F7 кодирования, то аппроксимация, обеспечиваемая уравнением (1), может быть применена четыре раза, один раз с
Xi = TBL, х2 = LS, х3 = LB, один раз с = TBR, х2 = RS, х3 = RB, один раз с
Xi = TFL, х2 = LW, х3 = LSCRN, и один раз с
ЛТ - TFR, х2 = RW, х3 = RSCRN,
С указанием тильдами аппроксимированной сущности некоторых из левосторонних величин (шести каналов выходного сигнала) такое применение уравнения (1) дает
’£1’
Ri С
с
^2 = А Т?2
/?2 D(Li)
^3 D(L2)
Л- ТО b(R2)J
где (13)
TFL+TBL,
I^-LW+LSCRN, и где согласно седьмому формату F7 кодирования ζ ~ LS+LB,
R± ~ RW+RSCRN,
R2 ~ RS+RB,
TFR+TBR.
«з
В приведенной выше матрице А параметры c1;L, p1L и c'1;L, p'1;L представляют собой два разных экземпляра параметров c1, p1 повышающего микширования из уравнения (1) для левой стороны, параметры c1;R, p1)R и c'1R, p'1R представляют собой два разных экземпляра параметров c1, p1 повышающего микширования из уравнения (1) для правой стороны и D обозначает оператор декорреляции. Таким образом, аппроксимацию седьмого формата F7 кодирования можно получить из шестого формата F6 кодирования на основе параметров повышающего микширования для параметрического восстановления 13.1канального звукового сигнала без необходимости в фактическом восстановлении 13.1-канального звукового сигнала.
Два экземпляра блока 1200 декодирования, описанного со ссылкой на фиг. 12 (с K=3, M=6 и двухканальным декоррелированным сигналом D), могут предоставить трехканальные выходные сигналы hi, L2, L3 и Rz, R3> аппроксимирующие трехканальные сигналы L1, L2, L3 и R1, R2, R3 седьмого формата F7 кодирования, на основе двухканальных сигналов понижающего микширования, сгенерированных на стороне кодера согласно шестому формату F6 кодирования. Более конкретно блоки 1220 микширования блоков 1200 декодирования могут определять коэффициенты микширования на основе параметров повышающего микширования согласно матрице А из уравнения (13).
- 31 034250
Система декодирования звука, подобная системе 800 декодирования звука, описанной со ссылкой на фиг. 8, может применять два таких блока 1200 декодирования для предоставления 7.1-канального представления звукового сигнала 13.1 для 7.1-канального воспроизведения.
Как можно видеть в уравнениях (10)-(13) (и связанных матрицах A), если два канала выходного сигнала (например, каналы и U в уравнении (11)) принимают вклады от одного и того же декоррелированного канала (например, D(L1) в уравнении (11)), то эти два вклада имеют одинаковую величину, но противоположных знаков (что, например, указано коэффициентами p1 L и -pRL микширования в уравнении (11)).
Как можно видеть в уравнениях (10)-(13) (и связанных матрицах А), если два канала выходного сигнала (например, каналы G и Е в уравнении (11)) принимают вклады от одного и того же канала понижающего микширования (например, канала L1 в уравнении (11)), то сумма двух коэффициентов микширования, задающих эти два вклада (например, коэффициентов cRL и l-cRL микширования в уравнении (11)), имеет значение 1.
Как описано выше со ссылкой на фиг. 12-16, блок 1200 декодирования может предоставлять Kканальный выходной сигнал G,···, на основе двухканального сигнала L1, L2 понижающего микширования и параметров aLU повышающего микширования. Параметры aLU повышающего микширования могут быть приспособлены для параметрического восстановления оригинального M-канального звукового сигнала, а блок 1220 микширования блока 1200 декодирования может иметь возможность вычислять соответствующие параметры микширования на основе параметров aLU повышающего микширования для предоставления K-канального выходного сигнала Ε.,·.·, Lk без восстановления M-канального звукового сигнала.
В некоторых примерных вариантах осуществления специально предназначенные параметры aLM микширования могут быть отправлены со стороны кодера для облегчения предоставления K-канального выходного сигнала на стороне декодера.
Например блок 1200 декодирования может быть выполнен подобно блоку 900 декодирования, описанному выше со ссылкой на фиг. 9.
Например, блок 1200 декодирования может принимать параметры aLM микширования в форме элементов (или коэффициентов микширования) одной или более матриц микширования, представленных в уравнениях (10)-(13) (т.е. матриц, обозначенных А). В таком примере может не быть необходимости в вычислении блоком 1200 декодирования каких-либо элементов матриц микширования в уравнениях (10)-(13).
Могут быть предусмотрены примерные варианты осуществления, в которых блок 120 анализа, описанный со ссылкой на фиг. 1, (и, аналогично, дополнительный блок 203 анализа, описанный со ссылкой на фиг. 2) определяет параметры aLM микширования для получения на основе сигнала L1, L2 понижающего микширования K-канального выходного сигнала, где 2<K<M. Параметры aLM микширования могут, например, быть предоставлены в форме элементов (или коэффициентов микширования) одной или более матриц микширования из уравнений (10)-(13) (т.е. матриц, обозначенных A).
Может быть предусмотрено, например, несколько наборов параметров aLM микширования, где соответствующие наборы параметров aLM микширования предназначены для разных типов представления на стороне декодера. Например, система 200 кодирования звука, описанная выше со ссылкой на фиг. 2, может предоставлять битовый поток В, в котором предоставлено 5.1-представление понижающего микширования оригинального 11.1-канального звукового сигнала и в котором могут быть предоставлены наборы параметров aLM микширования для 5.1-канального представления (согласно первому, второму и/или третьему форматам F1, F2, F3 кодирования), для 7.1-канального представления (согласно четвертому формату F4 кодирования) и/или для 9.1-канального представления (согласно пятому формату F5 кодирования).
Способ 300 кодирования звука, описанный со ссылкой на фиг. 3, может, например, включать определение 340 параметров aLM микширования для получения на основе сигнала L1, L2 понижающего микширования K-канального выходного сигнала, где 2<K<M.
Могут быть предусмотрены примерные варианты осуществления, в которых машиночитаемый носитель 1100, описанный со ссылкой на фиг. 11, представляет двухканальный сигнал понижающего микширования (например, двухканальный сигнал L1, L2 понижающего микширования, описанный со ссылкой на фиг. 1 и 4); параметры повышающего микширования (например, параметры aLU повышающего микширования, описанные со ссылкой на фиг. 1), предоставляющие возможность параметрического восстановления M-канального звукового сигнала (например, пятиканального звукового сигнала L, LS, LB, TFL, TBL) на основе сигнала понижающего микширования; и параметры aLM микширования, обеспечивающие возможность предоставления K-канального выходного сигнала на основе сигнала понижающего микширования. Как описано выше, M>4 и 2<K<M.
Будет понятно, что, хотя вышеописанные примеры были сформулированы в терминах оригинальных звуковых сигналов с M=5 и M=6 каналами и выходных сигналов с K=2, K=3 и K=4 каналами, по- 32 034250 добные системы кодирования (и блоки кодирования) и системы декодирования (и блоки декодирования) могут быть предусмотрены для любых M и K, удовлетворяющих условиям M>4 и 2<K<M.
V. Эквиваленты, расширения, альтернативы и прочее.
Несмотря на то, что в настоящем описании описаны и изображены конкретные примерные варианты осуществления, настоящее изобретение не ограничено данными конкретными примерами. Модификации и изменения вышеописанных примерных вариантов осуществления могут быть осуществлены без отступления от объема настоящего изобретения, определяемого лишь сопутствующей формулой изобретения.
В формуле изобретения слово содержащий не исключает другие элементы или этапы и единственное число не исключает множественное. Только лишь то, что некоторые признаки перечислены во взаимно разных зависимых пунктах формулы изобретения, не указывает на то, что комбинация этих признаков не может быть использована с преимуществом. Любые ссылочные позиции, встречающиеся в пунктах формулы изобретения, не должны рассматриваться как ограничивающие их объем.
Раскрытые выше устройства и способы могут быть реализованы как программное обеспечение, программно-аппаратное обеспечение, аппаратное обеспечение или их комбинация. В аппаратной реализации разделение задач между функциональными блоками, упоминаемыми в приведенном выше описании, не обязательно соответствует разделению на физические блоки; наоборот, один физический компонент может обладать множеством функциональных возможностей и одна задача может быть выполнена распределенным образом несколькими физическими компонентами, действующими совместно. Определенные компоненты или все компоненты могут быть реализованы как программное обеспечение, исполняемое цифровым процессором, процессором обработки сигналов или микропроцессором, или быть реализованы как аппаратное обеспечение или как специализированная интегральная схема. Такое программное обеспечение может распространяться на машиночитаемых носителях, которые могут содержать компьютерные носители информации (или постоянные носители) и средства коммуникации (или временные носители). Как хорошо известно специалисту в данной области техники, термин компьютерные носители информации включает энергозависимые и энергонезависимые, съемные и несъемные носители, реализованные любым способом или технологией для хранения информации, такой как машиночитаемые команды, структуры данных, программные модули или другие данные. Компьютерные носители информации включают, но не ограничиваются этим, ОЗУ, ПЗУ, ЭСППЗУ, флеш-память или другую технологию памяти, компакт-диски, универсальные цифровые диски (DVD) или другие оптические диски для хранения информации, магнитные кассеты, магнитную ленту, магнитный диск для хранения информации или другие магнитные устройства для хранения информации, или любой другой носитель, который может быть использован для хранения желаемой информации и который может быть доступным с помощью компьютера. Кроме того, как хорошо известно специалисту в данной области техники, средства связи, как правило, воплощают машиночитаемые команды, структуры данных, программные модули или другие данные в модулированном сигнале данных, таком как несущая волна или другой механизм передачи данных, и включают любые средства доставки информации.
VI. Список примеров.
1. Способ (1000) декодирования звука, включающий прием (1010) двухканального сигнала (L1, L2) понижающего микширования, который связан с метаданными, при этом метаданные содержат параметры (aLU) повышающего микширования для параметрического восстановления M-канального звукового сигнала (L, LS, LB, TFL, TBL) на основе сигнала понижающего микширования, где M>4, при этом первый (L1) канал сигнала понижающего микширования соответствует линейной комбинации первой группы (401) из одного или более каналов M-канального звукового сигнала, при этом второй канал (L2) сигнала понижающего микширования соответствует линейной комбинации второй группы (402) из одного или более каналов M-канального звукового сигнала и при этом первая и вторая группы составляют разбиение M каналов M-канального звукового сигнала;
прием (1020) по меньшей мере части указанных метаданных;
генерирование (1040) декоррелированного сигнала (D) на основе по меньшей мере одного канала сигнала понижающего микширования;
определение (1050) набора коэффициентов микширования на основе принятых метаданных; и формирование (1060) двухканального выходного сигнала ^2) как линейной комбинации сигнала понижающего микширования и декоррелированного сигнала согласно коэффициентам микширования, при этом коэффициенты микширования определяют таким образом, что первый канал Ει) выходного сигнала аппроксимирует линейную комбинацию третьей группы (501) из одного или более каналов M-канального звукового сигнала;
второй канал О2) выходного сигнала аппроксимирует линейную комбинацию четвертой группы (502) из одного или более каналов M-канального звукового сигнала;
третья и четвертая группы составляют разбиение M каналов M-канального звукового сигнала; и как третья, так и четвертая группы содержат по меньшей мере один канал из указанной первой группы.
2. Способ декодирования звука согласно примеру 1, в котором принятые метаданные содержат па-
- 33 034250 раметры повышающего микширования и в котором коэффициенты микширования определяют путем обработки параметров повышающего микширования.
3. Способ декодирования звука согласно примеру 1, в котором принятые метаданные содержат параметры (aLM) микширования, отличающиеся от параметров повышающего микширования.
4. Способ декодирования звука согласно примеру 3, в котором коэффициенты микширования определяют независимо от каких-либо значений параметров повышающего микширования.
5. Способ декодирования звука согласно любому из предыдущих примеров, в котором M=5.
6. Способ декодирования звука согласно любому из предыдущих примеров, в котором каждый коэффициент усиления, задающий вклад канала M-канального звукового сигнала в одну из линейных комбинаций, которым соответствуют каналы сигнала понижающего микширования, совпадает с коэффициентом усиления, задающим вклад указанного канала M-канального звукового сигнала в одну из линейных комбинаций, аппроксимируемых каналами выходного сигнала.
7. Способ декодирования звука согласно любому из предыдущих примеров, дополнительно включающий первоначальный этап приема битового потока (В), представляющего сигнал понижающего микширования и метаданные, причем сигнал понижающего микширования и указанные принятые метаданные извлекают из битового потока.
8. Способ декодирования звука согласно любому из предыдущих примеров, в котором декоррелированный сигнал представляет собой одноканальный сигнал и в котором указанный выходной сигнал формируют путем включения в указанную линейную комбинацию сигнала понижающего микширования и декоррелированного сигнала не более чем одного канала декоррелированного сигнала.
9. Способ декодирования звука согласно примеру 8, в котором коэффициенты микширования определяют таким образом, что два канала выходного сигнала принимают от декоррелированного сигнала вклады равной величины, при этом вклады от декоррелированного сигнала в соответствующий канал выходного сигнала имеют противоположные знаки.
10. Способ декодирования звука согласно любому из примеров 8-9, в котором формирование выходного сигнала представляет собой проецирование из трех каналов в два канала.
11. Способ декодирования звука согласно любому из предыдущих примеров, в котором коэффициенты микширования определяют таким образом, что сумма коэффициента микширования, задающего вклад первого канала сигнала понижающего микширования в первый канал выходного сигнала, и коэффициента микширования, задающего вклад первого канала сигнала понижающего микширования во второй канал выходного сигнала, имеет значение 1.
12. Способ декодирования звука согласно любому из предыдущих примеров, в котором указанная первая группа состоит из двух или трех каналов.
13. Способ декодирования звука согласно любому из предыдущих примеров, в котором Mканальный звуковой сигнал содержит три канала (L, LS, LB), представляющие разные горизонтальные направления в среде воспроизведения для M-канального звукового сигнала, и два канала (TFL, TBL), представляющие направления, отделенные по вертикали от направлений указанных трех каналов в указанной среде воспроизведения.
14. Способ декодирования звука согласно примеру 13, в котором указанная первая группа состоит из указанных трех каналов и в котором указанная вторая группа состоит из указанных двух каналов.
15. Способ декодирования звука согласно примеру 14, в котором одна из указанных третьей и четвертой групп содержит оба из указанных двух каналов.
16. Способ декодирования звука согласно примеру 14, в котором каждая из указанных третьей и четвертой групп содержит один из указанных двух каналов.
17. Способ декодирования звука согласно любому из предыдущих примеров, в котором декоррелированный сигнал получают путем обработки линейной комбинации каналов сигнала понижающего микширования.
18. Способ декодирования звука согласно любому из примеров 1-15, в котором декорре лированный сигнал получают на основе не более чем одного канала сигнала понижающего микширования.
19. Способ декодирования звука согласно любому из примеров 1-2 и 15-18, в котором указанная первая группа состоит из N каналов, где N>3, причем указанную первую группу можно восстановить в виде линейной комбинации указанного первого канала сигнала понижающего микширования и (N-1)канального декоррелированного сигнала путем применения коэффициентов сухого повышающего микширования к указанному первому каналу сигнала понижающего микширования и коэффициентов влажного повышающего микширования - к каналам Щ-1)-канального декоррелированного сигнала, причем принятые метаданные содержат параметры влажного повышающего микширования и параметры сухого повышающего микширования, и при этом определение коэффициентов микширования включает определение на основе параметров сухого повышающего микширования коэффициентов сухого повышающего микширования;
заполнение промежуточной матрицы, содержащей больше элементов, чем количество принятых параметров влажного повышающего микширования, на основе принятых параметров влажного повы- 34 034250 шающего микширования и знания о том, что промежуточная матрица принадлежит к предварительно определенному классу матриц;
получение коэффициентов влажного повышающего микширования путем умножения промежуточной матрицы на предварительно определенную матрицу, при этом коэффициенты влажного повышающего микширования соответствуют матрице, являющейся результатом умножения и содержат больше коэффициентов, чем количество элементов в промежуточной матрице; и обработку коэффициентов влажного и сухого повышающего микширования.
20. Способ декодирования звука согласно любому из предыдущих примеров, дополнительно включающий прием сигнальной информации (1030), указывающей один из по меньшей мере двух форматов (F1, F2, F3) кодирования M-канального звукового сигнала, при этом форматы кодирования относятся к соответствующим разным разбиениям каналов M-канального звукового сигнала на соответствующие первую и вторую группы, связанные с каналами сигнала понижающего микширования, при этом указанные третья и четвертая группы являются предварительно определенными и при этом коэффициенты микширования определяют так, что для указанных по меньшей мере двух форматов кодирования сохраняется единственное разбиение M-канального звукового сигнала на указанные третью и четвертую группы каналов, аппроксимируемых каналами выходного сигнала.
21. Способ декодирования звука согласно примеру 20, дополнительно включающий пропускание (1070) сигнала понижающего микширования как указанного выходного сигнала в ответ на указание указанной сигнальной информацией конкретного формата (F2) кодирования, при этом конкретный формат кодирования соответствует разбиению каналов M-канального звукового сигнала, совпадающему с разбиением, определяемым указанными третьей и четвертой группами.
22. Способ декодирования звука согласно примеру 20, дополнительно включающий подавление вклада декоррелированного сигнала в указанный выходной сигнал в ответ на указание указанной сигнальной информацией конкретного формата кодирования, при этом конкретный формат кодирования соответствует разбиению каналов M-канального звукового сигнала, совпадающему с разбиением, определяемым указанными третьей и четвертой группами.
23. Способ декодирования звука согласно любому из примеров 20-22, в котором в первом формате (F1) кодирования указанная первая группа состоит из трех каналов (L, LS, LB), представляющих разные горизонтальные направления в среде воспроизведения для M-канального звукового сигнала и указанная вторая группа состоит из двух каналов (TFL, TBL), представляющих направления, отделенные по вертикали от направлений указанных трех каналов в указанной среде воспроизведения; и во втором формате (F2) кодирования каждая из указанных первой и второй групп содержит один из указанных двух каналов.
24. Система (800) декодирования звука, содержащая блок (700) декодирования, выполненный с возможностью приема двухканального сигнала (L1, L2) понижающего микширования, который связан с метаданными, при этом метаданные содержат параметры (aLU) повышающего микширования для параметрического восстановления M-канального звукового сигнала (L, LS, LB, TFL, TBL) на основе сигнала понижающего микширования, где M>4. при этом первый канал (L1) сигнала понижающего микширования соответствует линейной комбинации первой группы (401) из одного или более каналов M-канального звукового сигнала, при этом второй канал (L2) сигнала понижающего микширования соответствует линейной комбинации второй группы (402) из одного или более каналов (TFL, TBL) M-канального звукового сигнала и при этом первая и вторая группы составляют разбиение M каналов M-канального звукового сигнала;
приема по меньшей мере части указанных метаданных; и предоставления двухканального выходного сигнала 01’ G) на основе сигнала понижающего микширования и принятых метаданных, при этом блок декодирования содержит блок (710) декорреляции, выполненный с возможностью приема по меньшей мере одного канала сигнала понижающего микширования и вывода на его основе декоррелированного сигнала (D); и блок (720) микширования, выполненный с возможностью определения набора коэффициентов микширования на основе принятых метаданных и формирования выходного сигнала как линейной комбинации сигнала понижающего микширования и декоррелированного сигнала согласно коэффициентам микширования, причем блок микширования выполнен с возможностью определения коэффициентов микширования так, что первый канал 01) выходного сигнала аппроксимирует линейную комбинацию третьей группы (501) из одного или более каналов M-канального звукового сигнала;
- 35 034250 второй канал UH выходного сигнала аппроксимирует линейную комбинацию четвертой группы (502) из одного или более каналов M-канального звукового сигнала;
третья и четвертая группы составляют разбиение M каналов M-канального звукового сигнала; и как третья, так и четвертая группы содержат по меньшей мере один канал из указанной первой группы.
25. Система декодирования звука согласно примеру 24, также содержащая дополнительный блок (805) декодирования, выполненный с возможностью:
приема дополнительного двухканального сигнала (R1, R2) понижающего микширования, который связан с дополнительными метаданными, при этом дополнительные метаданные содержат дополнительные параметры (aRU) повышающего микширования для параметрического восстановления дополнительного M-канального звукового сигнала (R, RS, RB, TFR, TBR) на основе дополнительного сигнала понижающего микширования, при этом первый канал (R1) дополнительного сигнала понижающего микширования соответствует линейной комбинации первой группы (403) из одного или более каналов дополнительного M-канального звукового сигнала, при этом второй канал (R2) дополнительного сигнала понижающего микширования соответствует линейной комбинации второй группы (403) из одного или более каналов дополнительного M-канального звукового сигнала и при этом первая и вторая группы каналов дополнительного M-канального звукового сигнала составляют разбиение M каналов дополнительного Mканального звукового сигнала, приема по меньшей мере части дополнительных метаданных; и предоставления дополнительного двухканального выходного сигнала ^2) на основе дополнительного сигнала понижающего микширования и принятых дополнительных метаданных, при этом дополнительный блок декодирования содержит дополнительный блок декорреляции, выполненный с возможностью приема по меньшей мере одного канала дополнительного сигнала понижающего микширования и вывода на его основе дополнительного декоррелированного сигнала; и дополнительный блок микширования, выполненный с возможностью определения набора дополнительных коэффициентов микширования на основе принятых дополнительных метаданных и формирования дополнительного выходного сигнала как линейной комбинации дополнительного сигнала понижающего микширования и дополнительного декоррелированного сигнала согласно дополнительным коэффициентам микширования, при этом дополнительный блок микширования выполнен с возможностью определения дополнительных коэффициентов микширования таким образом, что:
первый канал (^ι) дополнительного выходного сигнала аппроксимирует линейную комбинацию третьей группы (503) из одного или более каналов дополнительного M-канального звукового сигнала;
второй канал (^2) дополнительного выходного сигнала аппроксимирует линейную комбинацию четвертой группы (504) из одного или более каналов дополнительного M-канального звукового сигнала;
третья и четвертая группы каналов дополнительного M-канального звукового сигнала составляют разбиение M каналов дополнительного M-канального звукового сигнала; и как третья, так и четвертая группы каналов дополнительного M-канального звукового сигнала содержат по меньшей мере один канал из указанной первой группы каналов дополнительного Mканального звукового сигнала.
26. Система декодирования согласно любому из примеров 24-25, дополнительно содержащая демультиплексор (801), выполненный с возможностью извлечения из битового потока (В) сигнала понижающего микширования, указанных принятых метаданных и дискретно кодированного звукового канала (С); и блок одноканального декодирования, применяемый для декодирования указанного дискретно кодированного звукового канала.
27. Способ (300) кодирования звука, включающий:
прием (310) M-канального звукового сигнала (L, LS, LB, TFL, TBL), где M>4;
вычисление (320) двухканального сигнала (L1, L2) понижающего микширования на основе Mканального звукового сигнала, при этом первый канал (L1) сигнала понижающего микширования формируют как линейную комбинацию первой группы (401) из одного или более каналов M-канального звукового сигнала и второй канал (L2) сигнала понижающего микширования формируют как линейную комбинацию второй группы (402) из одного или более каналов M-канального звукового сигнала, при этом первая и вторая группы составляют разбиение M каналов M-канального звукового сигнала;
определение (330) параметров (aLU) повышающего микширования для параметрического восстановления M-канального звукового сигнала из сигнала понижающего микширования, определение (340) параметров микширования для получения на основе сигнала понижающего микширования двухканального выходного сигнала Дь L2), при этом первый канал (Е) выходного сигнала
- 36 034250 аппроксимирует линейную комбинацию третьей группы (501) из одного или более каналов Mканального звукового сигнала, при этом второй канал (G) выходного сигнала аппроксимирует линейную комбинацию четвертой группы (502) из одного или более каналов M-канального звукового сигнала, при этом третья и четвертая группы составляют разбиение M каналов M-канального звукового сигнала и при этом как третья, так и четвертая группы содержат по меньшей мере один канал из указанной первой группы; и вывод (350) сигнала понижающего микширования и метаданных для совместного хранения или передачи, при этом метаданные содержат параметры повышающего микширования и параметры микширования.
28. Способ кодирования звука согласно примеру 27, в котором параметры микширования задают соответствующие вклады сигнала понижающего микширования и декоррелированного сигнала в выходной сигнал, причем, по меньшей мере, некоторые параметры микширования определяют путем минимизации вклада декоррелированного сигнала среди таких параметров микширования, которые приводят к тому, что каналы выходного сигнала представляют собой сохраняющие ковариацию аппроксимации для указанных линейных комбинаций соответственно первой и второй групп каналов.
29. Способ кодирования звука согласно любому из примеров 27-28, в котором указанная первая группа состоит из N каналов, где N>3, при этом, по меньшей мере, некоторые из параметров повышающего микширования являются пригодными для параметрического восстановления указанной первой группы из указанного первого канала сигнала понижающего микширования и Щ-1)-канального декоррелированного сигнала, определяемого на основе указанного первого канала сигнала понижающего микширования, при этом определение параметров повышающего микширования включает определение набора коэффициентов сухого повышающего микширования с целью определения линейного отображения указанного первого канала сигнала понижающего микширования, аппроксимирующего указанную первую группу; и определение промежуточной матрицы на основе разности между ковариацией указанной принятой первой группы и ковариацией указанной первой группы, аппроксимированной путем линейного отображения указанного первого канала сигнала понижающего микширования, при этом промежуточная матрица при ее умножении на предварительно определенную матрицу соответствует набору коэффициентов влажного повышающего микширования, определяющих линейное отображение указанного декоррелированного сигнала как часть параметрического восстановления указанной первой группы, при этом набор коэффициентов влажного повышающего микширования содержит больше коэффициентов, чем количество элементов в промежуточной матрице, причем указанные параметры повышающего микширования содержат параметры сухого повышающего микширования, из которых можно получить набор коэффициентов сухого повышающего микширования, и параметры влажного повышающего микширования, уникальным образом определяющие промежуточную матрицу при условии, что промежуточная матрица принадлежит к предварительно определенному классу матриц, при этом промежуточная матрица содержит больше элементов, чем количество указанных параметров влажного повышающего микширования.
30. Способ кодирования звука согласно любому из примеров 27-29, дополнительно включающий выбор одного по меньшей мере из двух форматов (F1, F2, F3) кодирования, при этом форматы кодирования относятся к соответствующим разным разбиениям каналов M-канального звукового сигнала на соответствующие первую и вторую группы, связанные с каналами сигнала понижающего микширования, при этом первый и второй каналы сигнала понижающего микширования формируют как линейные комбинации соответственно первой и второй групп из одного или более каналов M-канального звукового сигнала согласно выбранному формату кодирования, при этом параметры повышающего микширования и параметры микширования определяют на основе выбранного формата кодирования, при этом способ дополнительно включает предоставление сигнальной информации, указывающей выбранный формат кодирования.
31. Система (200) кодирования звука, содержащая блок (100) кодирования, выполненный с возможностью кодирования M-канального звукового сигнала (L, LS, LB, TFL, TBL) как двухканального сигнала (L1, L2) понижающего микширования и связанных метаданных, где M>4, и вывода сигнала понижающего микширования и метаданных для совместного хранения или передачи, при этом блок кодирования содержит блок (110) понижающего микширования, выполненный с возможностью вычисления сигнала понижающего микширования на основе M-канального звукового сигнала, при этом первый канал (L1) сигнала понижающего микширования формируется как линейная комбинация первой группы (401) из одного или более каналов M-канального звукового сигнала, и второй канал (L2) сигнала понижающего микширования формируется как линейная комбинация второй группы (402) из одного или более каналов Mканального звукового сигнала, при этом первая и вторая группы составляют разбиение M каналов Mканального звукового сигнала; и блок (120) анализа, выполненный с возможностью определения
- 37 034250 параметров (aLU) повышающего микширования для параметрического восстановления Mканального звукового сигнала из сигнала понижающего микширования и параметров (aLM) микширования для получения на основе сигнала понижающего микширования двухканального выходного сигнала 01’ О)> при этом первый канал Οι) выходного сигнала аппроксимирует линейную комбинацию третьей группы (501) из одного или более каналов M-канального звукового сигнала, при этом второй канал Ог) выходного сигнала аппроксимирует линейную комбинацию четвертой группы (502) из одного или более каналов M-канального звукового сигнала, при этом третья и четвертая группы составляют разбиение M каналов M-канального звукового сигнала и при этом как третья, так и четвертая группы содержат по меньшей мере один канал из указанной первой группы, при этом метаданные содержат параметры повышающего микширования и параметры микширования.
32. Компьютерный программный продукт, содержащий машиночитаемый носитель с командами для выполнения способа согласно любому из примеров 1-23 и 27-30.
33. Машиночитаемый носитель (1100), представляющий двухканальный сигнал (L1, L2) понижающего микширования;
параметры (aLU) повышающего микширования, предоставляющие возможность параметрического восстановления M-канального звукового сигнала (L, LS, LB, TFL, TBL) на основе сигнала понижающего микширования, где M>4, при этом первый канал (L1) сигнала понижающего микширования соответствует линейной комбинации первой группы (401) из одного или более каналов M-канального звукового сигнала, при этом второй канал (L2) сигнала понижающего микширования соответствует линейной комбинации второй группы (402) из одного или более каналов M-канального звукового сигнала и при этом первая и вторая группы составляют разбиение M каналов M-канального звукового сигнала; и параметры (aLM) микширования, обеспечивающие возможность предоставления двухканального выходного сигнала Oi’ G) на основе сигнала понижающего микширования, при этом первый канал Οι) выходного сигнала аппроксимирует линейную комбинацию третьей группы (501) из одного или более каналов M-канального звукового сигнала, при этом второй канал Ог) выходного сигнала аппроксимирует линейную комбинацию четвертой группы (502) из одного или более каналов M-канального звукового сигнала, при этом третья и четвертая группы составляют разбиение M каналов M-канального звукового сигнала и при этом как третья, так и четвертая группы содержат по меньшей мере один канал из указанной первой группы.
34. Машиночитаемый носитель данных согласно примеру 33, в котором данные, представляемые носителем данных, упорядочены во временных кадрах и разделены на уровни таким образом, что для данного временного кадра сигнал понижающего микширования и связанные параметры микширования для этого временного кадра могут быть извлечены независимо от связанных параметров повышающего микширования.

Claims (16)

  1. ФОРМУЛА ИЗОБРЕТЕНИЯ
    1. Способ (1000) декодирования звука, включающий прием (1010) двухканального сигнала (L1, L2) понижающего микширования, который связан с метаданными, при этом метаданные содержат параметры (aLU) повышающего микширования для параметрического восстановления M-канального звукового сигнала (L, LS, LB, TFL, TBL) на основе сигнала понижающего микширования, где M>4;
    прием (1020) по меньшей мере части указанных метаданных;
    генерирование (1040) декоррелированного сигнала (D) на основе по меньшей мере одного канала сигнала понижающего микширования;
    определение (1050) набора коэффициентов микширования на основе принятых метаданных; и формирование (1060) K-канального выходного сигнала Π,..., LK как линейной комбинации сигнала понижающего микширования и декоррелированного сигнала согласно коэффициентам микширования, где 2<K<M, при этом коэффициенты микширования определяют таким образом, что сумма коэффициента микширования, задающего вклад первого канала сигнала понижающего микширования в канал выходного сигнала, и коэффициента микширования, задающего вклад первого канала сигнала понижающего микширования в другой канал выходного сигнала, имеет значение 1, причем сигнал понижающего микширования представляет M-канальный звуковой сигнал согласно первому формату (F1) кодирования, в котором первый канал (L1) сигнала понижающего микширования соответствует определенной линейной комбинации первой группы (401) из одного или более каналов M-канального звукового сигнала;
    второй канал (L2) сигнала понижающего микширования соответствует определенной линейной комбинации второй группы (402) из одного или более каналов M-канального звукового сигнала; и первая и вторая группы составляют определенное разбиение M каналов M-канального звукового
    - 38 034250 сигнала, и K-канальный выходной сигнал представляет M-канальный звуковой сигнал согласно второму формату (F2, F4) кодирования, в котором каждый из K каналов выходного сигнала аппроксимирует линейную комбинацию группы из одного или более каналов M-канального звукового сигнала;
    группы, относящиеся к соответствующим каналам выходного сигнала, составляют разбиение M каналов M-канального звукового сигнала на K групп (501-502, 1301-1303) из одного или более каналов; и по меньшей мере две из K групп содержат по меньшей мере один канал из указанной первой группы.
  2. 2. Способ декодирования звука по п.1, отличающийся тем, что K=2, K=3 или, и/или M=5 или M=6.
  3. 3. Способ декодирования звука по любому из предыдущих пунктов, отличающийся тем, что принятые метаданные содержат параметры повышающего микширования, при этом коэффициенты микширования определяют путем обработки параметров повышающего микширования.
  4. 4. Способ декодирования звука по любому из предыдущих пунктов, отличающийся тем, что в первом формате кодирования каждый из каналов M-канального звукового сигнала связан с ненулевым коэффициентом усиления, задающим вклад этого канала в одну из линейных комбинаций, которым соответствуют каналы сигнала понижающего микширования;
    во втором формате кодирования каждый из каналов M-канального звукового сигнала связан с ненулевым коэффициентом усиления, задающим вклад этого канала в одну из линейных комбинаций, аппроксимируемых каналами выходного сигнала; и для каждого из каналов M-канального звукового сигнала ненулевой коэффициент усиления, связанный с каналом в первом формате кодирования, совпадает с ненулевым коэффициентом усиления, связанным с каналом во втором формате кодирования.
  5. 5. Способ декодирования звука по любому из предыдущих пунктов, отличающийся тем, что декоррелированный сигнал представляет собой двухканальный сигнал, и при этом указанный выходной сигнал формируют путем включения в указанную линейную комбинацию сигнала понижающего микширования и декоррелированного сигнала не более чем двух каналов декоррелированного сигнала.
  6. 6. Способ декодирования звука по п.5, отличающийся тем, что K=3, и при этом формирование выходного сигнала представляет собой проецирование из четырех каналов в три канала.
  7. 7. Способ декодирования звука по любому из предыдущих пунктов, отличающийся тем, что Mканальный звуковой сигнал содержит или три или четыре канала (L, LS, LB или LSCRN, LW, LS, LB), представляющие разные горизонтальные направления в среде воспроизведения для M-канального звукового сигнала, и два канала (TFL, TBL), представляющие направления, отделенные по вертикали от направлений указанных трех или четырех каналов в указанной среде воспроизведения.
  8. 8. Способ декодирования звука по п.7, отличающийся тем, что указанная первая группа состоит из указанных трех каналов, и при этом указанная вторая группа состоит из двух каналов, представляющих направления, отделенные по вертикали от направлений указанных трех каналов в указанной среде воспроизведения.
  9. 9. Способ декодирования звука по п.7, отличающийся тем, что одна из K групп содержит оба из двух каналов, представляющих направления, отделенные по вертикали от направлений указанных трех или четырех каналов в указанной среде воспроизведения.
  10. 10. Способ декодирования звука по любому из предыдущих пунктов, отличающийся тем, что декоррелированный сигнал содержит два канала, при этом первый канал декоррелированного сигнала получают на основе первого канала сигнала понижающего микширования, а второй канал декоррелированного сигнала получают на основе второго канала сигнала понижающего микширования.
  11. 11. Способ декодирования звука по любому из предыдущих пунктов, отличающийся тем, что дополнительно включает передачу сигнальной информации (1030), указывающей один по меньшей мере из двух форматов (F1,F2,F3) кодирования M-канального звукового сигнала, при этом форматы кодирования относятся к соответствующим разным разбиениям каналов M-канального звукового сигнала на соответствующие первую и вторую группы, связанные с каналами сигнала понижающего микширования, при этом K групп являются предварительно определенными и при этом коэффициенты микширования определяют так, что для указанных по меньшей мере двух форматов кодирования сохраняется единственное разбиение M-канального звукового сигнала на K групп каналов, аппроксимируемых каналами выходного сигнала.
  12. 12. Способ декодирования звука по п.11, отличающийся тем, что в первом формате (F1) кодирования из указанных по меньшей мере двух форматов кодирования указанная первая группа состоит из трех каналов (L, LS, LB), представляющих разные горизонтальные направления в среде воспроизведения для M-канального звукового сигнала, и указанная вторая группа состоит из двух каналов (TFL, TBL), представляющих направления, отделенные по вертикали от направлений указанных трех каналов в указанной среде воспроизведения; и во втором формате (F2) кодирования из указанных по меньшей мере двух форматов кодирования каждая из указанных первой и второй групп содержит один из указанных двух каналов, представляющих
    - 39 034250 направления, отделенные по вертикали от направлений указанных трех каналов в указанной среде воспроизведения.
  13. 13. Система (800) декодирования звука, содержащая блок (700, 1200) декодирования, выполненный с возможностью приема двухканального сигнала (L1, L2) понижающего микширования, который связан с метаданными, при этом метаданные содержат параметры (aLU) повышающего микширования для параметрического восстановления M-канального звукового сигнала (L, LS, LB, TFL, TBL) на основе сигнала понижающего микширования, где M>4 ;
    приема по меньшей мере части указанных метаданных; и предоставления K-канального выходного сигнала G··’ на основе сигнала понижающего микширования и принятых метаданных, где 2<K<M, при этом блок декодирования содержит блок (710, 1210) декорреляции, выполненный с возможностью приема по меньшей мере одного канала сигнала понижающего микширования и вывода на его основе декоррелированного сигнала (D); и блок (720, 1220) микширования, выполненный с возможностью определения набора коэффициентов микширования на основе принятых метаданных и формирования выходного сигнала как линейной комбинации сигнала понижающего микширования и декоррелированного сигнала согласно коэффициентам микширования, при этом блок микширования выполнен с возможностью определения коэффициентов микширования таким образом, что сумма коэффициента микширования, задающего вклад первого канала сигнала понижающего микширования в канал выходного сигнала, и коэффициента микширования, задающего вклад первого канала сигнала понижающего микширования в другой канал выходного сигнала, имеет значение 1, причем сигнал понижающего микширования представляет M-канальный звуковой сигнал согласно первому формату (F1) кодирования, в котором первый канал (L1) сигнала понижающего микширования соответствует определенной линейной комбинации первой группы (401) из одного или более каналов M-канального звукового сигнала;
    второй канал (L2) сигнала понижающего микширования соответствует определенной линейной комбинации второй группы (402) из одного или более каналов M-канального звукового сигнала; и первая и вторая группы составляют определенное разбиение M каналов M-канального звукового сигнала, и K-канальный выходной сигнал представляет M-канальный звуковой сигнал согласно второму формату (F2, F4) кодирования, в котором каждый из K каналов выходного сигнала аппроксимирует линейную комбинацию группы из одного или более каналов M-канального звукового сигнала;
    группы, относящиеся к соответствующим каналам выходного сигнала, составляют разбиение M каналов M-канального звукового сигнала на K групп (501-502, 1301-1303) из одного или более каналов; и по меньшей мере две из K групп содержат по меньшей мере один канал из указанной первой группы.
  14. 14. Система декодирования звука по п.13, отличающаяся тем, что также содержит дополнительный блок (805) декодирования, выполненный с возможностью приема дополнительного двухканального сигнала (R1, R2) понижающего микширования, который связан с дополнительными метаданными, при этом дополнительные метаданные содержат дополнительные параметры (aRU) повышающего микширования для параметрического восстановления дополнительного M-канального звукового сигнала (R, RS, RB, TFR, TBR) на основе дополнительного сигнала понижающего микширования, приема по меньшей мере части дополнительных метаданных; и предоставления дополнительного K-канального выходного сигнала ^х) на основе дополнительного сигнала понижающего микширования и принятых дополнительных метаданных, при этом дополнительный блок декодирования содержит дополнительный блок декорреляции, выполненный с возможностью приема по меньшей мере одного канала дополнительного сигнала понижающего микширования и вывода на его основе дополнительного декоррелированного сигнала; и дополнительный блок микширования, выполненный с возможностью определения набора дополнительных коэффициентов микширования на основе принятых дополнительных метаданных и формирования дополнительного выходного сигнала как линейной комбинации дополнительного сигнала понижающего микширования и дополнительного декоррелированного сигнала согласно дополнительным коэффициентам микширования, при этом дополнительный блок микширования выполнен с возможностью определения дополнительных коэффициентов микширования таким образом, что сумма коэффициента микширования, задающего вклад первого канала дополнительного сигнала понижающего микширования в канал дополни- 40 034250 тельного выходного сигнала, и коэффициента микширования, задающего вклад первого канала дополнительного сигнала понижающего микширования в другой канал дополнительного выходного сигнала, имеет значение 1, причем дополнительный сигнал понижающего микширования представляет дополнительный Mканальный звуковой сигнал согласно третьему формату кодирования, в котором первый канал (R1) дополнительного сигнала понижающего микширования соответствует линейной комбинации первой группы (403) из одного или более каналов дополнительного M-канального звукового сигнала;
    второй канал (R2) дополнительного сигнала понижающего микширования соответствует линейной комбинации второй группы (404) из одного или более каналов дополнительного M-канального звукового сигнала; и первая и вторая группы каналов дополнительного M-канального звукового сигнала составляют разбиение M каналов дополнительного M-канального звукового сигнала, дополнительный K-канальный выходной сигнал представляет дополнительный M-канальный звуковой сигнал согласно четвертому формату кодирования, в котором каждый из K каналов дополнительного выходного сигнала аппроксимирует линейную комбинацию группы из одного или более каналов M-канального звукового сигнала;
    группы, относящиеся к соответствующим каналам дополнительного выходного сигнала, составляют разбиение M каналов дополнительного M-канального звукового сигнала на K групп (503-504; 13041306) из одного или более каналов; и по меньшей мере две из K групп из одного или более каналов дополнительного M-канального звукового сигнала содержат по меньшей мере один канал из указанной первой группы каналов дополнительного M-канального звукового сигнала.
  15. 15. Система декодирования по любому из пп.13, 14, отличающаяся тем, что дополнительно содержит демультиплексор (801), выполненный с возможностью извлечения из битового потока (B) сигнала понижающего микширования, указанных принятых метаданных и дискретно кодированного звукового канала (C); и блок одноканального декодирования, применяемый для декодирования указанного дискретно кодированного звукового канала.
  16. 16. Машиночитаемый носитель, содержащий компьютерный программный продукт с командами для выполнения способа по любому из пп.1-12.
EA201790753A 2014-10-31 2015-10-28 Параметрическое микширование звуковых сигналов EA034250B1 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462073462P 2014-10-31 2014-10-31
US201562167711P 2015-05-28 2015-05-28
PCT/EP2015/075022 WO2016066705A1 (en) 2014-10-31 2015-10-28 Parametric mixing of audio signals

Publications (2)

Publication Number Publication Date
EA201790753A1 EA201790753A1 (ru) 2017-12-29
EA034250B1 true EA034250B1 (ru) 2020-01-21

Family

ID=54364338

Family Applications (1)

Application Number Title Priority Date Filing Date
EA201790753A EA034250B1 (ru) 2014-10-31 2015-10-28 Параметрическое микширование звуковых сигналов

Country Status (39)

Country Link
US (1) US9930465B2 (ru)
EP (1) EP3213322B1 (ru)
JP (1) JP6686015B2 (ru)
KR (1) KR102501969B1 (ru)
CN (1) CN107112020B (ru)
AU (1) AU2015340622B2 (ru)
CA (1) CA2965731C (ru)
CL (1) CL2017001037A1 (ru)
CO (1) CO2017004283A2 (ru)
CY (1) CY1121917T1 (ru)
DK (1) DK3213322T3 (ru)
EA (1) EA034250B1 (ru)
EC (1) ECSP17023702A (ru)
ES (1) ES2732668T3 (ru)
GE (1) GEP20196960B (ru)
GT (1) GT201700088A (ru)
HK (1) HK1243547B (ru)
HR (1) HRP20191107T1 (ru)
HU (1) HUE044368T2 (ru)
IL (1) IL251789B (ru)
LT (1) LT3213322T (ru)
ME (1) ME03453B (ru)
MX (1) MX364405B (ru)
MY (1) MY190174A (ru)
PE (1) PE20170759A1 (ru)
PH (1) PH12017500723B1 (ru)
PL (1) PL3213322T3 (ru)
PT (1) PT3213322T (ru)
RS (1) RS58874B1 (ru)
SA (1) SA517381440B1 (ru)
SG (1) SG11201703263PA (ru)
SI (1) SI3213322T1 (ru)
SV (1) SV2017005431A (ru)
TN (1) TN2017000143A1 (ru)
TW (1) TWI587286B (ru)
UA (1) UA123388C2 (ru)
UY (1) UY36378A (ru)
WO (1) WO2016066705A1 (ru)
ZA (1) ZA201702647B (ru)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2704266C2 (ru) * 2014-10-31 2019-10-25 Долби Интернешнл Аб Параметрическое кодирование и декодирование многоканальных аудиосигналов
WO2016172254A1 (en) 2015-04-21 2016-10-27 Dolby Laboratories Licensing Corporation Spatial audio signal manipulation
JP2022518744A (ja) * 2019-01-21 2022-03-16 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 空間オーディオ表現を符号化するための装置および方法、またはトランスポートメタデータを使用して符号化されたオーディオ信号を復号するための装置および方法、ならびに関連するコンピュータプログラム
US11523239B2 (en) * 2019-07-22 2022-12-06 Hisense Visual Technology Co., Ltd. Display apparatus and method for processing audio

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060165184A1 (en) * 2004-11-02 2006-07-27 Heiko Purnhagen Audio coding using de-correlated signals
WO2014126689A1 (en) * 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for controlling the inter-channel coherence of upmixed audio signals

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US20060106620A1 (en) 2004-10-28 2006-05-18 Thompson Jeffrey K Audio spatial environment down-mixer
US7813933B2 (en) 2004-11-22 2010-10-12 Bang & Olufsen A/S Method and apparatus for multichannel upmixing and downmixing
JP2008529364A (ja) 2005-01-24 2008-07-31 ティ エイチ エックス リミテッド 周辺及び直接サラウンドサウンドシステム
TWI313857B (en) * 2005-04-12 2009-08-21 Coding Tech Ab Apparatus for generating a parameter representation of a multi-channel signal and method for representing multi-channel audio signals
DE602006004959D1 (de) * 2005-04-15 2009-03-12 Dolby Sweden Ab Zeitliche hüllkurvenformgebung von entkorrelierten signalen
EP2629292B1 (en) * 2006-02-03 2016-06-29 Electronics and Telecommunications Research Institute Method and apparatus for control of randering multiobject or multichannel audio signal using spatial cue
US7965848B2 (en) 2006-03-29 2011-06-21 Dolby International Ab Reduced number of channels decoding
AU2007312598B2 (en) 2006-10-16 2011-01-20 Dolby International Ab Enhanced coding and parameter representation of multichannel downmixed object coding
JP5270566B2 (ja) 2006-12-07 2013-08-21 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
US8908873B2 (en) 2007-03-21 2014-12-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
ES2452348T3 (es) * 2007-04-26 2014-04-01 Dolby International Ab Aparato y procedimiento para sintetizar una señal de salida
TWI395204B (zh) * 2007-10-17 2013-05-01 Fraunhofer Ges Forschung 一種使用下混合的音頻編碼的音頻解碼器、音頻物件編碼器、多音頻物件編碼方法、用於對多音頻物件信號進行解碼的方法,以及執行這些方法的具有程式碼的程式
US8639368B2 (en) * 2008-07-15 2014-01-28 Lg Electronics Inc. Method and an apparatus for processing an audio signal
EP2214162A1 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
EP2214161A1 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for upmixing a downmix audio signal
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
AU2010321013B2 (en) 2009-11-20 2014-05-29 Dolby International Ab Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
BR112014004129A2 (pt) 2012-07-02 2017-06-13 Sony Corp dispositivos e métodos de decodificação e de codificação, e, programa
RU2643644C2 (ru) 2012-07-09 2018-02-02 Конинклейке Филипс Н.В. Кодирование и декодирование аудиосигналов
ES2660778T3 (es) 2013-10-21 2018-03-26 Dolby International Ab Reconstrucción paramétrica de señales de audio

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060165184A1 (en) * 2004-11-02 2006-07-27 Heiko Purnhagen Audio coding using de-correlated signals
WO2014126689A1 (en) * 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for controlling the inter-channel coherence of upmixed audio signals

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HERRE, JüRGEN; KJöRLING, KRISTOFER; BREEBAART, JEROEN; FALLER, CHRISTOF; DISCH, SASCHA; PURNHAGEN, HEIKO; KOPPENS, JEROEN; HILPE: "MPEG Surround-The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", JAES, AES, 60 EAST 42ND STREET, ROOM 2520 NEW YORK 10165-2520, USA, vol. 56, no. 11, 1 November 2008 (2008-11-01), 60 East 42nd Street, Room 2520 New York 10165-2520, USA, pages 932 - 955, XP040508729 *

Also Published As

Publication number Publication date
RS58874B1 (sr) 2019-08-30
CO2017004283A2 (es) 2017-07-19
UY36378A (es) 2016-06-01
LT3213322T (lt) 2019-09-25
SG11201703263PA (en) 2017-05-30
CY1121917T1 (el) 2020-10-14
AU2015340622B2 (en) 2021-04-01
PL3213322T3 (pl) 2019-09-30
PT3213322T (pt) 2019-07-05
UA123388C2 (uk) 2021-03-31
JP6686015B2 (ja) 2020-04-22
US9930465B2 (en) 2018-03-27
ME03453B (me) 2020-01-20
TN2017000143A1 (en) 2018-10-19
CN107112020A (zh) 2017-08-29
DK3213322T3 (da) 2019-07-15
KR20170078663A (ko) 2017-07-07
CA2965731A1 (en) 2016-05-06
US20170332185A1 (en) 2017-11-16
CL2017001037A1 (es) 2017-12-01
CN107112020B (zh) 2021-01-22
TW201629951A (zh) 2016-08-16
CA2965731C (en) 2023-12-05
KR102501969B1 (ko) 2023-02-21
PH12017500723A1 (en) 2017-10-09
SI3213322T1 (sl) 2019-08-30
MX364405B (es) 2019-04-24
PH12017500723B1 (en) 2017-10-09
JP2017537342A (ja) 2017-12-14
TWI587286B (zh) 2017-06-11
GT201700088A (es) 2019-08-12
EA201790753A1 (ru) 2017-12-29
ES2732668T3 (es) 2019-11-25
WO2016066705A1 (en) 2016-05-06
ECSP17023702A (es) 2018-03-31
HRP20191107T1 (hr) 2019-10-18
SV2017005431A (es) 2017-06-07
IL251789B (en) 2019-07-31
HK1243547B (zh) 2019-11-29
PE20170759A1 (es) 2017-07-04
AU2015340622A1 (en) 2017-04-20
EP3213322A1 (en) 2017-09-06
SA517381440B1 (ar) 2020-05-23
MX2017005409A (es) 2017-06-21
IL251789A0 (en) 2017-06-29
GEP20196960B (en) 2019-03-25
ZA201702647B (en) 2018-08-29
NZ731194A (en) 2020-11-27
EP3213322B1 (en) 2019-04-03
MY190174A (en) 2022-03-31
HUE044368T2 (hu) 2019-10-28
BR112017007521A2 (pt) 2017-12-19

Similar Documents

Publication Publication Date Title
JP4589962B2 (ja) レベル・パラメータを生成する装置と方法、及びマルチチャネル表示を生成する装置と方法
KR102486365B1 (ko) 오디오 신호들의 파라메트릭 재구성
US11037578B2 (en) Encoder and encoding method for multi-channel signal, and decoder and decoding method for multi-channel signal
CN107077861B (zh) 音频编码器和解码器
JP2023029374A (ja) マルチチャネル・オーディオ・コンテンツの符号化
EA034250B1 (ru) Параметрическое микширование звуковых сигналов
KR20160056324A (ko) 오디오 신호들의 파라메트릭 재구성을 위한 역상관기 구조
NZ731194B2 (en) Parametric mixing of audio signals