EA034371B1 - Аудиодекодер и способ декодирования - Google Patents

Аудиодекодер и способ декодирования Download PDF

Info

Publication number
EA034371B1
EA034371B1 EA201890557A EA201890557A EA034371B1 EA 034371 B1 EA034371 B1 EA 034371B1 EA 201890557 A EA201890557 A EA 201890557A EA 201890557 A EA201890557 A EA 201890557A EA 034371 B1 EA034371 B1 EA 034371B1
Authority
EA
Eurasian Patent Office
Prior art keywords
frequency
parameters
low
signals
conversion parameters
Prior art date
Application number
EA201890557A
Other languages
English (en)
Other versions
EA201890557A1 (ru
Inventor
Дирк Ерун Бребарт
Дэвид Мэттью Купер
Лейф Йонас САМУЭЛЬССОН
Original Assignee
Долби Лэборетериз Лайсенсинг Корпорейшн
Долби Интернэшнл Аб
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Лэборетериз Лайсенсинг Корпорейшн, Долби Интернэшнл Аб filed Critical Долби Лэборетериз Лайсенсинг Корпорейшн
Publication of EA201890557A1 publication Critical patent/EA201890557A1/ru
Publication of EA034371B1 publication Critical patent/EA034371B1/ru

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/03Aspects of the reduction of energy consumption in hearing devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

Способ представления второго представления аудиоканалов или объектов как потока данных, причем способ содержит следующие этапы: (a) обеспечение множества базовых сигналов, базовые сигналы представляют первое представление аудиоканалов или объектов; (b) обеспечение множества параметров преобразования, параметры преобразования предназначены для преобразования первого представления во второе представление; параметры преобразования также заданы по меньшей мере для двух частотных полос и включают в себя множество параметров матрицы свертки с несколькими отводами по меньшей мере для одной из частотных полос.

Description

Настоящее изобретение относится к области обработки сигналов и, в частности, раскрывает систему для эффективной передачи аудиосигналов, имеющих компоненты для ориентации в пространстве.
Уровень техники
Любое обсуждение уровня техники по тексту описания никоим образом не должно рассматриваться как признание того, что такая область техники широко известна или является частью общедоступных сведений в предметной области.
Создание контента, кодирование, распространение и воспроизведение аудиоинформации традиционно выполняются в формате на основе каналов, то есть одна конкретная целевая система воспроизведения предусматривается для контента в экосистеме контента. Примерами таких целевых форматов аудиосистем воспроизведения являются моно, стерео, 5.1, 7.1 и т.п.
Если контент должен быть воспроизведен на другой системе воспроизведения, отличающейся от намеченной, может быть применен процесс понижающего микширования или повышающего микширования. Например, контент в формате 5.1 может быть воспроизведен на системе воспроизведения стерео с использованием заданных уравнений понижающего микширования. Другим примером является воспроизведение контента, закодированного в формате стерео, на конфигурации динамиков 7.1, которое может содержать процесс так называемого повышающего микширования, которым может управлять или не управлять информация, присутствующая в стереосигнале. Системой, способной к повышающему микшированию, является система Dolby Pro Logic от Dolby Laboratories Inc (Roger Dressier, Dolby Pro Logic Surround Decoder, Principles of Operation, www.Dolby.com).
Когда контент в формате стерео или в многоканальном формате должен быть воспроизведен в наушниках, часто желательно смоделировать многоканальную конфигурацию динамиков посредством импульсных характеристик слухового аппарата (HRIR) или бинауральных импульсных характеристик комнаты (BRIR), которые моделируют путь прохождения звука от каждого динамика до барабанных перепонок в (смоделированной) окружающей среде без эха и с эхом соответственно. В частности, аудиосигналы могут быть подвергнуты свертке с помощью характеристик HRIR или BRIR, чтобы восстановить разности уровней между ушами (ILD), разности времени между ушами (ITD) и спектральные признаки, которые позволяют слушателю определять местоположение каждого индивидуального канала. Моделирование акустической окружающей среды (реверберация) также помогает достигнуть некоторого восприятия расстояния.
Локализация источника звука и моделирование виртуального динамика.
Когда контент в формате стерео, в многоканальном формате или в формате на основе объектов должен быть воспроизведен в наушниках, часто желательно смоделировать многоканальную конфигурацию динамиков или множество отдельных виртуальных акустических объектов посредством свертки с помощью импульсных характеристик слухового аппарата (HRIR) или бинауральных импульсных характеристик комнаты (BRIR), которые моделируют путь прохождения звука от каждого динамика до барабанных перепонок в (смоделированной) окружающей среде без эха и с эхом соответственно.
В частности, аудиосигналы подвергаются свертке с помощью характеристик HRIR или BRIR, чтобы восстановить разности уровней между ушами (ILD), разности времени между ушами (ITD) и спектральные признаки, которые позволяют слушателю определять местоположение каждого индивидуального канала или объекта. Моделирование акустической окружающей среды (ранние отражения и поздняя реверберация) помогает достигнуть некоторого восприятия расстояния.
Обратимся к фиг. 1, на которой проиллюстрирован схематический обзор 10 потока обработки для рендеризации двух объектов или канальных сигналов X; 13, 11, считываемых из хранилища 12 контента для обработки, например, посредством четырех характеристик 14 HRIR. Выходные данные характеристик HRIR затем суммируются 15, 16 для каждого канального сигнала, чтобы произвести выходные данные динамиков наушников для воспроизведения слушателю через наушники 18. Основной принцип характеристик HRIR, например, разъяснен в литературе Wightman et al. (1989).
Подход со сверткой с помощью характеристик HRIR/BRIR сопровождается несколькими недостатками, одним из которых является значительное количество обработки, которая требуется для воспроизведения с помощью наушников. Свертка с помощью характеристики HRIR или BRIR должна быть применена для каждого входного объекта или канала отдельно, и поэтому сложность, как правило, растет линейно в зависимости от количества каналов или объектов. Поскольку наушники, как правило, используются вместе с работающими от аккумулятора портативными устройствами, высокая вычислительная сложность не желательна, поскольку она в значительной степени сокращает время работы от батареи. Кроме того, с введением аудиоконтента на основе объектов, который может содержать более чем 100 активных объектов одновременно, сложность свертки с помощью характеристики HRIR может быть в
- 1 034371 значительной степени выше, чем для традиционного контента на основе каналов.
Методика параметрического кодирования.
Вычислительная сложность не является единственной проблемой для доставки контента на основе каналов или объектов в экосистеме, включающей в себя создание, распределение и воспроизведение контента. Во многих ситуациях на практике, и особенно для мобильных приложений, сильно ограничена скорость передачи данных, доступная для доставки контента. Потребители, телевизионные компании и поставщики контента доставляли аудиоконтент в формате стерео (с двумя каналами) с использованием перцепционных аудиокодеков с потерями с типичными битрейтами между 48 и 192 кбит/с. Эти традиционные основанные на каналах аудиокодеки, такие как уровень MPEG-1 layer 3 (Brandenberg et al., 1994), MPEG AAC (Bosi et al., 1997) и Dolby Digital (Andersen et al., 2004), имеют битрейт, который масштабируется приблизительно линейно в зависимости от количества каналов. В результате доставка десятков или даже сотен объектов приводит к битрейтам, которые затруднительны или даже недоступны для целей доставки потребителю.
Чтобы сделать возможной доставку сложного контента на основе объектов при битрейтах, которые сопоставимы с битрейтом, требуемым для доставки контента в формате стерео, с использованием традиционных перцепционных аудиокодеков, за прошлое десятилетие подверглись научным исследованиям так называемые параметрические методы. Эти параметрические методы дают возможность воссоздания большого количества каналов или объектов из относительно низкого количества базовых сигналов. Эти базовые сигналы могут быть перенесены от отправителя к получателю с использованием традиционных аудиокодеков с дополнительной (параметрической) информацией, чтобы сделать возможным воссоздание исходных объектов или каналов. Примерами таких методик являются Parametric Stereo (Schuijers et al., 2004), MPEG Surround (Herre et al., 2008) и MPEG Spatial Audio Object Coding (Herre et al., 2012).
Важным аспектом таких методик, как Parametric Stereo и MPEG Surround, является то, что эти методы нацелены на параметрическое воссоздание единственного предварительно заданного представления (например, динамики стерео в Parametric Stereo и динамики 5.1 в MPEG Surround). В случае MPEG Surround виртуализатор наушников может быть интегрирован в декодер, который генерирует конфигурацию виртуальных динамиков 5.1 для наушников, в которых виртуальные динамики 5.1 соответствуют конфигурации динамиков 5.1 для воспроизведения с помощью динамиков. Следовательно, эти представления весьма зависимы в том, что представление для наушников представляет ту же самую (виртуальную) схему размещения динамиков, что и представление для динамиков. MPEG Spatial Audio Object Coding (пространственное кодирование аудиообъектов MPEG), с другой стороны, нацелено на воссоздание объектов, которые требуют последующей рендеризации.
Обратимся теперь к фиг. 2, на которой будет обзорно описана параметрическая система 20, поддерживающая каналы и объекты. Система разделена на кодер 21 и декодер 22. Кодер 21 принимает каналы и объекты 23 в качестве входных данных и генерирует звукозапись 24 с понижающим микшированием с ограниченным количеством базовых сигналов. Кроме того, вычисляется последовательность параметров 25 воссоздания объектов/каналов. Кодер 26 сигналов кодирует базовые сигналы из блока 24 понижающего микширования и включает в итоговый битовый поток вычисленные параметры 25, а также метаданные 27 объектов, указывающие, каким образом объекты должны быть рендеризированы.
Декодер 22 сначала декодирует 29 базовые сигналы, затем выполняется воссоздание 30 каналов и/или объектов с помощью переданных параметров 31 воссоздания. Полученные в результате сигналы могут быть воспроизведены непосредственно (если это каналы) или могут быть рендеризированы 32 (если это объекты). В последнем случае каждый воссозданный сигнал объекта рендеризируется в соответствии со своими привязанными метаданными 33 объекта. Одним примером таких метаданных является вектор позиции (например, координаты x, y и z объекта в трехмерной системе координат).
Матрицирование декодера.
Воссоздание 30 объектов и/или каналов может быть достигнуто посредством переменных по времени и частоте матричных операций. Если декодированные базовые сигналы 35 обозначены как Zs[n], где s - индекс базового сигнала и n - индекс отсчета, первый этап, как правило, содержит преобразование базовых сигналов посредством преобразования или набора фильтров.
Могут быть использованы самые различные преобразования и наборы фильтров, такие как дискретное преобразование Фурье (DFT), модифицированное дискретное косинусное преобразование (MDCT) или набор квадратурных зеркальных фильтров (QMF). Выходные данные такого преобразования или набора фильтров обозначены как Zs[k,b], где b - индекс подполосы или спектральный индекс, и k - индекс кадра, слота или времени или отсчета подполосы.
В большинстве случаев индексы подполос или спектральные индексы отображаются на меньшее множество параметрических полос p, которые имеют общие параметры воссоздания объектов/каналов. Это может быть обозначено как beB(p). Другими словами, B(p) представляет множество последовательных подполос b, которые принадлежат параметрической полосе с индексом p. С другой стороны, p(b) относится к параметрической полосе с индексом p, на которую была отображена подполоса b. Подполосы или воссозданные каналы или объекты Yj в области преобразования затем получаются посредством матрицирования сигналов Z; с помощью матриц M[p(b)]
- 2 034371
Yi[k,b]' [ZJkb] = M[p(b)]
Yj[k,b]
Сигналы Yj[n] воссозданных каналов и/или объектов во временной области затем получаются посредством обратного преобразования или набора фильтров для синтеза.
Приведенный выше процесс, как правило, применяется к некоторому ограниченному диапазону отсчетов, слотов или кадров к подполосы. Другими словами, матрицы M[p(b)], как правило, обновляются/модифицируются со временем. Для простоты обозначения эти обновления здесь не обозначены. Однако считается, что обработка множества отсчетов k, связанного с матрицей M[p(b)], может являться переменным по времени процессом.
В некоторых случаях, в которых количество воссозданных сигналов J значительно больше, чем количество базовых сигналов S, часто полезно использовать выходные данные Dm[k,b] факультативного декоррелятора, воздействующие на один или более базовых сигналов, которые могут быть включены в воссозданные выходные сигналы
Zs[k,b] [YJk-b]'
Yj[k,b] = M[p(b)] zx[k,b] zs[k,b] Dx[k,b]
DM[k,b]
Фиг. 3 более подробно схематично иллюстрирует одну форму блока 30 воссоздания каналов или объектов, показанного на фиг. 2. Входные сигналы 35 сначала обрабатываются наборами 41 фильтров, затем выполняются факультативная декорреляция (D1, D2) 44 и матрицирование 42, и применяется набор 43 фильтров для синтеза. Матричной манипуляцией M[p(b)] управляют параметры 31 воссоздания.
Предсказание с минимальной среднеквадратической ошибкой (MMSE) для воссоздания объекта/канала.
Хотя существуют разные стратегии и способы для воссоздания объектов или каналов из множества базовых сигналов Zs[k,b], один конкретный способ часто упоминается как прогноз с минимальной среднеквадратической ошибкой (MMSE), который использует корреляционные и ковариационные матрицы для вывода матричных коэффициентов M, которые минимизируют норму L2 между желаемым и воссозданным сигналами. Для этого способа предполагается, что базовые сигналы Zs[n] генерируются в блоке 24 понижающего микширования кодера как линейная комбинация сигналов xi[n] входных объектов или каналов zs[n] = Хади
Для входного контента на основе каналов коэффициенты gijs усиления амплитудного панорамирования обычно являются постоянными, в то время как для контента на основе объектов, в котором намеченная позиция объекта обеспечивается посредством переменных по времени метаданных объектов, коэффициенты gis усиления, следовательно, могут быть переменными по времени. Это уравнение также может быть сформулировано в области преобразования или подполос, и в этом случае множество коэффициентов gi=s[k] усиления используется для каждого элемента разрешения по частоте/полосы k, и, таким образом, коэффициенты gi=s[k] усиления могут быть сделаны переменными по частоте
Zs[k,b] = Ха.5[к]Х|[к,Ь]
Матрица 42 декодера, игнорируя на данный момент декорреляторы, производит
Z1[k,b]i
Yjkb]·
T = : zs[k,b] TM[P(b)]
Yj[k,b] или в матричной формулировке, опуская индекс b подполосы b и индекс p параметрической полосы для ясности
Y = ZM
Z = XG
Критерием вычисления матричных коэффициентов M кодером является минимизация среднеквадратической ошибки E, которая представляет квадратическую ошибку между выходными данными Yj декодера и первоначальными входными объектами/каналами χ Е = 2(Yjkb]-xj[k,b])2 j,k,b
Тогда матричные коэффициенты, которые минимизируют E, заданы в матричном представлении как
М = (z * Z + εΐ) _1Ζ*Χ где эпсилон - константа регуляризации, и (*) - оператор комплексно-сопряженного транспонирования. Эта операция может быть выполнена для каждой параметрической полосы p независимо, получая матрицу M[p(b)].
- 3 034371
Предсказание с минимальной среднеквадратической ошибкой (MMSE) для преобразования представления
Помимо воссоздания объектов и/или каналов параметрические методики могут использоваться для преобразования одного представления в другое представление. Примером такого преобразования представления является преобразование звукозаписи в формате стерео, предназначенной для воспроизведения с помощью динамиков, в бинауральное представление для наушников или наоборот.
Фиг. 4 иллюстрирует поток управления для способа 50 для одного такого преобразования представления. Аудиоданные объектов или каналов сначала обрабатываются в кодере 52 посредством набора 54 гибридных квадратурных зеркальных фильтров для анализа. Матрица G рендеризации динамиков вычисляется и применяется 55 к сигналам X; объектов, сохраненным в запоминающем носителе 51, на основе метаданных объектов с использованием методики амплитудного панорамирования, чтобы получить в результате представление Zs для динамиков в формате стерео. Это представление для динамиков может быть закодировано с помощью аудиокодера 57.
Кроме того, бинауральная матрица Н рендеризации генерируется и применяется 58 с использованием базы 59 данных передаточных функций слухового аппарата (HRTF). Эта матрица Н используется для вычисления бинауральных сигналов Yj, которые позволяют воссоздать бинауральную звукозапись с использованием стереофонической звукозаписи для динамиков в качестве входных данных. Матричные коэффициенты M кодируются аудиокодером 57.
Переданная информация передается от кодера 52 к декодеру 53, где она распаковывается 61 для включения компонентов M и Zs. Если в качестве системы воспроизведения используются динамики, представление для динамиков воспроизводится с использованием информации Zs каналов, и, следовательно, матричные коэффициенты M отбрасываются. С другой стороны, для воспроизведения с помощью наушников представление для динамиков сначала преобразовывается 62 в бинауральное представление посредством применения переменной по времени и частоте матрицы M перед применением гибридных фильтров QMF для синтеза и воспроизведением 60.
Если желаемые бинауральные выходные данные из элемента 62 матрицирования записаны в матричном представлении как
Y = ХН тогда матричные коэффициенты M могут быть получены в кодере 52 как
В этом применении коэффициенты матрицы H кодера, применяемой в блоке, обозначенном номером 58, обычно являются комплекснозначными, например, имеющими элемент модификации задержки или фазы, чтобы позволить восстановить разности времени между ушами, которые играют очень большую роль при восприятии для локализации источника звука в наушниках. Другими словами, бинауральная матрица H рендеризации является комплексной, и, таким образом, матрица M преобразования является комплексной. Для прозрачного для восприятия восстановления признаков локализации источника звука было показано, что желательно частотное разрешение, которое имитирует частотное разрешение слуховой системы человека (Breebaart 2010).
В упомянутых выше разделах для определения матричных коэффициентов M используется критерий минимальной среднеквадратической ошибки. Без потери общности аналогичным образом могут использоваться другие известные критерии или способы вычисления матричных коэффициентов, чтобы заменить или дополнить принцип минимальной среднеквадратической ошибки. Например, матричные коэффициенты M могут быть вычислены с использованием остаточных членов более высокого порядка или посредством минимизации нормы L1 (например, критерий наименьших абсолютных отклонений). Кроме того, могут использоваться различные способы, в том числе методики неотрицательной факторизации или оптимизации, непараметрическая оценка, оценка максимального правдоподобия и т.п. Кроме того, матричные коэффициенты могут быть вычислены с использованием итерационных процессов или процессов градиентного спуска, методов интерполяции, эвристических методов, динамического программирования, машинного обучения, нечеткой оптимизации, имитации отжига или решений в замкнутой форме, и может использоваться методика анализа посредством синтеза. Наконец, что не менее важно, на оценку матричных коэффициентов могут быть наложены ограничения различным образом, например посредством ограничения диапазона значений, условий регуляризации, наложения требований сохранения энергии и т.п.
Требования преобразования и набора фильтров.
В зависимости от применения и от того, должны ли быть воссозданы объекты или каналы, могут быть наложены определенные требования на частотное разрешение преобразования или набора фильтров для блока 41 набора фильтров на фиг. 3. В наиболее практическом применении частотное разрешение соответствует предполагаемому разрешению слуховой системы человека, чтобы дать наилучшее воспринимаемое качество звука для данного битрейта (определяемого несколькими параметрами) и сложности. Известно, что слуховая система человека может рассматриваться как набор фильтров с нелинейным частотным разрешением. Эти фильтры упоминаются как критические полосы (Zwicker, 1961), и они являют- 4 034371 ся приблизительно логарифмическими по природы. На низких частотах критические полосы составляют менее 100 Гц по ширине, в то время как на высоких частотах критические полосы могут составлять более кГц по ширине.
Это нелинейное поведение может создать проблемы, когда речь идет о конструкции набора фильтров. Преобразования и наборы фильтров могут быть очень эффективно реализованы с использованием симметрии в их структуре обработки при условии, что частотное разрешение является постоянным по частоте.
Это подразумевает, что длина преобразования или количество подполос будут определены критической шириной полосы на низких частотах, и отображение элементов разрешения DFT на так называемые параметрические полосы может использоваться для имитации нелинейного частотного разрешения. Такой процесс отображения, например, разъяснен в литературе Breebaart et al., (2005) и Breebaart et al. (2010). Один недостаток этого подхода состоит в том, что требуется очень длинное преобразование, чтобы удовлетворить ограничение низкочастотной критической ширины полосы, в то время как преобразование является относительно длинным (или неэффективным) на высоких частотах. Альтернативное решение для расширения частотного разрешения на низких частотах состоит в том, чтобы использовать структуру гибридного набора фильтров. В такой структуре используется каскад из двух наборов фильтров, в котором второй набор фильтров расширяет разрешение первого, но только в нескольких самых нижних подполосах (Schuijers и др., 2004).
Фиг. 5 иллюстрирует одну форму структуры 41 гибридного набора фильтров, подобного изложенному в литературе Schuijers et al. Входной сигнал Z[n] сначала обрабатывается набором 71 комплекснозначных квадратурных зеркальных фильтров (CQMF) для анализа. Затем сигналы подвергаются дискретизации с понижением с коэффициентом Q, например, в блоке 72, и в результате получаются сигналы Z[k,b] подполос, где k - индекс отсчета подполосы и b - индекс частоты подполосы. Кроме того, по меньшей мере один из полученных в результате сигналов подполосы обрабатывается вторым набором 74 фильтров (Найквиста), в то время как остальные сигналы подполос подвергаются задержке 75 для компенсации задержки, вносимой набором фильтров Найквиста. В этом конкретном примере каскад наборов фильтров дает в результате 8 подполос (b=1, ..., 8), которые отображаются на 6 параметрических полосах p=(1, ...,6) с нелинейным частотным разрешением. Полосы 76 объединяются вместе, чтобы сформировать одну параметрическую полосу (p=6).
Преимуществом этого подхода является более низкая сложность по сравнению с использованием единственного набора фильтров с намного большим количеством (более узких) подполос. Однако недостаток состоит в том, что задержка всей системы значительно увеличивается, и, следовательно, использование памяти также значительно больше, что вызывает увеличение потребления энергии.
Ограничения предшествующего уровня техники.
Возвращаясь к фиг. 4, предлагается на предшествующем уровне техники использовать концепцию матрицирования 62, возможно дополненную использованием декорреляторов, чтобы воссоздавать каналы, объекты или сигналы представления Yj из множества базовых сигналов Zs. Это приводит к следующей матричной формулировке для описания предшествующего уровня техники в обобщенном виде
Zjkbb
Zs[k,b] Djkb]
DM[k,b]
Yikbl TM[p(b)]
Yi[k,b]
Матричные коэффициенты M либо передаются непосредственно от кодера к декодеру либо выводятся из параметров локализации источника звука, например, как описано в литературе Breebaart et al. 2005 для параметрического кодирования стерео или Herre et al., (2008) для многоканального декодирования. Кроме того, этот подход также может использоваться для восстановления разности фаз между каналами посредством использования комплекснозначных матричных коэффициентов (см., например, Breebaart at al., 2010 и Breebaart, 2005).
Как проиллюстрировано на фиг. 6, на практике использование комплекснозначных матричных коэффициентов подразумевает, что желаемая задержка 80 представлена кусочным постоянным приближением 81 фазы. В предположении, что желаемая характеристика фазы представляет собой чистую задержку 80 с линейно уменьшающейся фазой с ростом частоты (пунктирная линия), операция комплекснозначного матрицирования предшествующего уровня техники приводит в результате к кусочному постоянному приближению 81 (сплошная линия). Приближение может быть улучшено посредством увеличения разрешения матрицы M. Однако это имеет два важных недостатка. Требуется увеличение разрешения набора фильтров, что приводит к увеличению использования памяти, более высокой вычислительной сложности, более длительному времени ожидания и, таким образом, большему потреблению энергии. Также требуется отправка большего количества параметров, что приводит к более высокому битрейту.
Все эти недостатки являются преимущественно проблематичными для мобильных устройств и устройств с батарейным питанием. Было бы выгодно иметь более оптимальное доступное решение.
- 5 034371
Сущность изобретения
Задача изобретения в его предпочтительной форме состоит в том, чтобы обеспечить улучшенную форму кодирования и декодирования аудиосигналов для воспроизведения в разных представлениях.
В соответствии с первым аспектом настоящего изобретения предложен способ представления второго представления аудиоканалов или объектов как потока данных, причем способ содержит следующие этапы: (a) обеспечение множества базовых сигналов, базовые сигналы представляют первое представление аудиоканалов или объектов; (b) обеспечение множества параметров преобразования, параметры преобразования предназначены для преобразования первого представления во второе представление; параметры преобразования также заданы по меньшей мере для двух частотных полос и включают в себя множество параметров матрицы свертки с несколькими отводами по меньшей мере для одной из частотных полос.
Множество коэффициентов фильтра может представлять фильтр с конечной импульсной характеристикой (КИХ; FIR). Множество базовых сигналов предпочтительно разделяется на последовательность временных сегментов, и множество параметров преобразования может быть обеспечено для каждого временного сегмента. Коэффициенты фильтра могут включать в себя по меньшей мере один коэффициент, который может являться комплекснозначным. Первое или второе представление может быть предназначено для воспроизведения с помощью наушников.
В некоторых вариантах осуществления параметры преобразования, соответствующие более высоким частотам, не модифицируют фазу сигнала, в то время как для более низких частот параметры преобразования модифицируют фазу сигнала. Множество коэффициентов фильтра может быть предпочтительно выполнено с возможностью обработки матрицы свертки с несколькими отводами. Множество коэффициентов фильтра может быть предпочтительно использовано для обработки низкочастотной полосы.
Множество базовых сигналов и множество параметров преобразования предпочтительно объединяются для формирования потока данных. Параметры преобразования могут включать в себя матричные коэффициенты высокочастотных аудиоданных для матричной манипуляции высокочастотной части множества базовых сигналов. В некоторых вариантах осуществления для среднечастотной части высокочастотной части множества базовых сигналов матричная манипуляция предпочтительно может включать в себя комплекснозначные параметры преобразования.
В соответствии с дополнительным аспектом настоящего изобретения предложен декодер для декодирования закодированного аудиосигнала, закодированный аудиосигнал включает в себя первое представление, включающее в себя множество базовых аудиосигналов, предназначенных для воспроизведения аудиоданных в первом формате представления аудиоданных; и множество параметров преобразования для преобразования базовых аудиосигналов в первом формате представления во второй формат представления, причем параметры преобразования включают в себя, по меньшей мере, высокочастотные параметры преобразования аудиоданных и низкочастотные параметры преобразования аудиоданных, низкочастотные параметры преобразования включают в себя параметры матрицы свертки с несколькими отводами, при этом декодер включает в себя первый блок разделения для разделения множества базовых аудиосигналов и множества параметров преобразования, блок матричного умножения для применения параметров матрицы свертки с несколькими отводами к низкочастотным компонентам базовых аудиосигналов; для применения свертки к низкочастотным компонентам, производя свернутые низкочастотные компоненты; и блок скалярного умножения для применения высокочастотных параметров преобразования аудиоданных к высокочастотным компонентам базовых аудиосигналов, чтобы произвести скалярные высокочастотные компоненты; выходной набор фильтров для объединения свернутых низкочастотных компонентов и скалярных высокочастотных компонентов, чтобы произвести выходной сигнал во временной области во втором формате представления.
Блок матричного умножения может модифицировать фазу низкочастотных компонентов базовых аудиосигналов. В некоторых вариантах осуществления параметры преобразования матрицы свертки с несколькими отводами предпочтительно являются комплекснозначными. Высокочастотные параметры преобразования аудиоданных также предпочтительно являются комплекснозначными. Множество параметров преобразования дополнительно может содержать действительнозначные параметры преобразования аудиоданных более высокой частоты. В некоторых вариантах осуществления декодер может дополнительно включать в себя фильтры для разделения базовых аудиосигналов на низкочастотные компоненты и высокочастотные компоненты.
В соответствии с дополнительным аспектом настоящего изобретения предложен способ декодирования закодированного аудиосигнала, причем закодированный аудиосигнал включает в себя первое представление, включающее в себя множество базовых аудиосигналов, предназначенных для воспроизведения аудиоданных в первом формате представления аудиоданных; и множество параметров преобразования для преобразования базовых аудиосигналов в первом формате представления во второй формат представления, причем параметры преобразования включают в себя, по меньшей мере, высокочастотные параметры преобразования аудиоданных и низкочастотные параметры преобразования аудиоданных, низкочастотные параметры преобразования включают в себя параметры матрицы свертки с несколькими
- 6 034371 отводами, при этом способ включает в себя следующие этапы: свертка низкочастотных компонентов базовых аудиосигналов с помощью низкочастотных параметров преобразования, чтобы произвести свернутые низкочастотные компоненты; умножение высокочастотных компонентов базовых аудиосигналов на высокочастотные параметры преобразования, чтобы произвести умноженные высокочастотные компоненты; объединение свернутых низкочастотных компонентов и умноженных высокочастотных компонентов, чтобы произвести частотные компоненты выходного аудиосигнала для воспроизведения во втором формате представления.
В некоторых вариантах осуществления закодированный сигнал может содержать несколько временных сегментов, способ дополнительно предпочтительно может включать в себя следующие этапы: интерполяция параметров преобразования нескольких временных сегментов закодированного сигнала, чтобы произвести интерполированные параметры преобразования, включающие в себя интерполированные низкочастотные параметры преобразования аудиоданных; и свертка нескольких временных сегментов низкочастотных компонентов базовых аудиосигналов с помощью интерполированных низкочастотных параметров преобразования аудиоданных, чтобы произвести несколько временных сегментов свернутых низкочастотных компонентов.
Множество параметров преобразования закодированного аудиосигнала может являться предпочтительно переменным по времени, и способ дополнительно предпочтительно может включать в себя следующие этапы: свертка низкочастотных компонентов с помощью низкочастотных параметров преобразования для нескольких временных сегментов, чтобы произвести несколько множеств промежуточных свернутых низкочастотных компонентов; интерполяция нескольких множеств промежуточных свернутых низкочастотных компонентов, чтобы произвести свернутые низкочастотные компоненты.
Интерполяция может использовать метод наложения и суммирования нескольких множеств промежуточных свернутых низкочастотных компонентов.
Краткое описание чертежей
Теперь будут описаны варианты осуществления изобретения лишь в качестве примера со ссылкой на прилагаемые чертежи:
фиг. 1 иллюстрирует схематический обзор процесса свертки HRIR для двух объектов источников, каждый канал или объект обрабатывается парой характеристик HRIR/BRIR;
фиг. 2 схематично иллюстрирует обобщенную параметрическую систему кодирования, поддерживающую каналы и объекты;
фиг. 3 схематично более подробно иллюстрирует одну форму блока 30 воссоздания каналов или объектов, показанного на фиг. 2;
фиг. 4 иллюстрирует поток данных способа преобразования представления для динамиков в формате стерео в бинауральное представление наушников;
фиг. 5 схематично иллюстрирует структуру гибридного набора фильтров для анализа в соответствии с предшествующим уровнем техники;
фиг. 6 иллюстрирует сравнение желаемой (пунктирная линия) и фактической (сплошная линия) характеристик фазы, полученных на предшествующем уровне техники;
фиг. 7 схематично демонстрирует иллюстративную систему набора фильтров и отображения параметров кодера в соответствии с вариантом осуществления изобретения;
фиг. 8 схематично иллюстрирует набор фильтров и отображение параметров декодера в соответствии с вариантом осуществления;
фиг. 9 иллюстрирует кодер для преобразования представления в формате стерео в бинауральное представление;
фиг. 10 схематично иллюстрирует декодер для преобразования представления в формате стерео в бинауральное представление.
Список литературы
Wightman, F. L., and Kistler, D. J. (1989).
Headphone simulation of free-field listening. I. Stimulus synthesis, J. Acoust. Soc. Am. 85, 858-867.
- 7 034371
Schuijers, Erik, et al. (2004) . Low complexity parametric stereo coding. Audio Engineering Society Convention
116. Audio Engineering Society.
Herre, J., Kjbrling, K., Breebaart, J., Faller, C.,
Disch, S., Purnhagen, H.,... & Chong, K. S. (2008). MPEG surround-the ISO/MPEG standard for efficient and compatible multichannel audio coding. Journal of the Audio Engineering Society, 56(11), 932-955.
Herre, J., Purnhagen, H., Koppens, J., Hellmuth, 0.,
Engdegard, J., Hilpert, J., & Oh, H. 0. (2012). MPEG Spatial
Audio Object Coding-the ISO/MPEG standard for efficient coding of interactive audio scenes. Journal of the Audio Engineering Society, 60(9), 655-673.
Brandenburg, K. , & Stoll, G. (1994). ISO/MPEG-1 audio: A generic standard for coding of high-quality digital audio. Journal of the Audio Engineering Society, 42(10), 780792.
Bosi, M., Brandenburg, K., Quackenbush, S., Fielder,
L., Akagiri, K. , Fuchs, H., & Dietz, M. (1997). ISO/IEC MPEG-2 advanced audio coding. Journal of the Audio engineering society, 45(10), 789-814.
Andersen, R. L., Crockett, B. G., Davidson, G. A.,
Davis, M. F., Fielder, L. D., Turner, S. C.,... & Williams, P.
A. (2004, October). Introduction to Dolby digital plus, an enhancement to the Dolby digital coding system. In Audio
Engineering Society Convention 117. Audio Engineering Society.
Zwicker, E. (1961) . Subdivision of the audible frequency range into critical bands (Frequenzgruppen). The Journal of the Acoustical Society of America, (33 (2)), 248.
Breebaart, J., van de Par, S., Kohlrausch, A., &
Schuijers, E. (2005). Parametric coding of stereo audio. EURASIP
Journal on Applied Signal Processing, 2005, 1305-1322.
Breebaart, J., Nater, F., & Kohlrausch, A. (2010) .
Spectral and spatial parameter resolution requirements for parametric, filter-bank-based HRTF processing. Journal of the Audio Engineering Society, 58(3), 126-140.
Breebaart, J., van de Par, S., Kohlrausch, A., &
Schuijers, E. (2005). Parametric coding of stereo audio. EURASIP
Journal on Applied Signal Processing, 2005, 1305-1322.
Подробное описание
Этот предпочтительный вариант осуществления обеспечивает способ воссоздания объектов, каналов или представлений из множества базовых сигналов, который может быть применен в наборах фильтров с низким частотным разрешением. Одним примером является преобразование представления в формате стерео в бинауральное представление, предназначенное для воспроизведения с помощью наушников, которое может быть применено без (гибридного) набора фильтров Найквиста. Сокращенное частотное разрешение декодера компенсируется матрицей свертки с несколькими отводами. Эта матрица свертки требует лишь небольшое количество отводов (например, два) и в практических случаях требуется только на низких частотах. Этот способ (1) сокращает вычислительную сложность декодера, (2) сокращает использование памяти декодера и (3) сокращает битрейт параметров.
В предпочтительном варианте осуществления обеспечены система и способ для преодоления нежелательной вычислительной сложности и требований к памяти на стороне декодера. Это реализовано посредством обеспечения высокого частотного разрешения в кодере при использовании ограниченного (более низкого) частотного разрешение в декодере (например, использование частотного разрешения, которое значительно хуже, чем использованное в соответствующем кодере) и использования матрицы (свертки) с несколькими отводами для компенсации сокращенного частотного разрешения декодера.
Как правило, поскольку матрица с высоким частотным разрешением требуется только на низких частотах, матрица (свертки) с несколькими отводами может использоваться на низких частотах, в то время как традиционная (без состояний) матрица может использоваться для остальных (более высоких) частот. Другими словами, на низких частотах матрица представляет множество КИХ-фильтров (FIRфильтров), воздействующих на каждую комбинацию ввода и вывода, в то время как на высоких частотах используется матрица без состояний.
Набор фильтров и отображение параметров кодера.
- 8 034371
Фиг. 7 демонстрирует иллюстративную систему 90 набора фильтров и отображения параметров кодера в соответствии с вариантом осуществления. В этом иллюстративном варианте 90 осуществления 8 подполос (b=1, 8), например, обозначенных номером 91, первоначально генерируются посредством гибридного (каскадного) набора 92 фильтров и набора 93 фильтров Найквиста. Затем первые четыре подполосы отображаются 94 на одну и ту же параметрическую полосу (p=1) для вычисления матрицы свертки M[k,p=1], например, матрица теперь имеет дополнительный индекс k. Остальные подполосы (b=5, ..., 8) отображаются на параметрические полосы (p=2,3) с использованием матрицы M[p(b)] 95, 96 без состояний.
Набор фильтров и отображение параметров декодера.
Фиг. 8 демонстрируют соответствующую иллюстративную систему 100 набора фильтров и отображения параметров декодера. В отличие от кодера набор фильтров Найквиста не присутствует, и при этом нет никаких задержек для компенсации задержки набора фильтров Найквиста. Набор фильтров 101 для анализа декодера генерирует только 5 подполос (b=1, ..., 5), например, обозначенных номером 102, которые подвергнуты дискретизации с понижением с коэффициентом Q. Первая подполоса обрабатывается матрицей 103 свертки M[k,p=1], в то время как остальные полосы обрабатываются матрицами 104, 105 без состояния в соответствии с предшествующим уровнем техники.
Хотя приведенный выше пример применяет набор фильтров Найквиста в кодере 90 и соответствующую матрицу свертки только для первой подполосы CQMF в декодере 100, тот же самый процесс может быть применен ко множеству подполос, не обязательно ограниченных только самой нижней подполосой (подполосами).
Вариант осуществления кодера.
Один вариант осуществления, который является особенно полезным, состоит в преобразовании представления для динамиков в бинауральное представление. Фиг. 9 иллюстрирует кодер 110, использующий предложенный способ для преобразования представления. Множество входных каналов или объектов Xi[n] сначала преобразовывается с использованием набора 111 фильтров. Набор 111 фильтров представляет собой гибридный набор комплексных квадратурных зеркальных фильтров (HCQMF), но в равной степени могут использоваться другие структуры наборов фильтров. Полученные в результате представления подполос Xi[k,b] обрабатываются дважды 112, 113.
Во-первых (113), чтобы сгенерировать множество базовых сигналов Zs[k,b] 113, предназначенных для выходных данных кодера. Эти выходные данные, например, могут быть сгенерированы с использованием методики амплитудного панорамирования, чтобы полученные в результате сигналы были пред назначены для воспроизведения с помощью динамиков.
Во-вторых (112), чтобы генерировать множество желаемых преобразованных сигналов Yj[k,b] 112. Эти выходные данные, например, могут быть сгенерированы с использованием обработки HRIR, чтобы полученные в результате сигналы были предназначены для воспроизведения с помощью наушников. Такая обработка HRIR может использоваться в области набора фильтров, но в равной степени может быть выполнена во временной области посредством свертки HRIR. Характеристики HRIR получаются из базы 114 данных.
Матрица M[k,p] свертки затем получается посредством подачи базовых сигналов Zs[k,b] через линию 116 задержки с отводами. Каждый из отводов линий задержки служит в качестве дополнительных входов в модуль 115 предсказания MMSE. Этот модуль предсказания MMSE вычисляет матрицу M[k,p] свертки, которая минимизирует ошибку между желаемыми преобразованными сигналами Yj[k,b] и выходными данными декодера 100 на фиг. 8 посредством применения матриц свертки. После этого матричные коэффициенты M[k,p] заданы как
Μ = (ζ*Ζ + εΐ)_1Ζ*Υ
В этой формулировке матрица Z содержит все входы линий задержки с отводами.
Взяв первоначально случай для воссоздания одного сигнала Y[k] для данной подполосы b, когда имеется А входов от линий задержки с отводами, имеем гдодз]
ZJ-CA-D.b] Zs[O,b] ... Zs[-(A-l),b]
ZJK-l.b] ... ZJK-1-(A-l),b] Zs[K-l,b] ...ZS[K-1 - (A-l),b]
А[о,ь]
YUK-I.b] тДО.Ь] ms[0,b] тДА-l.b] ... ms[A-l,b] = (z*z + el)_1Z*Y
Полученные в результате коэффициенты M[k,p] матрицы свертки квантуются, кодируются и передаются вместе с базовыми сигналами Zs[n]. Тогда декодер может использовать процесс свертки для воссоздания Y[k,b] из входных сигналов Zs[k,b]
Y[k,b] = £zs|k.b] * ms[„ b] s
- 9 034371 или в другой записи с использованием выражения свертки
А-1
Y[k,b] = ΣΣ Zs[k - a,b]ms[a,b] s a = 0
Подход свертки может быть комбинирован с линейным (без состояний) матричным процессом.
Дополнительное различие может быть сделано между комплекснозначным и действительнозначным матрицированием без состояний. На низких частотах (как правило, ниже 1 кГц) процесс свертки (A>1) является предпочтительным, чтобы обеспечить возможность точного воссоздания свойств между каналами в соответствии с перцепционной шкалой частот. На средних частотах, приблизительно до 2 или 3 кГц, слуховая система человека чувствительна к разностям фаз между каналами, но не требует очень высокого частотного разрешения для воссоздания такой фазы. Это подразумевает, что комплекснозначная матрица с одним отводом (без состояний) является достаточной. Для более высоких частот слуховая система человека фактически не чувствительна к фазе с тонкой структурой форм волны, и применение действительнозначной матрицы без состояний является достаточным. С ростом частот количество выходов набора фильтров, отображаемых на параметрическую полосу, как правило, увеличивается, чтобы отразить нелинейное частотное разрешение слуховой системы человека.
В другом варианте осуществления первое и второе представления в кодере меняются местами, например, первое представление предназначено для воспроизведения с помощью наушников, и второе представление предназначено для воспроизведения с помощью динамиков. В этом варианте осуществления представление для динамиков (второе представление) генерируется посредством применения зависимых от времени параметров преобразования по меньшей мере в двух частотных полосах к первому представлению, причем параметры преобразования дополнительно задаются как включающие в себя множество коэффициентов фильтра по меньшей мере для одной из частотных полос.
В некоторых вариантах осуществления первое представление может быть разделено во времени на последовательность сегментов с отдельным множеством параметров преобразования для каждого сегмента. При дальнейшем уточнении, когда параметры преобразования сегментов недоступны, параметры могут быть интерполированы на основе предыдущих коэффициентов.
Вариант осуществления декодера.
Фиг. 10 иллюстрирует вариант осуществления декодера 120. Входной битовый поток 121 разделен на битовый поток 131 базовых сигналов и данные 124 параметров преобразования. Далее декодер 123 базовых сигналов декодирует базовые сигналы z [n], которые затем обрабатываются набором 125 фильтров для анализа. Полученные в результате сигналы Z [k,b] в частотной области с подполосой b=1, ..., 5 обрабатываются блоками 126, 129 и 130 матричного умножения. В частности, блок 126 матричного умножения применяет комплекснозначную матрицу M[k, p=1] свертки к сигналу Z[k, b=1] в частотной области. Кроме того, блок 129 матричного умножения применяет комплекснозначные коэффициенты M[p=2] матрицы с одним отводом к сигналу Z[k, b=2]. Наконец, блок 130 матричного умножения применяет действительнозначные матричные коэффициенты М[р=3] к сигналам Z[k, b=3, ..., 5] в частотной области. Выходные сигналы блока матричного умножения преобразовываются в выходные данные 128 во временной области посредством набора 127 фильтров для синтеза. Ссылки на z[n], Z[k] и т.д. относятся ко множеству базовых сигналов, а не к какому-либо конкретному базовому сигналу. Таким образом, z[n], Z[k] и т.д. могут быть интерпретированы как zs[n] , Zs[k] и т.д., где 0<s<N, и N - количество базовых сигналов.
Другими словами, блок 126 матричного умножения определяет выходные отсчеты подполосы b=1 выходного сигнала Yj[k] из взвешенных комбинаций текущих отсчетов подполосы b=1 базовых сигналов Z[k] и предыдущих отсчетов подполосы b=1 базовых сигналов Z[k] (например, Z[k-a], где 0<a<A, и A больше 1). Весовые коэффициенты, используемые для определения выходных отсчетов подполосы b=1 выходного сигнала Yj[k], соответствуют комплекснозначной матрице M[k, p=1] свертки для сигнала.
Кроме того, блок 129 матричного умножения определяет выходные отсчеты подполосы b=2 выходного сигнала Yj[k] из взвешенных комбинаций текущих отсчетов подполосы b=2 базовых сигналов Z[k]. Весовые коэффициенты, используемые для определения выходных отсчетов подполосы b=2 выходного сигнала Yj[k], соответствуют комплекснозначным коэффициентам M[p=2] матрицы с одним отводом.
Наконец, блок 130 матричного умножения определяет выходные отсчеты подполос b=3,...,5 выходного сигнала Yj[k] из взвешенных комбинаций текущих отсчетов подполос b=3, ..., 5 базовых сигналов Z[k]. Весовые коэффициенты, используемые для определения выходных отсчетов подполос b=3,...,5 выходного сигнала Yj[k], соответствуют действительнозначным матричным коэффициентам M[p=3].
В некоторых случаях декодер 123 базовых сигналов может воздействовать на сигналы с таким же частотным разрешением, которое обеспечено набором 125 фильтров для анализа. В таких случаях декодер 125 базовых сигналов может быть выполнен с возможность выдавать сигналы Z[k] в частотной области, а не сигналы z[n] во временной области, в этом случае набор 125 фильтров для анализа может быть опущен. Кроме того, в некоторых случаях может быть предпочтительно применить комплекснозначные коэффициенты матрицы с одним отводом вместо действительнозначных матричных коэффициентов к сигналам Z[k, b=3, ..., 5].
На практике матричные коэффициенты M могут обновляться со временем, например, посредством
- 10 034371 привязки индивидуальных кадров базовых сигналов к матричным коэффициентам M. В качестве альтернативы или дополнительно матричные коэффициенты M дополняются метками времени, которые указывают, в какое время или интервал базовых сигналов z[n] должны быть применены матрицы. Чтобы сократить битрейт передачи, связанный с обновлениями матриц, количество обновлений оптимально ограничено, что приводит к редкому распределению обновлений матриц. Такие нечастые обновления матриц требуют специальной обработки, чтобы гарантировать плавные переходы от одного экземпляра матрицы к следующему. Матрицы M могут обеспечиваться с привязанными заданными сегментами (кадрами) времени и/или частотными регионами базовых сигналов Z. Декодер может использовать множество методов интерполяции, чтобы гарантировать плавный переход от последующих экземпляров матрицы M по времени. Один пример такого метода интерполяции состоит в вычислении накладывающихся оконных кадров сигналов Z и вычислении соответствующего множества выходных сигналов Y для каждого такого кадра с использованием матричных коэффициентов M, привязанных к этому конкретному кадру. Последующие кадры затем могут быть агрегированы с использованием методики наложения с суммированием, обеспечивающей плавный переход со взаимным наложением. В качестве альтернативы декодер может принять метки времени, привязанные к матрице M, которые описывают желаемые матричные коэффициенты в заданные моменты времени. Для отсчетов аудиоданных между метками времени матричные коэффициенты матрицы M могут быть интерполированы с использованием линейной, кубической, ограниченной по полосе интерполяции или других средств для интерполяции, чтобы гарантировать плавные переходы. Помимо интерполяции по времени подобные методики могут использоваться для интерполяции матричных коэффициентов по частоте.
Таким образом, настоящий документ описывает способ (и соответствующий кодер 90) для представления второго представления аудиоканалов или объектов X; как потока данных, который должен быть передан или обеспечен соответствующему декодеру 100. Способ содержит этап обеспечения базовых сигналов Zs, упомянутые базовые сигналы представляют первое представление аудиоканалов или объектов X;. Как описано в общих чертах выше, базовые сигналы Zs могут быть определены на основе аудиоканалов или объектов Х; с использованием сначала рендеризации параметров G (а именно с использованием первой матрицы усиления, например, для амплитудного панорамирования). Первое представление может быть предназначено для воспроизведения с помощью динамиков или для воспроизведения с помощью наушников. С другой стороны, второе представление может быть предназначено для воспроизведения с помощью наушников или для воспроизведения с помощью динамиков. Таким образом, может быть выполнено преобразование из воспроизведения с помощью динамиков в воспроизведение с помощью наушников (или наоборот).
Способ дополнительно содержит обеспечение параметров M преобразования (а именно одной или более матриц преобразования), упомянутые параметры M преобразования предназначены для преобразования базовых сигналов Zs упомянутого первого представления в выходные сигналы Yj упомянутого второго представления. Параметры преобразования могут быть определены, как описано в общих чертах в настоящем документе. В частности, желаемые выходные сигналы Yj для второго представления могут быть определены из аудиоканалов или объектов Х; с использованием вторых параметров H рендеризации (как описано в общих чертах в настоящем документе). Параметры M преобразования могут быть определены посредством минимизации отклонения выходных сигналов Yj от желаемых выходных сигналов Yj (например, с использованием критерия минимальной среднеквадратической ошибки).
Также, в частности, параметры M преобразования могут быть определены в области подполос (т.е. для разных частотных полос). С этой целью базовые сигналы Z[k, b] в области подполос могут быть определены для частотных полос В с использованием набора 92, 93 фильтров кодера. Количество В частотных полос больше одного, например В равно или больше 4, 6, 8, 10. В примерах, описанных в настоящем документе, B=8 или B=5. Как описано в общих чертах выше, набор 92, 93 фильтров кодера может содержать гибридный набор фильтров, который обеспечивает, что низкочастотные полосы из В частотных полос имеют более высокое частотное разрешение, чем высокочастотные полосы из В частотных полос. Кроме того, могут быть определены желаемые выходные сигналы Y[k, b] в области подполос для В частотных полос. Параметры M преобразования для одной или более частотных полос могут быть определены посредством минимизации отклонения выходных сигналов Yj от желаемых выходных сигналов Yj в одной или более частотных полос (например, с использованием критерия минимальной среднеквадратической ошибки).
Каждый из параметров M преобразования, таким образом, может быть задан по меньшей мере для двух частотных полос (а именно для B частотных полос). Кроме того, параметры преобразования могут включать в себя множество параметров матрицы свертки с несколькими отводами по меньшей мере для одной из частотных полос.
Таким образом, описан способ (и соответствующий декодер) для определения выходных сигналов второго представления аудиоканалов/объектов из базовых сигналов первого представления аудиоканалов/объектов. Первое представление может использоваться для воспроизведения с помощью динамиков, и второе представление может использоваться для воспроизведения с помощью наушников (или наоборот). Выходные сигналы определяются с использованием параметров преобразования для разных час- 11 034371 тотных полос, причем параметры преобразования по меньшей мере для одной из частотных полос содержат параметры матрицы свертки с несколькими отводами. В результате использования параметров матрицы свертки с несколькими отводами по меньшей мере для одной из частотных полос вычислительная сложность декодера 100 может быть сокращена, а именно посредством сокращения частотного разрешения набора фильтров, используемого декодером.
Например, определение выходного сигнала для первой частотной полосы с использованием параметров матрицы свертки с несколькими отводами может содержать определение текущего отсчета первой частотной полосы выходного сигнала как взвешенной комбинации текущего и одного или более предыдущих отсчетов первой частотной полосы базовых сигналов, причем весовые коэффициенты, используемые для определения взвешенной комбинации, соответствуют параметрам матрицы свертки с несколькими отводами для первой частотной полосы. Один или более параметров матрицы свертки с несколькими отводами для первой частотной полосы обычно являются комплекснозначными.
Кроме того, определение выходного сигнала для второй частотной полосы может содержать определение текущего отсчета второй частотной полосы выходного сигнала как взвешенной комбинации текущих отсчетов второй частотной полосы базовых сигналов (а не на основе предыдущих отсчетов второй частотной полосы базовых сигналов), причем весовые коэффициенты, используемые для определения взвешенной комбинации, соответствует параметрам преобразования для второй частотной полосы. Параметры преобразования для второй частотной полосы могут быть комплекснозначными или в качестве альтернативы могут быть действительнозначными.
В частности, одно и то же множество параметров матрицы свертки с несколькими отводами может быть определено по меньшей мере для двух смежных частотных полос из В частотных полос. Как проиллюстрировано на фиг. 7, одно множество параметров матрицы свертки с несколькими отводами может быть определено для частотных полос, обеспеченных набором фильтров Найквиста (т.е. для частотных полос, имеющих относительно высокое частотное разрешение). Посредством этого использование набора фильтров Найквиста в декодере 100 может быть опущено, тем самым сокращая вычислительную сложность декодера 100 (при поддержании качества выходных сигналов для второго представления).
Кроме того, один и тот же действительнозначный параметр преобразования может быть определен по меньшей мере для двух смежных высокочастотных полос (как проиллюстрировано в контексте фиг. 7). Посредством этого вычислительная сложность декодера 100 может быть дополнительно сокращена (при поддержании качества выходных сигналов для второго представления).
Интерпретация.
Упоминание по тексту этого описания одного варианта осуществления, некоторых вариантов осуществления или варианта осуществления означает, что конкретный признак, структура или характеристика, описанные в связи с вариантом осуществления, включены по меньшей мере в один вариант осуществления настоящего изобретения. Таким образом, появления фраз в одном варианте осуществления, в некоторых вариантах осуществления или в варианте осуществления в различных местах по тексту этого описания не обязательно все относятся к одному и тому же варианту осуществления, но могут. Кроме того, конкретные признаки, структуры или характеристики могут быть объединены любым подходящим образом, как будет очевидно для специалиста в области техники из этого раскрытия, в одном или более вариантах осуществления.
Если не указано иначе, использование в настоящем документе порядковых числительных первый, второй, третий и т.д. для описания общего объекта указывает лишь на то, что упоминаются разные экземпляры подобных объектов, и не подразумевает, что описанные таким образом объекты должны находиться в данной последовательности ни во времени, ни в пространстве, ни по ранжированию и ни каким-либо другим образом.
В приведенной ниже формуле изобретения и в описании в настоящем документе любой из терминов содержащий, состоящий из или который содержит является неограничивающим термином, который означает включение, по меньшей мере, следующих элементов/признаков, но не исключая других. Таким образом, термин содержащий, когда он используется в формуле изобретения, не должен интерпретироваться как ограничивающий для перечисленных после него средств, элементов или этапов. Например, контекст выражения устройство, содержащее A и B не должен быть ограничен устройствами, состоящими только из элементов A и B. Любой из терминов включающий в себя или который включает в себя, используемых в настоящем документе, также является неограничивающим термином, который также означает включение, по меньшей мере, элементов/признаков, которые следуют за термином, но не исключая других. Таким образом, включающий в себя является синонимом и означает содержащий.
Используемый в настоящем документе термин иллюстративный используется в смысле обеспечения примеров, в противоположность указанию на качество. Таким образом, иллюстративный вариант осуществления является вариантом осуществления, обеспеченным в качестве примера, в противоположность тому, чтобы обязательно являться вариантом осуществления иллюстративного качества.
Следует понимать, что в приведенном выше описании иллюстративных вариантов осуществления изобретения различные признаки изобретения иногда группируются в единственном варианте осуществ- 12 034371 ления, фигуре или их описании с целью оптимизации раскрытия и помощи в понимании одного или более различных аспектов изобретения. Однако этот метод раскрытия не должен интерпретироваться как отражение намерения, что заявленное изобретение требует большего количества признаков, чем явно изложено в каждом пункте формулы изобретения. Вместо этого, как отражает последующая формула изобретения, аспекты изобретения лежат менее чем во всех признаках единственного предшествующего раскрытого варианта осуществления. Таким образом, формула изобретения после подробного описания тем самым явно включена в это подробное описание, и каждый пункт формулы изобретения представляет собой отдельный вариант осуществления этого изобретения.
Кроме того, хотя некоторые варианты осуществления, описанные в настоящем документе, включают в себя некоторые, но не другие признаки, включенные в другие варианты осуществления, подразумевается, что комбинации признаков разных вариантов осуществления находятся в рамках объема изобретения и формируют другие варианты осуществления, как будет понятно специалистам в области техники. Например, в следующей формуле изобретения любой из заявленных вариантов осуществления может использоваться в любой комбинации.
Кроме того, некоторые варианты осуществления описаны в настоящем документе как способ или комбинация элементов способа, которые могут быть реализованы процессором компьютерной системы или другим средством выполнения функции. Таким образом, процессор с необходимыми инструкциями для выполнения такого способа или элемента способа формирует средство для выполнения способа или элемента способа. Кроме того, описанный в настоящем документе элемент варианта осуществления устройства является примером средства для выполнения функции, выполняемой элементом с целью выполнения изобретения.
В обеспеченном в настоящем документе описании сформулированы многочисленные конкретные подробности. Однако подразумевается, что варианты осуществления изобретения могут быть осуществлены без этих конкретных подробностей. В других случаях известные способы, структуры и методики подробно не показаны, чтобы не препятствовать пониманию этого описания.
Аналогичным образом, следует отметить, что термин присоединенный, когда он используется в формуле изобретения, не должен интерпретироваться как ограничиваемый только прямыми соединениями. Может использоваться термин присоединенный и соединенный вместе с их производными. Следует понимать, что эти термины не подразумеваются как синонимы друг для друга. Таким образом, контекст выражения устройство A, присоединенное к устройству B не должен быть ограничен устройствами или системами, в которых выход устройства A непосредственно соединен с входом устройства B. Это означает, что существует путь между выходом A и входом B, который может представлять собой путь, включающий в себя другие устройства или средства. Присоединенный может означать, что два или более элементов либо находятся в прямом физическом или электрическом контакте, либо эти два или более элементов не находятся в прямом контакте друг с другом, но все же сотрудничают или взаимодействуют друг с другом.
Таким образом, хотя были описаны предполагаемые предпочтительные варианты осуществления изобретения, специалисты в области техники поймут, что в них могут быть внесены другие и дополнительные модификации без отступления от сущности изобретения, и имеется в виду, что все такие изменения и модификации находятся в пределах объема изобретения. Например, любые приведенные выше формулы являются лишь репрезентативными для процедур, которые могут использоваться. Функциональность может быть добавлена или удалена из блок-схем, и операции могут меняться местами среди функциональных блоков. Этапы могут быть добавлены или удалены из способов, описанных в рамках объема настоящего изобретения.
Различные аспекты настоящего изобретения могут быть очевидны на основе следующих перечисленных иллюстративных вариантов осуществления (EEE):
EEE 1. Способ представления второго представления аудиоканалов или объектов как потока данных, при этом способ содержит следующие этапы:
(a) обеспечение множества базовых сигналов, упомянутые базовые сигналы представляют первое представление аудиоканалов или объектов;
(b) обеспечение множества параметров преобразования, причем упомянутые параметры преобразования предназначены для преобразования упомянутого первого представления в упомянутое второе представление; упомянутые параметры преобразования также заданы по меньшей мере для двух частотных полос и включают в себя множество параметров матрицы свертки с несколькими отводами по меньшей мере для одной из частотных полос.
EEE 2. Способ согласно EEE 1, в котором упомянутое множество коэффициентов фильтра представляет фильтр с конечной импульсной характеристикой (КИХ; FIR).
EEE 3. Способ согласно любому предыдущему EEE, в котором упомянутое множество базовых сигналов разделяется на последовательность временных сегментов, и множество параметров преобразования обеспечено для каждого временного сегмента.
EEE 4. Способ согласно любому предыдущему EEE, в котором упомянутые коэффициенты фильтра включают в себя по меньшей мере один коэффициент, который является комплекснозначным.
- 13 034371
EEE 5. Способ согласно любому предыдущему EEE, в котором первое или второе представление предназначено для воспроизведения с помощью наушников.
EEE 6. Способ согласно любому предыдущему EEE, в котором параметры преобразования, соответствующие более высоким частотам, не модифицируют фазу сигнала, в то время как для более низких частот параметры преобразования модифицируют фазу сигнала.
EEE 7. Способ согласно любому предыдущему EEE, в котором упомянутое множество коэффициентов фильтра выполнено с возможностью обработки матрицы свертки с несколькими отводами.
EEE 8. Способ согласно EEE 7, в котором упомянутое множество коэффициентов фильтра используется для обработки низкочастотной полосы,
EEE 9. Способ согласно любому предыдущему EEE, в котором упомянутое множество базовых сигналов и упомянутое множество параметров преобразования объединяются для формирования упомянутого потока данных.
EEE 10. Способ согласно любому предыдущему EEE, в котором упомянутые параметры преобразования включают в себя матричные коэффициенты высокочастотных аудиоданных для матричной манипуляции высокочастотной части упомянутого множества базовых сигналов.
EEE 11. Способ согласно EEE 10, в котором для среднечастотной части высокочастотной части упомянутого множества базовых сигналов матричная манипуляция включает в себя комплекснозначные параметры преобразования.
EEE 12. Декодер для декодирования закодированного аудиосигнала, где закодированный аудиосигнал включает в себя первое представление, включающее в себя множество базовых аудиосигналов, предназначенных для воспроизведения аудиоданных в первом формате представления аудиоданных; и множество параметров преобразования для преобразования упомянутых базовых аудиосигналов в упомянутом первом формате представления во второй формат представления, причем упомянутые параметры преобразования включают в себя, по меньшей мере, высокочастотные параметры преобразования аудиоданных и низкочастотные параметры преобразования аудиоданных, упомянутые низкочастотные параметры преобразования включают в себя параметры матрицы свертки с несколькими отводами, декодер включает в себя первый блок разделения для разделения множества базовых аудиосигналов и множества параметров преобразования, блок матричного умножения для применения упомянутых параметров матрицы свертки с несколькими отводами к низкочастотным компонентам базовых аудиосигналов, чтобы применить свертку к низкочастотным компонентам, производя свернутые низкочастотные компоненты; и блок скалярного умножения для применения упомянутых высокочастотных параметров преобразования аудиоданных к высокочастотным компонентам базовых аудиосигналов, чтобы произвести скалярные высокочастотные компоненты;
выходной набор фильтров для объединения упомянутых свернутых низкочастотных компонентов и упомянутых скалярных высокочастотных компонентов, чтобы произвести выходной сигнал во временной области в упомянутом втором формате представления.
EEE 13. Декодер согласно EEE 12, в котором упомянутый блок матричного умножения модифицирует фазу низкочастотных компонентов базовых аудиосигналов.
EEE 14. Декодер согласно EEE 12 или 13, в котором упомянутые параметры преобразования матрицы свертки с несколькими отводами являются комплекснозначными.
EEE 15. Декодер согласно любому из EEE 12-14, в котором упомянутые высокочастотные параметры преобразования аудиоданных являются комплекснозначными.
EEE 16. Декодер согласно EEE 15, в котором упомянутое множество параметров преобразования дополнительно содержит действительнозначные параметры преобразования аудиоданных более высокой частоты.
EEE 17. Декодер согласно любому из EEE 12-16, дополнительно содержащий фильтры для разделения базовых аудиосигналов на упомянутые низкочастотные компоненты и упомянутые высокочастотные компоненты.
EEE 18. Способ декодирования закодированного аудиосигнала, где закодированный аудиосигнал включает в себя первое представление, включающее в себя множество базовых аудиосигналов, предназначенных для воспроизведения аудиоданных в первом формате представления аудиоданных; и множество параметров преобразования для преобразования упомянутых базовых аудиосигналов в упомянутом первом формате представления во второй формат представления, причем упомянутые параметры преобразования включают в себя, по меньшей мере, высокочастотные параметры преобразования аудиоданных и низкочастотные параметры преобразования аудиоданных, упомянутые низкочастотные параметры преобразования включают в себя параметры матрицы свертки с несколькими отводами, способ включает в себя следующие этапы:
свертка низкочастотных компонентов базовых аудиосигналов с помощью низкочастотных парамет- 14 034371 ров преобразования, чтобы произвести свернутые низкочастотные компоненты;
умножение высокочастотных компонентов базовых аудиосигналов на высокочастотные параметры преобразования, чтобы произвести умноженные высокочастотные компоненты;
объединение упомянутых свернутых низкочастотных компонентов и упомянутых умноженных высокочастотных компонентов, чтобы произвести частотные компоненты выходного аудиосигнала для воспроизведения во втором формате представления.
EEE 19. Способ согласно EEE 18, в котором упомянутый закодированный сигнал содержит несколько временных сегментов, причем упомянутый способ дополнительно включает в себя следующие этапы:
интерполяция параметров преобразования нескольких временных сегментов закодированного сигнала, чтобы произвести интерполированные параметры преобразования, включающие в себя интерполированные низкочастотные параметры преобразования аудиоданных; и свертка нескольких временных сегментов низкочастотных компонентов базовых аудиосигналов с помощью интерполированных низкочастотных параметров преобразования аудиоданных, чтобы произвести несколько временных сегментов упомянутых свернутых низкочастотных компонентов.
EEE 20. Способ согласно EEE 18, в котором множество параметров преобразования упомянутого закодированного аудиосигнала является переменным по времени, и упомянутый способ дополнительно включает в себя следующие этапы:
свертка низкочастотных компонентов с помощью низкочастотных параметров преобразования для нескольких временных сегментов, чтобы произвести несколько множеств промежуточных свернутых низкочастотных компонентов;
интерполяция нескольких множеств промежуточных свернутых низкочастотных компонентов, чтобы произвести упомянутые свернутые низкочастотные компоненты.
EEE 21. Способ согласно либо EEE 19, либо EEE 20, в котором упомянутая интерполяция использует метод наложения и суммирования нескольких множеств промежуточных свернутых низкочастотных компонентов.
EEE 22. Способ согласно любому из EEE 18-21, дополнительно содержащий фильтрацию базовых аудиосигналов в упомянутые низкочастотные компоненты и упомянутые высокочастотные компоненты.
EEE 23. Машиночитаемый неизменяемый запоминающий носитель, включающий в себя программные команды для работы компьютера в соответствии со способом согласно любому из EEE 1-11 и 18-22.

Claims (23)

  1. ФОРМУЛА ИЗОБРЕТЕНИЯ
    1. Способ представления второго представления аудиоканалов или аудиообъектов в виде потока данных, при этом способ содержит этапы, на которых:
    (a) получают базовые сигналы, каковые базовые сигналы представляют первое представление аудиоканалов или аудиообъектов;
    (b) задают параметры преобразования, каковые параметры преобразования предназначены для преобразования базовых сигналов первого представления в выходные сигналы второго представления; при этом параметры преобразования включают в себя, по меньшей мере, высокочастотные параметры преобразования, заданные для полосы более высокой частоты, и низкочастотные параметры преобразования, заданные для полосы более низкой частоты, при этом низкочастотные параметры преобразования включают в себя множество параметров матрицы свертки с несколькими отводами для свертки низкочастотных компонентов базовых сигналов с помощью низкочастотных параметров преобразования, чтобы получить свернутые низкочастотные компоненты, и высокочастотные параметры преобразования включают в себя множество параметров матрицы без состояний для умножения высокочастотных компонентов базовых сигналов на высокочастотные параметры преобразования, чтобы получить умноженные высокочастотные компоненты; причем первое представление предназначено для воспроизведения с помощью динамиков, и второе представление предназначено для воспроизведения с помощью наушников или наоборот; и (c) объединяют базовые сигналы и параметры преобразования для формирования упомянутого потока данных.
  2. 2. Способ по п.1, в котором параметры матрицы свертки с несколькими отводами указывают фильтр с конечной импульсной характеристикой (КИХ; FIR).
  3. 3. Способ по любому предыдущему пункту, в котором базовые сигналы разделены на последовательность временных сегментов, и параметры преобразования обеспечиваются для каждого временного сегмента.
  4. 4. Способ по любому предыдущему пункту, в котором параметры матрицы свертки с несколькими отводами включают в себя по меньшей мере один коэффициент, который является комплекснозначным.
  5. 5. Способ по любому предыдущему пункту, в котором упомянутое получение базовых сигналов содержит этап, на котором определяют базовые сигналы из аудиоканалов или аудиообъектов с использованием первых параметров рендеризации;
    - 15 034371 при этом способ содержит этап, на котором определяют желаемые выходные сигналы для второго представления из аудиоканалов или аудиообъектов с использованием вторых параметров рендеризации;
    и упомянутое задание параметров преобразования содержит этап, на котором определяют параметры преобразования посредством минимизации отклонения выходных сигналов от желаемых выходных сигналов.
  6. 6. Способ по п.5, в котором упомянутое определение параметров преобразования содержит этапы, на которых определяют базовые сигналы в области подполос для В частотных полос с использованием набора фильтров кодера;
    определяют желаемые выходные сигналы в области подполос для В частотных полос с использованием набора фильтров кодера и определяют одно и то же множество параметров матрицы свертки с несколькими отводами по меньшей мере для двух смежных частотных полос из В частотных полос.
  7. 7. Способ по п.6, в котором упомянутый набор фильтров кодера содержит гибридный набор фильтров, который обеспечивает, что низкочастотные полосы из В частотных полос имеют более высокое частотное разрешение, чем высокочастотные полосы из B частотных полос; и упомянутые две по меньшей мере смежных частотных полосы являются низкочастотными полосами.
  8. 8. Способ по п.7, в котором упомянутое определение параметров преобразования содержит этап, на котором определяют один и тот же действительнозначный параметр преобразования по меньшей мере для двух смежных высокочастотных полос.
  9. 9. Способ по любому предыдущему пункту, в котором высокочастотные параметры преобразования не модифицируют фазу сигнала базовых сигналов, и низкочастотные параметры преобразования модифицируют фазу сигнала базового сигнала.
  10. 10. Способ по любому предыдущему пункту, в котором высокочастотные параметры преобразования включают в себя матричные коэффициенты высокочастотных аудиоданных для матричной манипуляции высокочастотной части упомянутых базовых сигналов.
  11. 11. Способ по п.10, в котором для среднечастотной части высокочастотной части упомянутых базовых сигналов матричная манипуляция включает в себя комплекснозначные параметры преобразования.
  12. 12. Декодер для декодирования закодированного аудиосигнала, причем закодированный аудиосигнал включает в себя первое представление, включающее в себя базовые аудиосигналы, предназначенные для воспроизведения закодированного аудиосигнала в первом формате представления аудиоданных; и параметры преобразования для преобразования базовых аудиосигналов в первом формате представления в выходные сигналы второго формата представления, при этом параметры преобразования содержат высокочастотные параметры преобразования, заданные для полосы более высокой частоты, и низкочастотные параметры преобразования, заданные для полосы более низкой частоты, причем низкочастотные параметры преобразования включают в себя параметры матрицы свертки с несколькими отводами, и высокочастотные параметры преобразования включают в себя множество параметров матрицы без состояний, при этом первый формат представления предназначен для воспроизведения с помощью динамиков, и второй формат представления предназначен для воспроизведения с помощью наушников или наоборот, при этом декодер включает в себя первый блок разделения для разделения базовых аудиосигналов и параметров преобразования, блок матричного умножения для применения параметров матрицы свертки с несколькими отводами к низкочастотным компонентам базовых аудиосигналов, чтобы применить свертку к низкочастотным компонентам, получая свернутые низкочастотные компоненты;
    блок скалярного умножения для применения высокочастотных параметров преобразования к высокочастотным компонентам базовых аудиосигналов, чтобы получить умноженные высокочастотные компоненты; и выходной набор фильтров для объединения свернутых низкочастотных компонентов и умноженных высокочастотных компонентов, чтобы получить выходной сигнал во временной области второго формата представления.
  13. 13. Декодер по п.12, в котором блок матричного умножения модифицирует фазу низкочастотных компонентов базовых аудиосигналов.
  14. 14. Декодер по п.12 или 13, при этом параметры преобразования матрицы свертки с несколькими отводами являются комплекснозначными.
  15. 15. Декодер по любому из пп.13 и 14, при этом упомянутые высокочастотные параметры преобразования содержат комплекснозначные высокочастотные параметры преобразования.
  16. 16. Декодер по п.15, при этом упомянутые высокочастотные параметры преобразования дополни
    - 16 034371 тельно содержат действительнозначные высокочастотные параметры преобразования.
  17. 17. Декодер по любому из пп.12-16, дополнительно содержащий фильтры для разделения базовых аудиосигналов на низкочастотные компоненты и высокочастотные компоненты.
  18. 18. Способ декодирования закодированного аудиосигнала, причем закодированный аудиосигнал включает в себя первое представление, включающее в себя базовые аудиосигналы, предназначенные для воспроизведения закодированного аудиосигнала в первом формате представления аудиоданных; и параметры преобразования для преобразования базовых аудиосигналов в первом формате представления в выходные сигналы второго формата представления, при этом параметры преобразования содержат высокочастотные параметры преобразования, заданные для полос более высокой частоты, и низкочастотные параметры преобразования, заданные для полосы более низкой частоты, причем низкочастотные параметры преобразования включают в себя параметры матрицы свертки с несколькими отводами, и высокочастотные параметры преобразования включают в себя множество параметров матрицы без состояний, при этом первый формат представления предназначен для воспроизведения с помощью динамиков, и второй формат представления предназначен для воспроизведения с помощью наушников или наоборот, при этом способ включает в себя этапы, на которых выполняют свертку низкочастотных компонентов базовых аудиосигналов с помощью низкочастотных параметров преобразования, чтобы получить свернутые низкочастотные компоненты;
    умножают высокочастотные компоненты базовых аудиосигналов на высокочастотные параметры преобразования, чтобы получить умноженные высокочастотные компоненты;
    объединяют свернутые низкочастотные компоненты и умноженные высокочастотные компоненты, чтобы получить частотные компоненты выходного аудиосигнала для второго формата представления.
  19. 19. Способ по п.18, в котором закодированный аудиосигнал содержит несколько временных сегментов, при этом способ дополнительно включает в себя этапы, на которых выполняют интерполяцию параметров преобразования нескольких временных сегментов закодированного аудиосигнала, чтобы получить интерполированные параметры преобразования, включающие в себя интерполированные низкочастотные параметры преобразования; и выполняют свертку нескольких временных сегментов низкочастотных компонентов базовых аудиосигналов с помощью интерполированных низкочастотных параметров преобразования аудиоданных, чтобы получить несколько временных сегментов свернутых низкочастотных компонентов.
  20. 20. Способ по п.18, в котором параметры преобразования закодированного аудиосигнала являются переменными по времени, и упомянутая свертка низкочастотных компонентов базовых аудиосигналов включает в себя этапы, на которых выполняют свертку низкочастотных компонентов базовых аудиосигналов с помощью низкочастотных параметров преобразования для нескольких временных сегментов, чтобы получить несколько множеств промежуточных свернутых низкочастотных компонентов; и выполняют интерполяцию этих нескольких множеств промежуточных свернутых низкочастотных компонентов, чтобы получить свернутые низкочастотные компоненты.
  21. 21. Способ по любому из п.19 или 20, в котором упомянутая интерполяция использует метод наложения и суммирования нескольких множеств промежуточных свернутых низкочастотных компонентов.
  22. 22. Способ по любому из пп.18-21, дополнительно содержащий этап, на котором выполняют фильтрацию базовых аудиосигналов в упомянутые низкочастотные компоненты и упомянутые высокочастотные компоненты.
  23. 23. Машиночитаемый долговременный носитель, включающий в себя программные команды для осуществления процессором компьютера этапов способа по любому из пп.1-11 или 18-22.
EA201890557A 2015-08-25 2016-08-23 Аудиодекодер и способ декодирования EA034371B1 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562209742P 2015-08-25 2015-08-25
EP15189008 2015-10-08
PCT/US2016/048233 WO2017035163A1 (en) 2015-08-25 2016-08-23 Audo decoder and decoding method

Publications (2)

Publication Number Publication Date
EA201890557A1 EA201890557A1 (ru) 2018-08-31
EA034371B1 true EA034371B1 (ru) 2020-01-31

Family

ID=54288726

Family Applications (2)

Application Number Title Priority Date Filing Date
EA201890557A EA034371B1 (ru) 2015-08-25 2016-08-23 Аудиодекодер и способ декодирования
EA201992556A EA201992556A1 (ru) 2015-10-08 2016-08-23 Аудиодекодер и способ декодирования

Family Applications After (1)

Application Number Title Priority Date Filing Date
EA201992556A EA201992556A1 (ru) 2015-10-08 2016-08-23 Аудиодекодер и способ декодирования

Country Status (12)

Country Link
US (4) US10672408B2 (ru)
EP (3) EP3342188B1 (ru)
JP (2) JP6797187B2 (ru)
KR (2) KR20230048461A (ru)
CN (3) CN108353242B (ru)
AU (3) AU2016312404B2 (ru)
CA (1) CA2999271A1 (ru)
EA (2) EA034371B1 (ru)
ES (1) ES2956344T3 (ru)
HK (1) HK1257672A1 (ru)
PH (1) PH12018500649A1 (ru)
WO (1) WO2017035163A1 (ru)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10672408B2 (en) 2015-08-25 2020-06-02 Dolby Laboratories Licensing Corporation Audio decoder and decoding method
KR102640940B1 (ko) 2016-01-27 2024-02-26 돌비 레버러토리즈 라이쎈싱 코오포레이션 음향 환경 시뮬레이션
CN108702582B (zh) 2016-01-29 2020-11-06 杜比实验室特许公司 用于双耳对话增强的方法和装置
FR3048808A1 (fr) * 2016-03-10 2017-09-15 Orange Codage et decodage optimise d'informations de spatialisation pour le codage et le decodage parametrique d'un signal audio multicanal
EP3569000B1 (en) 2017-01-13 2023-03-29 Dolby Laboratories Licensing Corporation Dynamic equalization for cross-talk cancellation
CN112567769B (zh) * 2018-08-21 2022-11-04 索尼公司 音频再现装置、音频再现方法和存储介质
JP2021184509A (ja) * 2018-08-29 2021-12-02 ソニーグループ株式会社 信号処理装置、信号処理方法、及び、プログラム
WO2020212390A1 (en) 2019-04-15 2020-10-22 Dolby International Ab Dialogue enhancement in audio codec
US20220366919A1 (en) * 2019-09-23 2022-11-17 Dolby Laboratories Licensing Corporation Audio encoding/decoding with transform parameters
CN112133319A (zh) * 2020-08-31 2020-12-25 腾讯音乐娱乐科技(深圳)有限公司 音频生成的方法、装置、设备及存储介质
CN112489668B (zh) * 2020-11-04 2024-02-02 北京百度网讯科技有限公司 去混响方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757931A (en) * 1994-06-15 1998-05-26 Sony Corporation Signal processing apparatus and acoustic reproducing apparatus
US20080319765A1 (en) * 2006-01-19 2008-12-25 Lg Electronics Inc. Method and Apparatus for Decoding a Signal

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US6115689A (en) * 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
JP4300380B2 (ja) 1999-12-02 2009-07-22 ソニー株式会社 オーディオ再生装置およびオーディオ再生方法
EP1451809A1 (en) * 2001-11-23 2004-09-01 Koninklijke Philips Electronics N.V. Perceptual noise substitution
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7548852B2 (en) 2003-06-30 2009-06-16 Koninklijke Philips Electronics N.V. Quality of decoded audio by adding noise
JP4171675B2 (ja) 2003-07-15 2008-10-22 パイオニア株式会社 音場制御システム、および音場制御方法
KR101106026B1 (ko) * 2003-10-30 2012-01-17 돌비 인터네셔널 에이비 오디오 신호 인코딩 또는 디코딩
US8363865B1 (en) 2004-05-24 2013-01-29 Heather Bottum Multiple channel sound system using multi-speaker arrays
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
DE102005010057A1 (de) 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
KR100880646B1 (ko) * 2005-08-30 2009-01-30 엘지전자 주식회사 오디오 신호의 인코딩 및 디코딩 장치, 및 방법
RU2419249C2 (ru) 2005-09-13 2011-05-20 Кониклейке Филипс Электроникс Н.В. Аудиокодирование
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
WO2007080211A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
CN101379552B (zh) * 2006-02-07 2013-06-19 Lg电子株式会社 用于编码/解码信号的装置和方法
EP1984913A4 (en) * 2006-02-07 2011-01-12 Lg Electronics Inc DEVICE AND METHOD FOR CODING / DECODING A SIGNAL
CN101484936B (zh) 2006-03-29 2012-02-15 皇家飞利浦电子股份有限公司 音频解码
US8174415B2 (en) 2006-03-31 2012-05-08 Silicon Laboratories Inc. Broadcast AM receiver, FM receiver and/or FM transmitter with integrated stereo audio codec, headphone drivers and/or speaker drivers
CN101136202B (zh) * 2006-08-29 2011-05-11 华为技术有限公司 音频信号处理系统、方法以及音频信号收发装置
KR101111520B1 (ko) 2006-12-07 2012-05-24 엘지전자 주식회사 오디오 처리 방법 및 장치
ES2461601T3 (es) * 2007-10-09 2014-05-20 Koninklijke Philips N.V. Procedimiento y aparato para generar una señal de audio binaural
US8504377B2 (en) 2007-11-21 2013-08-06 Lg Electronics Inc. Method and an apparatus for processing a signal using length-adjusted window
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
EP2224431A1 (en) * 2009-02-26 2010-09-01 Research In Motion Limited Methods and devices for performing a fast modified discrete cosine transform of an input sequence
TWI443646B (zh) * 2010-02-18 2014-07-01 Dolby Lab Licensing Corp 音訊解碼器及使用有效降混之解碼方法
ES2935637T3 (es) * 2010-03-09 2023-03-08 Fraunhofer Ges Forschung Reconstrucción de alta frecuencia de una señal de audio de entrada usando bancos de filtros en cascada
EP2477188A1 (en) 2011-01-18 2012-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of slot positions of events in an audio signal frame
EP2673771B1 (en) * 2011-02-09 2016-06-01 Telefonaktiebolaget LM Ericsson (publ) Efficient encoding/decoding of audio signals
CN104145485A (zh) * 2011-06-13 2014-11-12 沙克埃尔·纳克什·班迪·P·皮亚雷然·赛义德 产生自然360度三维数字立体环绕音效(3d dssrn-360)的系统
US8653354B1 (en) 2011-08-02 2014-02-18 Sonivoz, L.P. Audio synthesizing systems and methods
TWI479905B (zh) * 2012-01-12 2015-04-01 Univ Nat Central Multi-channel down mixing device
DK2658120T3 (en) 2012-04-25 2016-05-30 Gn Resound As A hearing aid with improved compression
US8781008B2 (en) * 2012-06-20 2014-07-15 MagnaCom Ltd. Highly-spectrally-efficient transmission using orthogonal frequency division multiplexing
EP2682941A1 (de) * 2012-07-02 2014-01-08 Technische Universität Ilmenau Vorrichtung, Verfahren und Computerprogramm für frei wählbare Frequenzverschiebungen in der Subband-Domäne
FI3444818T3 (fi) * 2012-10-05 2023-06-22 Fraunhofer Ges Forschung Laitteisto puhesignaalin koodaamiseksi ACELPia käyttäen autokorrelaatiotasossa
US9384741B2 (en) * 2013-05-29 2016-07-05 Qualcomm Incorporated Binauralization of rotated higher order ambisonics
US9420393B2 (en) * 2013-05-29 2016-08-16 Qualcomm Incorporated Binaural rendering of spherical harmonic coefficients
US9025711B2 (en) * 2013-08-13 2015-05-05 Applied Micro Circuits Corporation Fast filtering for a transceiver
CN103763037B (zh) * 2013-12-17 2017-02-22 记忆科技(深圳)有限公司 一种动态补偿接收器及动态补偿接收方法
WO2016172363A1 (en) * 2015-04-24 2016-10-27 Cyber Resonance Corporation Methods and systems for performing signal analysis to identify content types
US10672408B2 (en) 2015-08-25 2020-06-02 Dolby Laboratories Licensing Corporation Audio decoder and decoding method
EA034936B1 (ru) 2015-08-25 2020-04-08 Долби Интернешнл Аб Кодирование и декодирование звука с использованием параметров преобразования представления

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757931A (en) * 1994-06-15 1998-05-26 Sony Corporation Signal processing apparatus and acoustic reproducing apparatus
US20080319765A1 (en) * 2006-01-19 2008-12-25 Lg Electronics Inc. Method and Apparatus for Decoding a Signal

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HERRE, JüRGEN; KJöRLING, KRISTOFER; BREEBAART, JEROEN; FALLER, CHRISTOF; DISCH, SASCHA; PURNHAGEN, HEIKO; KOPPENS, JEROEN; HILPE: "MPEG Surround-The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", JAES, AES, 60 EAST 42ND STREET, ROOM 2520 NEW YORK 10165-2520, USA, vol. 56, no. 11, 1 November 2008 (2008-11-01), 60 East 42nd Street, Room 2520 New York 10165-2520, USA, pages 932 - 955, XP040508729 *

Also Published As

Publication number Publication date
EA201890557A1 (ru) 2018-08-31
WO2017035163A1 (en) 2017-03-02
US12002480B2 (en) 2024-06-04
HK1257672A1 (zh) 2019-10-25
AU2023202400A1 (en) 2023-05-11
EP3342188A1 (en) 2018-07-04
CN108353242B (zh) 2020-10-02
JP6797187B2 (ja) 2020-12-09
US20230360659A1 (en) 2023-11-09
WO2017035163A9 (en) 2017-05-18
ES2956344T3 (es) 2023-12-19
CN108353242A (zh) 2018-07-31
PH12018500649A1 (en) 2018-10-01
KR102517867B1 (ko) 2023-04-05
EP3748994A1 (en) 2020-12-09
AU2021201082B2 (en) 2023-01-19
CN111970629A (zh) 2020-11-20
JP2023053304A (ja) 2023-04-12
AU2016312404B2 (en) 2020-11-26
CN111970629B (zh) 2022-05-17
EP4254406A2 (en) 2023-10-04
EA201992556A1 (ru) 2021-03-31
US20180233156A1 (en) 2018-08-16
EP3342188B1 (en) 2020-08-12
KR20230048461A (ko) 2023-04-11
KR20180042392A (ko) 2018-04-25
JP2018529121A (ja) 2018-10-04
US20220399027A1 (en) 2022-12-15
EP3748994B1 (en) 2023-08-16
US11705143B2 (en) 2023-07-18
US11423917B2 (en) 2022-08-23
EP4254406A3 (en) 2023-11-22
US10672408B2 (en) 2020-06-02
AU2023202400B2 (en) 2024-07-04
AU2016312404A8 (en) 2018-04-19
CN111970630B (zh) 2021-11-02
AU2021201082A1 (en) 2021-03-11
CA2999271A1 (en) 2017-03-02
CN111970630A (zh) 2020-11-20
AU2016312404A1 (en) 2018-04-12
US20200357420A1 (en) 2020-11-12

Similar Documents

Publication Publication Date Title
US20200335115A1 (en) Audio encoding and decoding
US12002480B2 (en) Audio decoder and decoding method
CA2701360C (en) Method and apparatus for generating a binaural audio signal
KR101010464B1 (ko) 멀티 채널 신호의 파라메트릭 표현으로부터 공간적 다운믹스 신호의 생성
JP7229218B2 (ja) データ・ストリームを形成するための方法、媒体、システム
EA041656B1 (ru) Аудиодекодер и способ декодирования

Legal Events

Date Code Title Description
MM4A Lapse of a eurasian patent due to non-payment of renewal fees within the time limit in the following designated state(s)

Designated state(s): AM KG TJ TM