EA034936B1 - Кодирование и декодирование звука с использованием параметров преобразования представления - Google Patents

Кодирование и декодирование звука с использованием параметров преобразования представления Download PDF

Info

Publication number
EA034936B1
EA034936B1 EA201890576A EA201890576A EA034936B1 EA 034936 B1 EA034936 B1 EA 034936B1 EA 201890576 A EA201890576 A EA 201890576A EA 201890576 A EA201890576 A EA 201890576A EA 034936 B1 EA034936 B1 EA 034936B1
Authority
EA
Eurasian Patent Office
Prior art keywords
representation
stream
playback stream
playback
signals
Prior art date
Application number
EA201890576A
Other languages
English (en)
Other versions
EA201890576A1 (ru
Inventor
Дирк Йерун БРЕБАРТ
Дэвид М. Купер
Лейф Дж. Самуэльссон
Йерун КОППЕНС
Ронда Джой Уилсон
Хейко ПУРНХАГЕН
Александр Штальман
Original Assignee
Долби Интернешнл Аб
Долби Лабораторис Лайсэнзин Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Интернешнл Аб, Долби Лабораторис Лайсэнзин Корпорейшн filed Critical Долби Интернешнл Аб
Publication of EA201890576A1 publication Critical patent/EA201890576A1/ru
Publication of EA034936B1 publication Critical patent/EA034936B1/ru

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • H04L65/612Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for unicast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/765Media network packet handling intermediate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/07Generation or adaptation of the Low Frequency Effect [LFE] channel, e.g. distribution or signal processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

Способ кодирования входного аудиопотока, включающий этапы получения первого представления потока воспроизведения входного аудиопотока, предназначенного для воспроизведения первой системой воспроизведения звука; получения второго представления потока воспроизведения входного аудиопотока, предназначенного для воспроизведения второй системой воспроизведения звука; определения набора параметров преобразования, пригодных для преобразования промежуточного представления потока воспроизведения в приближение второго представления потока воспроизведения, причем параметры преобразования определяются путем минимизации величины разницы между приближением второго представления потока воспроизведения и вторым представлением потока воспроизведения; и кодирования первого представления потока воспроизведения и набора параметров преобразования для передачи в декодер.

Description

Перекрестная ссылка на родственные заявки
Заявка на данное изобретение заявляет приоритет предварительной заявки на патент США № 62/209735, поданной 25 августа 2015 г., и европейской заявки на патент № 15189094.4, поданной 9 октября 2015 г., которые полностью включаются в данное описание посредством ссылки.
Область техники, к которой относится изобретение
Настоящее изобретение относится к области обработки сигналов, и, в частности, в нем раскрыта система для эффективной передачи звуковых сигналов, содержащих составляющие пространственного представления, т.е. звуковые составляющие, связанные с различными пространственными местоположениями.
Предпосылки изобретения
Любое обсуждение текущего уровня техники в данном описании никоим образом не следует рассматривать как допущение того, что данный уровень широко известен или образует часть общедоступных знаний в данной области.
Создание содержимого, кодирование, распространение и воспроизведение звука обычно выполняется в формате на основе каналов, т.е. одна конкретная целевая система воспроизведения предусмотрена для содержимого во всей экосистеме содержимого. Примерами таких звуковых форматов целевых систем воспроизведения являются монофонический, стереофонический, 5.1, 7.1 и т.д.
Если содержимое подлежит воспроизведению иной системой воспроизведения, нежели предназначенная, может применяться понижающее или повышающее микширование. Например, содержимое в формате 5.1 может быть воспроизведено стереофонической системой воспроизведения путем использования специальных уравнений понижающего микширования. Другим примером является воспроизведение содержимого, кодированного в формате стерео, системой динамиков формата 7.1, которое может включать процесс т.н. повышающего микширования, который может управляться или может не управляться информацией, присутствующей в стереофоническом сигнале. Системой, характеризующейся возможностью осуществления повышающего микширования, является Dolby Pro Logic от Dolby Laboratories Inc (Roger Dressier, Dolby Pro Logic Surround Decoder, Principles of Operation, www.Dolby.com).
Альтернативной системой звукового формата является формат звуковых объектов, такой как формат, предусмотренный системой Dolby Atmos, см. Robinson, OQ., Mehta, S., Tsingos, N. (2012),Scalable format and tools to extend the possibilities of cinema audio Motion Imaging Journal, SMPTE, 121(8), 63-69. В формате данного типа объектам заданы конкретные местоположения вокруг слушателя, которые могут являться переменными во времени. В таком формате на основе объектов содержимое представляется способом, инвариантным к конкретной системе воспроизведения. Следовательно, для преобразования содержимого в представление, подходящее для конкретной системы воспроизведения, такой как система громкоговорителей или наушники, требуется специализированный процесс представления.
Если стереофоническое, многоканальное или основанное на объектах содержимое подлежит воспроизведению через наушники, часто требуется сымитировать многоканальную систему динамиков (для содержимого на основе каналов) или набор виртуальных источников звука (для содержимого на основе объектов) посредством импульсных характеристик для головы (head-related impulse response, HRIR) или бинауральных импульсных характеристик для помещения (binaural room impulse responses, BRIR), имитирующих акустический путь от каждого громкоговорителя к барабанным перепонкам в соответственно безэховой или эховой среде (имитированной). В частности, звуковые сигналы могут быть свернуты с HRIR или BRIR для восстановления интерауральных разностей уровней (inter-aural level difference, ILD), интерауральных временных разностей (inter-aural time difference, ITD) и спектральных меток, позволяющих слушателю определять местоположение каждого отдельного канала. Достижению определенного воспринимаемого расстояния также способствует имитирование акустической среды (реверберация). Обратимся к фиг. 1, на которой показано схематическое общее представление хода обработки данных при представлении двух объектных или канальных сигналов Xj 10, 11, считанных из запоминающего устройства 12 для содержимого для обработки 4 при помощи четырех HRIR, например, 14. Выходные данные HRIR затем суммируются 15, 16 для каждого канального сигнала, чтобы получить выходные данные для наушников для воспроизведения слушателю через наушники 18. Базовый принцип HRIR разъяснен, например, в публикации Wightman, F.L., Kistler, D.J. (1989b). Headphone simulation of free-field listening. I. Stimulus synthesis, J. Acoust. Soc. Am. 85, 858-867. Результирующий стереофонический сигнал 15, 16 наушников часто называют бинауральным сигналом, бинауральным представлением или (бинауральным) представлением для наушников. Более того, такое бинауральное представление предназначено (или специально рассчитано) для воспроизведения через наушники, в отличие от представления для громкоговорителей, предназначенного для воспроизведения системой громкоговорителей, которая согласуется с каналами, представленными в сигнале (сигналах) представления для громкоговорителей. Эти различные системы воспроизведения называются модальностями, например, одна модальность воспроизведения состоит из наушников, тогда как другая модальность воспроизведения содержит один или более громкоговорителей. Независимо от модальности воспроизведения, на основании входного потока, такого как многоканальный или основанный на объектах формат содержимого, могут быть представлены (сгенерированы) различные представления (стереофоническое, бинауральное, 5.1). В идеа
- 1 034936 ле, для обеспечения того, чтобы художественный замысел был правильно передан слушателю, представления генерируются, или представляются, для конкретных модальностей воспроизведения. В случае воспроизведения через наушники это предполагает применение HRIR или BRIR для создания бинаурального представления, тогда как для громкоговорителей обычно используются методики амплитудного панорамирования. Таким образом, такой процесс представления может применяться как в отношении входного содержимого на основе каналов (5.1, 7.1 и т.п.), так и в отношении погружающего содержимого на основе объектов, такого как Dolby Atmos. В последнем случае в отношении каждого входного объекта обычно независимо используется амплитудное панорамирование (в представлениях для громкоговорителей) или BRIR (в представлениях для наушников) с последующим суммированием вкладов отдельных объектов в результирующий бинауральный сигнал.
Процесс свертки для получения бинаурального представления, предназначенного для воспроизведения наушниками, можно построить так, что метки определения местоположения источника звука, присутствующие в (безэховых) HRTF (head-related transfer functions, передаточных функциях головы), восстанавливаются для каждого ввода независимо, в зависимости от (намеченного, воспринимаемого) положения входного канала или объекта, тогда как имитированная эховая среда может быть, по меньшей мере частично, использована совместно по общему алгоритму для двух или большего количества вводов. С этой целью один или более входных сигналов микшируются, или комбинируются, в один или более входных сигналов алгоритма имитирования среды, которые впоследствии обрабатываются для генерирования выходных сигналов имитирования среды, которые могут быть скомбинированы с выходными данными безэхового процесса свертки с использованием HRTF. Алгоритм имитирования среды может имитировать ранние отражения, позднюю реверберацию или и то, и другое, и он может быть реализован посредством известных методик, таких как свертка, задержки, сети задержки обратной связи, всечастотные фильтры и т.п.
Подход на основе свертки с HRIR/BRIR сопровождается несколькими недостатками, одним из которых является существенный объем обработки данных свертки, необходимый для воспроизведения через наушники. Свертку с HRIR или BRIR необходимо применять для каждого входного объекта или канала по отдельности, и, таким образом, сложность обычно возрастает линейно относительно количества каналов или объектов. Поскольку наушники часто используют в сочетании с питающимися от аккумулятора переносными устройствами, высокая вычислительная сложность нежелательна, так как это может существенно сокращать время автономной работы от аккумулятора. Более того, при представлении звукового содержимого на основе объектов, которое может содержать, например, более 100 одновременно активных объектов, сложность свертки с HRIR может быть существенно выше, чем для традиционного содержимого на основе каналов.
Одним из решений для уменьшения вычислительной нагрузки является применение процессов свертки выше по потоку в цепочке обработки данных. Например, в ходе этапа создания содержимого или кодирования. В данном частном случае, называемом бинауральным предварительным представлением, результирующий бинауральный сигнал, или бинауральное представление, создаваемое в ходе этапа предварительного представления, содержит все метки определения местоположения, предназначенные для воспроизведения наушниками, и в устройстве воспроизведения дополнительная обработка данных не требуется. Недостатком данного способа является то, что вводимые метки определения местоположения источника звука, которые присутствуют в HRIR (такие как интерауральные временные разности (ITD, interaural time differences), интерауральные разности уровней (ILD, interaural level differences), спектральные метки и реверберация), ухудшают воспринимаемое качество при воспроизведении данного конкретного бинаурального представления громкоговорителями, поскольку указанные метки определения местоположения будут применяться фактически дважды: один раз - алгоритмически, на этапе предварительного представления, и один раз - акустически, как следствие акустического пути между громкоговорителями и ушами слушателя.
Краткое описание сущности изобретения
Целью изобретения в его предпочтительном варианте осуществления является создание усовершенствованного варианта осуществления кодирования и декодирования звуковых сигналов для воспроизведения.
В соответствии с первым аспектом настоящего изобретения предусматривается способ кодирования входного аудиопотока, содержащего одну или более звуковых составляющих, причем каждая звуковая составляющая связана с пространственным местоположением, и способ содержит этапы получения первого представления потока воспроизведения для входного аудиопотока, причем первое представление потока воспроизведения представляет собой набор из M1 сигналов, предназначенных для воспроизведения первой системой воспроизведения звука, получения второго представления потока воспроизведения для входного аудиопотока, при этом второе представление потока воспроизведения представляет собой набор из двух сигналов, предназначенных для воспроизведения второй системой воспроизведения звука, при этом одно из первого представления потока воспроизведения и второго представления потока воспроизведения представляет собой представление для громкоговорителей, и при этом одно из первого представления потока воспроизведения и второго представления потока воспроизведения представляет
- 2 034936 собой эховое или безэховое бинауральное представление; определения набора параметров преобразования, пригодных для преобразования промежуточного представления потока воспроизведения в приближение второго представления потока воспроизведения, при этом набор параметров преобразования образует матрицу усиления размером M1xM2, которая при применении непосредственно к промежуточному представлению потока воспроизведения матричным умножением образует указанное приближение второго представления потока воспроизведения, и причем промежуточное представление потока воспроизведения представляет собой одно из первого представления потока воспроизведения и результата понижающего микширования первого представления потока воспроизведения, при этом параметры преобразования определяются путем минимизации величины разницы между вторым представлением потока воспроизведения и приближением второго представления потока воспроизведения, образованного применением параметров преобразования к первому представлению потока воспроизведения, и кодирования первого представления потока воспроизведения и набора параметров преобразования для передачи в декодер.
В соответствии со вторым аспектом настоящего изобретения предусматривается способ декодирования представлений потока воспроизведения из потока данных, причем способ включает этапы приема и декодирования первого представления потока воспроизведения, при этом первое представление потока воспроизведения представляет собой набор из M1 сигналов, предназначенных для воспроизведения первой системой воспроизведения звука, прием и декодирование набора параметров преобразования, пригодных для преобразования промежуточного представления потока воспроизведения в приближение второго представления потока воспроизведения, при этом второе представление потока воспроизведения представляет собой набор из двух сигналов, предназначенных для воспроизведения второй системой воспроизведения звука, при этом набор параметров преобразования образуют матрицу усиления размером M1xM2, которая при применении непосредственно к промежуточному представлению потока воспроизведения матричным умножением образует указанное приближение второго представления потока воспроизведения; при этом одно из первого представления потока воспроизведения и второго представления потока воспроизведения представляет собой представление для громкоговорителей, и при этом одно из первого представления потока воспроизведения и второго представления потока воспроизведения представляет собой эховое или безэховое бинауральное представление, и при этом промежуточное представление потока воспроизведения представляет собой одно из первого представления потока воспроизведения и результата понижающего микширования первого представления потока воспроизведения, при этом параметры преобразования определяются кодером для обеспечения того, что величина разницы между вторым представленным представлением потока воспроизведения и приближением второго представления потока воспроизведения, образованного применением параметров преобразования к первому представленному представлению потока воспроизведения, является минимальной, и применения параметров преобразования к промежуточному представлению потока воспроизведения для получения приближения второго представления потока воспроизведения.
В некоторых вариантах осуществления первая система воспроизведения звука может содержать ряд динамиков в фиксированных пространственных местоположениях, а вторая система воспроизведения звука может содержать набор наушников, примыкающих к ушам слушателя. Первое или второе представление потока воспроизведения может представлять собой эховое или безэховое бинауральное представление.
Параметры преобразования предпочтительно являются переменными во времени и зависящими от частоты.
Параметры преобразования предпочтительно определяются путем минимизации величины разницы между результатом применения параметров преобразования к первому представлению потока воспроизведения и вторым представлением потока воспроизведения.
В соответствии с еще одним аспектом настоящего изобретения предусматривается способ кодирования звуковых каналов или звуковых объектов в виде потока данных, включающий этапы приема N входных звуковых каналов или объектов; вычисления набора из M сигналов, где M<N, путем образования комбинаций N входных звуковых каналов или объектов, при этом набор из M сигналов предназначен для воспроизведения первой системой воспроизведения звука; вычисления набора переменных во времени параметров W преобразования, преобразующих набор из M сигналов, предназначенных для воспроизведения первой системой воспроизведения звука, в приближенное воспроизведение второй системой воспроизведения звука, при этом приближенное воспроизведение приближенно воспроизводит любые эффекты пространственного представления, получаемые путем воспроизведения N входных звуковых каналов или объектов второй системой воспроизведения; и комбинирования M сигналов и параметров W преобразования в поток данных, передаваемый в декодер.
В некоторых вариантах осуществления M1 равно 2.
Специалистам в данной области следует принять во внимание, что первый поток представления, кодируемый в кодере, может представлять собой многоканальное представление для громкоговорителей, например окружающее или погружающее (трехмерное) представление для громкоговорителей, такое как
- 3 034936 представление в формате 5.1, 7.1, 5.1.2, 5.1.4, 7.1.2 или 7.1.4. В такой ситуации во избежание увеличения вычислительной сложности или для ее минимизации, в соответствии с одним из вариантов осуществления настоящего изобретения, этап определения набора параметров преобразования может включать понижающее микширование первого представления потока воспроизведения в промежуточное представление с меньшим количеством каналов.
В частном примере это промежуточное представление представляет собой двухканальное представление. В данном случае параметры преобразования, таким образом, являются пригодными для преобразования промежуточного двухканального представления во второе представление потока воспроизведения. Первое представление потока воспроизведения может представлять собой окружающее или погружающее представление для громкоговорителей.
Поток данных может дополнительно содержать параметры оценки диалоговых сигналов, при этом способ дополнительно включает: применение параметров оценки диалоговых сигналов к сигналам, предназначенным для воспроизведения первой системой воспроизведения звука, для получения одного или более оценочных диалоговых сигналов; вычитание одного или более оценочных диалоговых сигналов из сигналов, предназначенных для воспроизведения первой системой воспроизведения звука, для получения промежуточного сигнала с подавленным диалогом; применение промежуточного сигнала с подавленным диалогом к процессу имитирования акустической среды для получения одного или более сигналов имитированной акустической среды; и комбинирование одного или более сигналов имитированной акустической среды с аудиопотоком, пригодным для воспроизведения второй системой воспроизведения звука.
Поток данных может дополнительно содержать параметры W (WF, We) генерирования входных сигналов процесса имитирования акустической среды, при этом способ дополнительно включает: применение параметров W (WF, We) генерирования входных сигналов процесса имитирования акустической среды к сигналам, предназначенным для воспроизведения первой системой воспроизведения звука, для получения одного или более входных сигналов процесса имитирования акустической среды; применение одного или более входных сигналов процесса имитирования акустической среды к процессу имитирования акустической среды для получения одного или более сигналов имитированной акустической среды; и комбинирование одного или более сигналов имитированной акустической среды с аудиопотоком, пригодным для воспроизведения второй системой воспроизведения звука.
В частном примере первое представленное представление потока воспроизведения представляет собой представление в формате 2.1, и при этом указанный этап понижающего микширования включает преобразование представления в формате 2.1 в стереофоническое представление в формате 2.0 в соответствии с уравнениями:
Lo = a*L + b*LFE;
Ro = a*R + b*LFE, где L, R и LFE обозначают левый и правый каналы полной полосы пропускания и канал низкочастотных эффектов декодированного представления в формате 2.1, при этом а и b представляют собой соответствующие постоянные.
Поток данных предпочтительно может содержать дополнительные параметры W (WF, We) генерирования входных сигналов процесса имитирования акустической среды, при этом способ дополнительно включает этапы: применения дополнительных параметров W (WF, We) генерирования входных сигналов процесса имитирования акустической среды к сигналам, предназначенным для воспроизведения первой системой воспроизведения звука, для получения одного или более дополнительных входных сигналов процесса имитирования акустической среды; применения одного или более дополнительных входных сигналов процесса имитирования акустической среды к дополнительному процессу имитирования акустической среды для получения одного или более дополнительных сигналов имитированной акустической среды; и комбинирования одного или более дополнительных сигналов имитированной акустической среды с одним или более из одного или более сигналов имитированной акустической среды и аудиопотоком, пригодным для воспроизведения второй системой воспроизведения звука.
В соответствии с еще одним аспектом настоящего изобретения предусматривается кодер для кодирования входного аудиопотока, содержащего одну или более звуковых составляющих, в котором каждая звуковая составляющая связана с пространственным местоположением, причем кодер содержит первый блок представления для представления первого представления потока воспроизведения входного аудиопотока, причем первое представление потока воспроизведения представляет собой набор из M1 сигналов, предназначенных для воспроизведения первой системой воспроизведения звука;
второй блок представления для представления второго представления потока воспроизведения входного аудиопотока, причем второе представление потока воспроизведения представляет собой набор из двух сигналов, предназначенных для воспроизведения второй системой воспроизведения звука, при этом одно из первого представления потока воспроизведения и второго представления потока воспроизведения представляет собой представление для громкоговорителей, и при этом одно из первого представления потока воспроизведения и второго представления потока воспроизведения представляет собой эховое или безэховое бинауральное представление;
- 4 034936 блок определения параметров преобразования для определения набора параметров преобразования, пригодных для преобразования промежуточного представления потока воспроизведения в приближение второго представления потока воспроизведения, при этом набор параметров преобразования образует матрицу усиления размером M1xM2, которая при применении непосредственно к промежуточному представлению потока воспроизведения матричным умножением образует указанное приближение второго представления потока воспроизведения, при этом промежуточное представление потока воспроизведения представляет собой одно из первого представления потока воспроизведения и результата понижающего микширования первого представления потока воспроизведения, и при этом параметры преобразования определяются путем минимизации величины разницы между вторым представления потока воспроизведения и приближением второго представления потока воспроизведения, образованного применением параметров преобразования к первому представлению потока воспроизведения; и блок кодирования для кодирования первого представления потока воспроизведения и набора параметров преобразования для передачи в декодер.
В соответствии с еще одним аспектом настоящего изобретения предусмотрен декодер для декодирования представлений потока воспроизведения из потока данных, содержащий блок базового декодера, выполненный с возможностью приема и декодирования первого представления потока воспроизведения, при этом первое представление потока воспроизведения представляет собой набор из M1 сигналов, предназначенных для воспроизведения первой системой воспроизведения звука, и приема и декодирования набора параметров преобразования, пригодных для преобразования промежуточного представления потока воспроизведения в приближение второго представления потока воспроизведения, при этом второе представление потока воспроизведения представляет собой набор из двух сигналов, предназначенных для воспроизведения второй системой воспроизведения звука, при этом набор параметров преобразования образует матрицу усиления размером M1xM2, которая при применении непосредственно к промежуточному представлению потока воспроизведения матричным умножением образует указанное приближение второго представления потока воспроизведения, при этом одно из первого представленного представления потока воспроизведения и второго представленного представления потока воспроизведения представляет собой представление для громкоговорителей, и при этом одно из первого представленного представления потока воспроизведения и второго представленного представления потока воспроизведения представляет собой эховое или безэховое бинауральное представление, и при этом промежуточное представление потока воспроизведения представляет собой одно из первого представления потока воспроизведения и результата понижающего микширования первого представления потока воспроизведения, при этом параметры преобразования определяются кодером для обеспечения того, что величина разницы между вторым представленным представлением потока воспроизведения и приближением второго представления потока воспроизведения, образованного применением параметров преобразования к первому представленному представлению потока воспроизведения, является минимальной.
Декодер дополнительно содержит матричный умножитель для применения параметров преобразования к промежуточному представлению потока воспроизведения для получения приближения второго представления потока воспроизведения.
В соответствии с дополнительным аспектом настоящего изобретения предусмотрен декодер для декодирования ряда звуковых каналов и/или звуковых объектов из потока данных, при этом поток данных содержит набор из M сигналов для воспроизведения первой системой воспроизведения звука ипараметры W преобразования, приспособленные для преобразования M сигналов для воспроизведения второй системой воспроизведения звука, причем декодер содержит блок базового декодера для отделения M сигналов и W параметров преобразования от потока данных, при этом M сигналов разделяется, по меньшей мере, на высоко- и низкочастотные полосы;
матричный умножитель для применения W параметров преобразования к M сигналов для получения набора выходных сигналов с частотным разделением; и блок обратного преобразования, приспособленный для преобразования набора выходных сигналов с частотным разделением в ряд выходных сигналов во временной области, пригодных для воспроизведения второй системой воспроизведения звука.
В некоторых вариантах осуществления декодер может дополнительно содержать блок реверберации, приспособленный для добавления реверберации к набору выходных сигналов с частотным разделением перед преобразованием блоком обратного преобразования.
В некоторых вариантах осуществления первая система воспроизведения звука может содержать набор динамиков, а вторая система воспроизведения звука может содержать набор наушников, при этом параметры W преобразования обеспечивают бинаурализацию набора выходных сигналов с частотным разделением в том смысле, что второе представление потока воспроизведения представляет собой эховое или безэховое бинауральное представление.
- 5 034936
В соответствии с дополнительным аспектом настоящего изобретения предусмотрен кодер для кодирования входного аудиопотока, содержащего одну или более звуковых составляющих, при этом каждая звуковая составляющая связана с пространственным местоположением, при этом система содержит первый блок кодирования для кодирования входного аудиопотока для первой модальности воспроизведения, который выводит первое представление потока воспроизведения; блок определения параметров преобразования для определения ряда параметров преобразования для отображения первого представления потока воспроизведения во второе представление потока воспроизведения; и второй блок кодирования для кодирования первого представления потока воспроизведения и параметров преобразования в выходной поток кодирования.
Блок определения параметров преобразования определяет ряд параметров преобразования путем минимизации абсолютного значения величины расхождения между требуемым вторым представлением потока воспроизведения и результатом применения ряда параметров преобразования к первому представлению потока воспроизведения.
Термин ряд может относиться к свойству наличия переменных во времени параметров преобразования и/или зависящих от частоты параметров преобразования. Второе представление потока воспроизведения может содержать бинаурализованный звук для воспроизведения наушниками.
В соответствии с дополнительным аспектом настоящего изобретения предусмотрен способ получения звукового сигнала для представления наушниками, причем способ включает этапы приема потока данных, содержащего кодированный безэховый бинауральный сигнал и параметры W (WF, WE) генерирования входного сигнала процесса имитирования акустической среды; декодирования кодированного безэхового бинаурального сигнала для получения декодированного безэхового бинаурального сигнала; применения параметров W (WF, WE) генерирования входных сигналов процесса имитирования акустической среды к декодированному безэховому бинауральному сигналу для получения одного или более входных сигналов процесса имитирования акустической среды; применения одного или более входных сигналов процесса имитирования акустической среды к процессу имитирования акустической среды для получения одного или более сигналов имитированной акустической среды; и комбинирование одного или более сигналов имитированной акустической среды и декодированного безэхового бинаурального сигнала для получения звукового сигнала для представления наушниками.
В некоторых вариантах осуществления один или более сигналов имитированной акустической среды предпочтительно представляют собой один или более из сигналов ранних отражений и сигналов поздней реверберации. Процесс имитирования акустической среды может включать один или более из процесса имитирования ранних отражений и процесса имитирования поздней реверберации. Процесс имитирования ранних отражений может включать обработку одного или более входных сигналов процесса имитирования акустической среды посредством элемента задержки. Процесс имитирования поздней реверберации может включать обработку одного или более входных сигналов процесса имитирования акустической среды посредством сети задержки обратной связи.
Поток данных предпочтительно может содержать дополнительные параметры W (WF, WE) генерирования входных сигналов процесса имитирования акустической среды, при этом способ может дополнительно включать этапы:
применение дополнительных параметров W (WF, WE) генерирования входных сигналов процесса имитирования акустической среды к декодированному безэховому бинауральному сигналу для получения одного или более дополнительных входных сигналов процесса имитирования акустической среды;
применение одного или более дополнительных входных сигналов процесса имитирования акустической среды к дополнительному процессу имитирования акустической среды для получения одного или более дополнительных сигналов имитированной акустической среды;
комбинирование одного или более дополнительных сигналов имитированной акустической среды с одним или более сигналами имитированной акустической среды и/или декодированным безэховым бинауральным сигналом.
В соответствии с дополнительным аспектом настоящего изобретения предусмотрен декодер для получения звукового сигнала для представления наушниками, при этом декодер содержит один или более процессоров, выполненных с возможностью приема потока данных, содержащего кодированный безэховый бинауральный сигнал и параметры W (WF, WE) генерирования входных сигналов процесса имитирования акустической среды;
декодирования кодированного безэхового бинаурального сигнала для получения декодированного безэхового бинаурального сигнала;
применения параметров W (WF, WE) генерирования входных сигналов процесса имитирования акустической среды к декодированному безэховому бинауральному сигналу для получения одного или более входных сигналов процесса имитирования акустической среды;
применения одного или более входных сигналов процесса имитирования акустической среды к процессу имитирования акустической среды для получения одного или более сигналов имитированной акустической среды;
- 6 034936 комбинирования одного или более сигналов имитированной акустической среды и декодированного безэхового бинаурального сигнала для получения звукового сигнала для представления наушниками.
Краткое описание графических материалов
Варианты осуществления изобретения ниже будут описаны с отсылкой к сопроводительным графическим материалам, на которых:
На фиг. 1 показано схематическое общее представление процесса свертки с HRIR для двух объектов источников, в котором каждый канал или объект обрабатывается парой HRIR/BRIR.
На фиг. 2 схематически показано бинауральное предварительно представленное содержимое, воспроизводимое громкоговорителями (известный уровень техники).
На фиг. 3 схематически показано бинауральное предварительно представленное содержимое, воспроизводимое громкоговорителями.
На фиг. 4 схематически показано получение коэффициентов w для обработки представления для громкоговорителей для воспроизведения наушниками.
На фиг. 5 схематически показаны коэффициенты W (We), используемые для реконструкции безэхового сигнала и одного раннего отражения (с дополнительным этапом объемной задержки).
На фиг. 6 схематически показан процесс использования коэффициентов W (WF), используемых для реконструкции безэхового сигнала и входного сигнала FDN из выходных данных базового декодера.
На фиг. 7 схематически показаны получение и обработка коэффициентов w для обработки безэхового представления для наушников и громкоговорителей.
На фиг. 8a, 8b показаны структурные схемы кодера/декодера в соответствии с дополнительным вариантом осуществления настоящего изобретения.
На фиг. 9a показана структурная схема декодера в соответствии с дополнительным вариантом осуществления настоящего изобретения.
На фиг. 9b показана структурная схема упрощенной версии декодера, показанного на фиг. 9a.
Подробное описание
Варианты осуществления предусматривают способ представления звука на основе каналов и/или объектов с низкой битовой скоростью передачи данных и низкой сложностью, который является пригодным для воспроизведения (бинаурального) громкоговорителями и наушниками. Этот способ выполняется путем (1) создания и кодирования представления, предназначенного для воспроизведения конкретной системой воспроизведения (например, без ограничения, громкоговорителями), и (2) добавления дополнительных метаданных, делающих возможным преобразование данного конкретного представления в модифицированное представление, пригодное для другой системы воспроизведения (например, наушников). Данное конкретное представление может называться первым представлением воспроизведения аудиопотока, тогда как модифицированное представление может называться вторым представлением воспроизведения аудиопотока. Первое представление может содержать набор из M1 каналов, тогда как второе представление может содержать набор из M2 каналов. Количество каналов может являться равным (M1=M2) или различным. Метаданные могут иметь форму набора параметров, возможно, переменных во времени и по частоте.
В одной из реализаций метаданные преобразования обеспечивают средства преобразования стереофонического представления для громкоговорителей в бинауральное представление для наушников с возможностью включения ранних отражений и поздней реверберации. Кроме того, для звукового содержимого на основе объектов, виртуальные акустические атрибуты, в частности (относительный) уровень поздней реверберации и/или уровневые, спектральные и временные характеристики одного или более ранних отражений, могут контролироваться для каждого объекта.
Варианты осуществления направлены на исключение артефактов и/или повышение качества воспроизведения и на сохранение художественного замысла при помощи метаданных, управляющих воспроизведением одной или более системами воспроизведения. В частности, варианты осуществления включают метаданные с объектным, канальным или гибридным представлениями сигнала, повышающие качество воспроизведения тогда, когда компоновка системы воспроизведения не соответствует компоновке, предусмотренной в ходе создания содержимого. Как таковое, применение и/или эффект в результате применения метаданных будет зависеть от предназначенных и фактических систем воспроизведения.
Бинауральное предварительно представленное содержимое, воспроизводимое громкоговорителями.
Как описано в разделе о предпосылках, воспроизведение громкоговорителями бинаурального предварительно представленного содержимого может приводить к неестественному тембру из-за того, что спектральные метки, неотъемлемо присутствующие в HRIR или BRIR, применяются дважды: один раз в ходе предварительного представления, и еще раз - в ходе воспроизведения в акустической среде. Кроме того, каждое воспроизведение бинаурального предварительно представленного содержимого будет неотъемлемо включать азимутальные метки определения местоположения, также применяемые дважды, что вызывает неверное пространственное отображение и ошибки определения местоположения.
На фиг. 2 показан данный вариант осуществления обработки 20. Канал или объект 21 первоначально подвергается свертке 22 с HRIR 23 перед кодированием 25. Таким образом, перед кодированием со
- 7 034936 держимое на основе каналов или объектов подвергается имитированию воспроизведения громкоговорителями посредством обработки HRIR или BRIR. Впоследствии обработанный сигнал кодируется 25, декодируется 26 и воспроизводится громкоговорителями 27, что вносит вышеупомянутые артефакты.
Спектральные артефакты, возникающие в результате двойного применения акустического пути от динамиков к барабанным перепонкам, могут быть, по меньшей мере частично, скомпенсированы путем применения зависящего от частоты коэффициента усиления или ослабления в ходе декодирования или воспроизведения. Данные параметры усиления или ослабления могут впоследствии кодироваться и включаться в содержимое. Для воспроизведения наушниками данные параметры могут быть отброшены, тогда как для воспроизведения громкоговорителями к сигналам перед воспроизведением применяются кодированные коэффициенты усиления.
Один из вариантов осуществления пригодного последовательного хода 30 обработки данных показан на фиг. 3. В данной схеме, когда воспроизведение предназначено для громкоговорителей, метаданные усиления предварительно вычисляются 31 при создании представления. Метаданные являются кодированными с бинаурально обработанными сигналами. В ходе декодирования информация метаданных также декодируется 32. Затем она используются для применения коэффициента 33 усиления к декодированному сигналу для уменьшения значимости артефактов. Для воспроизведения наушниками, с другой стороны, этапы 31-33 не требуются (исключаются), и декодированная информация может применяться непосредственно для воспроизведения наушниками.
Пример реализации.
В одной из реализаций для вычисления метаданных 31 усиления входные сигналы xi[nJ с дискретным временным индексом n и входным индексом i анализируются в частотно-временных мозаиках. Для составления частотно-временных мозаик, каждый из входных сигналов можно разбить на временные кадры, а каждый кадр, в свою очередь, может быть разделен на полосы частот. Полосы частот могут быть получены, например, посредством такого блока фильтров, как блок квадратурных зеркальных фильтров (quadrature mirror filter, QMF), дискретного преобразования Фурье (discrete Fourier transform, DFT), дискретного косинусного преобразования (discrete cosine transform, DCT) или любых других средств разбиения входных сигналов на множество полос частот. Результатом данного преобразования является то, что входной сигнал xi И для входных данных с индексом i и дискретно-временным индексом n представляется сигналами xilL b] подполос для временного интервала (или кадра) k и подполосы b. Краткосрочная энергия в частотно-временной мозаике (K, B) имеет вид:
σ^.(Κ,Β)= Xi[k,b]x,-[k,b], b,k£B,K где B, K - наборы частотных (b) и временных (k) индексов, соответствующих требуемой частотновременной мозаике.
Представление бинауральных сигналов У1И, УгИ в области дискретного времени для левого и правого уха соответственно, имеет вид:
*йц[п]
Уг[п] = ^\[n] *Цп] i
где ^мИ, Ы] - HRIR или BRIR, соответствующая входному индексу i для левого и правого ушей соответственно.
Иными словами, пара уг[п] бинауральных сигналов может быть создана путем комбинирования свертки и суммирования входных данных i. Впоследствии эти бинауральные сигналы могут быть преобразованы в частотно-временные мозаики с использованием такого же процесса, как процесс, примененный к сигналам xilL
Таким образом, для данных бинауральных сигналов в частотной области краткосрочная энергия в частотно-временной мозаике (K, B) может быть вычислена как:
|сту,· (К, В) = yj[k,b]y‘[k,b] b,k εΒ,Κ
Далее, на основании сохранения энергии в каждой частотно-временной мозаике, просуммированной по входным объектам i в числителе и по бинауральным сигналам j в знаменателе, могут быть составлены метаданные w(K,B) усиления:
w2(K, В)
Σι^ (к, в)
Σ,σ2 (К, В)
- 8 034936
Метаданные w (К В) могут быть затем подвержены квантованию, кодированию и включены в битовый поток аудиокодека. Затем декодер будет применять метаданные w (К В) к кадру K и полосе B обоих сигналов У1 и У г (входное представление) для получения выходного представления. Такое использование общих метаданных w (К, В), примененных как к У1, так и к У г, обеспечивает сохранение стереофонического баланса входного представления. Помимо вышеописанного способа, в котором бинауральные сигналы У1И, УгИ создаются посредством свертки во временной области, процесс бинаурального представления является также применимым в частотной области. Иными словами, вместо первоначального вычисления бинауральных сигналов У1[п], УгЕп1 во временной области, можно вместо этого преобразовать входные сигналы xitn] в представление в частотной области и применить процесс свертки с HRIR в частотной области для генерирования представления бинауральных сигналов У) ® Ь]ъ частотной области, например, при помощи способов быстрой свертки в частотной области. При таком подходе представление бинауральных сигналов У) ® ЭД. в частотной области получается без необходимости в генерировании этих сигналов во временной области, и для него не требуется применение блока фильтров или преобразование для применения в отношении бинауральных сигналов во временной области.
Воспроизводимое наушниками стереофоническое содержимое, включая безэховое бинауральное представление.
В данной реализации стереофонический сигнал, предназначенный для воспроизведения громкоговорителями, кодируется в сочетании с дополнительными данными для способствования воспроизведению данного сигнала для громкоговорителей через наушники. Если дан набор входных объектов или каналов xi [ЭД, то набор сигналов zs [ЭД для громкоговорителей обычно генерируется посредством коэффициентов Si.s- усиления амплитудного панорамирования, представляющих коэффициент усиления объекта i в динамике s:
zs[n] = ^gi,sXi[n] ί
Для содержимого на основе каналов коэффициенты усиления амплитудного панорамирования обычно являются постоянными, тогда как для содержимого на основе объектов, в котором предполагаемое положение объекта представляется при помощи переменных во времени метаданных, коэффициенты усиления, соответственно, будут переменными во времени.
Если даны сигналы zs [ЭД, подлежащие кодированию и декодированию, то набор коэффициентов w требуется найти так, чтобы, если эти коэффициенты применяются к сигналам zs [ЭД, то результирующие модифицированные сигналы У1, У г, составленные как:
У1 = Σ WsjZs
S
У г = 2 Ws'rZs
S точно соответствовали бинауральному представлению первоначальных входных сигналов xi[nJ в соответствии с выражениями:
У1[ЭД = ^х,[п] *hu[n] i
Уг[п] = ^Xi[n] *hr>i[n] i
Коэффициенты w можно найти путем минимизации L-2-критерия E между требуемым и фактическим бинауральными представлениями:
Е= |У1 - У112 + 1Уг - Уг12 w = argmin(E)
Решение для минимизации ошибки E можно получить при помощи решений в замкнутом виде, методов градиентного спуска или любого другого подходящего итеративного метода минимизации функции ошибок. В качестве одного примера такого решения можно записать различные этапы представле- 9 034936
Ϋ = XGW = ZW ния в матричной записи:
Y = ХН
Z = XG
Данная матричная запись основана на одноканальном кадре, содержащем N дискретных значений, представленных в виде одного столбца:
Xi = *;[0]
Χί[Ύ - 1].
и матриц как комбинаций нескольких каналов i = {1, ..., I}, каждый из которых представлен в матрице одним вектором-столбцом:
X = [xt ... х;]
Решение для W, которое минимизирует E, имеет вид:
W = (G‘X*XG + el)_1G*X*XH где (*) - оператор комплексно-сопряженного транспонирования,
I - единичная матриц и
- постоянная регуляризации.
Данное решение отличается от способа на основе коэффициентов усиления тем, что сигнал генерируется матрицей, а не скаляром W, применяемым к сигналу Z, что предусматривает возможность наличия скрещивающихся членов (например, второго сигнала являющегося (частично) реконструированным из первого сигнала Z).
В идеале коэффициенты w определяются для каждой частотно-временной мозаики для минимизации ошибки E в каждой частотно-временной мозаике.
В приведенных выше фрагментах описания для определения матричных коэффициентов использовался критерий минимальной среднеквадратичной ошибки (L-2-критерий). Без потери общности, вместо или в дополнение к принципу минимальной среднеквадратичной ошибки, аналогично могут быть использованы другие хорошо известные критерии или методы вычисления матричных коэффициентов. Например, матричные коэффициенты могут быть вычислены с использованием членов более высокого порядка или путем минимизации Ы-критерия (например, критерия наименьшего абсолютного отклонения). Кроме того, могут быть использованы разнообразные методы, включающие методики неотрицательного разложения или оптимизации, непараметрические оценки, оценки максимального правдоподобия и т.п. В дополнение, матричные коэффициенты могут быть вычислены с использованием итеративных процессов или процессов градиентного спуска, методов интерполяции, эвристических методов, динамического программирования, машинного обучения, нечеткой оптимизации, имитированной закалки, или могут быть использованы решения в замкнутом виде и методики анализа через синтез. И последнее, но не менее важное, оценка матричных коэффициентов может быть ограничена различными способами, например, при помощи ограничения диапазона значений, регуляризирующих членов, суперпозиции требований сохранения энергии и т.п.
В ситуациях практического применения HRIR или BRIR ^ΙΙ^ε,Ι будет включать зависящие от частоты задержки и/или сдвиги по фазе. Соответственно, коэффициенты w могут являться комплекснозначными с мнимой составляющей, по существу, отличной от нуля.
Один из вариантов реализации обработки данных в данном варианте осуществления показан 40 на фиг. 4. Звуковое содержимое 41 обрабатывается блоком 42 анализирующих гибридных комплексных квадратурных зеркальных фильтров (hybrid complex quadrature mirror filter, HCQMF) в сигналы подполос. Затем, для генерирования бинауральных сигналов Y, к выходным данным блока фильтров применяются 43 HRIR 44. Параллельно входные данные представляются 45 для воспроизведения громкоговорителями, в результате чего образуются сигналы Z громкоговорителей. В дополнение, из сигналов Z громкоговорителей и бинауральных сигналов Y вычисляются 46 коэффициенты (или весовые коэффициенты) w, причем они включаются в битовый поток 48 базового кодера. Могут быть использованы различные базовые кодеры, такие как, например, MPEG-1 Layer 1, 2, 3, раскрытые в публикации Brandenburg, K., & Bosi, M. (1997), Overview of MPEG audio: Current and future standards for low bit-rate audio coding. Journal of the Audio Engineering Society, 45(1/2), 4-21 or Riedmiller, J., Mehta, S., Tsingos, N., & Boon, P. (2015). Immersive and Personalized Audio: A Practical System for Enabling Interchange, Distribution, and Delivery of NextGeneration Audio Experiences. Motion Imaging Journal, SMPTE, 124(5), 1-23, которые включаются посред- 10 034936 ством ссылки. Если базовый кодер не обладает способностью использования сигналов подполос в качестве входных данных, эти сигналы подполос могут сначала быть преобразованы во временную область с использованием блока 47 синтезирующих гибридных комплексных квадратурных зеркальных фильтров (HCQMF).
На стороне декодирования, если декодер выполнен с возможностью воспроизведения для наушников, коэффициенты извлекаются 49 и применяются 50 к сигналам базового декодера перед синтезом 51 HCQMF и воспроизведением 52. Если базовый кодер не вырабатывает сигналы в области HCQMF, может потребоваться необязательный блок 54 анализирующих фильтров HCQMF, как показано на фиг. 4. Таким образом, сигналы, кодированные базовым кодером, предназначены для воспроизведения громкоговорителями, тогда как коэффициенты преобразования сигналов громкоговорителей в бинауральные сигналы определяются в кодере и применяются в декодере. Декодер может быть дополнительно оснащен функциональной возможностью коррекции пользователем и, таким образом, в режиме воспроизведения для наушников пользователь может выбирать воспроизведение наушниками обычных сигналов громкоговорителей, а не бинаурально обработанных сигналов. В данном случае декодер игнорирует весовые коэффициенты. Наконец, если декодер настроен на воспроизведение через громкоговорители, весовые коэффициенты могут быть проигнорированы, и сигналы базового декодера могут воспроизводиться системой воспроизведения через громкоговорители либо непосредственно, либо после повышающего микширования или понижающего микширования для соответствия компоновке системы воспроизведения через громкоговорители.
Будет очевидно, что способы, описанные в предшествующих параграфах, не ограничиваются использованием блоков квадратурных зеркальных фильтров, поскольку могут с не меньшим успехом использоваться как блоки фильтров другой конструкции, так и краткосрочные дискретные преобразования Фурье с обработкой методом окна.
Данная схема обладает различными преимуществами по сравнению с традиционными подходами. Эти преимущества включают следующие:
1) сложность декодера лишь в самой малой степени превышает сложность обычно стереофонического воспроизведения, поскольку дополнение в декодер состоит только из простой (зависящей от времени и частоты) матрицы, управляемой при помощи информации битового потока;
2) данный подход является пригодным для содержимого на основе каналов и на основе объектов, и он не зависит от количества объектов или каналов, присутствующих в содержимом;
3) HRTF становятся параметрами настройки кодера, т.е. они могут быть модифицированы, улучшены, изменены или приспособлены в любой момент времени вне зависимости от совместимости декодера. Для декодеров, представленных в данной области техники, HRTF могут по-прежнему быть оптимизированы или настроены в соответствии с требованиями пользователя без необходимости в модификации этапов обработки данных на стороне декодера;
4) битовая скорость передачи данных является чрезвычайно низкой по сравнению с битовыми скоростями передачи данных, необходимыми для многоканального содержимого или содержимого на основе объектов, поскольку из кодера в декодер необходимо передать лишь небольшое количество сигналов громкоговорителей (как правило, один или два) с дополнительными данными (с низкой скоростью передачи) для коэффициентов w;
5) один и тот же битовый поток может быть верно воспроизведен громкоговорителями и наушниками;
6) битовый поток может быть составлен масштабируемым образом; если, в контексте конкретной услуги, в конечной точке гарантировано использование только громкоговорителей, то коэффициенты w могут быть удалены из битового потока без последствий для традиционного представления громкоговорителями;
7) отличительные признаки передовых кодеков, действующие в отношении представлений для громкоговорителей, такие как управление громкостью, усиление диалога и т.д., будут продолжать действовать по назначению (при воспроизведении громкоговорителями);
8) за счет масштабирования коэффициентов w, громкость бинаурального представления может обрабатываться независимо от громкости воспроизведения громкоговорителями;
9) слушатели, использующие наушники, могут выбирать прослушивание бинаурального или традиционного стереофонического представления вместо принудительного прослушивания того или другого.
Расширение с ранними отражениями.
Часто для повышения реалистичности бинаурального представления, требуется включение в бинауральные сигналы одного или более ранних отражений, используемых вследствие наличия пола, стен или потолка. Если отражение имеет бликовую природу, то оно может быть само по себе интерпретировано как бинауральное представление, в котором соответствующие HRIR содержат эффект поглощения поверхностью, увеличения задержки и пониженный общий уровень из-за увеличения длины акустического пути от источника звука к барабанным перепонкам.
Эти свойства могут быть зарегистрированы модифицированной схемой, такой как схема, показанная 60 на фиг. 5, которая представляет собой модификацию схемы, показанной на фиг. 4. В кодере 64
- 11 034936 коэффициенты W определяются для (1) реконструкции безэхового бинаурального представления из представления для громкоговорителей (коэффициенты WY), и (2) для реконструкции бинаурального представления отражения из представления для громкоговорителей (коэффициенты WE). В данном случае безэховое бинауральное представление определяется с помощью HRIR He бинаурального представления, что приводит к паре Y безэховых бинауральных сигналов, тогда как раннее отражение определяется с помощью HRIR He, приводящими к паре сигналов E раннего отражения. Для того чтобы сделать возможной параметрическую реконструкцию раннего отражения из микшированного стереофонического сигнала, важно, чтобы задержка, вызванная большей длиной пути раннего отражения, была удалена из HRIR He в кодере и чтобы данная конкретная задержка была применена в декодере.
Декодер будет генерировать пару безэховых сигналов и пару сигналов раннего отражения путем применения коэффициентов W (WY; WE) к сигналам громкоговорителей. Для имитирования большей длины пути для раннего отражения, раннее отражение впоследствии обрабатывается посредством этапа 68 задержки. Параметр задержки блока 68 может быть включен в битовый поток кодера или может представлять собой параметр, определяемый пользователем, или он может быть сделан не зависящим от имитированной акустической среды или зависящим от фактической акустической среды, в которой находится слушатель.
Расширение с поздней реверберацией.
Для включения в бинауральное представление имитирования поздней реверберации может быть использован такой алгоритм поздней реверберации, как сеть задержки обратной связи (FDN, feedback-delay network). FDN принимает в качестве входных данных один или более объектов или каналов и вырабатывает (в случае бинаурального ревербератора) два сигнала поздней реверберации. В качестве входных данных в FDN в традиционном алгоритме могут быть использованы выходные данные декодера (или результат его понижающего микширования). Данный подход обладает значительным недостатком. Во многих случаях использования может потребоваться регулировка величины поздней реверберации для каждого объекта. Например, при уменьшении величины поздней реверберации повышается разборчивость диалога.
В одном из альтернативных вариантов осуществления управление величиной реверберации для каждого объекта или каждого канала может создаваться аналогично тому, как из стереофонического микшированного сигнала составляются безэховое бинауральное представление или бинауральное представление ранних отражений.
Как показано на фиг. 6, для дополнительного приспособления к поздней реверберации могут быть выполнены различные модификации предыдущих схем. В кодере 81 вычисляется 82 входной сигнал F FDN, который может представлять собой взвешенную комбинацию входных данных. Указанные весовые коэффициенты могут зависеть от содержимого, например, в результате разметки вручную в ходе создания содержимого или автоматической классификации при помощи интеллектных алгоритмов анализа медиаданных. Сам входной сигнал FDN отбрасывается блоком 83 оценки весовых коэффициентов, но данные WF коэффициентов, делающие возможной оценку, реконструкцию или приближение входного сигнала FDN из представления для громкоговорителей включаются 85 в битовый поток. В декодере 86 входной сигнал FDN реконструируется 88, обрабатывается самой FDN и включается 89 в бинауральный выходной сигнал для слушателя 91.
В дополнение, FDN может быть составлена так, что она допускает несколько (два или более) вводов, и, таким образом, пространственные величины входных сигналов сохраняются на выходе FDN. В этих случаях в битовый поток включаются данные коэффициентов, делающие возможной оценку каждого входного сигнала FDN из представления для громкоговорителей.
В этом случае может потребоваться управление определением пространственного местоположения объекта или канала относительно входных данных FDN.
В некоторых случаях может быть возможно генерирование входных сигналов имитирования поздней реверберации (например, FDN) в ответ на параметры, присутствующие в потоке данных для другого назначения (например, параметров, специально не предназначенных для применения к базовым сигналам для генерирования входных сигналов FDN). Например, в одной примерной системе усиления диалога диалоговый сигнал реконструируется из набора базовых сигналов путем применения к этим базовым сигналам параметров усиления диалога. Диалоговый сигнал затем улучшается (например, усиливается) и микшируется обратно в базовые сигналы (что, таким образом, усиливает диалоговые составляющие относительно остальных составляющих базовых сигналов). Как описано выше, часто требуется составление входного сигнала FDN таким образом, чтобы он не содержал диалоговые составляющие. Таким образом, в системах, где уже доступны параметры усиления диалога, можно реконструировать требуемый входной сигнал FDN без диалога (или, по меньшей мере, с подавленным диалогом) путем, в первую очередь, реконструкции диалогового сигнала из базового сигнала и параметров усиления диалога, а затем вычитания (например, аннулирования) диалогового сигнала из базовых сигналов. В такой системе специализированные параметры для реконструкции входного сигнала FDN из базовых сигналов могут не являться обязательными (так как вместо них могут быть использованы параметры усиления диалога) и, таким образом, могут быть исключены, что приводит к уменьшению необходимой скорости передачи
- 12 034936 данных параметров без потери функциональных возможностей.
Комбинирование ранних отражений и поздней реверберации.
Несмотря на то что в предшествующих разделах обозначены расширения безэхового представления за счет раннего отражения (отражений) и поздней реверберации, также возможны их комбинации. Например, система может содержать:
1) коэффициенты WY для определения безэхового представления из представления для громкоговорителей;
2) дополнительные коэффициенты WE для определения определенного количества ранних отражений из представления для громкоговорителей;
3) дополнительные коэффициенты WF для определения одного или более входных сигналов поздней реверберации из представления для громкоговорителей, что позволяет управлять величиной поздней реверберации для каждого объекта.
Безэховое представление как первое представление.
Несмотря на то, что использование представления для громкоговорителей в качестве первого представления, подлежащего кодированию базовым кодером, обладает преимуществом обеспечения обратной совместимости с декодерами, не обладающими способностью интерпретации или обработки данных w преобразования, указанное первое представление не ограничено представлением для воспроизведения громкоговорителями. На фиг. 7 показано схематическое представление способа 100 кодирования и декодирования звукового содержимого 105 для воспроизведения наушниками 130 или громкоговорителями 140. Кодер 101 принимает входное звуковое содержимое 105 и обрабатывает эти сигналы при помощи блока 106 фильтров HCQMF. Впоследствии на основании базы 104 данных HRIR/HRTF элементом 109 свертки с HRIR генерируется безэховое представление Y. В дополнение, элементом 108, вычисляющим и применяющим матрицу G панорамирования громкоговорителей, вырабатывается представление Z для громкоговорителей. Кроме того, элемент 107 вырабатывает входной микшированный сигнал F FDN.
Безэховый сигнал Y, необязательно, преобразовывается во временную область с использованием блока 110 синтезирующих фильтров HCQMF и кодируется базовым кодером 111. Блок 114 оценки преобразования вычисляет параметры WF (112), делающие возможной реконструкцию входного сигнала F FDN из безэхового представления Y, а также параметры WZ (113) для реконструкции представления Z для громкоговорителей из безэхового представления Y. Параметры 112 и 113 включаются в битовый поток базового кодера. В качестве альтернативы или в дополнение, несмотря на то, что это не показано на фиг. 7, блок оценки преобразования может вычислять параметры WE, делающие возможной реконструкцию сигнала E раннего отражения из безэхового представления Y.
Декодер имеет два режима работы, показанных как режим 102 декодера, предназначенный для прослушивания 130 через наушники, и режим 103 декодера, предназначенный для воспроизведения 140 громкоговорителями. В случае воспроизведения наушниками базовый декодер 115 декодирует безэховое представление Y и декодирует параметры WF преобразования. Впоследствии параметры WF преобразования применяются к безэховому представлению Y при помощи блока 116 матрицирования для получения оценочного входного сигнала FDN, который впоследствии обрабатывается FDN 117 для получения сигнала поздней реверберации. Этот сигнал поздней реверберации микшируется с безэховым представлением Y при помощи сумматора 150, после которого следует блок 118 синтезирующих фильтров HCQMF, для получения представления 130 для наушников. Если также имеются параметры WE, декодер может применять эти параметры к безэховому представлению Y для получения оценочного сигнала раннего отражения, который впоследствии обрабатывается посредством задержки и микшируется с безэховым представлением Y.
В случае воспроизведения громкоговорителями, декодер действует в режиме 103, в котором базовый декодер 115 декодирует безэховое представление Y, а также параметры WZ. Впоследствии этап 116 матрицирования применяет параметры WZ в отношении безэхового представления Y для получения оценки, или приближения, представления Z для громкоговорителей. Позднее этот сигнал преобразовывается во временную область блоком 118 синтезирующих фильтров HCQMF и воспроизводится громкоговорителями 140.
Наконец, следует отметить, что система, показанная на фиг. 7, необязательно, может эксплуатироваться при отсутствии определения и передачи параметров WZ. В этом режиме работы представление Z для громкоговорителей нельзя сгенерировать из безэхового представления Y. Однако по причине того, что определяются и передаются параметры WE и/или WF, из безэхового представления можно сгенерировать представление для наушников, содержащее составляющие ранних отражений и/или поздней реверберации из безэхового представления.
Многоканальное представление для громкоговорителей.
Специалистам в данной области следует принять во внимание, что первое представление потока воспроизведения, закодированное в кодере, может представлять собой многоканальное представление, например, окружающее или погружающее представление для громкоговорителей, такое как представление в форматах 5.1, 7.1, 7.1.4 и т.д. Обсужденные выше, например со ссылкой на фиг. 4, варианты осуществления изобретения, в которых второе представление потока воспроизведения представляет собой сте
- 13 034936 реофоническое представление, будут действовать аналогичным образом, хотя размер матриц будет откорректирован.
Например, в то время как для преобразования из одного стереофонического представления в другое стереофоническое представление достаточной является матрица параметров размером 2x2, для преобразования пятиканального окружающего представления в стереофоническое представление требуется матрица размером 5x2, а для преобразования из окружающего представления в формате 5.1 (пять каналов полной полосы пропускания и канал низкочастотных эффектов (low-frequency effects, LFE)) в стереофоническое представление - матрица размером 6x2. Как следствие, количество дополнительной информации, необходимой для представления параметров преобразования, будет увеличиваться вместе с числом каналов в представлении для громкоговорителей, и соответствующим образом также будет увеличиваться вычислительная сложность процесса декодирования.
Во избежание или для минимизации этого возрастания вычислительной сложности при преобразовании первого представления с M1 каналов во второе представление с M2 каналов, где M1>M2, например, когда окружающее или погружающее представление для громкоговорителей преобразовывается в бинауральное стереофоническое представление, перед определением параметров преобразования может являться преимущественным понижающее микширование первого представления в промежуточное представление. Например, окружающее представление в формате 5.1 может быть подвергнуто понижающему микшированию в стереофоническое представление для громкоговорителей в формате 2.0.
На фиг. 8a показан кодер 200, в котором звуковое содержимое 201 представляется блоком 202 представления в окружающее представление S для громкоговорителей формата 5.1, которое кодируется базовым кодером 203. Представление S в формате 5.1 также преобразовывается модулем 204 понижающего микширования в полученное в результате понижающего микширования промежуточное двухканальное (стереофоническое) представление Z. Например, левый канал, Z (ZL), может быть выражен как взвешенная сумма левого канала (SL), левого бокового канала (SLS), центрального канала (SC) и канала низкочастотных эффектов (SLFE) окружающего представления S в соответствии со следующим уравнением: ZL = (SL + a*SC + b*SLS + c*SLFE), где a, b и c представляют собой соответствующие постоянные, например a=b=sqrt(0,5)=0,71 и c=0,5.
Звуковое содержимое также вводится в блок 205 бинаурального представления, выполненный с возможностью представления безэхового бинаурального сигнала Y. Блок 206 вычисления параметров принимает безэховый сигнал Y и стереофонический сигнал Z, полученный в результате понижающего микширования, и вычисляет параметры WY преобразования стереофонического сигнала в безэховый сигнал. В сравнении с вышеописанной фиг. 4, блок 202 представления представляет собой многоканальный вариант блока 45 представления, так как выходные данные в обоих случаях доставляются в базовый кодер 203/48. Блоки 205 и 206 в принципе идентичны блокам 43 и 46.
Кроме того, кодер также может содержать блок 207 (соответствующий блоку 82, показанному на фиг. 6) для представления входного сигнала FDN, и тогда блок 206 может быть выполнен с возможностью вычисления также и набора параметров WF FDN (соответствующих блоку 83 на фиг. 6).
На фиг. 8b показан декодер 210, в котором базовый декодер 211 принимает и декодирует окружающее представление S в формате 5.1, а также наборы параметров WY и WF. Окружающее представление S преобразовывается в полученный в результате понижающего микширования двухканальный (стереофонический) сигнал Z посредством модуля 212 понижающего микширования, действующего таким же образом, как его эквивалент 204 в кодере. Первый блок 213 матрицирования применяет параметры WY к стереофоническому представлению Z для создания реконструированного безэхового сигнала У
Второй блок 214 матрицирования применяет параметры.
WF к стереофоническому представлению Z для создания реконструированного входного сигнала FDN. Входной сигнал FDN используется в FDN 215 для создания сигнала поздней реверберации, который добавляется 216 к реконструированному безэховому сигналу Y для создания бинауральных выходных данных. Следует отметить, что обработка в блоках 213-216 аналогична таковой для декодера 86, показанного на фиг. 6.
Для менее высоких битовых скоростей передачи данных известно использование параметрических способов передачи представления в формате 5.1 при помощи полученного в результате понижающего микширования сигнала в формате 2.1 и набора параметров связи, см., например, публикацию ETSI TS 103 190-1 V1.2.1 (2015-06). В такой системе базовый декодер фактически выполняет повышающее микширование для создания декодированного представления в формате 5.1. Если вариант осуществления, показанный на фиг. 8b, реализуется в таком декодере, результатом будет декодер, показанный на фиг. 9a. Следует отметить, что базовый декодер 311, показанный на фиг. 9a, содержит модуль 312 повышающего микширования для повышающего микширования представления в формате 2.1 в представление в формате 5.1. Представление в формате 5.1 затем подвергается понижающему микшированию в представление в формате 2.0 при помощи модуля 212 понижающего микширования, как показано на фиг. 8b.
- 14 034936
Однако в данном контексте, если представление в формате 2.1 уже включено в битовый поток, повышающее микширование в формат 5.1 не требуется и может быть опущено для упрощения декодера. Такой упрощенный декодер показан на фиг. 9b. Здесь базовый декодер 411 декодирует только представление в формате 2.1. Это представление принимается упрощенным модулем 412 понижающего микширования, выполненным с возможностью преобразования представления в формате 2.1 в представление в формате 2.0 в соответствии с уравнениями:
Lo = a*L + b*LFE;
Ro = a*R + b*LFE, где L, R и LFE обозначают левый и правый каналы полной полосы пропускания и канал низкочастотных эффектов декодированного представления в формате 2.1, при этом a и b представляют собой соответствующие постоянные, оказывающие воздействие на повышающее и понижающее микширование, выполняемое модулями 312 и 212, показанными на фиг. 9a.
Процесс, описанный на фиг. 9a и 9b, предполагает получение в результате понижающего микширования сигнала в формате 2.1 и соответствующих параметров связи. Аналогичный подход может быть использован в системе, в которой используется, например, полученный в результате понижающего микширования сигнал в формате 3.1 и соответствующие параметры связи. В качестве альтернативы система, показанная на фиг. 8a и 8b, также может переносить дополнительную вспомогательную информацию, позволяющую выполнять повышающее микширование представления в формате 5.1 в представление на основе объектов, как обсуждено в публикации ETSI TS 103 190-1 V1.2.1 (2015-06).
Толкования.
Отсылка в данном описании к одному варианту осуществления, некоторым вариантам осуществления или одному из вариантов осуществления означает, что конкретный отличительный признак, конструкция или характеристика, описанная в связи с данным вариантом осуществления, включена по меньшей мере в один вариант осуществления настоящего изобретения. Поэтому появления фразы в одном варианте осуществления, в некоторых вариантах осуществления или в одном из вариантов осуществления в различных местах данного описания могут, но необязательно, относиться к одному и тому же варианту осуществления изобретения. Кроме того, конкретные отличительные признаки, конструкции или характеристики могут комбинироваться в одном или более вариантах осуществления любым подходящим образом, что должно быть очевидно из данного описания для специалистов средней квалификации в данной области.
В рамках данного описания использование порядковых числительных первый, второй, третий и т.д. для описания обычного объекта указывает единственно на то, что производится отсылка к различным примерам сходных объектов, и они не предназначены для обозначения того, что объекты, описанные таким образом, должны находиться в данной последовательности во времени, в пространстве, по рангу или любым иным образом.
В приведенной ниже формуле изобретения и в данном описании любой из терминов содержащий, состоящий из или который содержит является неограничивающим термином, что означает включение, по меньшей мере, следующих за ним элементов/отличительных признаков, но не исключение остальных. Поэтому термин содержащий при его использовании в формуле изобретения не следует интерпретировать как ограничивающий в отношении средств или элементов, или этапов, перечисляемых после него. Например, объем выражения устройство, содержащее A и B не следует ограничивать устройствами, содержащими только элементы A и B. Если любой из используемых в данном описании терминов включающий или который включает также представляет собой неограничивающий термин, который также означает включение, по меньшей мере, элементов/отличительных признаков, следующих за этим термином, но не исключение остальных. Таким образом, включающий является синонимом и означает содержащий.
В рамках данного описания термин примерный используется в смысле представления примеров, в отличие от указания свойства. Т.е. примерный вариант осуществления - это вариант осуществления, предусмотренный в качестве примера, но не обязательно являющийся одним из вариантов осуществления примерного свойства.
Следует понимать, что в приведенном выше описании примерных вариантов осуществления изобретения различные отличительные признаки изобретения иногда группируются в один вариант осуществления изобретения, фигуру или их описание для выбора оптимального пути описания и для обеспечения понимания одного или более различных аспектов изобретения. Такой способ раскрытия, однако, не следует интерпретировать как отражение намерение того, что заявленное изобретение требует большего количества отличительных признаков, чем количество признаков, которые в прямой форме перечислены в каждом пункте формулы изобретения. Вместо этого, как отражает нижеследующая формула изобретения, особенности изобретения заключаются менее чем во всех отличительных признаках вышеописанного одного варианта осуществления изобретения. Поэтому формула изобретения, следующая за разделом Подробное описание, таким образом безоговорочно включена в этот раздел Подробное описание, причем каждый пункт формулы самостоятельно представляет собой отдельный вариант осуществления данного изобретения.
- 15 034936
Кроме того, несмотря на то что некоторые варианты осуществления изобретения, описанные в данном описании, включают одни, а не другие отличительные признаки, включенные в другие варианты осуществления изобретения, комбинации отличительных признаков из различных вариантов осуществления изобретения подразумеваются как находящиеся в пределах объема изобретения и образующие другие варианты осуществления изобретения, как должно быть понятно специалистам в данной области. Например, в нижеследующей формуле изобретения любые заявленные варианты осуществления изобретения могут быть использованы в любой комбинации.
Кроме того, некоторые варианты осуществления изобретения описаны в данном описании как способ или комбинация элементов способа, которые могут быть реализованы процессором вычислительной системы, или другими средствами осуществления такой функции. Таким образом, процессор с необходимыми командами для осуществления указанного способа или элемента способа образует средства для осуществления способа или элемента способа. Кроме того, описанный в данном описании элемент варианта осуществления устройства представляет собой пример средств осуществления функции, выполняемой элементом для осуществления изобретения.
В приведенном в данном документе описании изложено множество конкретных деталей. Однако следует понимать, что варианты осуществления изобретения могут использоваться на практике без этих конкретных деталей. В других случаях хорошо известные способы, конструкции и технологии подробно не показаны для того, чтобы не делать менее ясным понимание данного описания.
Аналогично, следует обратить внимание, что термин связанный при его использовании в формуле изобретения не следует интерпретировать как ограничивающийся только прямыми соединениями. Могут использоваться термины связанный и соединенный наряду с их производными. Следует понимать, что эти термины не предполагаются как синонимы друг друга. Таким образом, объем выражения устройство A, связанное с устройством B не следует ограничивать устройствами или системами, в которых вывод устройства A непосредственно соединен с вводом устройства B. Это означает, что существует путь между выводом устройства A и вводом устройства B, который может представлять собой путь, содержащий другие устройства или средства. Связанный может означать то, что два или большее количество элементов находятся или в прямом физическом, или электрическом контакте, или то, что два или большее количество элементов не находятся в прямом контакте друг с другом, однако по-прежнему кооперируются или взаимодействуют друг с другом.
Таким образом, в то время как здесь описано то, что рассматривается как предпочтительные варианты осуществления изобретения, специалистам в данной области должно быть понятно, что в них могут вноситься другие и дополнительные модификации без отступления от идеи изобретения, и подразумевается, что все указанные изменения и модификации заявляются как включенные в объем изобретения. Например, любые приведенные выше формулы являются только примерами процедур, которые могут использоваться. Функциональные возможности могут добавляться к структурным схемам или исключаться из структурных схем, а операции могут быть подвержены взаимному обмену между функциональными блоками. Этапы могут добавляться к способам или исключаться из способов, описанных в пределах объема настоящего изобретения.

Claims (15)

  1. ФОРМУЛА ИЗОБРЕТЕНИЯ
    1. Способ кодирования входного аудиопотока, содержащего одну или более звуковых составляющих, отличающийся тем, что каждая звуковая составляющая связана с пространственным местоположением, причем способ включает этапы:
    представление первого представления потока воспроизведения указанного входного аудиопотока, причем указанное первое представление потока воспроизведения представляет собой набор из M1 сигналов, предназначенных для воспроизведения первой системой воспроизведения звука;
    представление второго представления потока воспроизведения указанного входного аудиопотока, при этом указанное второе представление потока воспроизведения представляет собой набор из двух сигналов, предназначенных для воспроизведения второй системой воспроизведения звука, при этом одно из первого представления потока воспроизведения и второго представления потока воспроизведения представляет собой представление для громкоговорителей, и при этом одно из первого представления потока воспроизведения и второго представления потока воспроизведения представляет собой эховое или безэховое бинауральное представление;
    определение набора параметров преобразования, пригодных для преобразования промежуточного представления потока воспроизведения в приближение второго представления потока воспроизведения, при этом набор параметров преобразования образует матрицу усиления размером M1xM2, которая при применении непосредственно к промежуточному представлению потока воспроизведения матричным умножением образует указанное приближение второго представления потока воспроизведения, и причем промежуточное представление потока воспроизведения представляет собой одно из первого представления потока воспроизведения и результата понижающего микширования первого представления потока воспроизведения;
    - 16 034936 причем параметры преобразования определяются путем минимизации величины разницы между вторым представлением потока воспроизведения и приближением второго представления потока воспроизведения, образованного применением параметров преобразования к первому представлению потока воспроизведения;и кодирование первого представления потока воспроизведения и указанного набора параметров преобразования для передачи в декодер.
  2. 2. Способ по п.1, отличающийся тем, что указанные параметры преобразования являются переменными во времени и/или зависящими от частоты.
  3. 3. Способ по любому из предыдущих пунктов, отличающийся тем, что M1=2.
  4. 4. Способ по любому из пп.1, 2, отличающийся тем, что M1>2, и при этом способ дополнительно включает образование промежуточного представления потока воспроизведения путем понижающего микширования первого представления потока воспроизведения в двухканальное представление.
  5. 5. Способ декодирования представлений потока воспроизведения из потока данных, причем способ включает этапы:
    прием и декодирование первого представленного представления потока воспроизведения, при этом указанное первое представленное представление потока воспроизведения представляет собой набор из M1 сигналов, предназначенных для воспроизведения первой системой воспроизведения звука;
    прием и декодирование набора параметров преобразования, пригодных для преобразования промежуточного представления потока воспроизведения в приближение второго представленного представления потока воспроизведения, при этом указанное второе представленное представление потока воспроизведения представляет собой набор из двух сигналов, предназначенных для воспроизведения второй системой воспроизведения звука, при этом набор параметров преобразования образуют матрицу усиления размером M1xM2, которая при применении непосредственно к промежуточному представлению потока воспроизведения матричным умножением образует указанное приближение второго представления потока воспроизведения;
    при этом одно из первого представления потока воспроизведения и второго представления потока воспроизведения представляет собой представление для громкоговорителей, и при этом одно из первого представления потока воспроизведения и второго представления потока воспроизведения представляет собой эховое или безэховое бинауральное представление, и причем промежуточное представление потока воспроизведения представляет собой одно из первого представленного представления потока воспроизведения и результата понижающего микширования первого представленного представления потока воспроизведения;
    причем параметры преобразования определяются кодером для обеспечения того, что величина разницы между вторым представленным представлением потока воспроизведения и приближением второго представленного представления потока воспроизведения, образованного применением параметров преобразования к первому представленному представлению потока воспроизведения, является минимальной; и применение указанных параметров преобразования к указанному промежуточному представлению потока воспроизведения для получения указанного приближения второго представленного представления потока воспроизведения.
  6. 6. Способ по п.5, отличающийся тем, что указанные параметры преобразования являются переменными во времени и/или зависящими от частоты.
  7. 7. Способ по п.5, отличающийся тем, что M1=2.
  8. 8. Способ по любому из пп.5, 6, отличающийся тем, что M1>2, и при этом способ дополнительно включает образование промежуточного представления потока воспроизведения путем понижающего микширования первого представленного представления потока воспроизведения в двухканальное представление.
  9. 9. Способ по п.8, отличающийся тем, что первое представленное представление потока воспроизведения представляет собой окружающее или погружающее представление, такое как представление в формате 5.1, 7.1 или 7.1.4.
  10. 10. Способ по п.8, отличающийся тем, что первое представленное представление потока воспроизведения представляет собой представление в формате 2.1, и при этом указанный этап понижающего микширования включает преобразование представления в формате 2.1 в стереофоническое представление в формате 2.0 в соответствии с уравнениями:
    Lo = a*L + b*LFE,
    Ro = a*R + b*LFE, где L, R и LFE обозначают левый и правый каналы полной полосы пропускания и канал низкочастотных эффектов декодированного представления в формате 2.1, при этом a и b представляют собой соответствующие постоянные.
  11. 11. Способ по п.5, отличающийся тем, что приближение второго представленного представления потока воспроизведения представляет собой безэховое бинауральное представление, и при этом способ дополнительно включает:
    - 17 034936 прием и декодирование одного или более дополнительных наборов параметров преобразования, пригодных для преобразования промежуточного представления потока воспроизведения в один или более входных сигналов процесса имитирования акустической среды;
    применение одного или более дополнительных наборов параметров преобразования к промежуточному представлению потока воспроизведения для генерирования одного или более входных сигналов процесса имитирования акустической среды;
    применение одного или более входных сигналов процесса имитирования акустической среды к одному или более процессам имитирования акустической среды для получения одного или более сигналов имитированной акустической среды;
    комбинирование одного или более сигналов имитированной акустической среды с приближением второго представленного представления потока воспроизведения.
  12. 12. Способ по п.5, отличающийся тем, что он дополнительно включает прием и декодирование одного или более наборов параметров оценки диалоговых сигналов, пригодных для преобразования промежуточного представления потока воспроизведения в один или более оценочных диалоговых сигналов;
    применение одного или более наборов параметров оценки диалога к промежуточному представлению потока воспроизведения для генерирования одного или более оценочных диалоговых сигналов;
    вычитание одного или более оценочных диалоговых сигналов из промежуточного представления потока воспроизведения для получения одного или более сигналов с подавленным диалогом;
    применение одного или более сигналов с подавленным диалогом к одному или более процессам имитирования акустической среды для получения одного или более сигналов имитированной акустической среды;
    комбинирование одного или более сигналов имитированной акустической среды с приближением второго представленного представления потока воспроизведения.
  13. 13. Кодер для кодирования входного аудиопотока, содержащего одну или более звуковых составляющих, причем каждая звуковая составляющая связана с пространственным местоположением, причем кодер содержит первый блок представления для представления первого представления потока воспроизведения указанного входного аудиопотока, при этом указанное первое представление потока воспроизведения представляет собой набор из M1 сигналов, предназначенных для воспроизведения первой системой воспроизведения звука;
    второй блок представления для представления второго представления потока воспроизведения указанного входного аудиопотока, при этом указанное второе представление потока воспроизведения представляет собой набор из двух сигналов, предназначенных для воспроизведения второй системой воспроизведения звука, при этом одно из первого представления потока воспроизведения и второго представления потока воспроизведения представляет собой представление для громкоговорителей, и при этом одно из первого представления потока воспроизведения и второго представления потока воспроизведения представляет собой эховое или безэховое бинауральное представление;
    блок определения параметров преобразования для определения набора параметров преобразования, пригодных для преобразования промежуточного представления потока воспроизведения в приближение второго представления потока воспроизведения, при этом набор параметров преобразования образует матрицу усиления размером M1xM2, которая при применении непосредственно к промежуточному представлению потока воспроизведения матричным умножением образует указанное приближение второго представления потока воспроизведения, причем промежуточное представление потока воспроизведения представляет собой одно из первого представления потока воспроизведения и результата понижающего микширования первого представления потока воспроизведения, и причем параметры преобразования определяются путем минимизации величины разницы между вторым представлением потока воспроизведения и приближением второго представления потока воспроизведения, образованного применением параметров преобразования к первому представлению потока воспроизведения; и блок кодирования для кодирования первого представления потока воспроизведения и указанного набора параметров преобразования для передачи в декодер.
  14. 14. Декодер для декодирования представлений потока воспроизведения из потока данных, причем декодер содержит:
    блок базового декодера, выполненный с возможностью приема и декодирования первого представленного представления потока воспроизведения, при этом указанное первое представленное представление потока воспроизведения представляет собой набор из M1 сигналов, предназначенных для воспроизведения первой системой воспроизведения звука, и приема и декодирования набора параметров преобразования, пригодных для преобразования промежуточного представления потока воспроизведения в приближение второго представленного представления потока воспроизведения, при этом указанное второе представленное представление потока воспроизведения представляет собой набор из двух сигналов, предназначенных для воспроизведения второй системой воспроизведения звука, при этом набор параметров преобразования образует матрицу усиления
    - 18 034936 размером M1xM2, которая при применении непосредственно к промежуточному представлению потока воспроизведения матричным умножением образует указанное приближение второго представления потока воспроизведения, при этом одно из первого представленного представления потока воспроизведения и второго представленного представления потока воспроизведения представляет собой представление для громкоговорителей, и при этом одно из первого представленного представления потока воспроизведения и второго представленного представления потока воспроизведения представляет собой эховое или безэховое бинауральное представление, и причем промежуточное представление потока воспроизведения представляет собой одно из первого представленного представления потока воспроизведения и результата понижающего микширования первого представленного представления потока воспроизведения, причем параметры преобразования определяются кодером для обеспечения того, что величина разницы между вторым представленным представлением потока воспроизведения и приближением второго представления потока воспроизведения, образованного применением параметров преобразования к первому представленному представлению потока воспроизведения, является минимальной; и матричный умножитель для применения указанных параметров преобразования к указанному промежуточному представлению потока воспроизведения для получения указанного приближения второго представленного представления потока воспроизведения.
  15. 15. Внутренний носитель данных, на котором хранится компьютерный программный продукт кодера, содержащий сегменты компьютерного программного кода, которые при их исполнении в компьютерном процессоре вызывают выполнение компьютерным процессором способа по любому из пп.1-12.
EA201890576A 2015-08-25 2016-08-24 Кодирование и декодирование звука с использованием параметров преобразования представления EA034936B1 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562209735P 2015-08-25 2015-08-25
EP15189094 2015-10-09
PCT/US2016/048497 WO2017035281A2 (en) 2015-08-25 2016-08-24 Audio encoding and decoding using presentation transform parameters

Publications (2)

Publication Number Publication Date
EA201890576A1 EA201890576A1 (ru) 2018-07-31
EA034936B1 true EA034936B1 (ru) 2020-04-08

Family

ID=54337115

Family Applications (2)

Application Number Title Priority Date Filing Date
EA202090186A EA202090186A3 (ru) 2015-10-09 2016-08-24 Кодирование и декодирование звука с использованием параметров преобразования представления
EA201890576A EA034936B1 (ru) 2015-08-25 2016-08-24 Кодирование и декодирование звука с использованием параметров преобразования представления

Family Applications Before (1)

Application Number Title Priority Date Filing Date
EA202090186A EA202090186A3 (ru) 2015-10-09 2016-08-24 Кодирование и декодирование звука с использованием параметров преобразования представления

Country Status (10)

Country Link
US (3) US10978079B2 (ru)
EP (2) EP4224887A1 (ru)
KR (2) KR20230105002A (ru)
CN (2) CN108141685B (ru)
AU (3) AU2016311335B2 (ru)
CA (2) CA3219512A1 (ru)
EA (2) EA202090186A3 (ru)
HK (2) HK1256382A1 (ru)
PH (1) PH12018500648A1 (ru)
WO (1) WO2017035281A2 (ru)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3219512A1 (en) 2015-08-25 2017-03-02 Dolby International Ab Audio encoding and decoding using presentation transform parameters
EA201992556A1 (ru) 2015-10-08 2021-03-31 Долби Лэборетериз Лайсенсинг Корпорейшн Аудиодекодер и способ декодирования
UA125582C2 (uk) 2015-11-17 2022-04-27 Долбі Леборетеріз Лайсенсінг Корпорейшн Система і спосіб спостереження за рухом голови для одержання параметричного бінаурального вихідного сигналу
WO2017132082A1 (en) 2016-01-27 2017-08-03 Dolby Laboratories Licensing Corporation Acoustic environment simulation
JP7023848B2 (ja) 2016-01-29 2022-02-22 ドルビー ラボラトリーズ ライセンシング コーポレイション バイノーラル・ダイアログ向上
WO2018132417A1 (en) 2017-01-13 2018-07-19 Dolby Laboratories Licensing Corporation Dynamic equalization for cross-talk cancellation
CN107493558B (zh) * 2017-09-07 2019-01-15 维沃移动通信有限公司 一种声音信号控制方法及移动终端
US11172318B2 (en) 2017-10-30 2021-11-09 Dolby Laboratories Licensing Corporation Virtual rendering of object based audio over an arbitrary set of loudspeakers
US11540079B2 (en) 2018-04-11 2022-12-27 Dolby International Ab Methods, apparatus and systems for a pre-rendered signal for audio rendering
KR20210151831A (ko) 2019-04-15 2021-12-14 돌비 인터네셔널 에이비 오디오 코덱에서의 대화 향상
US20220366919A1 (en) * 2019-09-23 2022-11-17 Dolby Laboratories Licensing Corporation Audio encoding/decoding with transform parameters

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060045294A1 (en) * 2004-09-01 2006-03-02 Smyth Stephen M Personalized headphone virtualization
US20140153727A1 (en) * 2012-11-30 2014-06-05 Dts, Inc. Method and apparatus for personalized audio virtualization
US20140355794A1 (en) * 2013-05-29 2014-12-04 Qualcomm Incorporated Binaural rendering of spherical harmonic coefficients

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6442278B1 (en) * 1999-06-15 2002-08-27 Hearing Enhancement Company, Llc Voice-to-remaining audio (VRA) interactive center channel downmix
US8363865B1 (en) 2004-05-24 2013-01-29 Heather Bottum Multiple channel sound system using multi-speaker arrays
US20080281602A1 (en) * 2004-06-08 2008-11-13 Koninklijke Philips Electronics, N.V. Coding Reverberant Sound Signals
CN101263742B (zh) 2005-09-13 2014-12-17 皇家飞利浦电子股份有限公司 音频编码
WO2007080211A1 (en) 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
KR100863479B1 (ko) * 2006-02-07 2008-10-16 엘지전자 주식회사 부호화/복호화 장치 및 방법
JP2007221483A (ja) * 2006-02-16 2007-08-30 Sanyo Electric Co Ltd 音声ミキシング装置および音声ミキシング方法
US9009057B2 (en) * 2006-02-21 2015-04-14 Koninklijke Philips N.V. Audio encoding and decoding to generate binaural virtual spatial signals
EP1992198B1 (fr) 2006-03-09 2016-07-20 Orange Optimisation d'une spatialisation sonore binaurale a partir d'un encodage multicanal
US8175280B2 (en) 2006-03-24 2012-05-08 Dolby International Ab Generation of spatial downmixes from parametric representations of multi channel signals
US7876904B2 (en) 2006-07-08 2011-01-25 Nokia Corporation Dynamic decoding of binaural audio signals
BRPI0715312B1 (pt) 2006-10-16 2021-05-04 Koninklijke Philips Electrnics N. V. Aparelhagem e método para transformação de parâmetros multicanais
CN103400583B (zh) 2006-10-16 2016-01-20 杜比国际公司 多声道下混对象编码的增强编码和参数表示
KR20080071804A (ko) * 2007-01-31 2008-08-05 삼성전자주식회사 오디오 신호 인코딩 장치 및 방법, 그리고 오디오 신호디코딩 장치 및 방법
JP5232795B2 (ja) 2007-02-14 2013-07-10 エルジー エレクトロニクス インコーポレイティド オブジェクトベースのオーディオ信号の符号化及び復号化方法並びにその装置
US20080273708A1 (en) * 2007-05-03 2008-11-06 Telefonaktiebolaget L M Ericsson (Publ) Early Reflection Method for Enhanced Externalization
WO2009046909A1 (en) 2007-10-09 2009-04-16 Koninklijke Philips Electronics N.V. Method and apparatus for generating a binaural audio signal
CN101202043B (zh) 2007-12-28 2011-06-15 清华大学 音频信号的编码方法和装置与解码方法和装置
WO2009111798A2 (en) 2008-03-07 2009-09-11 Sennheiser Electronic Gmbh & Co. Kg Methods and devices for reproducing surround audio signals
US8315396B2 (en) 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
EP2175670A1 (en) 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
KR101342425B1 (ko) 2008-12-19 2013-12-17 돌비 인터네셔널 에이비 다중-채널의 다운믹싱된 오디오 입력 신호에 리버브를 적용하기 위한 방법 및 다중-채널의 다운믹싱된 오디오 입력 신호에 리버브를 적용하도록 구성된 리버브레이터
GB2470059A (en) 2009-05-08 2010-11-10 Nokia Corp Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter
WO2011013381A1 (ja) * 2009-07-31 2011-02-03 パナソニック株式会社 符号化装置および復号装置
EP2489038B1 (en) 2009-11-20 2016-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
EP2360681A1 (en) 2010-01-15 2011-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
TWI525987B (zh) * 2010-03-10 2016-03-11 杜比實驗室特許公司 在單一播放模式中組合響度量測的系統
US8908874B2 (en) 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
WO2012093352A1 (en) 2011-01-05 2012-07-12 Koninklijke Philips Electronics N.V. An audio system and method of operation therefor
WO2013006324A2 (en) 2011-07-01 2013-01-10 Dolby Laboratories Licensing Corporation Audio playback system monitoring
US9510124B2 (en) 2012-03-14 2016-11-29 Harman International Industries, Incorporated Parametric binaural headphone rendering
US9589571B2 (en) * 2012-07-19 2017-03-07 Dolby Laboratories Licensing Corporation Method and device for improving the rendering of multi-channel audio signals
US9826328B2 (en) 2012-08-31 2017-11-21 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments
WO2014036085A1 (en) 2012-08-31 2014-03-06 Dolby Laboratories Licensing Corporation Reflected sound rendering for object-based audio
US9503819B2 (en) * 2012-09-13 2016-11-22 Harman International Industries, Inc. Progressive audio balance and fade in a multi-zone listening environment
US9460729B2 (en) 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
WO2014091375A1 (en) 2012-12-14 2014-06-19 Koninklijke Philips N.V. Reverberation processing in an audio signal
CN104904239B (zh) 2013-01-15 2018-06-01 皇家飞利浦有限公司 双耳音频处理
CN104919820B (zh) 2013-01-17 2017-04-26 皇家飞利浦有限公司 双耳音频处理
EP2830043A3 (en) 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for Processing an Audio Signal in accordance with a Room Impulse Response, Signal Processing Unit, Audio Encoder, Audio Decoder, and Binaural Renderer
EP2840811A1 (en) 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder
US9961469B2 (en) * 2013-09-17 2018-05-01 Wilus Institute Of Standards And Technology Inc. Method and device for audio signal processing
EP3090573B1 (en) * 2014-04-29 2018-12-05 Dolby Laboratories Licensing Corporation Generating binaural audio in response to multi-channel audio using at least one feedback delay network
CN106797523B (zh) * 2014-08-01 2020-06-19 史蒂文·杰伊·博尼 音频设备
EP4002888A1 (en) 2015-02-12 2022-05-25 Dolby Laboratories Licensing Corporation Headphone virtualization
CA3219512A1 (en) 2015-08-25 2017-03-02 Dolby International Ab Audio encoding and decoding using presentation transform parameters
UA125582C2 (uk) 2015-11-17 2022-04-27 Долбі Леборетеріз Лайсенсінг Корпорейшн Система і спосіб спостереження за рухом голови для одержання параметричного бінаурального вихідного сигналу

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060045294A1 (en) * 2004-09-01 2006-03-02 Smyth Stephen M Personalized headphone virtualization
US20140153727A1 (en) * 2012-11-30 2014-06-05 Dts, Inc. Method and apparatus for personalized audio virtualization
US20140355794A1 (en) * 2013-05-29 2014-12-04 Qualcomm Incorporated Binaural rendering of spherical harmonic coefficients

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"Digital Audio Compression (AC-4) Standard Part 2: Immersive and personalized audio;ETSI TS 103 190-2", ETSI DRAFT; ETSI TS 103 190-2, EUROPEAN TELECOMMUNICATIONS STANDARDS INSTITUTE (ETSI), 650, ROUTE DES LUCIOLES ; F-06921 SOPHIA-ANTIPOLIS ; FRANCE, vol. Broadcast, no. V1.1.0, ETSI TS 103 190-2, 10 July 2015 (2015-07-10), 650, route des Lucioles ; F-06921 Sophia-Antipolis ; France, pages 1 - 195, XP014249202 *
"Spatial Audio Processing: MPEG Surround and Other Applications", 1 January 2007, JOHN WILEY & SONS, article J BREEBAART, FALLER, CHRISTOF: "Binaural Cues for Multiple Sound Sources", pages: 139 - 154, XP055325102, DOI: 10.1002/9780470723494.ch8 *
Anonymous: "Dolby AC-4: Audio Delivery for Next-generation Entertainment Services", 1 June 2015 (2015-06-01), XP055324838, Retrieved from the Internet: URL:http://www.dolby.com/us/en/technologies/ac-4/Next-Generation-Entertainment-Services.pdf [retrieved on 2016-11-30], page 1 - page 4, page 8 - page 9 *
BREEBAART J. ET AL: "Multi-channel goes mobile: MPEG surround binaural rendering", AES INTERNATIONAL CONFERENCE. AUDIO FOR MOBILE AND HANDHELDDEVICES, XX, XX, 2 September 2006 (2006-09-02) - 4 September 2006 (2006-09-04), XX, pages 1 - 13, XP007902577 *
PAULUS, JOUNI; HERRE, J�RGEN; MURTAZA, ADRIAN; TERENTIV, LEON; FUCHS, HARALD; DISCH, SASCHA; RIDDERBUSCH, FALKO: "MPEG-D Spatial Audio Object Coding for Dialogue Enhancement (SAOC-DE)", AES CONVENTION 138; MAY 2015, AES, 60 EAST 42ND STREET, ROOM 2520 NEW YORK 10165-2520, USA, 9220, 6 May 2015 (2015-05-06), 60 East 42nd Street, Room 2520 New York 10165-2520, USA, pages 10 - 20, XP040670834 *

Also Published As

Publication number Publication date
HK1257673A1 (zh) 2019-10-25
US20200227052A1 (en) 2020-07-16
AU2021203143B2 (en) 2023-03-09
CN112492501A (zh) 2021-03-12
CA2999328C (en) 2024-01-02
US10978079B2 (en) 2021-04-13
CA3219512A1 (en) 2017-03-02
AU2023203584A1 (en) 2023-07-06
US20240105186A1 (en) 2024-03-28
WO2017035281A2 (en) 2017-03-02
WO2017035281A3 (en) 2017-05-11
EP3342186A2 (en) 2018-07-04
CA2999328A1 (en) 2017-03-02
KR20230105002A (ko) 2023-07-11
EA201890576A1 (ru) 2018-07-31
PH12018500648A1 (en) 2018-10-01
US11798567B2 (en) 2023-10-24
EP4224887A1 (en) 2023-08-09
CN108141685A (zh) 2018-06-08
AU2016311335A1 (en) 2018-04-12
AU2016311335B2 (en) 2021-02-18
US20210295852A1 (en) 2021-09-23
EP3342186B1 (en) 2023-03-29
HK1256382A1 (zh) 2019-09-20
CN108141685B (zh) 2021-03-02
KR102551796B1 (ko) 2023-07-06
EA202090186A3 (ru) 2020-12-30
KR20180042397A (ko) 2018-04-25
CN112492501B (zh) 2022-10-14
EA202090186A2 (ru) 2020-09-30

Similar Documents

Publication Publication Date Title
US11798567B2 (en) Audio encoding and decoding using presentation transform parameters
KR101010464B1 (ko) 멀티 채널 신호의 파라메트릭 표현으로부터 공간적 다운믹스 신호의 생성
US12002480B2 (en) Audio decoder and decoding method
EP3569000B1 (en) Dynamic equalization for cross-talk cancellation
RU2427978C2 (ru) Кодирование и декодирование аудио
Tsakostas et al. Binaural rendering for enhanced 3d audio perception
EA042232B1 (ru) Кодирование и декодирование звука с использованием параметров преобразования представления
JP2021015310A (ja) オーディオ・デコーダおよびデコード方法

Legal Events

Date Code Title Description
MM4A Lapse of a eurasian patent due to non-payment of renewal fees within the time limit in the following designated state(s)

Designated state(s): AM KG TJ TM