RU2520402C2 - Multi-resolution switched audio encoding/decoding scheme - Google Patents

Multi-resolution switched audio encoding/decoding scheme Download PDF

Info

Publication number
RU2520402C2
RU2520402C2 RU2011117699/08A RU2011117699A RU2520402C2 RU 2520402 C2 RU2520402 C2 RU 2520402C2 RU 2011117699/08 A RU2011117699/08 A RU 2011117699/08A RU 2011117699 A RU2011117699 A RU 2011117699A RU 2520402 C2 RU2520402 C2 RU 2520402C2
Authority
RU
Russia
Prior art keywords
audio signal
signal
channel
converter
time
Prior art date
Application number
RU2011117699/08A
Other languages
Russian (ru)
Other versions
RU2011117699A (en
Inventor
Бернард ГРИЛЛ
Стефан БАЙЕР
Гильом ФУШ
Ральф ГЕЙГЕР
Джереми ЛЕКОМТЕ
Маркус МУЛЬТРУС
Макс НЮЕНДОРФ
Николаус РЕТТЕЛЬБАХ
Филипп ГУРНЕЙ
Рэдван САЛАМИ
Жульен РОБИЛЛИАРД
Фредерик НАГЕЛ
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Войсэйдж Корпорэйшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP09002271A external-priority patent/EP2144230A1/en
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф., Войсэйдж Корпорэйшн filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Publication of RU2011117699A publication Critical patent/RU2011117699A/en
Application granted granted Critical
Publication of RU2520402C2 publication Critical patent/RU2520402C2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

FIELD: physics, acoustics.
SUBSTANCE: invention relates to audio encoding technologies. An audio encoder for encoding an audio signal has a first coding channel for encoding an audio signal using a first coding algorithm. The first coding channel has a first time/frequency converter for converting an input signal into a spectral domain. The audio encoder also has a second coding channel for encoding an audio signal using a second coding algorithm. The first coding algorithm differs from the second coding algorithm. The second coding channel has a domain converter for converting an input signal from an input domain into an output domain audio signal.
EFFECT: improved encoding/decoding of audio signals in low bitrate circuits.
21 cl, 43 dwg, 10 tbl

Description

Данное изобретение связано с аудио кодированием и, особенно, со схемами кодирования с низким битрейтом.The present invention relates to audio coding, and especially to low bitrate coding schemes.

В технике известны кодирующие схемы области частот, такие как МР3 или ААС. Эти кодирующие устройства в частотной области основаны на преобразовании "область временного интервала", последующая стадия квантизации, на которой ошибкой квантизации управляют, используя информацию от перцепционного модуля, и стадию кодирования, на которой квантованные спектральные коэффициенты и соответствующая сторонняя информация закодированы без потери информации с использованием кодовых таблиц.Encoding schemes for the frequency domain, such as MP3 or AAS, are known in the art. These encoders in the frequency domain are based on the “time domain region” transformation, a subsequent quantization step in which the quantization error is controlled using information from the perceptual module, and an encoding step in which the quantized spectral coefficients and corresponding third-party information are encoded without loss of information using code tables.

С другой стороны, есть кодирующие устройства, которые очень хорошо подходят для обработки речи, такие как AMR-WB+, описанные в 3GPP TS 26.290. Такие речевые кодирующие схемы выполняют линейную прогнозирующую фильтрацию сигнала на временном интервале. Линейная прогнозирующая фильтрация получается из линейного анализа предсказания входного сигнала на временном интервале. Получающиеся коэффициенты линейного прогнозирующего (LP) фильтра квантуются/кодируются и передаются как сторонняя информация. Процесс известен как кодирование методом линейного предсказания (LPC). На выходе фильтра формируется разностный сигнал предсказания или сигнал ошибки предсказания, который также известен как сигнал возбуждения, кодированный с использованием стадий анализа синтеза кодирующего устройства ACELP или, альтернативно, кодированный с использованием кодирующего устройства на базе преобразования Фурье с наложением. Решение между кодированием ACELP и кодированием преобразованного сигнала возбуждения, которое также называют ТСХ кодированием, делают, используя алгоритм замкнутого разомкнутого контура.On the other hand, there are encoders that are very well suited for speech processing, such as AMR-WB +, described in 3GPP TS 26.290. Such speech coding schemes perform linear predictive filtering of a signal over a time interval. Linear predictive filtering is obtained from a linear analysis of the prediction of the input signal over a time interval. The resulting linear predictive (LP) filter coefficients are quantized / encoded and transmitted as third-party information. The process is known as linear prediction coding (LPC). A prediction difference signal or a prediction error signal is generated at the filter output, which is also known as an excitation signal encoded using the steps of the synthesis analysis of the ACELP encoder or, alternatively, encoded using an encoder based on the Fourier transform with an overlay. The decision between ACELP coding and transformed drive signal coding, also called TLC coding, is made using a closed open loop algorithm.

Схемы кодирования аудио в частотной области, такие как высокоэффективная ААС (НЕ-АСС) схема кодирования, которая комбинирует схему ААС кодирования и технику спектрального повторения полос (SBR) и может комбинироваться с объединенным стерео или многоканальным кодирующим инструментом, который известен под названием "MPEG окружение".Frequency-domain audio coding schemes, such as a high-performance AAC (non-ACC) coding scheme that combines AAC coding and spectral band repetition (SBR) techniques, and can be combined with a combined stereo or multi-channel coding instrument, which is known as "MPEG surround "

С другой стороны, у речевых кодирующих устройств, таких как AMR-WB+, также есть уровень высокочастотного расширения и функциональность стерео.On the other hand, speech encoders such as AMR-WB + also have a high-frequency extension level and stereo functionality.

Кодирующие схемы в частотной области показывают высокое качество при низком битрейте для музыкальных сигналов. Проблемой, однако, является качество речевых сигналов при низком битрейте.Frequency domain coding schemes show high quality at low bitrate for music signals. The problem, however, is the quality of speech signals at low bitrates.

Речевые кодирующие схемы показывают высокое качество для речевых сигналов даже при низком битрейте, но показывают низкое качество для других сигналов при низком битрейте.Speech coding schemes show high quality for speech signals even at low bitrate, but show low quality for other signals at low bitrate.

Объектом данного изобретения является обеспечение концепции улучшенного кодирования/декодирования.An object of the present invention is to provide a concept for improved coding / decoding.

Это достигается аудио кодирующим устройством в соответствии с п.1, методом кодирования аудио в соответствии с заявлением п.9, декодером в соответствии с п.10, методом декодирования в соответствии с п.19, кодируемого сообщения в соответствии с п.20 или компьютерной программой в соответствии с п.21 формулы изобретения.This is achieved by an audio encoder in accordance with claim 1, an audio encoding method in accordance with claim 9, a decoder in accordance with claim 10, a decoding method in accordance with claim 19, an encoded message in accordance with claim 20, or a computer program in accordance with paragraph 21 of the claims.

Данное изобретение основано на идее, что гибрид или двухрежимная переключаемая схема кодирования/декодирования имеет преимущество, поскольку для определенной особенности сигнала может выбираться лучший кодирующий алгоритм. Другими словами, данное изобретение не ищет кодирующий алгоритм сигнала, который отлично подобран ко всем особенностям сигнала. Такая схема всегда была бы компромиссом, что может быть замечено по огромным техническим различиям между свойствами аудио кодирующими устройствами, с одной стороны, и речевыми кодирующими устройствами, с другой стороны. Вместо этого данное изобретение комбинирует различные кодирующие алгоритмы, такие как алгоритм для кодирования речи, с одной стороны, и алгоритм для кодирования аудио, с другой стороны, в пределах переключательной схемы так, чтобы для каждой части аудио сигнала оптимально был выбран соответствующий кодирующий алгоритм. Кроме того, это также особенность данного изобретения, оба кодирующих канала включают преобразователь время/частота, но в одном кодирующем канале предусмотрен дальнейший преобразователь сигнала, такой процессор LPC. Этот преобразователь служит для подтверждения, что второй канал кодирования лучше подходит для определенной особенности сигнала, чем первый канал кодирования. Однако, это также особенность данного изобретения, сигнал на выходе процессора также преобразован в спектральное представление.The present invention is based on the idea that a hybrid or dual-mode switchable coding / decoding scheme is advantageous since a better coding algorithm may be selected for a particular signal feature. In other words, the present invention does not seek a signal coding algorithm that is perfectly matched to all signal features. Such a scheme would always be a compromise, which can be seen from the enormous technical differences between the properties of audio encoders, on the one hand, and speech encoders, on the other. Instead, the present invention combines various encoding algorithms, such as an algorithm for encoding speech, on the one hand, and an algorithm for encoding audio, on the other hand, within a switching circuit so that for each part of the audio signal, an appropriate encoding algorithm is optimally selected. In addition, it is also a feature of the present invention that both coding channels include a time / frequency converter, but a further signal converter, such an LPC processor, is provided in one coding channel. This converter serves to confirm that the second coding channel is better suited for a particular signal feature than the first coding channel. However, this is also a feature of the present invention, the signal at the output of the processor is also converted to a spectral representation.

Оба преобразователя, то есть первый преобразователь в первом кодирующем канале и второй преобразователь во втором кодирующем канале, выполнены с возможностью осуществления преобразующего кодирования с мультиразрешением, где разрешение соответствующего преобразователя устанавливается в зависимости от аудио сигнала, и в частности, в зависимости от аудио сигнала, фактически закодированного в соответствующем кодирующем канале так, чтобы достигнуть хороший компромисс между качеством, с одной стороны, и битрейтом, с другой стороны, или с точки зрения определенного постоянного качества, чтобы достигнуть самого низкого битрейта, или с точки зрения постоянного битрейта, чтобы получить лучшее качество.Both transducers, that is, the first transducer in the first coding channel and the second transducer in the second coding channel, are configured to perform multi-resolution transform coding, where the resolution of the corresponding transducer is set depending on the audio signal, and in particular, depending on the audio signal, in fact encoded in the corresponding coding channel so as to achieve a good compromise between quality, on the one hand, and bitrate, on the other hand, or Points of view of a specific constant quality, to achieve the lowest bit rate, or in terms of a constant bit rate to get the best quality.

В соответствии с данным изобретением, разрешение времени/частоты этих двух преобразователей может быть установлено предпочтительно, независимо друг от друга так, чтобы каждый раз преобразователь мог быть подобран оптимально к требованиям разрешения времени/частоты соответствующего сигнала. Эффективность битов, то есть отношение между полезными битами, с одной стороны, и битами сторонней информации, с другой стороны, выше для больших размеров блока/длин окна. Поэтому предпочтено, чтобы на оба преобразователя функционировали на большей длине окна, поскольку в основном к длинной временной части аудио сигнала и к более коротким размерам блока/длинам окна относится то же самое количество сторонней информации. Желательно, чтобы разрешение времени/частоты в каналах кодирования могло также быть под влиянием других инструментов кодирования/декодирования, расположенных в этих каналах. Желательно, чтобы второй канал кодирования, включающий преобразователь сигнала, такой как процессор LPC, включал другую гибридную схему, такую как канал ACELP, с одной стороны, и схему ТСХ, с другой стороны, где второй преобразователь включен в схему ТСХ. Желательно, чтобы разрешение преобразователя времени/частоты, расположенного в канале ТСХ, было также под влиянием решения кодирования, так, чтобы часть сигнала во втором канале кодирования была обработана в канале ТСХ, имеющем второй преобразователь, или в канале ACELP, не имеющем преобразователя время/частота.In accordance with this invention, the time / frequency resolution of these two converters can be set preferably independently of each other so that each time the converter can be optimally matched to the time / frequency resolution requirements of the corresponding signal. The efficiency of bits, that is, the ratio between useful bits, on the one hand, and bits of third-party information, on the other hand, is higher for large block sizes / window lengths. Therefore, it is preferable that both transducers operate over a longer window, since basically the same amount of third-party information relates to the long time portion of the audio signal and the shorter block sizes / window lengths. It is desirable that the resolution of time / frequency in the encoding channels could also be influenced by other encoding / decoding tools located in these channels. It is desirable that the second coding channel including a signal converter, such as an LPC processor, include another hybrid circuit, such as an ACELP channel, on the one hand, and a TLC circuit, on the other hand, where the second converter is included in a TLC circuit. It is desirable that the resolution of the time / frequency converter located in the TLC channel is also influenced by the encoding decision, so that part of the signal in the second encoding channel is processed in the TLC channel having a second converter or in the ACELP channel without a time / converter frequency.

В основном ни преобразователь сигнала, ни второй канал кодирования, и, в частности, первый канал обработки во втором канале кодирования и второй канал обработки во втором кодирующем канале, не должны быть связанными с речью элементами, такими как анализатор LPC для преобразователя сигнала, кодирующее устройство ТСХ для второго канала обработки и кодирующее устройство ACELP для первого канала обработки. Другие решения также полезны, когда оценены другие особенности сигнала аудио сигнала, отличающегося от речи, с одной стороны, и музыки, с другой стороны. Могут использоваться любые преобразователи сигнала и каналы кодирования, и лучший подходящий алгоритм может быть найден схемой анализа синтеза так, чтобы, на стороне кодирующего устройства, для каждой части аудио сигнала были проведены все альтернативы кодирования и был отобран лучший результат, где лучший результат может быть найден с использованием целевой функции к результатам кодирования. Тогда, идентификация сторонней информации декодера, лежащая в основе алгоритма кодирования для определенной части закодированного аудио сигнала, присоединяется к закодированному аудио сигналу кодировщиком выходного интерфейса так, чтобы декодер не заботился ни о каких решениях о стороне кодирующего устройства или о любых особенностях сигнала, но просто выбирал канал кодирования в зависимости от переданной сторонней информации. Кроме того, декодер не только выберет правильный канал декодирования, но также выберет основанный на сторонней информации, закодированной в кодируемом сообщении, какое разрешение времени/частоты должно быть применено в соответствующем первом канале декодирования и соответствующем втором канале декодирования.Basically, neither the signal converter, nor the second coding channel, and in particular, the first processing channel in the second coding channel and the second processing channel in the second coding channel, should not be speech-related elements, such as an LPC analyzer for the signal converter, the encoding device TLC for the second processing channel and the ACELP encoder for the first processing channel. Other solutions are also useful when other features of an audio signal other than speech, on the one hand, and music, on the other hand, are evaluated. Any signal converters and coding channels can be used, and the best suitable algorithm can be found by the synthesis analysis circuit so that, on the encoder side, all coding alternatives are drawn for each part of the audio signal and the best result is selected where the best result can be found using the objective function to the coding results. Then, the identification of the third-party decoder information underlying the encoding algorithm for a specific part of the encoded audio signal is attached to the encoded audio signal by the output interface encoder so that the decoder does not care about any decisions about the encoder side or any signal features, but simply selects coding channel, depending on the transmitted third-party information. In addition, the decoder will not only select the correct decoding channel, but will also select, based on the third-party information encoded in the encoded message, which time / frequency resolution should be applied in the corresponding first decoding channel and the corresponding second decoding channel.

Таким образом, данное изобретение обеспечивает схему кодирования/декодирования, которая комбинирует преимущества различных кодирующих алгоритмов и избегает недостатков этих кодирующих алгоритмов, которые возникают, когда часть сигнала должна была бы быть закодирована алгоритмом, который не соответствует к текущему кодирующему алгоритму. Кроме того, данное изобретение избегает любых неудобств, которые создаются, если возникают различные требования к разрешению времени/частоты при обработке различных частей аудио сигнала в различных каналах кодирования. Вместо этого благодаря переменному разрешению времени/частоты преобразователей «время/частота» в обоих каналах, любые искажения, которые возникали бы в сценарии, где используется одинаковое разрешение времени/частоты для обоих кодирующих каналов, или в котором возможно только неизменное разрешение времени/частоты для любых кодирующих каналов, по крайней мере, уменьшаются или даже полностью устраняются.Thus, the present invention provides an encoding / decoding scheme that combines the advantages of various encoding algorithms and avoids the disadvantages of these encoding algorithms that occur when a portion of a signal would have to be encoded by an algorithm that does not correspond to the current encoding algorithm. In addition, this invention avoids any inconvenience that occurs if there are different requirements for the resolution of time / frequency when processing different parts of the audio signal in different coding channels. Instead, due to the variable time / frequency resolution of the time / frequency converters in both channels, any distortion that would occur in a scenario where the same time / frequency resolution is used for both coding channels, or in which only a constant time / frequency resolution is possible for any coding channels are at least reduced or even completely eliminated.

Второй выключатель опять осуществляет переключение между двумя каналами обработки, но в области, отличающейся от "внешней" области первого канала. Снова работа одного "внутреннего" канала, главным образом, определяется исходной моделью или SNR вычислениями, и другого "внутреннего" канала может определяться моделью слуха (ушной раковины) и/или психоакустической моделью, то есть маскированием или, по крайней мере, включением аспектов кодирования в частотной/спектральной области. Например, у одного "внутреннего" канала есть преобразователь в области частот/спектральный преобразователь, и у другого канала есть устройство, кодирующее в другой области, такой как область LPC, причем это кодирующее устройство, например, CELP или ACELP с обработкой входного сигнала без спектрального преобразования.The second switch again switches between the two processing channels, but in a region different from the "external" region of the first channel. Again, the operation of one “internal” channel is mainly determined by the original model or SNR calculations, and the other “internal” channel can be determined by the model of the hearing (auricle) and / or the psychoacoustic model, that is, masking or at least incorporating coding aspects in the frequency / spectral region. For example, one “internal” channel has a frequency domain converter / spectral converter, and the other channel has a device encoding in another region, such as an LPC region, and this is an encoding device, for example, CELP or ACELP with processing of the input signal without spectral transformations.

Дальнейшее предпочтительное воплощение - это аудио кодирующее устройство, включающее первый информационный канал, такой как кодирование в спектральной области, второй источник информации или SNR ориентированный канал кодирования, такой как канал кодирования LPC-области, и переключатель для того, чтобы переключиться между первым каналом кодирования и вторым каналом кодирования, причем второй канал кодирования включает преобразователь в области, отличающейся от временного интервала, такой как аналитический этап LPC, формирующий сигнал возбуждения, и где второй канал кодирования, кроме того, включает специальную область, такую как канал обработки области LPC, и специальную спектральную область, такую как LPC спектральный канал обработки, и дополнительный выключатель для того, чтобы переключиться между специальным кодирующим каналом и специальным спектральным каналом обработки.A further preferred embodiment is an audio encoder comprising a first information channel, such as spectral domain encoding, a second information source or SNR oriented encoding channel, such as an LPC region encoding channel, and a switch in order to switch between the first encoding channel and a second coding channel, the second coding channel including a converter in a region other than a time interval, such as an LPC analysis step generating a signal and where the second coding channel also includes a special area, such as an LPC region processing channel, and a special spectral region, such as an LPC spectral processing channel, and an additional switch to switch between a special coding channel and a special spectral channel processing.

Дальнейшее воплощение изобретения - это аудио декодирующее устройство, включающее первую область, такую как спектральный канал декодирования, вторую область, такую как канал декодирования LPC для того, чтобы декодировать сигнал, такой как сигнал возбуждения во второй области, и третью область, такую как LPC-спектральный канал декодера, для того, чтобы декодировать сигнал, такой как сигнал возбуждения в третьей области, такой как спектральная область LPC, где третья область получена путем выполнения преобразования частоты от второй области, где обеспечен первый переключатель для второго сигнала области и третьего сигнала области, и где обеспечен второй переключатель для того, чтобы переключиться между декодером для первой области и декодером для второй области или третьей области.A further embodiment of the invention is an audio decoding apparatus including a first region, such as a spectral decoding channel, a second region, such as an LPC decoding channel, in order to decode a signal, such as an excitation signal in a second region, and a third region, such as LPC- a spectral channel of a decoder, in order to decode a signal, such as an excitation signal in a third region, such as an LPC spectral region, where the third region is obtained by performing frequency conversion from the second region, where a first switch for a second region signal and a third region signal is provided, and where a second switch is provided for switching between a decoder for the first region and a decoder for the second region or third region.

Предпочтительные решения данного изобретения описаны в приложенных рисунках, где:Preferred solutions of the present invention are described in the attached drawings, where:

Фиг.1a - блок-схема устройства кодирования в соответствии с первым аспектом данного изобретения;Figa is a block diagram of an encoding device in accordance with a first aspect of the present invention;

Фиг.1b - блок-схема устройства декодирования в соответствии с первым аспектом данного изобретения;Fig. 1b is a block diagram of a decoding apparatus in accordance with a first aspect of the present invention;

Фиг.1с - блок-схема устройства кодирования в соответствии с дальнейшим аспектом данного изобретения;Fig. 1c is a block diagram of an encoding device in accordance with a further aspect of the present invention;

Фиг.2а - блок-схема устройства кодирования в соответствии со вторым аспектом данного изобретения;Fig. 2a is a block diagram of an encoding device in accordance with a second aspect of the present invention;

Фиг.2b - схематическая диаграмма устройства декодирования в соответствии со вторым аспектом данного изобретения;Fig.2b is a schematic diagram of a decoding device in accordance with a second aspect of the present invention;

Фиг.2с - блок-схема устройства кодирования в соответствии с дальнейшим аспектом данного изобретения;Fig. 2c is a block diagram of an encoding device in accordance with a further aspect of the present invention;

Фиг.3а иллюстрирует блок-схему устройства кодирования в соответствии с дальнейшим аспектом данного изобретения;Fig. 3a illustrates a block diagram of an encoding apparatus in accordance with a further aspect of the present invention;

Фиг.3b иллюстрирует блок-схему устройства декодирования в соответствии с дальнейшим аспектом данного изобретения;Fig. 3b illustrates a block diagram of a decoding apparatus in accordance with a further aspect of the present invention;

Фиг.3с иллюстрирует схематическое представление устройства/метода кодирования с каскадными выключателями;Fig. 3c illustrates a schematic representation of an encoding device / method with cascading switches;

Фиг.3d иллюстрирует схематическую диаграмму устройства или метода декодирования, в котором используются каскады объединителей;Fig. 3d illustrates a schematic diagram of a device or decoding method in which combiner stages are used;

Фиг.3е иллюстрирует сигнала на временном интервале и соответствующее представление кодированного сигнала, иллюстрирующего короткие пересекающиеся области, которые включены в оба кодированных сигнала;Fig. 3e illustrates a signal in a time slot and a corresponding representation of an encoded signal illustrating short intersecting regions that are included in both encoded signals;

Фиг.4а иллюстрирует блок-схему с выключателем, помещенным перед каналами кодирования;Fig. 4a illustrates a block diagram with a switch placed in front of coding channels;

Фиг.4b иллюстрирует блок-схему устройства кодирования с выключателем, помещенным за каналами кодирования;Fig. 4b illustrates a block diagram of an encoding device with a switch located behind the encoding channels;

Фиг.5а иллюстрирует форму волны речевого сегмента на временном интервале как квазипериодический или подобный импульсу сегмент сигнала;Fig. 5a illustrates the waveform of a speech segment over a time interval as a quasiperiodic or pulse-like signal segment;

Фиг.5b иллюстрирует спектр сегмента фиг.5а;Fig. 5b illustrates the spectrum of the segment of Fig. 5a;

Фиг.5с иллюстрирует не голосовой сегмент на временном интервале, как, например, сегмент, подобный шуму;Fig. 5c illustrates a non-voice segment in a time interval, such as, for example, a segment similar to noise;

Фиг.5d иллюстрирует спектр временного интервала фиг.5с;Fig. 5d illustrates the spectrum of the time interval of Fig. 5c;

Фиг.6 иллюстрирует блок-схему кодирующее устройство CELP анализа через синтез;6 illustrates a block diagram of a CELP synthesis analysis encoder;

Фиг.7а и 7d иллюстрируют обладающие голосом/не обладающие голосом сигналы возбуждения, как, например, подобные импульсу сигналы;Figures 7a and 7d illustrate voice / non-voice excitation signals, such as, for example, pulse-like signals;

Фиг.7е иллюстрирует часть кодирующего устройства стадия LPC, предоставляющая краткосрочную информацию о предсказании и ошибку предсказания (возбуждения) сигнал;Fig. 7e illustrates a portion of an encoder LPC stage providing short-term prediction information and a prediction (excitation) error signal;

Фиг.7f иллюстрирует дальнейшее воплощение устройства LPC для того, чтобы сформировать взвешенный сигнал;Fig.7f illustrates a further embodiment of the LPC device in order to generate a weighted signal;

Фиг.7g иллюстрирует устройство для преобразования взвешенного сигнала в сигнал возбуждения путем применения обратной операции "взвешивания" и последующего анализа возбуждения, как требуется в преобразователе 537 на фиг.2b;FIG. 7g illustrates a device for converting a weighted signal to an excitation signal by applying the inverse “weighting” operation and then analyzing the excitation as required in transducer 537 in FIG. 2b;

Фиг.8 иллюстрирует блок-схему объединенного многоканального алгоритма в соответствии с решением данного изобретения;Fig. 8 illustrates a block diagram of a combined multi-channel algorithm in accordance with a solution of the present invention;

Фиг.9 иллюстрирует предпочтительное решение для алгоритма расширения полосы частот;9 illustrates a preferred solution for a bandwidth extension algorithm;

Фиг.10а иллюстрирует подробное описание переключателя, выполняющего решение разомкнутого контура; и иллюстрирует переключатель, работающий в алгоритме замкнутого контура;Fig. 10a illustrates a detailed description of a switch performing an open loop solution; and illustrates a switch operating in a closed loop algorithm;

Фига 11А иллюстрирует блок-схему аудио кодирующего устройства в соответствии с другим аспектом данного изобретения;Fig. 11A illustrates a block diagram of an audio encoder in accordance with another aspect of the present invention;

Фиг.11В иллюстрирует блок-схему другого решения предлагаемого аудио декодера;11B illustrates a block diagram of another solution of the proposed audio decoder;

Фиг.12А иллюстрирует другое решение предлагаемого кодирующего устройства;Figa illustrates another solution of the proposed encoding device;

Фиг.12В иллюстрирует другое решение предлагаемого декодера;Figv illustrates another solution of the proposed decoder;

Фиг.13А иллюстрирует взаимосвязь между разрешением и длиной окна/преобразования;13A illustrates the relationship between resolution and window / transform length;

Фиг.13В иллюстрирует обзор ряда окон преобразования для первого кодирующего канала и переход от первого ко второму кодирующему каналу;13B illustrates an overview of a series of transform windows for a first coding channel and a transition from a first to a second coding channel;

Фиг.13С иллюстрирует множество различных последовательностей окон, включая последовательность окон для первого кодирующего канала и последовательность для перехода ко второму каналу;13C illustrates many different window sequences, including a window sequence for a first coding channel and a sequence for transitioning to a second channel;

Фиг.14А иллюстрирует создание предпочтительного решения для второго кодирующего канала;Figa illustrates the creation of a preferred solution for the second coding channel;

Фиг.14В иллюстрирует короткие окна, примененные во втором кодирующем канале;14B illustrates short windows applied in a second coding channel;

Фиг.14С иллюстрирует окна среднего размера, примененные во втором кодирующем канале;Fig. 14C illustrates medium-sized windows applied in a second coding channel;

Фиг.14D иллюстрирует длинные окна, примененные во втором канале кодирования;Fig.14D illustrates the long windows used in the second coding channel;

Фиг.14Е иллюстрирует типичную последовательность фреймов ACELP и фреймов ТСХ в пределах суперфрейма;Fig. 14E illustrates a typical sequence of ACELP frames and TLC frames within a superframe;

Фиг.14F иллюстрирует различные длины преобразования, соответствующие различным разрешениям времени/частоты для второго канала кодирования; иFig. 14F illustrates various transform lengths corresponding to different time / frequency resolutions for a second encoding channel; and

Фиг.14G иллюстрирует конструкцию окна с использованием определений фиг.14F.Fig.14G illustrates the construction of the window using the definitions of fig.14F.

Фиг.11А иллюстрирует решение аудио кодирующего устройства для того, чтобы закодировать аудио сигнал. Кодирующее устройство включает первый канал кодирования 400 для того, чтобы закодировать аудио сигнал, используя первый кодирующий алгоритм, чтобы получить первый закодированный сигнал.11A illustrates a solution of an audio encoder in order to encode an audio signal. The encoder includes a first encoding channel 400 in order to encode the audio signal using the first encoding algorithm to obtain the first encoded signal.

Аудио кодирующее устройство, кроме того, включает второй канал кодирования 500 для того, чтобы закодировать аудио сигнал, используя второй кодирующий алгоритм, чтобы получить второй закодированный сигнал. Первый кодирующий алгоритм отличается от второго кодирующего алгоритма. Дополнительно, первый переключатель 200, выполненный с возможностью переключиться между первым кодирующим каналом и вторым кодирующим каналом так, чтобы для части аудио сигнала или первый закодированный сигнал, или второй закодированный сигнал были в кодированном выходном сигнале 801.The audio encoder further includes a second encoding channel 500 in order to encode the audio signal using the second encoding algorithm to obtain a second encoded signal. The first coding algorithm is different from the second coding algorithm. Additionally, the first switch 200, configured to switch between the first coding channel and the second coding channel so that for the portion of the audio signal, either the first encoded signal or the second encoded signal is in the encoded output signal 801.

Аудио кодирующее устройство, иллюстрированное на фиг.11А дополнительно, включает анализатор сигнала 300/525, который выполнен с возможностью проанализировать часть аудио сигнала, чтобы определить, представлена ли часть аудио сигнала как первый кодируемый сигнал или второй кодируемый сигнал в кодированном выходном сигнале 801.The audio encoder illustrated in FIG. 11A further includes a 300/525 signal analyzer, which is configured to analyze a portion of the audio signal to determine whether a portion of the audio signal is represented as a first encoded signal or a second encoded signal in encoded output signal 801.

Анализатор сигнала 300/525, кроме того, выполнен с возможностью определять соответствующее непостоянное разрешение времени/частоты первого преобразователя 410 в первом кодирующем канале 400 или втором преобразователе 523 во втором кодирующем канале 500. Данное разрешение применено, когда сформирован первый кодируемый сигнал или второй кодируемый сигнал, представляющий часть аудио сигнала.The signal analyzer 300/525 is further configured to determine the corresponding non-constant time / frequency resolution of the first converter 410 in the first coding channel 400 or the second converter 523 in the second coding channel 500. This resolution is applied when the first encoded signal or second encoded signal is generated representing a portion of an audio signal.

Аудио кодирующее устройство дополнительно включает выходной интерфейс 800 для того, чтобы сформировать кодированный выходной сигнал 801, состоящий из кодированного представления части аудио сигнала и информации, указывающей, является ли представление аудио сигнала первым закодированным сигналом или вторым закодированным сигналом, и указанием на разрешение времени/частоты, используемое для того, чтобы декодировать первый закодированный сигнал и второй закодированный сигнал.The audio encoder further includes an output interface 800 to generate an encoded output signal 801 consisting of an encoded representation of a portion of the audio signal and information indicating whether the representation of the audio signal is a first encoded signal or a second encoded signal and an indication of time / frequency resolution used to decode the first encoded signal and the second encoded signal.

Второй канал кодирования обычно отличается от первого канала кодирования тем, что второй канал кодирования дополнительно включает преобразователь области для того, чтобы преобразовать аудио сигнал из области, в которой аудио сигнал обрабатывается в первом канале кодирования, в другую область. Обычно преобразователь области - процессор LPC 510, но преобразователь области может быть осуществлен любым другим способом, до тех пор, пока преобразователь области отличается от первого преобразователя 410 и второго преобразователя 523.The second encoding channel usually differs from the first encoding channel in that the second encoding channel further includes a region converter in order to convert the audio signal from the region in which the audio signal is processed in the first encoding channel to another region. Typically, the area converter is an LPC 510 processor, but the area converter can be implemented in any other way, as long as the area converter is different from the first converter 410 and the second converter 523.

Первый преобразователь 410 является преобразователем времени/частоты, обычно включающим формирователь окна 410а и преобразователь 410b. Формирователь окна 410а применяет аналитическое окно к входному аудио сигналу, и преобразователь 410b выполняет преобразование сигнала в сформированном окне в спектральное представление.The first converter 410 is a time / frequency converter, typically including a window driver 410a and a converter 410b. Window driver 410a applies the analytic window to the input audio signal, and converter 410b converts the signal in the generated window into a spectral representation.

Аналогично, второй преобразователь 523 обычно включает формирователь окна 523а, последовательно соединенный с преобразователем 523b. Формирователь окна 523а получает сигнал, сформированный преобразователем 510, и формирует обработанное функцией окна представление сигнала. Выходные данные формирователя окна 523а поступают на преобразователь 523b, чтобы сформировать спектральное представление. Преобразователь может быть FFT или предпочтительно процессором MDCT, осуществляющим соответствующий алгоритм с использованием программного обеспечения или аппаратных средств или смешанного использования аппаратных средств/программного обеспечения. Альтернативно, преобразователь может быть банк фильтров, выполненный как QMF банк фильтров, который может быть основан на действительной или комплексной модуляции фильтра прототипа. Для реализации определенного банка фильтров используется окно. Однако, для реализации другого банка фильтров, обработка функцией окна, как это требуется для алгоритма преобразования, основанного на FFT MDCT, не является необходимой. Когда используется банк фильтров, тогда банк фильтров имеет переменное разрешение, и это разрешение управляет разрешением по частоте банка фильтров, и дополнительно, разрешением по времени или только разрешением по частоте. Однако когда преобразователь осуществлен как FFT или MDCT или любой другой соответствующий преобразователь, тогда разрешение по частоте связано с разрешением по времени, при этом увеличение разрешения по частоте, полученной с большим размером временного блока автоматически, соответствует более низкому разрешению по времени и наоборот.Similarly, the second transducer 523 typically includes a window shaper 523a in series with the transducer 523b. Window driver 523a receives the signal generated by converter 510 and generates a signal representation processed by the window function. The output of the window driver 523a is provided to a converter 523b to form a spectral representation. The converter may be an FFT or, preferably, an MDCT processor implementing an appropriate algorithm using software or hardware or mixed use of hardware / software. Alternatively, the converter may be a filter bank configured as a QMF filter bank, which may be based on real or complex modulation of a prototype filter. To implement a specific filter bank, a window is used. However, to implement another filter bank, processing by the window function, as required for the FFT MDCT based conversion algorithm, is not necessary. When a filter bank is used, then the filter bank has a variable resolution, and this resolution controls the frequency resolution of the filter bank, and additionally, the time resolution or only the frequency resolution. However, when the converter is implemented as an FFT or MDCT or any other suitable converter, then the frequency resolution is related to the time resolution, while an increase in the frequency resolution obtained with a large time block size automatically corresponds to a lower time resolution and vice versa.

Дополнительно, первый канал кодирования может включить блок квантизации/кодирования 421, и второй канал кодирования может также включать один или более инструментов дальнейшего кодирования 524.Additionally, the first encoding channel may include a quantization / encoding unit 421, and the second encoding channel may also include one or more further encoding tools 524.

Важно, что анализатор сигнала выполнен с возможностью сформировать управляющий сигнал разрешения для первого преобразователя 510 и для второго преобразователя 523. Таким образом, осуществлен независимый контроль разрешения в обоих кодирующих каналах, чтобы иметь кодирующую схему, которая, с одной стороны, обеспечивает низкий битрейт, и с другой стороны, обеспечивает максимальное качество при низком битрейт. Чтобы достигнуть низкого битрейт, необходимы более длинные окна или большие длины преобразования, но в ситуациях, когда эти большие длины приведут к искажениям из-за низкого временного разрешения, применяются более короткие длины окна и короткие длины преобразования, которые приводят к более низкому частотному разрешению. Предпочтительно, чтобы в анализаторе сигнала использовался статистический анализ или любой другой анализ, который подходит для соответствующих алгоритмов в каналах кодирования. В одном варианте выполнения, в котором первый канал кодирования является кодирующим каналом в области частот, таким как кодирующее устройство на базе ААС, и в котором второй канал кодирования включает преобразователь области в виде процессора LPC 510, анализатор сигнала, управляя переключателем 200, выполняет разделение речи/музыки так, чтобы речевая часть аудио сигнала поступала во второй канал кодирования. Музыкальная часть аудио сигнала, управляемая переключателем 200, как обозначено линиями управления, поступает в первый канал кодирования 400. Альтернативно, как будет рассмотрено далее на фиг.1C или фиг.4В, переключатель может также быть помещен перед выходным интерфейсом 800.It is important that the signal analyzer is configured to generate a resolution control signal for the first converter 510 and for the second converter 523. Thus, independent resolution control is implemented in both coding channels to have an encoding circuit that, on the one hand, provides a low bit rate, and on the other hand, it provides maximum quality at a low bit rate. To achieve a lower bitrate, longer windows or longer conversion lengths are required, but in situations where these large lengths lead to distortion due to the low temporal resolution, shorter window lengths and shorter conversion lengths that result in lower frequency resolution are applied. Preferably, the signal analyzer uses statistical analysis or any other analysis that is suitable for the corresponding algorithms in the coding channels. In one embodiment, in which the first coding channel is a coding channel in the frequency domain, such as an AAC-based coding device, and in which the second coding channel includes an area converter in the form of an LPC processor 510, the signal analyzer, by controlling switch 200, performs speech separation / music so that the speech portion of the audio signal enters the second coding channel. The musical portion of the audio signal controlled by the switch 200, as indicated by the control lines, enters the first coding channel 400. Alternatively, as will be discussed later in FIG. 1C or FIG. 4B, the switch may also be placed in front of the output interface 800.

Кроме того, анализатор сигнала может получить аудио сигнал, поступающий на переключатель 200, или аудио сигнал, сформированный переключателем 200. Кроме того, анализатор сигнала выполняет анализ, чтобы к не только подать аудио сигнал в соответствующий канал кодирования, но также определить подходящее разрешение времени/частоты соответствующего преобразователя в соответствующем кодирующем канале, такого как первый преобразователь 410 и второй преобразователь 523, как обозначено линиями управления разрешением, соединяющими анализатор сигнала и преобразователь.In addition, the signal analyzer can receive an audio signal input to the switch 200, or an audio signal generated by the switch 200. In addition, the signal analyzer performs an analysis to not only provide the audio signal to the corresponding coding channel, but also determine the appropriate time resolution / the frequency of the corresponding converter in the corresponding coding channel, such as the first converter 410 and the second converter 523, as indicated by resolution control lines connecting the signal analyzer and a converter.

Фиг.11В включает предпочитаемое воплощение аудио декодера, соответствующего аудио кодирующему устройству на фиг.11А.11B includes a preferred embodiment of an audio decoder corresponding to the audio encoder of FIG. 11A.

Аудио декодер на фиг.11В выполнен с возможностью декодирования закодированного аудио сигнала, такого как кодированный выходной сигнал 801, сформированный выходной интерфейс 800 на фиг.11А. Кодированный сигнал включает первый кодированный аудио сигнал, кодированный в соответствии с первым кодирующим алгоритмом, второй кодированный сигнал, кодированный в соответствии со вторым кодирующим алгоритмом, второй кодирующий алгоритм отличается от первого кодирующего алгоритма, и информацию, указывающую, используются ли первый кодирующий алгоритм или второй кодирующий алгоритм для того, чтобы декодировать первый кодированный сигнал и второй кодированный сигнал, и информацию о разрешении времени/частоты для первого закодированного аудио сигнала и второго закодированного аудио сигнала.The audio decoder of FIG. 11B is configured to decode an encoded audio signal, such as encoded output signal 801, the generated output interface 800 of FIG. 11A. The encoded signal includes a first encoded audio signal encoded in accordance with a first encoding algorithm, a second encoded signal encoded in accordance with a second encoding algorithm, a second encoding algorithm different from the first encoding algorithm, and information indicating whether a first encoding algorithm or a second encoding algorithm is used an algorithm for decoding a first encoded signal and a second encoded signal, and time / frequency resolution information for the first is encoded a second audio signal and a second encoded audio signal.

Аудио декодер включает первый канал декодирования 431, 440 для того, чтобы декодировать первый кодированный сигнал, основанный на первом кодирующем алгоритме. Кроме того, аудио декодер включает второй канал декодирования для того, чтобы декодировать второй кодированный сигнал, используя второй кодирующий алгоритм.The audio decoder includes a first decoding channel 431, 440 in order to decode the first encoded signal based on the first encoding algorithm. In addition, the audio decoder includes a second decoding channel in order to decode the second encoded signal using a second encoding algorithm.

Первый канал декодирования включает первый управляемый преобразователь 440, выполненный с возможностью преобразования из спектральной области во временной интервал. Управляемый преобразователь выполнен с возможностью управления, используя информацию о разрешении времени/частоты от первого кодированного сигнала, чтобы получить первый декодированный сигнал.The first decoding channel includes a first controllable converter 440 configured to convert from a spectral region to a time interval. The controlled converter is adapted to be controlled using time / frequency resolution information from a first encoded signal to obtain a first decoded signal.

Второй канал декодирования включает второй управляемый преобразователь, выполненный с возможностью преобразования из спектрального представления во временное представление, второй управляемый преобразователь 534, выполненный с возможностью управления, используя информацию о разрешении времени/частоты 991 для второго кодированного сигнала.The second decoding channel includes a second controllable converter configured to convert from a spectral representation to a temporal representation, a second controllable converter 534 configured to control using time / frequency resolution information 991 for the second encoded signal.

Декодер дополнительно включает диспетчер 990 для того, чтобы управлять первым преобразователем 540 и вторым преобразователем 534 в соответствии с информацией о разрешении времени/частоты 991.The decoder further includes a controller 990 in order to control the first converter 540 and the second converter 534 in accordance with the time / frequency resolution information 991.

Кроме того, декодер включает преобразователь области для того, чтобы сформировать синтезируемый сигнал, используя второй декодированный сигнал, чтобы выполнить обратное преобразование, осуществленное преобразователем области 510 в кодирующем устройстве фиг.11А.In addition, the decoder includes a region converter in order to generate a synthesized signal using a second decoded signal to perform the inverse transform performed by the region converter 510 in the encoder of FIG. 11A.

Обычно преобразователь области 540 является LPC синтезирующим процессором, которым управляют, используя информацию о LPC фильтре, включенную в кодированное сообщение, где эта информация о LPC фильтре была сформирована процессором LPC 510 на фиг.11А и была введена в выходной сигнал кодирующего устройства как сторонняя информация. Аудио декодер, наконец, включает объединитель 600 для того, чтобы объединить первый декодированный сигнал, сформированный первым преобразователем области 440 и синтезированный сигнал, чтобы получить декодированный аудио сигнал 609.Typically, the region converter 540 is an LPC synthesizing processor controlled using the LPC filter information included in the encoded message, where this LPC filter information was generated by the LPC processor 510 in FIG. 11A and was input to the encoder output as third-party information. The audio decoder finally includes a combiner 600 to combine the first decoded signal generated by the first transformer of the region 440 and the synthesized signal to obtain a decoded audio signal 609.

В предлагаемом исполнении первый канал декодирования дополнительно включает деквантизатор/декодер 431 для того, чтобы выполнить преобразования, обратные выполненным соответствующим блоком 421 кодирующего устройства. Однако ясно, что квантизация не может быть полностью обратима, так как это операция с потерями информации. Однако деквантизатор полностью обращает определенную неоднородность квантизации, такую как логарифмическая квантизация или квантизация с уплотнением.In the proposed embodiment, the first decoding channel further includes a decanter / decoder 431 in order to perform conversions that are inverse to those performed by the corresponding block 421 of the encoding device. However, it is clear that quantization cannot be completely reversible, since it is an operation with information loss. However, the dequantizer completely reverses a certain heterogeneity of quantization, such as logarithmic quantization or quantization with multiplexing.

Во втором канале декодирования применена соответствующая стадия 533 для того, чтобы осуществить операции, обратные примененным на стадии 524. Предпочтительно, чтобы стадия 524 включала однородную квантизацию. Поэтому, у соответствующей стадии 533 не будет определенной стадии деквантизации для того, чтобы убрать однородную квантизацию.In the second decoding channel, the corresponding step 533 is applied in order to carry out the operations inverse to that applied in step 524. It is preferable that step 524 includes uniform quantization. Therefore, the corresponding stage 533 will not have a specific stage of dequantization in order to remove homogeneous quantization.

Первый преобразователь 440 так же, как второй преобразователь 534, может включать соответствующие обратные преобразователи 440а, 534а, окна синтеза 440b, 534b, последовательно соединенные с блоком перекрытие/добавление 440с, 534с. Блоки перекрытие/добавление требуются, когда применяются преобразователи, и более определенно, обратные преобразователи 440а, 534а, используют совмещение вводимых преобразований, таких как модифицированное дискретное косинусное преобразование. Тогда, операция перекрытие/добавление выполнит отмену совмещения временного интервала (TDAC). Однако когда применяются преобразователи, не использующие совмещения преобразований, такие как обратное FFT, блок перекрытие/добавление 440с не требуется. В таком исполнении может быть применена операция перекрытия с затуханием или кроссфейд, чтобы избежать возникновения искажений, вызванных разбиением на блоки.The first converter 440, like the second converter 534, may include corresponding inverters 440a, 534a, synthesis windows 440b, 534b connected in series with the overlap / add unit 440c, 534c. Overlapping / adding blocks are required when converters are used, and more specifically, inverters 440a, 534a, use a combination of input transforms, such as a modified discrete cosine transform. Then, the overlap / add operation will cancel time slot combining (TDAC). However, when converters are used that do not use transform combining, such as inverse FFT, an overlap / add block 440s is not required. In this design, a fade overlay or crossfade operation can be applied to avoid distortion caused by blocking.

Аналогично, объединитель 600 может быть переключаемым объединителем или обеспечивать кроссфейд, или использовать совмещение для того, чтобы избежать искажений, вызванных разбиением на блоки, когда объединителем осуществляется переход с обработкой функцией окна, подобно блоку, осуществляющему перекрытие/добавление в пределах текущего кодирующего канала.Similarly, combiner 600 can be a switchable combiner, or provide a crossfade, or use combining to avoid blocking distortions when the combiner transitions to the window function processing, similar to a block overlapping / adding within the current coding channel.

Фиг.1а иллюстрирует решение изобретения, имеющего два каскада переключателей. Моно сигнал, сигнал стерео или многоканальный сигнал подаются на переключатель 200. Переключателем 200 управляет блок 300. На вход блока выбора поступает подаваемый на вход переключателя 200. Альтернативно, блок 300 решения может также получить стороннюю информацию, которая включена в моно сигнал, сигнал стерео или многоканальный сигнал или, по крайней мере, связана с сигналом, где существует эта информация, которая может быть, например, сформирована первоначально при формировании моно сигнала, сигнала стерео или многоканального сигнала.Figa illustrates a solution to the invention having two stages of switches. A mono signal, a stereo signal, or a multi-channel signal are supplied to switch 200. The switch 300 is controlled by block 300. The input to the selection block is fed to the input of switch 200. Alternatively, decision block 300 may also receive third-party information that is included in the mono signal, stereo signal, or a multichannel signal or, at least, is associated with a signal where this information exists, which can, for example, be generated initially when a mono signal, a stereo signal or a multichannel signal is generated.

Блок выбора/анализатор сигнала 300 приводит в действие выключатель 200, чтобы сформировать сигнал в канале кодирования частотной области 400, иллюстрированном в верхней части фиг.1а, или в канале LPC кодирования 500, иллюстрированном в нижней части фиг.1а. Основной элемент канала кодирования частотной области - это блок спектрального преобразования 410, который служит для преобразования общего выходного сигнала стадии предварительной обработки (как будет обсуждено позже) в спектральную область. Блок спектрального преобразования может включать алгоритм MDCT, QMF, алгоритм FFT, вейвлет анализ или банк фильтров, такой как банк фильтров с критической выборкой, имеющий определенное число каналов, где сигналы подполос в этом банке фильтров могут быть реальными сигналами или комплексными сигналами. Выходные данные блока спектрального преобразования 410 кодируются с использованием спектрального аудио кодирующего устройство 421, которое может включать блоки обработки, известные из схемы кодирования ААС.The selector / signal analyzer 300 activates a switch 200 to generate a signal in the coding channel of the frequency domain 400, illustrated in the upper part of FIG. 1a, or in the LPC coding channel 500, illustrated in the lower part of FIG. 1a. The main element of the frequency domain coding channel is the spectral transform unit 410, which serves to convert the overall output of the preprocessing stage (as will be discussed later) into the spectral region. The spectral transform block may include an MDCT, QMF algorithm, an FFT algorithm, a wavelet analysis, or a filter bank, such as a filter bank with a critical sampling having a certain number of channels, where the subband signals in this filter bank can be real signals or complex signals. The output of the spectral transform unit 410 is encoded using a spectral audio encoder 421, which may include processing units known from the AAC encoding scheme.

Вообще, обработка в канале 400 является обработкой, базирующейся на модели восприятия или информационной модели слуха. Таким образом, этот канал моделирует человеческий аудиторный звук, получаемый системой. Обратное к этому - это обработка в канале 500, которая должна сформировать сигнал возбуждения, разностный или области LPC. Вообще, обработка в канале 500 является обработкой на базе речевой модели или модели формирования информации. Для речевых сигналов этой моделью является модель системы, формирующей человеческую речь/звук. Если, однако, звук поступает из различных источников, требующих различных моделей формирования звука, который должен быть закодирован, то обработка в канале 500 может отличаться.In general, the processing in channel 400 is processing based on a perception model or an information model of hearing. Thus, this channel simulates the human audience sound received by the system. The inverse of this is the processing in channel 500, which is supposed to generate an excitation signal, a differential signal or an LPC region. In general, the processing in channel 500 is processing based on a speech model or an information generation model. For speech signals, this model is the model of a system that forms human speech / sound. If, however, the sound comes from various sources that require different models for generating sound to be encoded, then the processing in channel 500 may be different.

В канале кодирования 500 основной элемент - это устройство LPC 510, формирующее информацию LPC, которая используется для того, чтобы управлять параметрами LPC фильтра. Эта LPC информация передается в декодер. Выходной сигнал LPC процессора 510 - это сигнал LPC-области, который состоит из сигнала возбуждения и/или взвешенного сигнала.In coding channel 500, the main element is the LPC 510, which generates LPC information that is used to control the parameters of the LPC filter. This LPC information is transmitted to the decoder. The LPC output of processor 510 is an LPC region signal that consists of an excitation signal and / or a weighted signal.

LPC процессор вообще формирует сигнал области LPC, который может быть любым сигналом в области LPC, таким как сигнал возбуждения на фиг.7е, или взвешенным сигналом на фиг.7f, или любым другим сигналом, который был сформирован, с применением коэффициентов LPC фильтра к аудио сигналу. Кроме того, устройство LPC может также определить эти коэффициенты и может также квантовать/кодировать эти коэффициенты.The LPC processor generally generates an LPC region signal, which can be any signal in the LPC region, such as the excitation signal in FIG. 7e, or a weighted signal in FIG. 7f, or any other signal that was generated using the filter LPC coefficients for the audio signal. In addition, the LPC device can also determine these coefficients and can also quantize / code these coefficients.

Решение в блоке выбора может быть адаптивным сигналом так, чтобы блок выбора выполнил разделение музыки/речи и управлял переключателем 200 таким способом, при котором музыкальные сигналы поступают в первый канал 400, а речевые сигналы поступают во второй канал 500. В одном решении информация о выборе блока выбора поступает в выходной битовый так, чтобы декодер мог использовать эту информацию о выборе, для выполнения правильных операций по декодированию.The decision in the selection unit may be an adaptive signal so that the selection unit performs music / speech separation and controls the switch 200 in such a way that the music signals enter the first channel 400 and the speech signals enter the second channel 500. In one solution, the selection information of the selection block is supplied to the output bit so that the decoder can use this selection information to perform the correct decoding operations.

Такой декодер иллюстрирован на фиг.1b. Сигнал, сформированный спектральным аудио кодирующим устройством 421, является после передачи входным для спектрального аудио декодера 431. Выходной сигнал спектрального аудио декодера 431 поступает на преобразователь во временную область 440. Аналогично, выходной сигнал канала кодирования LPC области 500 на фиг.1а поступает на декодер и обрабатывается элементами 531, 533, 534, и 532 для того, чтобы получить сигнал возбуждения LPC. Сигнал возбуждения LPC поступает на блок 540 LPC синтеза, который получает, на другой вход, информацию LPC, сформированную соответствующим аналитическим этапом LPC 510. Выходной сигнал преобразование во временную область 440 и/или выходной сигнал блок 540 LPC синтеза поступает на переключатель 600. Переключателем 600 управляет управляющий сигнал переключателя, который был, например, сформирован блоком выбора/анализа сигнала 300, или который обеспечен извне формирователем оригинального моно сигнала, сигнала стерео или многоканального сигнала. Выходной сигнал переключателя 600 является полным моно сигналом, сигналом стерео или многоканальным сигналом.Such a decoder is illustrated in FIG. 1b. The signal generated by the spectral audio encoder 421 is, after being transmitted, input to the spectral audio decoder 431. The output of the spectral audio decoder 431 is supplied to the converter in the time domain 440. Similarly, the output signal of the LPC encoding channel of region 500 in FIG. 1a is supplied to the decoder and processed by elements 531, 533, 534, and 532 in order to obtain an LPC drive signal. The LPC excitation signal is fed to the synthesis LPC block 540, which receives, at another input, LPC information generated by the corresponding LPC analysis step 510. The output signal is converted to the time domain 440 and / or the output signal from the LPC synthesis block 540 is sent to the switch 600. With the switch 600 controls the control signal of the switch, which was, for example, generated by the block selection / analysis of the signal 300, or which is provided externally by the driver of the original mono signal, a stereo signal or a multi-channel signal. The output of switch 600 is a full mono signal, a stereo signal, or a multi-channel signal.

Входной сигнал переключателя 200 и блока выбора/анализа сигнала 300 может быть моно сигналом, стерео сигналом, многоканальным сигналом или вообще аудио сигналом. В зависимости от выбора, который может быть получен из переключателя входных сигналов 200 или из любого внешнего источника, такого как формирователь оригинального аудио сигнала, лежащего в основе входного сигнала переключателя 200, осуществляется переключение между каналом кодирования частоты 400 и LPC, кодирующим каналом 500. Канал кодирования частоты 400 включает блок спектрального преобразования 410, соединенный с блоком 421 квантования/кодирования. Блок квантования/кодирования может включать любую из функциональностей известных от современных кодирующих устройств области частот, таких как кодирующее устройство ААС. Кроме того, операцией по квантизации в блоке 421 квантования/кодирования можно управлять через физикоакустический модуль, который формирует физикоакустическую информацию, такую как маскирующий физикоакустический частотный порог, которая поступает на блок 421.The input signal of the switch 200 and the signal selection / analysis unit 300 may be a mono signal, a stereo signal, a multi-channel signal, or in general an audio signal. Depending on the choice that can be obtained from the input signal selector 200 or from any external source, such as an original audio signal generator underlying the input signal of the switch 200, a switch is made between the frequency coding channel 400 and the LPC coding channel 500. Channel frequency coding 400 includes a spectral transform unit 410 connected to quantization / coding unit 421. The quantization / encoding unit may include any of the functionalities known from modern frequency range encoders, such as an AAC encoder. In addition, the quantization operation in the quantization / coding unit 421 can be controlled through a physical-acoustic module that generates physical-acoustic information, such as a masking physical-acoustic frequency threshold, which is supplied to block 421.

В LPC, кодирующем канале, выходной сигнал переключателя обработан LPC процессором 510, формирующим стороннюю LPC информацию и сигнал LPC-области. Кодирующее устройство возбуждения интелектуально включает дополнительный переключатель для того, чтобы переключить дальнейшую обработку сигнала LPC-области между операцией по квантизации/кодированию 522 в LPC-области или блоком 524 квантизации/кодирования, который обрабатывает данные в LPC-спектральной области. С этой целью спектральный преобразователь 523 установлен на входе блока 524 квантования/кодирования. Переключателем 521 управляют режимом разомкнутого контура или режимом замкнутого контура в зависимости от определенных параметров настройки, таких как, например, описанных в технической спецификации AMR-WB+.In the LPC coding channel, the output of the switch is processed by the LPC processor 510, forming third-party LPC information and the signal of the LPC region. The excitation encoder intellectually includes an additional switch in order to switch the further processing of the signal of the LPC region between the quantization / coding operation 522 in the LPC region or the quantization / coding unit 524 that processes the data in the LPC spectral region. To this end, a spectral converter 523 is installed at the input of a quantization / coding unit 524. The switch 521 controls the open loop mode or closed loop mode depending on certain settings, such as, for example, described in the technical specification AMR-WB +.

Для режима управления замкнутого контура кодирующее устройство дополнительно включает обратное преобразование квантования/кодирования 531 для сигнала области LPC, обратное преобразование квантования/кодирования 533 для спектрального сигнала области LPC и обратного спектрального преобразователя 534 для выходного сигнала блока 533. Закодированный и снова расшифрованный сигналы во вторых каналах обработки подаются на устройство управления переключателем 525. В устройстве управления переключателем 525 эти два выходных сигнала сравниваются друг с другом и/или с целевой функцией или с целевой функцией, вычисленной на основе сравнения искажения в обоих сигналах так, чтобы использовался сигнал, имеющий более низкое искажение, для того, чтобы решить, как управлять переключателем 521. Альтернативно, в случае, если оба канала обеспечивают непостоянные битрейты, может быть выбран канал, обеспечивающий более низкий битрейт, даже когда отношение сигнал/шум этого канала ниже, чем отношение сигнал/шум другого канала. Альтернативно, целевая функция может использовать на входе отношение сигнал/шум каждого сигнала и битрейт каждого сигнала и/или дополнительные критерии, чтобы найти лучшее решение для определенной цели. Если, например, цель такова, что битрейт должен быть настолько низким, насколько возможно, то целевая функция в большой степени основывалась бы на битрейте двух сигналов, сформированных элементами 531, 534. Однако, когда главная цель состоит в том, чтобы иметь высшее качество для определенного битрейта, тогда управление переключателем 525 могло бы, например, исключить сигнал, который имеет битрейт выше допустимого битрейта, и если оба сигнала имеют битрейт ниже допустимого битрейта, управление переключателем выбрало бы сигнал, имеющий лучшее отношение сигнал/шум, то есть имеющий меньшие искажения квантизации/кодирования.For the closed loop control mode, the encoder further includes an inverse quantization / encoding transform 531 for the LPC domain signal, an inverse quantization / encoding transform 533 for the LPC domain spectral signal and an inverse spectral converter 534 for the output signal of block 533. The encoded and decoded signals in the second channels processing is provided to switch control device 525. In switch control device 525, these two output signals are compared to each other with a friend and / or with an objective function or with an objective function calculated by comparing the distortion in both signals so that a signal having a lower distortion is used in order to decide how to control switch 521. Alternatively, if both The channel provides inconsistent bitrates, a channel can be selected that provides a lower bitrate, even when the signal-to-noise ratio of this channel is lower than the signal-to-noise ratio of the other channel. Alternatively, the objective function may use the input signal-to-noise ratio of each signal and the bit rate of each signal and / or additional criteria to find the best solution for a specific purpose. If, for example, the goal is such that the bit rate should be as low as possible, then the objective function would be heavily based on the bitrate of the two signals generated by elements 531, 534. However, when the main goal is to have the highest quality for a certain bitrate, then control of the switch 525 could, for example, exclude a signal that has a bitrate higher than the allowable bitrate, and if both signals have a bitrate below the allowable bitrate, the control of the switch would select a signal that has the best wearing signal / noise ratio, that is, having a smaller distortion of the quantization / coding.

Схема декодирования в соответствии с данным изобретением, как заявлено прежде, иллюстрирована на фиг.1b. Для каждого из трех возможных видов выходного сигнала существует определенный блок декодирования/деквантизации 431, 531 или 533. В то время как блок 431 формирует спектр временного интервала, который преобразуется во временной интервал, используя преобразователь частоты/времени 440, блок 531 формирует сигнал LPC-области, и блок 533 формирует LPC-спектр. Для обеспечения того, чтобы входные сигналы, подаваемые на переключатель 532, находились в LPC-области, установлен LPC-спектр/LPC-преобразователь 534. Выходные данные переключателя 532 преобразуются обратно во временной интервал, используя блок 540 синтеза LPC, которым управляет информация, сформированная и переданная кодирующим LPC устройством. Тогда, за блоком 540, в обоих каналах есть информация о временном интервале, которая переключена в соответствии с управляющим сигналом переключателя, чтобы получить окончательный аудио сигнал, такой как моно сигнал, сигнал стерео или многоканальный сигнал, который зависит от входного сигнала в схему кодирования на фиг.1а.The decoding scheme in accordance with this invention, as stated previously, is illustrated in fig.1b. For each of the three possible types of output signal, there is a specific decoding / dequantization unit 431, 531 or 533. While block 431 generates a spectrum of a time interval that is converted to a time interval using a frequency / time converter 440, block 531 generates an LPC- signal areas, and block 533 forms an LPC spectrum. To ensure that the input signals supplied to the switch 532 are in the LPC region, an LPC spectrum / LPC converter 534 is installed. The output of the switch 532 is converted back to the time interval using the LPC synthesis unit 540, which is controlled by the information generated and transmitted by the LPC encoder. Then, behind block 540, there is time slot information in both channels that is switched in accordance with the control signal of the switch to obtain the final audio signal, such as a mono signal, a stereo signal, or a multi-channel signal, which depends on the input signal to the encoding circuit on figa.

Фиг.1с иллюстрирует дальнейшее воплощение с различным расположением переключателя 521 подобно принципу, иллюстрированному на фиг.4b.Fig. 1c illustrates a further embodiment with a different arrangement of switch 521, similar to the principle illustrated in Fig. 4b.

Фиг.2а иллюстрирует предпочтительную схему кодирования в соответствии со вторым аспектом изобретения. Общая схема предварительной обработки, соединенная с входом переключателя 200, может включать блок окружающего/объединенного стерео 101, который формирует на выходе параметры объединенного стерео и моно выходной сигнал, который сформирован путем понижающего микширования входного сигнала, который является сигналом, имеющим два или больше канала. Вообще, сигнал, формируемый на выходе блока 101, может также быть сигналом, имеющим больше каналов, но из-за функциональности понижающего микширования блока 101, число каналов на выходе блока 101 будет меньшим, чем число входных каналов в блок 101.Fig. 2a illustrates a preferred coding scheme in accordance with a second aspect of the invention. The general pre-processing circuitry connected to the input of the switch 200 may include an surround / combined stereo unit 101, which generates output parameters of the combined stereo and mono output signal, which is generated by down-mixing the input signal, which is a signal having two or more channels. In general, the signal generated at the output of block 101 may also be a signal having more channels, but due to the downmix functionality of block 101, the number of channels at the output of block 101 will be less than the number of input channels to block 101.

Общая схема предварительной обработки может включить альтернативно блоку 101 или в дополнение к блоку 101 блок 102 расширения полосы частот. В решении на фиг. 2а выходной сигнал блока 101 поступает на блок 102 расширения полосы частот, который, в кодирующем устройстве на фиг.2а, формирует на выходе сигнал с ограниченной полосой, такой как низкочастотный сигнал. Как правило, этот сигнал дискретизируется с более низкой частотой (например, с частотой в два раза ниже). Кроме того, для высокочастотного входного сигнала в блок 102, формируются и форматируются в поток битов мультиплексором 800 параметры расширения полосы частот, такие как параметры огибающей спектра, обратные параметры фильтрации, параметры уровня шума и т.д., известные из НЕ-ААС характеристики MPEG-4.The general preprocessing scheme may include, alternatively to block 101, or in addition to block 101, a bandwidth extension block 102. In the solution of FIG. 2a, the output signal of block 101 is fed to a frequency band extension block 102, which, in the encoder of FIG. 2a, generates a limited-band signal, such as a low-frequency signal, at the output. Typically, this signal is sampled at a lower frequency (for example, at a frequency two times lower). In addition, for a high-frequency input signal to block 102, frequency extension parameters, such as spectral envelope parameters, inverse filter parameters, noise level parameters, etc., known from the non-AAC MPEG characteristics, are generated and formatted into the bitstream by multiplexer 800 -four.

Как правило, блок выбора/анализа сигнала 300 получает входной сигнал в блок 101 или в блок 102, чтобы выбрать между, например, режимом музыки или режимом речи. В режиме музыки выбирается верхний канал кодирования 400, в то время как в режиме речи выбирается нижний канал кодирования 500. Как правило, блок выбора/анализа сигнала дополнительно управляет блоком 101 окружающее/объединенное стерео и/или блоком 102 расширения полосы частот, чтобы адаптировать функциональность этих блоков к определенному сигналу. Таким образом, когда блок выбора/анализа сигнала решает, что определенная временная часть входного сигнала относится к первому режиму, такому как музыкальный режим, то определенными особенностями блока 101 и/или блока 102 может управлять блок выбора/анализа сигнала 300. Альтернативно, когда блок выбора/анализа сигнала 300 решает, что сигнал относится к режиму речи или, вообще, к LPC-области, тогда определенными особенностями блоков 101 и 102 можно управлять в соответствии выходным сигналом блока выбора/анализа сигнала.Typically, the signal selection / analysis unit 300 receives an input signal to block 101 or block 102 to select between, for example, music mode or speech mode. In music mode, the upper coding channel 400 is selected, while in speech mode, the lower coding channel 500 is selected. Typically, the signal selection / analysis unit further controls the surround / combined stereo unit 101 and / or the band extension block 102 to adapt the functionality of these blocks to a specific signal. Thus, when the signal selection / analysis unit decides that a certain time portion of the input signal relates to the first mode, such as the music mode, the signal selection / analysis unit 300 can control certain features of the block 101 and / or block 102. Alternatively, when the block selecting / analyzing the signal 300 decides that the signal belongs to the speech mode or, generally, to the LPC region, then certain features of the blocks 101 and 102 can be controlled in accordance with the output signal of the signal selection / analysis block.

Предпочтительно, чтобы спектральное преобразование кодирующего канала 400 было сделано с использованием операции MDCT, которая, еще более предпочтительно, является операцией MDCT с искажением времени, где искажением можно управлять между нолем и высокой величиной искажения. В нулевом искажении операция MDCT с искажением времени в блоке 411 - это обычная, известная в технике, операция MDCT. Величина искажения времени вместе со сторонней информацией в искаженном времени может быть передана/введена в битовый поток мультиплексором 800 как сторонняя информация.Preferably, the spectral conversion of the coding channel 400 is done using the MDCT operation, which is even more preferably an MDCT operation with time distortion, where the distortion can be controlled between zero and a high amount of distortion. In zero distortion, the MDCT time distortion operation in block 411 is a conventional MDCT operation known in the art. The amount of time distortion together with third-party information in the distorted time can be transmitted / entered into the bitstream by the multiplexer 800 as third-party information.

В LPC кодирующем канале кодирующее устройство LPC-области может включать ядро ACELP 526, вычисляющее передачу основного тона, интервал основного тона и/или информацию кодовой таблицы, такую как индекс кодовой таблицы и передача. Режим ТСХ, известный из 3GPP TS 26.290, включает обработку перцепционно взвешенного сигнала в области преобразования. Фурье преобразованный, взвешенный сигнал квантуется с использованием многоуровневой квантизирующей решетки (алгебраический VQ) и шумового фактора квантизации. Преобразование вычисляется в окнах длиной 1024, 512, или 256 отсчетов. Сигнал возбуждения восстанавливается с использованием обратной фильтрации путем пропускания квантованного взвешенного сигнала через фильтр обратного взвешивания.In the LPC coding channel, the LPC area encoder may include an ACELP 526 core that calculates pitch transmission, pitch interval and / or codebook information such as codebook index and transmission. TLC mode, known from 3GPP TS 26.290, includes processing a perceptually weighted signal in the transform domain. The Fourier transformed, weighted signal is quantized using a multi-level quantizing lattice (algebraic VQ) and noise quantization factor. The conversion is calculated in windows with a length of 1024, 512, or 256 samples. The excitation signal is reconstructed using reverse filtering by passing a quantized weighted signal through a reverse weighting filter.

В первом кодирующем канале 400 спектральный преобразователь предпочтительно включает адаптированную операцию MDCT, включающую определенные оконные функции, следующие за стадией квантизации/кодирования, которая может состоять из единственной векторной стадии квантизации, но предпочтительно является объединенным скалярным квантизация/энтропия кодировщиком, подобным блоку квантизации/кодирования в кодирующем канале частотной области, то есть в блоке 421 на фиг.2а.In the first coding channel 400, the spectral converter preferably includes an adapted MDCT operation including certain window functions following the quantization / encoding step, which may consist of a single vector quantization step, but is preferably a combined scalar quantization / entropy encoder similar to a quantization / encoding unit in coding channel of the frequency domain, that is, in block 421 in figa.

Во втором кодирующем канале есть блок 510 LPC с последующим переключателем 521, за которым следует блок 526 ACELP или блок 527 ТСХ. ACELP описан в 3GPP, TS 26.190 и ТСХ описан в 3GPP TS 26.290. В общем, блок 526 ACELP получает сигнал возбуждения LPC, который вычислен процедурой, описанной на фиг.7е. Блок 527 ТСХ получает взвешенный сигнал, как показано на фиг.7f.In the second coding channel, there is an LPC unit 510 followed by a switch 521, followed by an ACELP unit 526 or a TCX unit 527. ACELP is described in 3GPP, TS 26.190 and TLC is described in 3GPP TS 26.290. In general, ACELP unit 526 receives an LPC drive signal, which is calculated by the procedure described in FIG. 7e. TLC block 527 receives a weighted signal, as shown in FIG. 7f.

В ТСХ преобразование применено к взвешенному сигналу, вычисленному, пропуская входной сигнал через фильтр взвешивания на базе LPC. В фильтре взвешивания используется решение изобретения, даваемое выражением (1-A(z/γ))/(1-µz-1). Таким образом, взвешенный сигнал - это сигнал области LPC, и его преобразование - это LPC-спектральная область. Сигнал, обработанный блоком ACELP 526, является сигналом возбуждения и отличается от сигнала, обработанного блоком 527, но оба сигнала находятся в LPC области.In TLC, the conversion is applied to a weighted signal calculated by passing an input signal through an LPC-based weighting filter. The weighting filter uses the solution of the invention given by the expression (1-A (z / γ)) / (1-µz -1 ). Thus, the weighted signal is the signal of the LPC region, and its conversion is the LPC spectral region. The signal processed by ACELP 526 is an excitation signal and is different from the signal processed by block 527, but both signals are in the LPC region.

В стороне декодера, иллюстрированной на фиг.2b, после обратного спектрального преобразования в блоке 537, применена обратная фильтрация весовых коэффициентов, так что (1-µz-1)/(1-A(z/γ)). Затем сигнал фильтруется путем (1-А(z)), чтобы попасть в область LPC возбуждения. Таким образом, преобразование в блоке 534 области LPC и блоке 537 ТСХ-1, включающем обратное преобразование и затем фильтрацию посредством ( 1 μ z 1 ) ( 1 A ( z / γ ) ) ( 1 A ( z ) )

Figure 00000001
, чтобы преобразовать взвешенную область в область возбуждения.On the side of the decoder illustrated in FIG. 2b, after inverse spectral conversion at block 537, the inverse filtering of the weights is applied, so that (1-μz -1 ) / (1-A (z / γ)). The signal is then filtered by (1-A (z)) to enter the LPC field of excitation. Thus, the conversion in block 534 of the LPC region and block 537 TLC -1 , including the inverse transformation and then filtering by ( one - μ z - one ) ( one A ( z / γ ) ) ( one - A ( z ) )
Figure 00000001
to convert the weighted region to the excitation region.

Хотя блок 510 в фиг.1а, 1с, 2а, 2с иллюстрирует единственный блок, блок 510 может сформировать различные сигналы, пока эти сигналы находятся в области LPC. Фактический режим блока 510, такой как режим сигнала возбуждения или режим взвешенного сигнала, может зависеть от фактического положения переключателя. Альтернативно, у блока 510 может быть два параллельных устройства обработки, где одно устройство осуществлено подобно, изображенному на фиг.7е, и другое устройство осуществлено, как показано на фиг.7f. Следовательно, область LPC на выходе блока 510 может представлять или сигнал возбуждения LPC, или LPC взвешенный сигнал, или любой другой сигнал области LPC.Although block 510 in FIGS. 1a, 1c, 2a, 2c illustrates a single block, block 510 may generate various signals while these signals are in the LPC area. The actual mode of block 510, such as the drive signal mode or the weighted signal mode, may depend on the actual position of the switch. Alternatively, block 510 may have two parallel processing devices, where one device is implemented similarly to that shown in FIG. 7e and the other device is implemented as shown in FIG. 7f. Therefore, the LPC area at the output of block 510 may represent either an LPC drive signal, or an LPC weighted signal, or any other signal of the LPC area.

Предпочтительно, чтобы во втором канале кодирования (ACELP/TCX) фиг.2а или 2с сигнал перед кодированием предварительно обрабатывался фильтром 1-0.68z-1, создающим предискажения. В декодере ACELP/TCX, изображенном на фиг.2b, синтезируемый сигнал обрабатывается обратным фильтром 1/(1-0.68z~1), устраняющим эти предискажения. Предискажения могут формироваться в блоке 510 LPC, где сигнал предварительно предискажен перед анализом LPC и квантизацией. Точно так же устранение предискажений может быть частью блока LPC-1 540 синтеза LPC.Preferably, in the second coding channel (ACELP / TCX) of FIGS. 2a or 2c, the signal is pre-processed by the 1-0.68z -1 filter, which generates biases, before encoding. In the ACELP / TCX decoder shown in FIG. 2b, the synthesized signal is processed by an inverse filter 1 / (1-0.68z ~ 1 ), which eliminates these biases. Predictions can be generated at LPC block 510, where the signal is pre-biased before LPC analysis and quantization. Similarly, the removal of bias can be part of the LPC -1 540 block synthesis LPC.

Фиг.2с иллюстрирует дальнейшее решение для реализации устройства на фиг.2а, но с другим расположением переключателя 521 подобно схеме на фиг.4b.Fig. 2c illustrates a further solution for implementing the device of Fig. 2a, but with a different arrangement of the switch 521, similar to the circuit in Fig. 4b.

В предпочтительном решении первым переключателем 200 (см. фиг.1а или 2а) управляют посредством решения разомкнутого контура (как показано на фиг.4а), и вторым переключателем управляют посредством решения с замкнутого контура (как показано на рисунке 4b).In a preferred solution, the first switch 200 (see FIGS. 1a or 2a) is controlled by an open loop solution (as shown in FIG. 4a), and the second switch is controlled by a closed loop solution (as shown in Figure 4b).

Например, на фиг.2с, второй выключатель расположен после блоков ACELP и ТСХ, как показано на фиг.4b. Тогда, в первом канале обработки, первая область LPC представляет возбуждение LPC, и во втором канале обработки, вторая область LPC представляет LPC взвешенный сигнал. Таким образом, первый сигнал области LPC получен путем фильтрации (1-А(z)), чтобы преобразовать его в разностный сигнал LPC области, в то время как второй сигнал LPC области получен с использованием фильтра (1-A(z/γ))/(1-µz-1), чтобы преобразовать сигнал во взвешенный в LPC области.For example, in FIG. 2c, a second switch is located after the ACELP and TLC units, as shown in FIG. 4b. Then, in the first processing channel, the first LPC region represents the LPC excitation, and in the second processing channel, the second LPC region represents the LPC weighted signal. Thus, the first signal of the LPC region is obtained by filtering (1-A (z)) to convert it to a difference signal of the LPC region, while the second signal of the LPC region is obtained using the filter (1-A (z / γ)) / (1-µz -1 ) to convert the signal to a weighted one in the LPC area.

Фиг.2b иллюстрирует схему декодирования, соответствующую схеме кодирования на фиг.2а. Битовый поток, сформированный мультиплексором битового потока 800, изображенным на фиг. 2а, является входным битовым потоком демультиплексора 900. В зависимости от информации, полученной, например, из битового потока в блоке определения режима 601, управляют выключателем со стороны декодера 600, чтобы или отправить сигналы от верхнего канала, или сигналы от нижнего канала к блоку 701 расширения полосы частот. Блок 701 расширения полосы частот получает от мультиплексора битового потока 900 стороннюю информацию и, на основании этой сторонней информации и выходного сигнала блока определения режима 601, восстанавливает высокочастотную полосу, основанную на выходном сигнале низкочастотной полосы переключателя 600.Fig. 2b illustrates a decoding scheme corresponding to the coding scheme in Fig. 2a. The bitstream generated by the bitstream multiplexer 800 of FIG. 2a is the input bit stream of the demultiplexer 900. Depending on the information received, for example, from the bit stream in the mode determination block 601, the switch is controlled by the decoder 600 to either send signals from the upper channel or signals from the lower channel to block 701 bandwidth extension. The bandwidth extension unit 701 receives third-party information from the bitstream multiplexer 900 and, based on this third-party information and the output signal of the mode determination unit 601, restores the high-frequency band based on the output signal of the low-frequency band of the switch 600.

Сигнал с полной полосой, сформированный блоком 701, поступает на объединенный блок 702 обработки объединенного стерео/окружения, который восстанавливает два канала стерео или несколько мультиканалов. Вообще, блок 702 формирует больше каналов, чем было введено в этот блок. В зависимости от применения, вход в блок 702 может даже включать два канала, такие как в стерео режиме, и может даже включать больше каналов, пока на выходе этого блока больше каналов, чем на входе в этот блок.The full-band signal generated by block 701 is fed to the combined stereo / surround processing unit 702, which restores two stereo channels or several multi-channels. In general, block 702 generates more channels than was entered into this block. Depending on the application, the input to block 702 may even include two channels, such as in stereo mode, and may even include more channels, while there are more channels at the output of this block than at the input to this block.

Переключатель 200, как показано, переключается между обоими каналами так, чтобы только один канал получает обрабатываемый сигнал, а другой канал не получает обрабатываемый сигнал. В альтернативном решении, однако, переключатель может также быть установлен, например, за аудио кодирующим устройством 421 и кодирующим устройством возбуждения 522, 523, 524, что означает, что оба канала 400, 500 обрабатывают тот же самый сигнал параллельно. Чтобы не удвоить битрейт, выбирается только сигнал, сформированный одним из кодирующих каналов 400 или 500, для записи в выходной битовый поток. Блок выбора будет тогда работать так, чтобы сигнал, записанный в выходной битовый поток, минимизировал определенную функцию стоимости, где функция стоимости может быть сформированным битрейтом, или созданным перцепционным искажением, или комбинированной функцией стоимости битрейт/перцепционное искажение. Поэтому, или в этом режиме или в режиме, иллюстрированном на рисунках, блок выбора может также работать в методе замкнутого контура, чтобы удостовериться, что в битовый поток записан только выходной сигнал того канала кодирования, который имеет для данного перцепционного искажения самый низкий битрейт или, для данного битрейта, имеет самое низкое перцепционное искажение. В методе замкнутого контура вход обратной связи может быть получен из выходных сигналов трех блоков квантизатор/счетчика 421, 522 и 424, изображенных на фиг.1а.The switch 200, as shown, is switched between both channels so that only one channel receives the processed signal and the other channel does not receive the processed signal. In an alternative solution, however, the switch may also be installed, for example, behind the audio encoder 421 and the excitation encoder 522, 523, 524, which means that both channels 400, 500 process the same signal in parallel. In order not to double the bitrate, only the signal generated by one of the coding channels 400 or 500 is selected for recording in the output bitstream. The selector will then work so that the signal recorded in the output bitstream minimizes a certain cost function, where the cost function can be generated by the bitrate, or created by perceptual distortion, or by a combined cost function bitrate / perceptual distortion. Therefore, either in this mode or in the mode illustrated in the figures, the selector can also work in a closed-loop method to make sure that only the output signal of the coding channel that has the lowest bitrate for a given perceptual distortion is written to, or, for a given bitrate, has the lowest perceptual distortion. In the closed loop method, the feedback input can be obtained from the output signals of the three quantizer / counter blocks 421, 522, and 424 shown in Fig. 1a.

В решении, имеющем два переключателя, то есть первый переключатель 200 и второй выключатель 521, предпочтительно, чтобы временное разрешение для первого переключателя было ниже, чем временное разрешение для второго выключателя. Заявленные по-другому, блоки входного сигнала в первый переключатель, который может быть переключен через операцию по переключению, больше чем блоки, переключенные вторым переключателем, работающим в LPC-области. Например, частотная область/LPC-область, переключаемая 200, может переключить блоки длины 1024 отсчетов, а второй переключатель 521 может переключить блоки, имеющие 256 отсчетов каждый.In a solution having two switches, that is, a first switch 200 and a second switch 521, it is preferable that the time resolution for the first switch is lower than the time resolution for the second switch. Stated differently, the blocks of the input signal to the first switch, which can be switched through a switching operation, are larger than the blocks switched by the second switch operating in the LPC region. For example, a frequency domain / LPC area switched 200 may switch blocks of 1024 samples length, and a second switch 521 may switch blocks having 256 samples each.

Хотя некоторые из фиг.1а-10b иллюстрированы как блок-схемы устройства, эти боки одновременно являются иллюстрацией метода, где функциональность блока соответствуют шагам метода.Although some of figa-10b are illustrated as block diagrams of the device, these sides are simultaneously an illustration of a method where the functionality of the block corresponds to the steps of the method.

Фиг.3а иллюстрирует аудио кодирующее устройство, формирующее закодированный аудио сигнал, как выходной сигнал первого канала кодирования 400 и второго канала кодирования 500. Кроме того, закодированный аудио сигнал предпочтительно включает стороннюю информацию, такую как параметры предварительной обработки с общего уровня предварительной обработки или, как обсуждено в связи с предыдущими рисунками, информацию об управлении переключателем.Fig. 3a illustrates an audio encoder generating an encoded audio signal as an output signal of a first encoding channel 400 and a second encoding channel 500. In addition, the encoded audio signal preferably includes third-party information such as preprocessing parameters from a common preprocessing layer or, as discussed in connection with the previous figures, switch control information.

Предпочтительно, первый канал кодирования служит для того, чтобы закодировать аудио промежуточный сигнал 195 в соответствии с первым кодирующим алгоритмом, причем у первого кодирующего алгоритма есть информационная модель слуха. Первый канал кодирования 400 формирует первый выходной сигнал кодирующего устройства, который является закодированным спектральным информационным представлением промежуточного аудио сигнала 195.Preferably, the first coding channel serves to encode the audio intermediate signal 195 in accordance with the first coding algorithm, wherein the first coding algorithm has an information model of hearing. The first coding channel 400 generates a first output signal from the encoder, which is an encoded spectral information representation of the intermediate audio signal 195.

Кроме того, второй канал кодирования 500 выполнен с возможностью кодирования промежуточного аудио сигнала 195 в соответствии со вторым алгоритмом кодирования, второй кодирующий алгоритм, основанный на информационной модели источника и формирования, во втором выходном сигнале кодирующего устройства, закодированные параметры информационной модели источника представляют промежуточный аудио сигнал.In addition, the second encoding channel 500 is configured to encode the intermediate audio signal 195 in accordance with the second encoding algorithm, the second encoding algorithm based on the source information model and generation, in the second output signal of the encoder, the encoded parameters of the source information model represent the intermediate audio signal .

Аудио кодирующее устройство, кроме того, включает общую стадию предварительной обработки для предварительной обработки сигнала 99, чтобы сформировать промежуточный аудио сигнал 195. Определенно, общая стадия предварительной обработки служит для того, чтобы обработать водной сигнал 99 так, чтобы промежуточный аудио сигнал 195, то есть результат общего алгоритма предварительной обработки был сжатой версией входного звукового сигнала.The audio encoder further includes a general preprocessing step for preprocessing the signal 99 to form an intermediate audio signal 195. Specifically, a general preprocessing step serves to process the water signal 99 so that the intermediate audio signal 195, i.e. The result of the general preprocessing algorithm was a compressed version of the input audio signal.

Предпочтительный метод кодирования аудио для того, чтобы сформировать закодированный аудио сигнал, включает шаг кодирования 400, промежуточного аудио сигнала 195 в соответствии с первым кодирующим алгоритмом, первый кодирующий алгоритм, основанный на информационной модели слуха и формирования, в первом выходном сигнале закодирована спектральная информация, представляющая аудио сигнал; шаг 500 является кодированием аудио промежуточного сигнала 195 в соответствии со вторым кодирующим алгоритмом, который основан на информационной модели источника и формирования, во втором выходном сигнале, закодированы параметры информационной модели источника, представляющие промежуточный сигнал 195, и шаг общей предварительной обработки 100 входного звукового сигнала 99, чтобы получить аудио промежуточный сигнал 195, где на шаге общей предварительной обработки входной звуковой сигнал 99 обработан так, чтобы аудио промежуточный сигнал 195 был сжатой версией входного звукового сигнала 99, причем закодированный аудио сигнал включает для определенной части аудио сигнала или первый выходной сигнал или второй выходной сигнал. Метод предпочтительно включает дальнейший шаг, кодирующий определенную часть аудио сигнала промежуточного звена, использующий первый кодирующий алгоритм, или использующий второй кодирующий алгоритм, или кодирующий сигнал с использованием обоих алгоритмов, формируя выходной сигнал как результат обоих алгоритмов, или результат первого кодирующего алгоритма, или результат второго кодирующего алгоритма.A preferred audio encoding method for generating an encoded audio signal includes an encoding step 400, an intermediate audio signal 195 in accordance with a first encoding algorithm, a first encoding algorithm based on an information model of hearing and generation, spectral information representing the first output signal is encoded audio signal; step 500 is the encoding of the audio of the intermediate signal 195 in accordance with the second coding algorithm, which is based on the information model of the source and generation, in the second output signal, the parameters of the information model of the source, representing the intermediate signal 195, and the step of the general preliminary processing 100 of the input audio signal 99 are encoded in order to obtain the audio intermediate signal 195, where in the general pre-processing step, the input audio signal 99 is processed so that the audio intermediate signal 195 is a compressed version of the input audio signal 99, wherein the encoded audio signal includes, for a specific part of the audio signal, either a first output signal or a second output signal. The method preferably includes a further step encoding a certain part of the intermediate audio signal using the first encoding algorithm, or using the second encoding algorithm, or the encoding signal using both algorithms, generating an output signal as the result of both algorithms, or the result of the first encoding algorithm, or the result of the second coding algorithm.

Вообще, алгоритм кодирования аудио, используемый в первом канале кодирования 400, отражает и моделирует ситуацию восприятия аудио. Органом слуха для аудио информации обычно является человеческое ухо. Человеческое ухо может быть смоделировано как анализатор частот. Поэтому, выходной сигнал первого канала кодирования кодирует спектральную информацию. Предпочтительно, первый канал кодирования, кроме того, включает физико-акустическую модель для того, чтобы дополнительно использовать маскирующий физико-акустический порог. Этот маскирующий физико-акустический порог используется, при квантовании аудио спектральных компонент, где предпочтительно, квантизация выполнена таким образом, что вводится шум квантизации при квантовании спектральных аудио компонент, которые скрыты ниже маскирующего физико-акустического порога.In general, the audio encoding algorithm used in the first encoding channel 400 reflects and models the audio perception situation. The hearing organ for audio information is usually the human ear. The human ear can be modeled as a frequency analyzer. Therefore, the output of the first coding channel encodes spectral information. Preferably, the first coding channel further includes a physical-acoustic model in order to further use a masking physical-acoustic threshold. This masking physico-acoustic threshold is used when quantizing audio spectral components, where preferably the quantization is performed such that quantization noise is introduced when quantizing spectral audio components that are hidden below the masking physico-acoustic threshold.

Второй канал кодирования представляет модель источника информации, которая отражает формирование аудио звука. Поэтому, информационные модели источника могут включать речевую модель, которая отражена аналитическим этапом LPC, то есть этапом преобразования сигнала на временном интервале в область LPC и впоследствии обработки остаточного сигнала LPC, то есть сигнала возбуждения. Альтернативные звуковые модели источника являются звуковыми моделями для того, чтобы представить определенный инструмент или любые другие звуковые генераторы, такие как определенный звуковой источник, существующий в реальном мире. Выбор между различными звуковыми моделями источников может быть выполнен, когда доступны несколько звуковых моделей источников, например, выбор может быть основан на вычислении SNR, то есть на вычислении, которое из моделей источников выбирает лучшую, подходящую для того, чтобы закодировать определенную временную часть/или частотную часть аудио сигнала. Предпочтительно, однако, чтобы переключение между каналами кодирования было выполнено во временном интервале, то есть чтобы определенный временной интервал кодировался с использованием одной модели, и определенный другой временной интервал промежуточного сигнала кодировался с использованием другого канала кодирования.The second coding channel is an information source model that reflects the formation of audio sound. Therefore, source information models can include a speech model that is reflected by the LPC analytic step, that is, the step of converting the signal over a time interval to the LPC region and subsequently processing the residual LPC signal, i.e., the drive signal. Alternative sound source models are sound models for representing a specific instrument or any other sound generators, such as a specific sound source existing in the real world. The choice between different sound source models can be made when several sound source models are available, for example, the choice can be based on SNR calculation, that is, on the calculation which of the source models selects the best one suitable for encoding a certain time part / or frequency part of the audio signal. Preferably, however, the switching between coding channels is performed in a time interval, that is, that a certain time interval is encoded using one model, and a certain other time interval of the intermediate signal is encoded using another encoding channel.

Модели источника информации представлены определенными параметрами. Относительно модели речи параметрами являются параметры LPC и закодированные параметры возбуждения, когда рассматривают современный речевой кодер, такой как AMR-WB+. AMR-WB+ включает кодирующее устройство ACELP и кодирующее устройство ТСХ. В этом случае закодированные параметры возбуждения могут быть глобальной передачей, уровнем шума и кодами переменной длины.Information source models are represented by certain parameters. With respect to the speech model, the parameters are the LPC parameters and the encoded excitation parameters when considering a modern speech encoder such as AMR-WB +. AMR-WB + includes an ACELP encoder and a TLC encoder. In this case, the encoded drive parameters may be global transmission, noise level, and variable length codes.

Фиг.3b иллюстрирует декодер, соответствующий кодирующему устройству, иллюстрированному на фиг.3а. Вообще, фиг.3b иллюстрирует аудио декодер, предназначенный для декодирования закодированный аудио сигнала, чтобы получить декодированный аудио сигнал 799. Декодер включает первый канал декодирования 450 для того, чтобы декодировать кодированный в соответствии с первым кодирующим алгоритмом сигнал, основанный на информационной модели слуха. Аудио декодер, кроме того, включает второй канал декодирования 550 для того, чтобы расшифровать кодированное информационное сообщение в соответствии со вторым кодирующим алгоритмом, основанным на модели источника информации. Аудио декодер, кроме того, включает объединитель для того, чтобы объединить выходные сигналы первого канала декодирования 450 и второго канала декодирования 550, чтобы получить объединенный сигнал. Объединенный сигнал, иллюстрированный на фиг.3b, является декодированным аудио промежуточным сигналом 699, который поступает на общий блок постобработки, обрабатывающий декодированный аудио промежуточный сигнал 699, который является объединенным сигналом, сформированным объединителем 600 так, чтобы выходной сигнал общего блока предварительной обработки был расширенной версией объединенного сигнала. Таким образом, у декодированного аудио сигнала 799 есть расширенное информационное содержание по сравнению с декодированным аудио промежуточным сигналом 699. Это информационное расширение обеспечено общим блоком постобработки с помощью параметров пред/пост обработки, которые могут быть переданы от кодирующего устройства до декодера или которые могут быть получены из расшифрованного аудио промежуточного сигнала непосредственно. Предпочтительно, однако, чтобы параметры пред/пост обработки передавались от кодирующего устройства до декодера, так как эта процедура позволяет улучшенное качество декодированного аудио сигнала.Fig. 3b illustrates a decoder corresponding to the encoding device illustrated in Fig. 3a. In general, FIG. 3b illustrates an audio decoder for decoding an encoded audio signal to obtain a decoded audio signal 799. The decoder includes a first decoding channel 450 to decode a signal encoded in accordance with a first encoding algorithm based on a hearing information model. The audio decoder further includes a second decoding channel 550 in order to decrypt the encoded information message in accordance with a second encoding algorithm based on the model of the information source. The audio decoder further includes a combiner for combining the output signals of the first decoding channel 450 and the second decoding channel 550 to obtain a combined signal. The combined signal illustrated in FIG. 3b is an audio decoded intermediate signal 699 that is supplied to a common post-processing unit processing the decoded audio intermediate signal 699, which is a combined signal generated by combiner 600 so that the output of the common preprocessing unit is an extended version combined signal. Thus, the decoded audio signal 799 has an expanded information content compared to the decoded audio intermediate signal 699. This information extension is provided by a common post-processing unit using pre / post processing parameters that can be transmitted from the encoder to the decoder or which can be received from the decrypted audio intermediate signal directly. Preferably, however, the pre / post processing parameters are transmitted from the encoder to the decoder, as this procedure allows improved quality of the decoded audio signal.

Фиг.3с иллюстрирует аудио кодирующее устройство для того, чтобы закодировать входной аудио сигнал 195, который может быть равным промежуточному аудио сигналу 195 на фиг.3а в соответствии с предпочтительным решением данного изобретения. Входной аудио сигнал 195 присутствует в первой области, которая может, например, быть временным интервалом, но которая может также быть любой другой областью, такой как область частот, область LPC, спектральная область LPC или любая другая область. Вообще, преобразование от одной области в другую область выполняется конверсионным алгоритмом, таким как любой из известных конверсионных алгоритмов времени/частоты или конверсионных алгоритмов частоты/времени.FIG. 3c illustrates an audio encoder for encoding an input audio signal 195, which may be equal to the intermediate audio signal 195 in FIG. 3a in accordance with a preferred solution of the present invention. The audio input signal 195 is present in the first region, which may, for example, be a time interval, but which may also be any other region, such as a frequency region, an LPC region, an LPC spectral region, or any other region. In general, conversion from one region to another region is performed by a conversion algorithm, such as any of the known conversion time / frequency algorithms or conversion frequency / time algorithms.

Альтернативное преобразование от временного интервала, например, в область LPC является результатом LPC фильтрования сигнала временного интервала, который приводит к разностному сигналу LPC или сигналу возбуждения. Любые другие операции по фильтрованию, формирующие фильтрованный сигнал, который оказывает влияние на значительное число отсчетов сигнала перед преобразованием, могут использоваться в качестве алгоритма преобразования в зависимости от обстоятельств. Поэтому, взвешивание аудио сигнала, базирующееся на LPC взвешивающем фильтре, является дальнейшим преобразованием, которое формирует сигнал в области LPC. Во временном/спектральном преобразовании изменение единственной спектральной компоненты оказывает влияние на все компоненты временного интервала перед преобразованием. Аналогично, модификация любого отсчета временного интервала окажет влияние на каждый компонент частотной области. Точно так же модификация отсчета сигнала возбуждения в ситуации с областью LPC будет иметь, благодаря длине фильтра LPC, воздействие на значительное число компонентов перед фильтрованием LPC. Точно так же модификация компонента перед преобразованием LPC окажет влияние на многие компоненты, полученные этим LPC преобразованием благодаря внутреннему эффекту памяти фильтра LPC.An alternative conversion from a time slot, for example, to an LPC region, is the result of LPC filtering of the time slot signal, which results in a difference LPC signal or an excitation signal. Any other filtering operations that generate a filtered signal that affects a significant number of signal samples before conversion can be used as a conversion algorithm, depending on the circumstances. Therefore, weighting an audio signal based on an LPC weighting filter is a further transform that generates a signal in the LPC domain. In a time / spectral transformation, a change in a single spectral component affects all components of the time interval before the conversion. Similarly, the modification of any sample of the time interval will affect each component of the frequency domain. Similarly, modifying the excitation signal sample in a situation with the LPC region will, due to the length of the LPC filter, have an effect on a significant number of components before filtering the LPC. Similarly, modifying a component before LPC conversion will affect many of the components obtained by this LPC conversion due to the internal LPC filter memory effect.

Аудио кодирующее устройство на фиг.3с включает первый канал кодирования 400, который формирует первый кодированный сигнал. Этот первый кодированный сигнал может оказаться в четвертой области, которая является, в предпочтительном решении, временной-спектральной областью, то есть областью, которая получается, когда сигнал временного интервала обработан через преобразование время/частота.The audio encoder of FIG. 3c includes a first encoding channel 400 that generates a first encoded signal. This first encoded signal may be in the fourth region, which is, in a preferred solution, the time-spectral region, that is, the region that is obtained when the time-slot signal is processed through a time / frequency conversion.

Поэтому, в первом кодирующем канале 400, предназначенном для кодирования аудио сигнала, используется первый кодирующий алгоритм, чтобы получить первый кодированный сигнал, где этот первый кодирующий алгоритм может включать или, возможно, не включать алгоритм преобразования время/частота.Therefore, in the first encoding channel 400 for encoding an audio signal, a first encoding algorithm is used to obtain a first encoded signal, where this first encoding algorithm may or may not include a time / frequency conversion algorithm.

Аудио кодирующее устройство, кроме того, включает второй канал кодирования 500 для того, чтобы закодировать аудио сигнал. Во втором канале кодирования 500 используется второй кодирующий алгоритм, который отличается от первого кодирующего алгоритма, чтобы получить второй кодированный сигнал.The audio encoder further includes a second encoding channel 500 in order to encode the audio signal. In the second coding channel 500, a second coding algorithm is used that is different from the first coding algorithm to obtain a second encoded signal.

Аудио кодирующее устройство, кроме того, включает первый переключатель 200 для того, чтобы переключиться между первым каналом кодирования 400 и вторым каналом кодирования 500 так, чтобы для части входного аудио сигнала, или первый кодированный сигнал на выходе блока 400, или второй кодированный сигнал на выходе второго канала кодирования были включены в выходной сигнал кодирующего устройства.The audio encoder further includes a first switch 200 so as to switch between the first encoding channel 400 and the second encoding channel 500 so that for a portion of the input audio signal, either the first encoded signal at the output of block 400 or the second encoded signal at the output a second encoding channel has been included in the output of the encoder.

Таким образом, когда для определенной части входного аудио сигнала 195 первый кодированный сигнал в четвертой области включен в выходной сигнал кодирующего устройства, второй кодированный сигнал, который является или первым обработанным сигналом во второй области, или вторым обработанным сигналом в третьей области, не включен в выходной сигнал кодирующего устройства. Это обеспечивает то, что данное кодирующее устройство имеет эффективный битрейт. В решениях любые временные интервалы аудио сигнала, которые включены в два различных кодированных сигнала, являются небольшими по сравнению с длиной фрейма, как будет обсуждено в связи с фиг.3. Эти небольшие части полезны для кроссфейда одного кодированного сигнала сообщения с другим кодируемым сигналом в случае переключения переключателя, чтобы уменьшить искажения, которые могли бы произойти без кроссфейда. Поэтому, кроме интервала плавного наложения сигналов, каждый блок временного интервала представлен кодированным сигналом только единственной области.Thus, when for a certain part of the input audio signal 195, the first encoded signal in the fourth region is included in the output of the encoder, the second encoded signal, which is either the first processed signal in the second region or the second processed signal in the third region, is not included in the output encoder signal. This ensures that this encoder has an effective bit rate. In solutions, any time slots of an audio signal that are included in two different encoded signals are small compared to the frame length, as will be discussed in connection with FIG. 3. These small parts are useful for cross-fading one coded message signal with another coded signal in the case of a switch switch to reduce distortion that might occur without a cross-fade. Therefore, in addition to the interval of smooth overlapping signals, each block of the time interval is represented by the encoded signal of only one area.

Как иллюстрировано на фиг.3с, второй канал кодирования 500 включает преобразователь 510 для того, чтобы преобразовать аудио сигнал в первой области, то есть сигнал 195, во вторую область. Кроме того, второй канал кодирования 500 включает первый канал обработки 522 для того, чтобы обработать аудио сигнал во второй области, чтобы получить первый обработанный сигнал, который является, предпочтительно, находится также во второй области так, что первый канал обработки 522 не осуществляет изменение области.As illustrated in FIG. 3c, the second coding channel 500 includes a converter 510 in order to convert the audio signal in the first region, i.e., signal 195, into the second region. In addition, the second coding channel 500 includes a first processing channel 522 in order to process the audio signal in the second region to obtain a first processed signal, which is preferably also in the second region so that the first processing channel 522 does not change the region .

Второй канал кодирования 500, кроме того, включает второй канал обработки 523, 524, который преобразовывает аудио сигнал во второй области в третью область, которая отличается от первой области и которая также отличается от второй области, и который обрабатывает аудио сигнал в третьей области, чтобы получить второй обработанный сигнал на выходе второго канала обработки 523, 524.The second coding channel 500 further includes a second processing channel 523, 524, which converts the audio signal in the second region to a third region, which is different from the first region and which also differs from the second region, and which processes the audio signal in the third region to get the second processed signal at the output of the second processing channel 523, 524.

Кроме того, второй канал кодирования включает второй переключатель 521 для того, чтобы переключиться между первым каналом обработки 522 и вторым каналом обработки 523, 524 так, чтобы для части входного аудио сигнала во второй канал кодирования или первый обработанный сигнал во второй области или второй обработанный сигнал в третьей области были во втором кодированном сигнале.In addition, the second coding channel includes a second switch 521 in order to switch between the first processing channel 522 and the second processing channel 523, 524 so that for a portion of the input audio signal into the second coding channel or the first processed signal in the second region or the second processed signal in the third area were in the second encoded signal.

Фиг.3d иллюстрирует соответствующий декодер для того, чтобы декодировать закодированный аудио сигнал, сформированный кодирующим устройством на фиг.3с. Вообще, каждый блок аудио сигнала первой области представлен сигналом второй области или сигналом третьей области или кодированным сигналом четвертой области, кроме, возможно, интервала плавного наложения сигналов, который предпочтительно, мал по сравнению с длиной одного фрейма, чтобы получить систему, которая является, насколько это возможно, у критического предела частоты осуществления выборки. Закодированный аудио сигнал включает первый закодированный сигнал, второй закодированный сигнал во второй области и третий закодированный сигнал в третьей области, причем первый закодированный сигнал, второй закодированный сигнал и третий закодированный сигнал, все касаются различных временных частей декодированного аудио сигнала, и, причем вторая область, третья область и первая область для декодированного аудио сигнала отличаются друг от друга.Fig. 3d illustrates a corresponding decoder in order to decode the encoded audio signal generated by the encoder in Fig. 3c. In general, each block of the audio signal of the first region is represented by a signal of the second region or a signal of the third region or an encoded signal of the fourth region, except, possibly, a smooth overlap interval, which is preferably small compared to the length of one frame, to obtain a system that is how much this is possible at the critical limit of the sampling rate. The encoded audio signal includes a first encoded signal, a second encoded signal in a second region and a third encoded signal in a third region, wherein the first encoded signal, the second encoded signal and the third encoded signal all relate to different time portions of the decoded audio signal, and wherein the second region, the third region and the first region for the decoded audio signal are different from each other.

Декодер включает первый канал декодирования для того, чтобы расшифровать сигнал, основанный на первом кодирующем алгоритме. Первый канал декодирования иллюстрирован блоками 431, 440 на фиг.3d и предпочтительно включает преобразователь частота/время. Первый закодированный сигнал находится предпочтительно в четвертой области и преобразуется в первую область, которая является областью для декодированного выходного сигнала.The decoder includes a first decoding channel in order to decrypt a signal based on the first coding algorithm. The first decoding channel is illustrated by blocks 431, 440 in FIG. 3d and preferably includes a frequency / time converter. The first encoded signal is preferably in the fourth region and is converted to the first region, which is the region for the decoded output signal.

Декодер на фиг.3d, кроме того, включает второй канал декодирования, который включает несколько элементов. Этими элементами являются первый канал обратной обработки 531 для обратного преобразования второго закодированного сигнала и получения обратно обработанного сигнала во второй области на выходе блока 531. Второй канал декодирования, кроме того, включает второй канал обратной обработки 533, 534 для обратной обработки третьего кодированного сигнала, чтобы получить второй обратно обработанный сигнал во второй области, где второй канал обратной обработки включает преобразователь для того, чтобы преобразовать сигнал из третьей области во вторую область.The decoder in FIG. 3d also includes a second decoding channel, which includes several elements. These elements are the first reverse processing channel 531 to reverse transform the second encoded signal and obtain the reverse processed signal in the second region at the output of block 531. The second decoding channel further includes a second reverse processing channel 533, 534 for reverse processing the third encoded signal so that receive the second back-processed signal in the second region, where the second channel of the reverse processing includes a converter in order to convert the signal from the third region to the second area.

Второй канал декодирования, кроме того, включает первый объединитель 532 для объединения первого обратно обработанного сигнала и второго обратно обработанного сигнала, чтобы получить сигнал во второй области, где этот объединенный сигнал, в первый момент времени, находится только под влиянием первого обратно обработанного сигнала и, в более поздний момент времени, только под влиянием второго обратно обработанного сигнала.The second decoding channel also includes a first combiner 532 for combining the first back-processed signal and the second back-processed signal to obtain a signal in the second region where this combined signal, at the first time, is only influenced by the first back-processed signal and, at a later point in time, only under the influence of a second back-processed signal.

Второй канал декодирования, кроме того, включает преобразователь 540 для того, чтобы преобразовать объединенный сигнал в первую область.The second decoding channel also includes a converter 540 in order to convert the combined signal into a first region.

Наконец, декодер, иллюстрированный на фиг.3d, включает второй объединитель 600 для того, чтобы объединить первый декодированный сигнал от блоков 431, 440 и выходного сигнала преобразователя 540, чтобы получить декодированный выходной сигнал в первой области. Далее, декодированный выходной сигнал в первой области в первый момент времени находится только под влиянием сигнала, сформированного преобразователем 540, и в более поздний момент времени находится только под влиянием первого декодированного сигнала, сформированного блоками 431,440.Finally, the decoder illustrated in FIG. 3d includes a second combiner 600 in order to combine the first decoded signal from blocks 431, 440 and the output of converter 540 to obtain a decoded output in the first region. Further, the decoded output signal in the first region at the first time is only influenced by the signal generated by the converter 540, and at a later time, it is only influenced by the first decoded signal generated by blocks 431,440.

Эта ситуация иллюстрирована, с точки зрения кодирующего устройства, представленного на фиг.3е. Верхняя часть фиг.3е иллюстрирует в схематическом представлении аудио сигнал первой области, такой как аудио сигнал временного интервала, где индекс времени увеличивается слева направо, и диаграмму 3 можно было бы рассмотреть как поток аудиосэмплов, представляющих сигнал 195 на фиг.3с. Фиг.3е иллюстрирует фреймы 3а, 3b, 3с, 3d, который может быть сформированы при переключении между первым кодированным сигналом и первым обработанным сигналом и вторым обработанным сигналом, как иллюстрировано на диаграмме 4 на фиг.3е. Первый кодированный сигнал, первый обработанный сигнал и второй обработанный сигнал находятся в различных областях, и чтобы удостовериться, что переключатель между различными областями не приводит к возникновению искажений на стороне декодера, у фреймов 3а, 3b сигнала временного интервала есть плавно накладывающийся диапазон, который обозначен областью кроссфейда, и такая область кроссфейда показана на фреймах 3b и 3с. Однако области кроссфейда нет между фреймами 3d и 3с, что означает, что фрейм 3d также представлен вторым обработанным сигналом, то есть сигналом в третьей области, и нет никакого изменения области между фреймами 3с и 3d. Поэтому, вообще, предпочтено устанавливать область кроссфейда, когда нет изменения области, и устанавливать область кроссфейда, то есть временной интервал аудио сигнала, который кодируется с использованием двух кодированных/обработанных сигналов, когда есть изменение области, т.е. есть переключение любого из двух переключателей. Предпочтительно кроссфейд осуществляется для других изменений области.This situation is illustrated from the point of view of the encoder shown in FIG. The upper part of FIG. 3e illustrates in a schematic representation the audio signal of a first region, such as an audio signal of a time interval, where the time index increases from left to right, and diagram 3 could be considered as a stream of audio samples representing the signal 195 in FIG. 3c. Fig. 3e illustrates frames 3a, 3b, 3c, 3d, which can be generated by switching between the first encoded signal and the first processed signal and the second processed signal, as illustrated in diagram 4 in Fig. 3e. The first encoded signal, the first processed signal, and the second processed signal are in different areas, and to make sure that the switch between different areas does not cause distortion on the side of the decoder, the frames of the signal of the time interval have a smoothly overlapping range, which is indicated by the area crossfade, and such a crossfade area is shown in frames 3b and 3c. However, there is no crossfade area between the 3d frames and 3c, which means that the 3d frame is also represented by the second processed signal, that is, the signal in the third area, and there is no change in the area between the 3c and 3d frames. Therefore, in general, it is preferable to set the crossfade area when there is no change in the area, and set the crossfade area, i.e. the time interval of the audio signal, which is encoded using two encoded / processed signals, when there is a change in the area, i.e. there is a switch of either of the two switches. Preferably, the crossfade is implemented for other area changes.

В решении, в котором первый кодированный сигнал или второй обработанный сигнал были сформированы процедурой MDCT, имеющей, например, 50-процентное наложение, каждого сэмпла временного интервала, включенного в два последующих фрейма. Из-за особенностей MDCT, однако, это не приводит к переполнению, так как MDCT - критически дискретизирующая система. В этом контексте, критически дискретизирующая система означает, что число спектральных компонент то же самое, что и число сэмплов временного интервала. MDCT выгоден тем, что эффект пересечения обеспечивается без определенной области пересечения, так что пересечение блока MDCT и следующего блока MDCT обеспечивается без переполнения, которое нарушило бы критическое требование осуществления дискретизации.In a solution in which a first encoded signal or a second processed signal was generated by an MDCT procedure, having, for example, 50 percent overlap, of each sample of a time interval included in two subsequent frames. Due to the nature of MDCT, however, this does not lead to overflow, since MDCT is a critically sampled system. In this context, a critically sampling system means that the number of spectral components is the same as the number of samples in a time interval. MDCT is advantageous in that the intersection effect is provided without a defined intersection area, so that the intersection of the MDCT block and the next MDCT block is provided without overflow, which would violate the critical requirement for sampling.

Предпочтительно, чтобы первый кодирующий алгоритм в первом канале кодирования отделении был основан на информационной модели слуха, и второй кодирующий алгоритм во втором канале кодирования был основан на модели источника информации или SNR модели. Модель SNR определенно не связана с определенным механизмом формирования звука, но она является одним способом кодирования, который может быть выбран среди множества способов кодирования, базирующихся, например, на решении замкнутого контура. Таким образом, модель SNR - это любая доступная модель кодирования, но которая не обязательно должна быть связана с физической природой генератора звука, которая является любой параметризованной моделью кодирования, отличающейся от информационной модели слуха, которая может быть выбрана решением замкнутого контура и особенно путем сравнения различных SNR результатов различных моделей.Preferably, the first coding algorithm in the first coding channel of the department is based on the hearing information model, and the second coding algorithm in the second coding channel is based on the information source model or SNR model. The SNR model is definitely not associated with a specific sound generation mechanism, but it is one coding method that can be selected from a variety of coding methods based, for example, on solving a closed loop. Thus, the SNR model is any available coding model, but which does not have to be related to the physical nature of the sound generator, which is any parameterized coding model that differs from the hearing information model, which can be chosen by solving a closed loop and especially by comparing different SNR results of various models.

На фиг.3с показан контроллер 300, 525. Этот контроллер может включать функциональность блока выбора 300, представленного на фиг. 1а, и, дополнительно, может включать функциональность управляющего устройства переключателем 525, представленным на фиг.1а. Вообще, контроллер предназначен для того, чтобы управлять первым переключателем и вторым переключателем на адаптированном пути сигнала. Контроллер служит для того, чтобы проанализировать входной сигнал первого переключателя, или выходной сигнал первого или второго канала кодирования, или выходные сигналы, полученные путем кодирования и декодирования в первом и втором каналах кодирования с использованием целевой функции. Альтернативно, или дополнительно, контроллер служит, чтобы проанализировать входной сигнал во второй переключатель или выходной сигнал первого канала обработки или второго канала обработки или сигнал, полученный путем обработки и обратной обработки от первого канала обработки и второго канала обработки, с использованием целевой функции.FIG. 3c shows the controller 300, 525. This controller may include the functionality of the selection unit 300 shown in FIG. 1a, and, optionally, may include control device functionality with a switch 525 shown in FIG. 1a. In general, the controller is designed to control the first switch and the second switch on an adapted signal path. The controller serves to analyze the input signal of the first switch, or the output signal of the first or second encoding channel, or the output signals obtained by encoding and decoding in the first and second encoding channels using the target function. Alternatively, or additionally, the controller serves to analyze the input signal to the second switch or the output signal of the first processing channel or the second processing channel or a signal obtained by processing and reverse processing from the first processing channel and the second processing channel using the target function.

В одном решении, в первом канале кодирования или во втором канале кодирования осуществляется совмещение результатов алгоритма преобразования время/частота, такого как MDCT или алгоритм MDST, который отличается от прямого преобразования FFT, в котором не реализуется эффект совмещения. Кроме того, один или оба канала включают блок квантизатора/кодирования энтропии. Определенно, только второй канал обработки второго канала кодирования включает преобразователь время/частота, вводящий операцию по совмещению, и первый канал обработки второго канала кодирования включает квантизатор и/или кодировщик энтропии и не осуществляет операцию совмещения. Операцию совмещения осуществляет преобразователь время/частота предпочтительно, применяя обработку аналитическим окном, и алгоритм преобразования MDCT. Определенно, обработка аналитическим окном служит, чтобы применить функцию окна к последовательным накладывающимся фреймам так, чтобы сэмпл сигнала, обработанного функцией окна, находился, по крайней мере, в двух последующих фреймах, обработанных функцией окна.In one solution, in the first coding channel or in the second coding channel, the results of a time / frequency conversion algorithm such as MDCT or the MDST algorithm are combined, which differs from the direct FFT transformation, in which the matching effect is not implemented. In addition, one or both channels include a quantizer / entropy encoding unit. Specifically, only the second processing channel of the second encoding channel includes a time / frequency converter introducing a combining operation, and the first processing channel of the second encoding channel includes a quantizer and / or entropy encoder and does not perform a combining operation. The combining operation is carried out by a time / frequency converter, preferably using processing by an analytical window, and an MDCT transformation algorithm. Specifically, processing by the analytic window serves to apply the window function to successive overlapping frames so that the sample signal processed by the window function is in at least two subsequent frames processed by the window function.

В одном решении первый канал обработки включает кодер ACELP, и второй канал обработки включает спектральный преобразователь MDCT и квантизатор для того, чтобы квантовать спектральные компоненты и получить квантованные спектральные компоненты, где каждая квантованная спектральная компонента является нулем или определена одним индексом квантования множества различных возможных индексов квантования.In one solution, the first processing channel includes an ACELP encoder, and the second processing channel includes an MDCT spectral converter and a quantizer in order to quantize the spectral components and obtain quantized spectral components, where each quantized spectral component is zero or is determined by one quantization index of the set of different possible quantization indices .

Кроме того, предпочтено, чтобы первый переключатель 200 работал в режиме разомкнутого контура, и второй переключатель работал в режиме замкнутого контура.In addition, it is preferred that the first switch 200 operates in open loop mode and the second switch operates in closed loop mode.

Как заявлено ранее, оба кодирующих канала служат, чтобы закодировать аудио сигнал в блоке интеллектуальным способом, в котором первый переключатель или второй переключатель переключается так, чтобы переключение имело место, в минимуме, после блока предопределенного числа сэмплов сигнала, предопределенного числа, формирующего длину фрейма для соответствующего переключателя. Таким образом, интервал для того, чтобы переключиться первому переключателю, может быть, например, блоком 2048 или 1028 сэмплов, и длиной фрейма, основанной на переключении первого переключателя 200, и может быть переменным, но, предпочтительно, фиксированным на таком довольно длительном периоде.As stated previously, both coding channels serve to encode the audio signal in the block in an intelligent way in which the first switch or the second switch is switched so that the switch takes place, at a minimum, after the block of a predetermined number of samples of the signal, a predetermined number forming the frame length for corresponding switch. Thus, the interval in order to switch the first switch may be, for example, a block of 2048 or 1028 samples, and the frame length based on the switching of the first switch 200, and may be variable, but preferably fixed for such a rather long period.

И обратно, размер блока для второго переключателя 521, то есть, когда второй переключатель 521 переключается от одного способа к другому, существенно меньше, чем размер блока для первого переключателя. Предпочтительно, оба размера блоков для переключателей выбраны таким образом, что дина более длительного блока является целым числом, умноженным на размер более короткого блока. В предпочтительном решении размер блока первого переключателя 2048 или 1024, и размер блока второго переключателя - 1024 или более предпочтительно - 512 и еще более предпочтительно - 256 и еще более предпочтительно - 128 сэмплов так, чтобы второй выключатель мог переключиться максимально 16 раз, когда первый переключатель переключается только один раз. Предпочтительное максимальное отношение размеров блоков составляет 4:1.And vice versa, the block size for the second switch 521, that is, when the second switch 521 switches from one method to another, is substantially smaller than the block size for the first switch. Preferably, both block sizes for the switches are selected such that the dyne of the longer block is an integer times the size of the shorter block. In a preferred solution, the block size of the first switch is 2048 or 1024, and the block size of the second switch is 1024 or more preferably 512 and even more preferably 256 and even more preferably 128 samples so that the second switch can switch up to 16 times when the first switch switches only once. The preferred maximum block size ratio is 4: 1.

В еще одном варианте осуществления контроллер 300, 525 служит, чтобы выполнить разделение речи и музыки для первого переключателя таким способом, которым выбор речи преобладает относительно выбора музыки. В этом решении принят выбор речи, даже когда часть меньше чем 50 % фрейма для первого переключателя является речью и часть больше чем 50 % фрейма является музыкой.In yet another embodiment, the controller 300, 525 serves to perform the separation of speech and music for the first switch in such a way that the choice of speech prevails relative to the choice of music. This decision made the choice of speech, even when part of less than 50% of the frame for the first switch is speech and part of more than 50% of the frame is music.

Кроме того, контроллер служит для того, чтобы уже переключиться на режим речи, когда довольно небольшая часть первого фрейма является речью и, определенно, когда часть первого фрейма является речью, которая составляет 50% длины меньшего второго фрейма. Таким образом, предпочтительно, переключающее решение речь/одобрение уже переключается на речь, даже тогда, когда, например, только 6% или 12% блока, соответствующего длине фрейма первого переключателя, является речью.In addition, the controller serves to already switch to speech mode when a rather small part of the first frame is speech and, specifically, when a part of the first frame is speech, which is 50% of the length of the smaller second frame. Thus, preferably, the speech / approval switching solution is already switched to speech, even when, for example, only 6% or 12% of the block corresponding to the frame length of the first switch is speech.

Эта процедура предпочтительна для того, чтобы в одном решении полностью использовать способность экономии битрейта первого канала обработки, у которого есть ядро кодирования обладающей голосом речи, и не потерять качество для остальной части большого первого фрейма, которая является не речью вследствие того, что второй канал обработки включает преобразователь и, поэтому, полезен для аудио сигналов, у которых есть также не речевые сигналы. Предпочтительно, этот второй канал обработки включает преобразование MDCT с перекрытием, которое выбрано критически, и которое даже при небольших размерах окна обеспечивает высокую эффективность, и свободно от операции совмещения благодаря отмене обработки по совмещению временных интервалов, такой как перекрытие и добавление на стороне декодера. Кроме того, большой размер блока для первого канала кодирования, которым является предпочтительно ААС подобный MDCT канал кодирования, полезен, так как неречевые сигналы обычно довольно постоянны, и длинное окно преобразования обеспечивает высокочастотное разрешение и, поэтому, высокое качество и, дополнительно, обеспечивает малый битрейт благодаря психоакустически управляемому модулю квантизации, который может также быть применен к преобразованию, основанному на режиме преобразования во втором канале обработки второго канала кодирования.This procedure is preferable in order to fully utilize in one solution the ability to save the bit rate of the first processing channel, which has a coding core with a voice of speech, and not lose quality for the rest of the large first frame, which is not speech due to the fact that the second processing channel It includes a converter and, therefore, is useful for audio signals that also have non-speech signals. Preferably, this second processing channel includes an overlapped MDCT transform that is critically selected and which, even with small window sizes, provides high efficiency and is free from alignment by canceling overlapping alignment processing, such as overlapping and adding on the side of the decoder. In addition, the large block size for the first coding channel, which is preferably an AAC-like MDCT coding channel, is useful since non-speech signals are usually fairly constant, and the long conversion window provides high-frequency resolution and, therefore, high quality and, in addition, low bit rate thanks to the psychoacoustically controlled quantization module, which can also be applied to the transformation based on the conversion mode in the second processing channel of the second coding channel Ania.

Относительно декодера, иллюстрированного на фиг.3d, предпочтительно, чтобы передаваемый сигнал включал явный индикатор, такой как сторонняя информация 4а, как иллюстрировано на фиг.3е. Эта сторонняя информация 4а извлекается распознавателем битового потока, не иллюстрированным на фиг.3d, чтобы направить соответствующий первый кодированный сигнал, первый обработанный сигнал или второй обработанный сигнал в правильный процессор, такой как первый канал декодирования, первый канал обратной обработки или второй канал обратной обработки, изображенный на фиг.3d. Поэтому, закодированный сигнал имеет не только кодированный/обработанный сигнал, но также и включает стороннюю информацию, касающуюся этих сигналов. В других решениях, однако, может быть неявная передача сигналов, которая позволяет анализатору битового потока стороны декодера различать определенные сигналы. Это описано в общих чертах на фиг.3е, где первый обработанный сигнал или второй обработанный сигнал является выходным сигналом второго канала кодирования и, поэтому, второго закодированного сигнала.Regarding the decoder illustrated in FIG. 3d, it is preferred that the transmitted signal includes an explicit indicator, such as third-party information 4a, as illustrated in FIG. 3e. This third-party information 4a is extracted by a bitstream recognizer not illustrated in FIG. 3d to direct the corresponding first encoded signal, the first processed signal, or the second processed signal to the correct processor, such as a first decoding channel, a first reverse processing channel, or a second reverse processing channel, depicted in fig.3d. Therefore, the encoded signal has not only an encoded / processed signal, but also includes third-party information regarding these signals. In other solutions, however, there may be implicit signaling that allows the bitstream analyzer of the decoder side to distinguish certain signals. This is described generally in FIG. 3e, where the first processed signal or the second processed signal is the output of the second coding channel and, therefore, the second encoded signal.

Предпочтительно, чтобы первый канал декодирования и/или второй канал обратной обработки включал процедуру MDCT, чтобы преобразовать спектральную область во временной интервал. С этой целью установлен сумматор с перекрытием, выполняющий функцию отмены совмещения временных интервалов, которая, в то же самое время, обеспечивает кроссфейд, чтобы избежать блокирующих искажений. Вообще, первый канал декодирования преобразовывает сигнал, кодируемый в четвертой области в первую область, в то время как второй канал обратной обработки выполняет преобразование третьей области во вторую область и преобразователь, впоследствии связанный с первым объединителем, обеспечивает преобразование второй области в первую область так, чтобы на входе объединителя 600, были только сигналы первой области, которые представляют расшифрованный выходной сигнал решения, представленного на фиг.3d.Preferably, the first decoding channel and / or the second reverse processing channel includes an MDCT procedure to transform the spectral region into a time interval. For this purpose, an overlapping adder is installed that performs the function of canceling time intervals, which, at the same time, provides a crossfade to avoid blocking distortions. In general, the first decoding channel converts the signal encoded in the fourth region to the first region, while the second reverse processing channel converts the third region to the second region, and the converter subsequently coupled to the first combiner converts the second region to the first region so that at the input of combiner 600, there were only signals of the first region, which represent the decrypted output signal of the solution shown in fig.3d.

Фиг.4а и 4b иллюстрируют два различных решения, которые отличаются расположением переключателя 200. На фиг.4а переключатель 200 помещен между выходом общего блока 100 предварительной обработки и входом двух каналов кодирования 400, 500. Решение на фиг.4а обеспечивает поступление аудио сигнала только в единственный канал кодирования, при этом другой канал кодирования, который не связан с выходным сигналом общего блока предварительной обработки, не работает и, поэтому, выключен или находится в состоянии сна. Это решение предпочтительно тем, что неактивный канал кодирования не потребляет энергии и вычислительных ресурсов, что полезно для мобильных приложений, в частности для приложений, которые имеют питание от батарей и, поэтому, имеют общее ограничение расхода энергии.Figs. 4a and 4b illustrate two different solutions that differ in the location of the switch 200. In Fig. 4a, a switch 200 is placed between the output of the common preprocessing unit 100 and the input of two coding channels 400, 500. The solution in Fig. 4a provides an audio signal only in the only coding channel, while the other coding channel, which is not connected to the output signal of the common pre-processing unit, does not work and, therefore, is turned off or is in a state of sleep. This solution is preferable in that the inactive coding channel does not consume energy and computational resources, which is useful for mobile applications, in particular for applications that are battery powered and therefore have a general limitation of energy consumption.

С другой стороны, однако, решение на фиг.4b может быть предпочтительным, когда расход энергии не является проблемой. В этом решении и каналы кодирования 400, 500 активны все время, и только выходной сигнал выбранного канала кодирования для определенной части времени и/или определенной части частот отправлен к битовому потоку формирователем, который может быть осуществлен как мультиплексор битового потока 800. Поэтому, в решении на фиг. 4b, активны все время и кодирующие каналы, и выходной сигнал канала кодирования, который выбран блоком 300 решения, введен в битовый выходной поток, в то время как от выходных данных, то есть выходного сигнала, другого, не выбранного канала кодирования 400, отказываются, то есть эти данные не поступают в выходной битовый поток и закодированный аудио сигнал.On the other hand, however, the solution in FIG. 4b may be preferred when power consumption is not a problem. In this solution, the coding channels 400, 500 are active all the time, and only the output signal of the selected coding channel for a certain part of the time and / or a certain part of the frequencies is sent to the bitstream by a shaper, which can be implemented as a multiplexer of the bitstream 800. Therefore, in the solution in FIG. 4b, the coding channels are active all the time, and the output of the coding channel that is selected by the decision unit 300 is input to the bit output stream, while the output, that is, the output signal of another non-selected coding channel 400, is rejected, that is, this data does not enter the output bitstream and the encoded audio signal.

Предпочтительно, чтобы второе правило кодирования/правило декодирования основывалось на LPC кодирующего алгоритма. В основанном на LPC речевом кодировании осуществляется разделение между квазипериодическими подобными импульсу сегментами сигнала возбуждения или частями сигнала и подобными шуму сегментами сигнала возбуждения или частями сигнала. Это выполняется для осуществления очень низкого битрейта LPC вокодерами (2.4 kbps) как показано на фиг.7b. Однако при среднем уровне битрейта в кодерах CELP формируется возбуждение для добавления масштабированных векторов из адаптивной кодовой таблицы и фиксированной кодовой таблицы.Preferably, the second encoding rule / decoding rule is based on the LPC coding algorithm. In LPC-based speech coding, a separation is made between quasiperiodic pulse-like excitation signal segments or signal parts and noise-like excitation signal segments or signal parts. This is done to achieve a very low LPC bitrate by vocoders (2.4 kbps) as shown in FIG. 7b. However, with an average bit rate in CELP encoders, excitation is generated to add scaled vectors from the adaptive code table and fixed code table.

Квазипериодические, подобные импульсу сегменты сигнала возбуждения, то есть сегменты сигнала, имеющие определенный основной тон, кодируются с использованием других алгоритмов, чем подобные шуму сигналы возбуждения. В то время как квазипериодические подобные импульсу сигналы возбуждения связаны с обладающей голосом речью, сигналы подобные шуму связаны с не обладающей голосом речью.Quasiperiodic, pulse-like excitation signal segments, that is, signal segments having a specific pitch, are encoded using other algorithms than noise-like excitation signals. While quasiperiodic impulse-like excitation signals are associated with voice-enabled speech, signals similar to noise are associated with non-voice-based speech.

На фиг.5а и 5d приведен пример. Здесь представлены обсужденные в качестве примера квазипериодические, подобные импульсу сегменты сигнала или части сигнала, и подобные шуму сегменты сигнала или части сигнала. Определенно, представленная на фиг.5с и 5d, обладающая голосом речь, как иллюстрировано на фиг.5а во временном интервале и на фиг.5b в области частот, обсуждена в качестве примера квазипериодической, подобной импульсу части сигнала, и не обладающий голосом речевой сегмент обсужден в качестве примера части сигнала, подобной шуму. Вообще, речь может быть классифицирована как обладающая голосом или голосовая, не обладающая голосом или не голосовая и смешанная. Диаграммы в областях времени и частоты для выбранных голосовых и не голосовых сегментов показаны на фиг.5а 5d. Голосовая речь является квазипериодической на временном интервале и гармонически структурированной в области частот, в то время как скорость не голосовой речи подобна случайному широкополосному сигналу. Спектр голосовой речи на коротком временном интервале характеризуется хорошей структурой формант. Хорошая гармоническая структура является следствием квазипериодичности речи и может быть приписана вибрирующим голосовым связкам. Структура формант (огибающая спектра) возникает из-за взаимодействия источника и вокального тракта. Вокальный тракт состоит из зева и впадины рта. Форма огибающей спектра, которая "соответствует" спектру обладающей голосом речи на коротком промежутке времени, связана с характеристиками передачи вокального тракта и спектральным наклоном (6 децибелов / Октава) из-за глоттального пульса. Огибающая спектра характеризуется рядом пиков, которые называют формантами. Формантами являются резонансные моды вокального тракта. Для среднего вокального тракта в пределах 5 кГц есть три - пять формант. Амплитуды и положения первых трех формант, обычно обнаруживающиеся ниже 3 кГц, довольно важны оба в речевом синтезе и восприятии. Более высокочастотные форманты также важны для широкой группы и не голосовых представлений речи. Свойства речи связаны с физической речевой формирующей системой следующим образом. Голосовая речь формируется возбуждением вокального тракта с квазипериодическим глоттальным воздушным пульсом, созданным вибрирующими голосовыми связками. Частота периодического пульса упоминается как фундаментальная частота или основной тон. Не голосовая речь формируется путем сжатия воздуха при прохождении через вокальный трактат. Носовые звуки происходят из-за акустической связи носового тракта с вокальным трактом, и согласные звуки формируются путем выпуска воздуха под давлением, которое было создано за преградой в тракте.Figures 5a and 5d show an example. Here, quasi-periodic, pulse-like signal segments or signal portions and noise-like signal segments or signal portions discussed as an example are presented. Specifically, the voice-enabled speech presented in FIGS. 5c and 5d, as illustrated in FIG. 5a in the time domain and in FIG. 5b in the frequency domain, is discussed as an example of a quasiperiodic, pulse-like part of the signal, and the voice-free speech segment is discussed as an example of a part of a signal similar to noise. In general, speech can be classified as having a voice or voice, not having a voice or not voice and mixed. Charts in the areas of time and frequency for the selected voice and non-voice segments are shown in figa 5d. Voice speech is quasiperiodic in the time interval and harmonically structured in the frequency domain, while the speed of non-voice speech is similar to a random broadband signal. The spectrum of voice speech over a short time interval is characterized by a good formant structure. A good harmonic structure is a consequence of the quasiperiodicity of speech and can be attributed to vibrating vocal cords. The formant structure (spectral envelope) arises from the interaction of the source and vocal tract. The vocal tract consists of the pharynx and the cavity of the mouth. The shape of the spectrum envelope, which "corresponds" to a spectrum with a speech voice for a short period of time, is associated with the characteristics of the transmission of the vocal tract and the spectral tilt (6 decibels / Octave) due to the glottal pulse. The envelope of the spectrum is characterized by a number of peaks, which are called formants. The formants are the resonant modes of the vocal tract. For the middle vocal tract within 5 kHz, there are three to five formants. The amplitudes and positions of the first three formants, usually found below 3 kHz, are quite important both in speech synthesis and perception. Higher-frequency formants are also important for a wide group and non-voice representations of speech. The properties of speech are associated with the physical speech forming system as follows. Voice speech is generated by excitation of the vocal tract with a quasiperiodic glottal air pulse created by vibrating vocal cords. The heart rate is referred to as the fundamental frequency or pitch. Non-voice speech is formed by compressing air as it passes through a vocal tract. Nasal sounds are due to the acoustic connection of the nasal tract with the vocal tract, and consonant sounds are formed by the release of air under pressure, which was created behind the obstruction in the tract.

Таким образом, подобная шуму часть аудио сигнала не показывает ни подобной импульсу структуры на временном интервале, ни гармонической структуры в области частот, как иллюстрировано на фиг.5с и фиг.5d, что отличается от квазипериодической подобной импульсу части, как иллюстрировано, например, на фиг.5а и фиг.5b. Как будет описано в общих чертах позже, разделение между подобными шуму частями и квазипериодическими подобными импульсу частями может также осуществляться после LPC для сигнала возбуждения. В LPC методе моделируется вокальный тракт и из сигнала извлекается возбуждение вокальных трактов.Thus, the noise-like part of the audio signal shows neither a pulse-like structure in the time interval, nor a harmonic structure in the frequency domain, as illustrated in FIG. 5c and FIG. 5d, which differs from the quasiperiodic pulse-like part, as illustrated, for example, in figa and fig.5b. As will be described in general terms later, separation between the noise-like parts and the quasiperiodic pulse-like parts can also occur after the LPC for the excitation signal. In the LPC method, the vocal tract is modeled and the excitation of the vocal tracts is extracted from the signal.

Кроме того, квазипериодические подобные импульсу части и подобные шуму части могут произойти своевременно, то есть что означает, что часть аудио сигнала в одно и то же время является шумовой, а другая часть аудио сигнала является квазипериодической, то есть тональной. Альтернативно, или дополнительно, особенность сигнала может отличаться в различных диапазонах частот. Таким образом, определение, является ли аудио сигнал шумовым или тональным, может также быть выполнено с частотной селекцией так, чтобы определенный диапазон частот или несколько определенных диапазонов частот рассматриваются как шумовые, а другие диапазоны частот рассматриваются как тональные. В этом случае определенная временная часть аудио сигнала могла бы включать тональные компоненты и шумовые компоненты.In addition, quasiperiodic pulse-like parts and noise-like parts can occur in a timely manner, that is, which means that part of the audio signal is noisy at the same time, and the other part of the audio signal is quasiperiodic, i.e. tonal. Alternatively, or additionally, the signal feature may differ in different frequency ranges. Thus, determining whether an audio signal is noise or tonal can also be performed with frequency selection so that a certain frequency range or several specific frequency ranges are considered noise and other frequency ranges are considered tonal. In this case, a specific time portion of the audio signal could include tonal components and noise components.

Фиг.7а иллюстрирует линейную модель системы, формирующей речь. Эта система предполагает двухстадийное возбуждение, то есть ведущий импульс голосовой речи, как показано на фиг.7с, и случайный шум для не голосовой речи, как показано на фиг.7d. Вокальный тракт смоделирован как идеальный фильтр 70, который обрабатывает импульсы, представленные на фиг.7с или на фиг.7d, сформированные глоттальной моделью 72. Следовательно, система на фиг.7а может быть сведена к модели идеального фильтра на фиг.7b, имеющего блок усиления 77, прямой путь 78 и путь обратной связи 79 и блок сложения 80. На пути обратной связи 79, есть прогнозирующий фильтр 81, и целая система синтеза модели источника, иллюстрированная на фиг.7b, может быть представлена, с использованием функции z-области следующим образом:Fig. 7a illustrates a linear model of a speech forming system. This system assumes a two-stage excitation, that is, a driving pulse of voice speech, as shown in FIG. 7c, and random noise for non-voice speech, as shown in FIG. 7d. The vocal tract is modeled as an ideal filter 70, which processes the pulses shown in FIG. 7c or FIG. 7d generated by the glottal model 72. Therefore, the system in FIG. 7a can be reduced to the ideal filter model in FIG. 7b having an amplification unit 77, the direct path 78 and the feedback path 79 and the addition unit 80. On the feedback path 79, there is a predictive filter 81, and the whole source model synthesis system illustrated in FIG. 7b can be represented using the z-region function as follows way:

S(z)=g/(1-A(z))·X(z),S (z) = g / (1-A (z)) X (z),

где g представляет усиление, A(z) - прогнозирующий фильтр, как определено LP анализом, Х (z) - сигнал возбуждения и S(z) является выходной синтезированной речью.where g represents the gain, A (z) is the predictive filter, as determined by LP analysis, X (z) is the excitation signal, and S (z) is the output synthesized speech.

Фиг.7с и 7d дают графическое описание временного интервала с синтезированной голосовой и не голосовой речью при использовании линейной системной модели источника. Эта система и параметры возбуждения в вышеупомянутом уравнении неизвестны и должны быть определены из конечного набора речевых сэмплов. Коэффициенты A(z) получены, используя линейное предсказание входного сигнала и квантизацию коэффициентов фильтра. В линейном предсказателе p-го порядка текущий образец речевой последовательности предсказывается в виде линейной комбинации p переданных сэмплов. Коэффициенты предсказателя могут быть определены известными алгоритмами, такими как алгоритм Левинсона-Дербина, или вообще методом автокорреляции или методом отражения.Figs and 7d give a graphical description of the time interval with synthesized voice and non-voice speech using a linear source system model. This system and excitation parameters in the above equation are unknown and must be determined from a finite set of speech samples. The coefficients A (z) are obtained using linear prediction of the input signal and quantization of the filter coefficients. In a p-th order linear predictor, the current speech sequence pattern is predicted as a linear combination of p transmitted samples. The predictor coefficients can be determined by known algorithms, such as the Levinson-Durbin algorithm, or in general by the method of autocorrelation or reflection method.

Фиг.7е иллюстрирует более подробное описание аналитического LPC блока 510. Аудио сигнал входит в блок определения параметров фильтра, который определяет информацию о фильтре A(z). Эта информация создается как краткосрочная информация предсказания, требуемая для декодера. Краткосрочная информация предсказания запрашивается фактическим фильтром предсказания 85. Текущий сэмпл аудио сигнала и ожидаемое значение для текущего сэмпла поступают на вычитатель 86 и вычитаются так, чтобы для текущего сэмпла сигнал ошибки предсказания был сформирован в линии 84. Последовательность таких ошибок сэмплов сигнала предсказания очень схематично иллюстрирована на фиг.7с или 7d. Поэтому, диаграммы на фиг.7а, 7b можно рассматривать как своего рода исправленный подобный импульсному сигналу.Fig. 7e illustrates a more detailed description of the analytical LPC unit 510. The audio signal is included in the filter parameter determination unit, which determines the filter information A (z). This information is created as short-term prediction information required for a decoder. Short-term prediction information is requested by the actual prediction filter 85. The current sample of the audio signal and the expected value for the current sample are supplied to the subtractor 86 and subtracted so that for the current sample the prediction error signal is generated on line 84. The sequence of such errors of the prediction signal samples is very schematically illustrated in figs or 7d. Therefore, the diagrams in figa, 7b can be considered as a kind of corrected similar to a pulse signal.

В то время как фиг.7е иллюстрирует предпочтительный способ вычисления сигнала возбуждения, фиг.7f иллюстрирует предпочтительный способ вычисления взвешенного сигнала. В отличие от фиг.7е, фильтр 85 отличается, когда γ отличается от 1. Величина меньшая, чем 1, предпочтена для γ. Кроме того, в присутствующем блоке 87 µ является числом, предпочтительно меньшим чем 1. Вообще, элементы на фиг.7е и 7f могут быть осуществлены, как описано в 3GPP TS 26.190 или 3GPP TS 26.290.While FIG. 7e illustrates a preferred method for calculating a drive signal, FIG. 7f illustrates a preferred method for calculating a weighted signal. Unlike FIG. 7e, the filter 85 differs when γ differs from 1. A value less than 1 is preferred for γ. In addition, in the present block, 87 µ is a number, preferably less than 1. In general, the elements in FIGS. 7e and 7f can be implemented as described in 3GPP TS 26.190 or 3GPP TS 26.290.

Фиг.7G иллюстрируют обратную обработку, такую как в элементе 537 на фиг.2b, которая может быть применена на стороне декодера. В частности, блок 88 формирует не взвешенный сигнал из взвешенного сигнала, и блок 89 вычисляет возбуждение из не взвешенного сигнала. Вообще, все сигналы кроме не взвешенного сигнала на фиг.7G находятся в области LPC, но сигнал возбуждения и взвешенный сигнал являются различными сигналами в той же самой области. Блок 89 формирует сигнал возбуждения, который может использоваться вместе с выходным сигналом блока 536. Тогда, общее обратное преобразование LPC может быть выполнено в блоке 540, представленном на фиг.2b.FIG. 7G illustrates reverse processing, such as in element 537 in FIG. 2b, which can be applied on the decoder side. In particular, block 88 generates an unweighted signal from the weighted signal, and block 89 calculates the excitation from the unweighted signal. In general, all signals except the non-weighted signal in FIG. 7G are in the LPC region, but the drive signal and the weighted signal are different signals in the same region. Block 89 generates an excitation signal that can be used in conjunction with the output of block 536. Then, a common inverse LPC transform can be performed in block 540, shown in FIG. 2b.

Впоследствии будет обсуждено кодирующее устройство CELP анализа через синтез, показанное на фиг. 6, чтобы иллюстрировать модификации, относящиеся к этому алгоритму. Кодирующее устройство CELP обсуждено подробно в "Speech Coding: A Tutorial Review", Andreas Spanias, Proceedings of the IEEE, Vol. 82, No.10, October 1994, pages 1541-1582. Кодирующее устройство CELP, как иллюстрировано на фиг.6, включает предсказатель долгосрочного периода 60 и предсказатель краткосрочного периода 62. Кроме того используется кодовая таблица, которая обозначена 64. Фильтр перцепционного взвешивания W (z) представлен блоком 66, и контроллер минимизации ошибки обозначен блоком 68. Сигнал s(n) является входным сигналом на временном интервале. Будучи перцепционно взвешенным, взвешенный сигнал подается на вычитатель 69, который вычисляет ошибку между взвешенным синтезированным сигналом в на выходе блока 66 и оригинальным взвешенным сигналом Sw(n). Вообще, коэффициенты фильтра краткосрочного предсказания A(z) вычислены LP блоком анализа и квантованы в А(z), как обозначено на фиг.7е. Информация долгосрочного предсказания Af(z) включает долгосрочное предсказание усиления (передачи) g и векторный квантованный индекс, то есть вычислены ссылки кодовой таблицы на сигнал ошибки предсказания в выходном сигнале блока LPC анализа, отмеченного как блок 10а на фиг.7е. Параметрами LTP являются затухание основного тона и усиление (передача). В CELP это обычно реализуется в виде адаптивной кодовой таблицы, содержащей прошлый сигнал возбуждения (не разностный). Адаптивное затухание СВ и усиление находятся путем минимизации среднеквадратической взвешенной ошибки.Subsequently, the synthesis synthesis coding apparatus CELP shown in FIG. 6 to illustrate modifications related to this algorithm. The CELP encoder is discussed in detail in "Speech Coding: A Tutorial Review", Andreas Spanias, Proceedings of the IEEE, Vol. 82, No.10, October 1994, pages 1541-1582. The CELP encoder, as illustrated in FIG. 6, includes a long-term predictor 60 and a short-term predictor 62. In addition, a code table that is designated 64 is used. The perceptual weighting filter W (z) is represented by block 66, and the error minimization controller is indicated by block 68 . The signal s (n) is an input signal on a time interval. Being perceptually weighted, the weighted signal is supplied to a subtractor 69, which calculates the error between the weighted synthesized signal at the output of block 66 and the original weighted signal Sw (n). In general, the short-term prediction filter coefficients A (z) are calculated by the LP analysis unit and quantized into A (z), as indicated in FIG. 7e. The long-term prediction information Af (z) includes the long-term gain prediction (transmission) g and the vector quantized index, i.e., the code table references to the prediction error signal in the output of the analysis LPC block marked as block 10a in FIG. 7e are calculated. The LTP parameters are pitch attenuation and gain (transmission). In CELP, this is usually implemented as an adaptive code table containing the past excitation signal (non-differential). CB adaptive attenuation and gain are found by minimizing the mean-square weighted error.

Алгоритм CELP кодирует тогда разностный сигнал, полученный после краткосрочных и долгосрочных предсказаний, используя кодовую таблицу, например, Гауссовых последовательностей. Алгоритм ACELP, где "А" обозначает "Алгебраический", имеет определенную алгебраически разработанную кодовую таблицу.The CELP algorithm then encodes the difference signal obtained after short-term and long-term predictions using a code table, for example, Gaussian sequences. The ACELP algorithm, where "A" stands for "Algebraic", has a specific algebraically designed code table.

Кодовая таблица может содержать более или менее длинные векторы, где каждый вектор длиной несколько сэмплов. Коэффициент усиления g масштабирует кодовый вектор, и полученный код фильтруется фильтром синтеза долгосрочного предсказания и фильтром синтеза краткосрочного предсказания. "Оптимальный" кодовый вектор выбирается таким образом, что перцепционно взвешенная среднеквадратическая ошибка на выходе вычитателя 69 минимизирована. Процесс поиска в CELP делается оптимизацией анализа через синтез как иллюстрировано на фиг.6.The code table may contain more or less long vectors, where each vector is several samples long. The gain g scales the code vector, and the resulting code is filtered by a long-term prediction synthesis filter and a short-term prediction synthesis filter. The “optimal” code vector is chosen so that the perceptually weighted mean square error at the output of the subtractor 69 is minimized. The search process in CELP is done by optimizing the analysis through synthesis as illustrated in FIG. 6.

Для конкретных случаев, когда фрейм является смесью не голосовой и голосовой речи или когда речь формируется по музыке, более соответствующим может быть кодирование ТСХ, предназначенное для кодирования возбуждения в LPC области. В кодирующей процедуре ТСХ используется взвешенный сигнал в области частот без предположений о формировании возбуждения. ТСХ является тогда более естественным, чем кодирование CELP и не ограничен голосовой или не голосовой исходными моделями возбуждения. ТСХ также является кодированием, ориентированным на модель источника, с использованием линейного прогнозирующего фильтра для того, чтобы смоделировать форманты сигналов, подобных речи.For specific cases, when the frame is a mixture of non-voice and voice speech or when speech is formed from music, TLC coding designed to encode excitation in the LPC region may be more appropriate. The TLC coding procedure uses a weighted signal in the frequency domain without assuming excitation to form. TLC is then more natural than CELP coding and is not limited to voice or non-voice source excitation models. TLC is also source model-centric coding using a linear predictive filter in order to simulate formants of signals like speech.

В AMR-WB+ подобных кодировщиках имеет место выбор между различными режимами ТСХ и ACELP, как известно из описания AMR-ВБ. Режимы ТСХ отличаются длиной блока дискретного преобразования Фурье (ДПФ=ОРТ) для различных режимов, и может быть выбран лучший режим с использованием подхода анализ через синтез или посредством режима прямого «упреждения».AMR-WB + -like encoders have a choice between different TLC and ACELP modes, as is known from the AMR-WB description. TLC modes differ in the length of the discrete Fourier transform block (DFT = ORT) for different modes, and the best mode can be selected using the analysis through synthesis approach or through the direct “lead” mode.

Как обсуждено в связи с фиг.2а и 2b, общий блок предварительной обработки 100 предпочтительно включает объединенный многоканальный блок (окружающее/объединенное стерео устройство) 101 и дополнительный блок расширения полосы частот 102. Соответственно, декодер включает блок расширения полосы частот 701 и последовательно соединенный многоканальный блок 702. Предпочтительно, чтобы в кодирующем устройстве объединенный многоканальный блок 101 был подсоединен прежде, чем блок расширения полосы частот 102, и, на стороне декодера, блок 701 расширения полосы частот должен быть подсоединен перед объединенным многоканальным блоком 702 относительно направления обработки сигнала. Впрочем, альтернативно, общий блок предварительной обработки может включать объединенный многоканальный блок без последовательно соединенного блока расширения полосы частот, или блок расширения полосы частот без соединенного объединенного многоканального блока.As discussed in connection with FIGS. 2a and 2b, the common preprocessing unit 100 preferably includes an integrated multi-channel unit (surround / integrated stereo device) 101 and an additional extension unit of the frequency band 102. Accordingly, the decoder includes the extension unit of the frequency band 701 and a series-connected multi-channel block 702. Preferably, in the encoder, the combined multi-channel block 101 is connected before the band extension block 102, and, on the decoder side, the band expansion block 701 Frequency s must be connected in front of the combined multi-channel block 702 with respect to the direction of signal processing. Alternatively, however, the common preprocessing unit may include an integrated multi-channel unit without a series-connected frequency band extension unit, or a frequency extension unit without a connected integrated multi-channel unit.

Предпочтительный пример для объединенного многоканального блока на стороне кодирующего устройства 101а, 101b и на стороне декодера 702а, 702b иллюстрирован на фиг.8. Множество оригинальных входных каналов Е входят в смеситель с сокращением каналов 101а так, чтобы смеситель с сокращением сформировал k каналов передачи, где число k больше чем или равно единице и меньше чем или равно Е.A preferred example for a combined multi-channel block on the side of the encoder 101a, 101b and on the side of the decoder 702a, 702b is illustrated in FIG. Many of the original input channels E enter the mixer with the abbreviation of channels 101a so that the mixer with the abbreviation forms k transmission channels, where the number k is greater than or equal to one and less than or equal to E.

Предпочтительно, чтобы входные каналы Е поступали в объединенный многоканальный анализатор параметров 101b, который формирует информация о параметрах. Эта информация о параметрах предпочтительно закодирована методом без потери информации (кодирование энтропии), таким как кодирование различия и последующее кодирование с использованием алгоритма Хаффмана или, альтернативно, последующим арифметическим кодированием. Закодированная информация о параметрах, сформированная блоком 101b, передается к декодеру параметров 702b, который может быть частью блока 702 на фиг.2b. Декодер параметров 702b расшифровывает переданную информацию о параметрах и передает декодированную информацию о параметрах в смеситель с расширением 702а. Смеситель с расширением каналов 702а получает k каналов передачи и формирует на выходе множество каналов L, где число L больше чем или равно k и меньше чем или равно Е.Preferably, the input channels E enter a combined multi-channel parameter analyzer 101b, which generates parameter information. This parameter information is preferably encoded by a method without loss of information (entropy coding), such as difference coding and subsequent coding using the Huffman algorithm or, alternatively, subsequent arithmetic coding. The encoded parameter information generated by block 101b is transmitted to the parameter decoder 702b, which may be part of block 702 in FIG. 2b. The parameter decoder 702b decodes the transmitted parameter information and transmits the decoded parameter information to a mixer with extension 702a. A channel expansion mixer 702a receives k transmission channels and generates multiple L channels at the output, where the number L is greater than or equal to k and less than or equal to E.

Информация о параметрах может включать межканальные различия уровня, межканальные временные различия, межканальные фазовые различия и/или межканальные различия мер когерентности, как известно в технике ВСС, или как известно и описано подробно в стандарте MPEG, окружения. Число переданных каналов может быть единственным моно каналом для приложений с ультранизким битрейтом или может включать совместимое стерео приложение или может включать совместимый стерео сигнал, то есть два канала. Как правило, число входных каналов Е может быть пять или возможно еще больше. Альтернативно, множество входных каналов Е может также быть множеством аудио объектов Е, как известно в контексте кодирования пространственных аудио объектов (SAOC).Information about the parameters may include inter-channel level differences, inter-channel temporal differences, inter-channel phase differences and / or inter-channel differences of coherence measures, as is known in the BCC technique, or as is known and described in detail in the MPEG standard environment. The number of transmitted channels may be the only mono channel for ultra-low bitrate applications or may include a compatible stereo application or may include a compatible stereo signal, that is, two channels. Typically, the number of input channels E may be five or possibly even more. Alternatively, the plurality of input channels E may also be a plurality of audio objects E, as is known in the context of encoding spatial audio objects (SAOC).

В одном решении смеситель с сокращением выполняет взвешенное или не взвешенное сложение оригинальных входных каналов Е, или сложение Е входных аудио объектов. В случае аудио объектов, как входных каналов, объединенный многоканальный анализатор параметров 101b вычисляет аудио параметры объекта, такие как матрица корреляции между аудио объектами предпочтительно для каждого временного интервала и еще более предпочтительно для каждого диапазона частот. С этой целью весь частотный диапазон может быть разделен, по крайней мере, на 10 и, предпочтительно, на 32 или 64 диапазона частот.In one solution, the mixer abbreviates the weighted or non-weighted addition of the original input channels E, or addition E of the input audio objects. In the case of audio objects, such as input channels, the combined multi-channel parameter analyzer 101b calculates the object's audio parameters, such as a correlation matrix between audio objects, preferably for each time interval and even more preferably for each frequency range. To this end, the entire frequency range can be divided into at least 10 and, preferably, 32 or 64 frequency ranges.

Фиг.9 иллюстрирует предпочтительное решение для выполнения блока 102 расширения полосы частот на фиг.2а и соответствующего блока 701 расширения полосы частот на фиг.2b. На стороне кодирующего устройства блок расширения полосы частот 102 предпочтительно включает низкочастотный фильтр 102b, блок сэмплера с пониженной частотой выборки, который следует за низкочастотным фильтром, или который является частью обратного QMF, которое действует на только половину полос QMF, и анализатор высоких частот 102а. Входной оригинальный аудио сигнал в блок 102 расширения полосы частот фильтруется низкочастотным фильтром, чтобы сформировать сигнал в низкой полосе частот, который подается в канал кодирования и/или в переключатель. У фильтра нижних частот есть частота среза, которая может быть в диапазоне от 3 кГц до 10 кГц. Кроме того, блок 102 расширения полосы частот включает анализатор высоких частот для того, чтобы вычислить параметры расширения полосы частот, такие как информация о параметре огибающей спектра, информация о параметре уровня шума, информация о параметре обратного фильтрования, дальнейшая информация о параметрах, касающаяся определенных гармонических линий в полосе высоких частот и дополнительных параметрах подробно обсужденных в стандарте MPEG-4 в главе, связанной с повторением диапазона частот.FIG. 9 illustrates a preferred solution for executing the bandwidth extension unit 102 in FIG. 2a and the corresponding bandwidth extension unit 701 in FIG. 2b. On the encoder side, the bandwidth expansion unit 102 preferably includes a low-pass filter 102b, a lower-sampler sampler unit that follows the low-pass filter, or which is part of the inverse QMF that acts on only half of the QMF bands, and a high-frequency analyzer 102a. The original input audio signal to the bandwidth extension unit 102 is filtered by a low-pass filter to form a signal in the low frequency band, which is supplied to the coding channel and / or to the switch. The low-pass filter has a cutoff frequency that can range from 3 kHz to 10 kHz. In addition, the bandwidth extension unit 102 includes a high-frequency analyzer in order to calculate the bandwidth extension parameters, such as spectral envelope parameter information, noise level parameter information, reverse filtering parameter information, further parameter information regarding certain harmonic lines in the high-frequency band and additional parameters discussed in detail in the MPEG-4 standard in the chapter related to the repetition of the frequency range.

На стороне декодера блок расширения полосы частот 701 включает восстановитель 701а, регулировщик 701b и объединитель 701с. Объединитель 701с комбинирует декодированный сигнал низкой полосы частот и восстановленный и адаптированный сигнал высокочастотной полосы, сформированный регулировщиком 701b. Входной сигнал в регулировщик 701b обеспечен восстановителем, которым управляют, чтобы получить сигнал высокочастотной полосы из сигнала низкочастотной полосы, путем повторения диапазона или, вообще, расширением полосы частот. Внесение исправлений, выполненное восстановителем 701а, может быть внесением исправлений, выполненное гармоническим способом или негармоническим способом. Сигнал, сформированный восстановителем 701а, впоследствии, адаптируется регулировщиком 701b с использованием переданной параметрической информации о расширении полосы частот.On the decoder side, the band extension unit 701 includes a reducing agent 701 a, a regulator 701 b, and a combiner 701 c. Combiner 701c combines the decoded low-frequency signal and the reconstructed and adapted high-frequency signal generated by the adjuster 701b. The input to the adjuster 701b is provided with a controlled reducer to obtain a high frequency signal from a low frequency signal, by repeating the range or, in general, by expanding the frequency band. The corrections made by the reducing agent 701a may be corrections made in a harmonic or non-harmonic way. The signal generated by the reducing agent 701a is subsequently adapted by the controller 701b using the transmitted parametric information about the extension of the frequency band.

Как обозначено на фиг.8 и фиг.9, в предпочтительном решении у описанных блоков может быть вход контроля режима. Этот входной сигнал контроля режима получается из выходного сигнала блока 300 решения. В таком предпочтительном решении параметр соответствующего блока может быть приспособлен к выходному сигналу блока выбора, то есть к тому, сделан ли в предпочтительном решении выбор речи или выбор музыки для определенной временной части аудио сигнала. Предпочтительно, чтобы контроль режима относился только к одной или большему числу функциональностей этих блоков, но не ко всем функциональностям этих блоков. Например, выбор может влиять только на восстановитель 701а, но, возможно, не влияет на другие блоки на фиг.9, или может, например, влиять только на объединенный многоканальный анализатор параметров 101b на фиг.8, но не другие блоки на фиг.8. Это выполнение предпочтительно, так как при этом получаются более высокая гибкость, более высокое качество и более низкий битрейт выходного сигнала путём обеспечения гибкости общего блока предварительной обработки. С другой стороны, однако, использование в общем блоке предварительной обработки алгоритмов для обоих видов сигналов позволяет осуществлять эффективную схему кодирования/декодирования.As indicated in FIG. 8 and FIG. 9, in a preferred solution, the described units may have a mode control input. This mode control input signal is obtained from the output of the decision unit 300. In such a preferred solution, the parameter of the corresponding unit can be adapted to the output of the selection unit, that is, whether the choice of speech or the choice of music for a specific time portion of the audio signal is made in the preferred solution. Preferably, the mode control refers only to one or more of the functionalities of these blocks, but not to all the functionalities of these blocks. For example, the selection may affect only the reducing agent 701a, but may not affect the other blocks in FIG. 9, or may, for example, affect only the combined multi-channel parameter analyzer 101b in FIG. 8, but not the other blocks in FIG. . This embodiment is preferable, as this results in higher flexibility, higher quality and lower bitrate of the output signal by providing flexibility to the common preprocessing unit. On the other hand, however, the use of algorithms for both types of signals in a common pre-processing unit allows for an efficient encoding / decoding scheme.

Фиг.10а и фиг.10b иллюстрируют два различных выполнения блока выбора 300. На фиг.10а изображено решение разомкнутого контура. Здесь, сигнал анализатора 300а блока решения подчиняется определённым правилам, чтобы решить, есть ли у определенной временной части или определенной частотной области входного сигнала особенность, которая требует, чтобы эта часть сигнала была закодирована в первом канале кодирования 400 или во втором канале кодирования 500. С этой целью анализатор сигнала 300а может проанализировать входной звуковой сигнал в общий блок предварительной обработки или может проанализировать аудио сигнал, сформированный общей стадией предварительной обработки, то есть промежуточный аудио сигнал, или может проанализировать промежуточный сигнал в блоке общей предварительной обработки, такой как выходной сигнал смесителя с сокращением, который может быть моно сигналом или который может быть сигналом, имеющим k каналов на фиг.8. На выходной стороне анализатор сигнала 300а формирует решение о переключении для того, чтобы управлять переключателем 200 на стороне кодирующего устройства и соответствующем переключателем 600 или объединителем 600 на стороне декодера.10a and 10b illustrate two different embodiments of a selection unit 300. FIG. 10a shows an open loop solution. Here, the signal of the analyzer 300a of the decision block obeys certain rules to decide whether a certain time part or a certain frequency region of the input signal has a feature that requires that this part of the signal be encoded in the first encoding channel 400 or in the second encoding channel 500. C for this purpose, the signal analyzer 300a may analyze the input audio signal to the common pre-processing unit or may analyze the audio signal generated by the general pre-processing stage and, that is, the audio intermediate signal or may analyze an intermediate signal in the common pre-treatment unit, such as a mixer output signal with a reduction which may be mono signal or which may be a signal having k channels 8. On the output side, the signal analyzer 300a generates a switching decision in order to control the switch 200 on the encoder side and the corresponding switch 600 or combiner 600 on the decoder side.

Хотя второй переключатель 521 не обсужден подробно, нужно подчеркнуть, что второй переключатель 521 может быть позиционирован способом, аналогичным позиционированию первого переключателя 200, как обсуждено в связи с фиг.4а и фиг.4b. Таким образом, альтернативным положением переключателя 521 на фиг.3с является выход обоих каналов обработки 522, 523, 524 так, чтобы и каналы обработки работали параллельно, и только выходной сигнал одного канала обработки записывался в битовый поток через формирователь битового потока, который не иллюстрирован на фиг.3с.Although the second switch 521 is not discussed in detail, it must be emphasized that the second switch 521 can be positioned in a manner similar to the positioning of the first switch 200, as discussed in connection with FIGS. 4a and 4b. Thus, an alternative position of the switch 521 in FIG. 3c is the output of both processing channels 522, 523, 524 so that the processing channels work in parallel, and only the output signal of one processing channel is recorded in the bit stream through a bitstream generator, which is not illustrated in figs.

Кроме того, второй объединитель 600 может обладать определенной функциональностью кроссфейда, как обсуждено на фиг.4с. Альтернативно или дополнительно, у первого объединителя 532 могла бы быть та же самая функциональность кроссфейда. Кроме того, оба объединителя могут иметь ту же самую функциональность кроссфейда, или могут иметь различные функциональности кроссфейда, или могут не иметь никаких функциональностей кроссфейда вообще, так что оба объединителя будут переключателями без любой дополнительной функциональности кроссфейда.In addition, the second combiner 600 may have certain crossfade functionality, as discussed in FIG. 4c. Alternatively or additionally, the first combiner 532 might have the same crossfade functionality. In addition, both combiners may have the same crossfade functionality, or may have different crossfade functionality, or may not have any crossfade functionality at all, so both combinators will be switches without any additional crossfade functionality.

Как обсуждено прежде, обоими выключателями можно управлять путем решения разомкнутого контура или решения замкнутого контура, как обсуждено в связи с фиг.10а и фиг.10b, где контроллеры 300, 525 на фиг.3с могут иметь отличающийся или те же самые функциональности для обоих переключателей.As discussed previously, both switches can be controlled by solving an open loop or solving a closed loop, as discussed in connection with FIGS. 10a and 10b, where the controllers 300, 525 in FIG. 3c may have different or the same functionality for both switches .

Кроме того, функциональность искажения времени, которая адаптивна к сигналу, может существовать не только в первом канале кодирования или первом канале декодирования, но может также существовать во втором канале обработки второго канала кодирования на стороне кодирующего устройства так же, как на стороне декодера. В зависимости от обработанного сигнала обе функциональности искажения времени могут иметь одинаковую информацию об искажении времени так, чтобы такое же искажение времени было применено к сигналам в первой области и во второй области. Это сокращает нагрузку обработки и может быть полезно в некоторых случаях, в случаях, когда последовательные блоки имеют одинаковые характеристики искажения времени. В альтернативных решениях, однако, предпочтено иметь независимых оценщиков искажения времени для первого канала кодирования и второго канала обработки во втором канале кодирования.In addition, time distortion functionality that is adaptive to the signal may exist not only in the first encoding channel or in the first decoding channel, but may also exist in the second processing channel of the second encoding channel on the encoder side as well as on the decoder side. Depending on the processed signal, both time distortion functionalities may have the same time distortion information so that the same time distortion is applied to the signals in the first region and in the second region. This reduces the processing load and can be useful in some cases, in cases where consecutive blocks have the same time distortion characteristics. In alternative solutions, however, it is preferable to have independent time distortion evaluators for the first coding channel and the second processing channel in the second coding channel.

Закодированный согласно изобретению аудио сигнал может быть сохранен на цифровом носителе данных или может быть передан в среде передачи, такой как беспроводная среда передачи или среда передачи по проводам, такая как Интернет.The audio signal encoded according to the invention may be stored on a digital storage medium or may be transmitted in a transmission medium, such as a wireless transmission medium or a transmission medium by wire, such as the Internet.

В различных решениях переключатель 200, изображенный на фиг.1а или 2а, переключается между двумя каналами кодирования 400, 500. В дальнейшем решении могут быть дополнительные каналы кодирования, такие как третий канал кодирования, или даже четвертый канал кодирования, или даже больше каналов кодирования. На стороне декодера переключатель 600, изображенный на фиг.1b или 2b, переключается между двумя каналами декодирования 431, 440 и 531, 532, 533, 534, 540. В дальнейшем решении могут быть дополнительные каналы декодирования, такие как третий канал декодирования, или даже четвертый канал декодирования, или даже больше каналов декодирования. Точно так же другие переключатели 521 или 532 могут переключаться больше чем между двумя различными кодирующими алгоритмами, когда присутствуют такие дополнительные каналы кодирования/декодирования.In various solutions, the switch 200 shown in FIGS. 1a or 2a switches between two encoding channels 400, 500. In a further solution, there may be additional encoding channels, such as a third encoding channel, or even a fourth encoding channel, or even more encoding channels. On the decoder side, a switch 600 shown in FIG. 1b or 2b switches between two decoding channels 431, 440 and 531, 532, 533, 534, 540. In a further solution, there may be additional decoding channels, such as a third decoding channel, or even fourth decoding channel, or even more decoding channels. Similarly, other switches 521 or 532 may switch more than between two different coding algorithms when such additional encoding / decoding channels are present.

Фиг.12А иллюстрирует предпочтительное решение выполнения кодирующего устройства, и фиг.12В иллюстрирует предпочтительное решение соответствующего выполнения декодера. В дополнение к элементам, обсужденным ранее относительно соответствующих номеров ссылки, решение на фиг.12А иллюстрирует отдельный физикоакустический модуль 1200, и дополнительно иллюстрирует предпочтительное выполнение дополнительных инструментов кодирующего устройства, иллюстрированных в блоке 421 на фиг.11А. Этими дополнительными инструментами являются формирователь временного шума (TNS) 1201 и середина/сторона кодирующий инструмент (MYS) 1202. Кроме того, дополнительные функциональности элементов 421 и 524 иллюстрированы в блоке 421/542 как объединенное выполнение масштабирования, анализа шумового заполнения, квантизации, арифметического кодирования спектральных компонентов.12A illustrates a preferred embodiment of an encoder, and FIG. 12B illustrates a preferred embodiment of a corresponding decoder. In addition to the elements previously discussed with respect to the respective reference numbers, the solution in FIG. 12A illustrates a separate physico-acoustic module 1200, and further illustrates a preferred embodiment of additional encoder tools illustrated in block 421 in FIG. 11A. These additional tools are Temporary Noise Shaper (TNS) 1201 and Mid / Side Encoding Tool (MYS) 1202. In addition, the additional functionality of elements 421 and 524 is illustrated in block 421/542 as a combined execution of scaling, noise filling analysis, quantization, and arithmetic coding. spectral components.

В соответствующем выполнении декодера на фиг.12В иллюстрированы дополнительные элементы, которые являются инструментом расшифровки M\S 1203 и инструментом TNS-декодера 1204. Кроме того, басовый постфильтр, не иллюстрированный ранее, обозначен как 1205. Блок обработки функцией окна перехода 532 соответствует элементу 532 на фиг.2В, который иллюстрирован как переключатель, но который выполняет своего рода кроссфейд, который может быть кроссфейдом с повышенной частотой выборки или кроссфейдом с критически выбранной частотой выборки. Последний осуществляется как операция MDCT, где сигналы на двух совмещаемых временных интервалах перекрываются и суммируются. Где возможно, предпочтительно используется обработка с критически выбранной частотой дискретизации, так как при этом полный битрейт может быть уменьшен без потери качества. Дополнительный блок обработки функцией окна перехода 600 соответствует объединителю 600 на фиг. 2В, который опять иллюстрирован как переключатель, но ясно, что этот элемент выполняет своего рода кроссфейд с критически выбранной частотой дискретизации, или с некритически выбранной частотой дискретизации, чтобы избежать искажений блокирования, и специфических искажений, возникающих при переключении, когда один блок был обработан в первом канале, и другой блок был обработан во втором канале. Когда, однако, обработки в обоих каналах хорошо соответствуют друг другу, тогда операция кроссфейда может "хуже" жесткого переключения, где кроссфейд, как понимается, является "мягким" переключением между обоими каналами.In a corresponding embodiment of the decoder of FIG. 12B, additional elements are illustrated, which are the decryption tool M \ S 1203 and the tool of the TNS decoder 1204. In addition, a bass postfilter not illustrated earlier is indicated as 1205. The processing unit by the transition window function 532 corresponds to element 532 on figv, which is illustrated as a switch, but which performs a kind of crossfade, which may be a crossfade with an increased sampling frequency or a crossfade with a critically selected sampling frequency. The latter is carried out as an MDCT operation, where the signals at two overlapping time intervals overlap and add up. Where possible, processing with a critically selected sampling rate is preferably used, since the overall bitrate can be reduced without loss of quality. An additional processing unit with a transition window function 600 corresponds to a combiner 600 in FIG. 2B, which is again illustrated as a switch, but it is clear that this element performs a kind of crossfade with a critically selected sampling rate, or with an uncritically selected sampling frequency, to avoid blocking distortions, and specific distortions that occur when switching, when one block was processed in the first channel, and another block was processed in the second channel. When, however, the processing in both channels is in good agreement with each other, then the crossfade operation may be “worse” than hard switching, where the crossfade, as is understood, is a “soft” switching between both channels.

Концепция, иллюстрированная на фиг.12А и 12В, позволяет кодировать сигналы, имеющие произвольное соединение речи и аудио, и эта концепция демонстрирует сопоставимую или лучшую, чем наиболее хорошая технология кодирования, которая могла бы быть создана для кодирования или речи или произвольного аудио содержания. Общая структура кодирующего устройства и декодера может быть описана как общая пред-пост обработка, состоящая из функциональной единицы MPEG окружения (MPEGS), для управления с стерео или многоканальной обработкой, и расширенная единица SBR (eSBR), которая управляет параметрическим представлением более высоких звуковых частот во входном сигнале. Тогда, есть два канала: один, состоящий из измененного продвинутого аудио кодирующего инструмента (ААС), и другой, состоящий из кодирования на основе линейного предсказания (LP или область LPC), которое, в свою очередь, является или представлением области частот или представлением временного интервала LPC остаточного (разностного) сигнала. Все переданные спектры для обоих, ААС и LPC, представлены в области MDCT после квантизации и арифметического кодирования. Представление временного интервала использует кодирующую схему возбуждения ACELP. Базовая структура показана на фиг.12А для кодирующего устройства и фиг.12В для декодера. Поток данных на этой диаграмме направлен слева направо, сверху вниз. Функцией декодера является поиск описания квантованного аудио спектра или временного представления сигнала в битовом потоке и декодирование квантованных величин и другой информации о восстановлении.The concept illustrated in FIGS. 12A and 12B allows encoding signals having an arbitrary combination of speech and audio, and this concept demonstrates comparable or better than the best encoding technology that could be created for encoding or speech or arbitrary audio content. The general structure of the encoder and decoder can be described as general pre-post processing, consisting of a functional unit of MPEG surround (MPEGS), for control with stereo or multi-channel processing, and an extended unit of SBR (eSBR), which controls the parametric representation of higher audio frequencies in the input signal. Then, there are two channels: one consisting of a modified advanced audio coding instrument (AAC), and the other consisting of linear prediction coding (LP or LPC region), which, in turn, is either a representation of a frequency domain or a representation of a temporal interval LPC residual (differential) signal. All transmitted spectra for both AAC and LPC are presented in the MDCT domain after quantization and arithmetic coding. The time slot representation uses the ACELP coding excitation scheme. The basic structure is shown in FIG. 12A for the encoder and FIG. 12B for the decoder. The data flow in this diagram is directed from left to right, from top to bottom. The function of the decoder is to search for a description of a quantized audio spectrum or a temporal representation of a signal in a bit stream, and to decode the quantized quantities and other reconstruction information.

В случае передачи спектральной информации декодер должен восстановить квантованные спектры, и осуществить процесс восстановления спектра с использованием любых инструментов в битовом потоке для того, чтобы получить фактический спектр сигнала, как описано во входном битовом потоке, и, наконец, преобразовать спектр из области частот во временной интервал. После начального восстановления и масштабирования реконструированного спектра есть дополнительные инструменты, которые изменяют один или больше спектров, чтобы обеспечить более эффективное кодирование.In the case of transmission of spectral information, the decoder must restore the quantized spectra, and perform the process of spectrum reconstruction using any tools in the bitstream in order to obtain the actual spectrum of the signal, as described in the input bitstream, and finally convert the spectrum from the frequency domain to time interval. After the initial reconstruction and scaling of the reconstructed spectrum, there are additional tools that modify one or more spectra to provide more efficient coding.

В случае передачи временного представления сигнала интервала декодер должен восстановить квантованный временной сигнал и осуществить процесс восстановления временного сигнала с использованием любых инструментов в битовом потоке, чтобы получить фактический сигнал на временном интервале, как описано во входном битовом потоке.In the case of transmitting the time representation of the interval signal, the decoder must reconstruct the quantized time signal and carry out the process of restoring the time signal using any tools in the bitstream to obtain the actual signal in the time interval, as described in the input bitstream.

Для каждого из дополнительных инструментов, которые воздействуют на данные о сигнале, сохраняется возможность "пройти через", и во всех случаях, когда обработка опущена, спектры или временные сэмплы на входе передаются непосредственно через инструмент без модификации.For each of the additional instruments that affect the signal data, it is possible to “pass through”, and in all cases when processing is omitted, the spectra or time samples at the input are transmitted directly through the instrument without modification.

В местах, где битовый поток изменяет свое представление сигнала из временной области в спектральную область или из LP области в не LP область или наоборот, декодер должен облегчить переход из одной области в другую путем соответствующей обработки функцией окна перехода с наложением-сложением.In places where the bitstream changes its representation of the signal from the time domain to the spectral region or from the LP region to a non-LP region or vice versa, the decoder should facilitate the transition from one region to another by appropriately processing the overlay-add transition window function.

Обработка eSBR и MPEGS применена аналогичным образом к обоим путям кодирования после обработки перехода.The processing of eSBR and MPEGS is applied similarly to both coding paths after transition processing.

Входной сигнал в инструмент демультиплексирования битового потока является битовым потоком. Демультиплексор разделяет битовый поток на части для каждого инструмента, и обеспечивает каждый из инструментов информацией о битовом потоке, связанным с этим инструментом.The input signal to the bit demultiplexing tool A stream is a bitstream. The demultiplexer divides the bitstream into parts for each tool, and provides each of the tools with information about the bitstream associated with this tool.

Выходными данными инструмента демультиплексора битового потока являются:The output data of the bitstream demultiplexer tool are:

- В зависимости типа ядра, кодирующего текущий фрейм, или:- Depending on the type of kernel encoding the current frame, or:

- квантованные и закодированные спектры без шума, представленные путем- quantized and encoded noise-free spectra represented by

- информации о масштабных коэффициентах- information about scale factors

- арифметически закодированных спектральных линий- arithmetically encoded spectral lines

- или параметры линейного предсказания (LP) вместе с сигналом возбуждения, представленным:- or linear prediction (LP) parameters together with an excitation signal represented by:

- квантованными и арифметически закодированными спектральными линиями (преобразование кодированного возбуждения, ТСХ), или- quantized and arithmetically encoded spectral lines (coded excitation conversion, TLC), or

- ACELP кодированным возбуждением временного интервала- ACELP coded time slot excitation

- Спектральная информация о заполнении шумом (как опция)- Spectral noise filling information (optional)

- Информация о решении M/S (как опция)- Information on the M / S solution (as an option)

- Информация о формировании временного шума (TNS) (как опция)- Information on the formation of temporary noise (TNS) (as an option)

- Информация управления банком фильтров- Filter bank management information

- Информация об управлении устранением искажений времени (TW) (как опция)- Time Distortion Management (TW) information (optional)

- Информация об управлении улучшенным расширением спектра за счет репликации (повторения) спектральных полос (eSBR)- Information on managing enhanced spectral expansion through replication (repetition) of spectral bands (eSBR)

- Информация об управлении MPEG окружением (MPEGS)- MPEG Environment Management Information (MPEGS)

Инструмент декодирования масштабных коэффициентов без шума берет информацию от демультиплексора битового потока, разбирает эту информацию и расшифровывает масштабные коэффициенты, кодированные методом Хаффмана, и DPCM.The noise-free scale factor decoding tool takes information from the bitstream demultiplexer, parses this information, and decodes the Huffman-encoded scale factors and DPCM.

На вход инструмента декодирования масштабных коэффициентов без шума подается:The input of the decoding tool for scaling coefficients without noise is fed:

- информация о масштабных коэффициентах закодированных спектров без шума.- information on the scale factors of the encoded spectra without noise.

На выходе инструмента декодирования масштабных коэффициентов без шума появляется:At the output of the decoding tool for scale factors without noise appears:

- расшифрованное представление в виде целых чисел масштабных коэффициентов.- a decrypted representation in the form of integers of scale factors.

Инструмент декодирования спектра без шума берет информацию от демультиплексора битового потока, разбирает ту информацию, декодирует арифметически закодированные данные и восстанавливает квантованные спектры. На входы к этому инструменту декодирования спектра без шума поступают:The noiseless spectrum decoding tool takes information from the bitstream demultiplexer, parses that information, decodes arithmetically encoded data, and restores the quantized spectra. The inputs to this spectrum decoding tool without noise are:

- спектры, закодированные без шума. На выходе инструмента декодирования спектра без шума появляются:- spectra encoded without noise. The output of the spectrum decoding tool without noise appears:

- квантованные величины компонент спектров.- quantized values of the components of the spectra.

Инструмент обратной квантизации берет квантованные величины компонент спектров и преобразовывает целочисленные значения в не масштабированные восстановленные спектры. Этот квантизатор является компандирующим квантизатором, чей коэффициент компандирования зависит от выбранного основного способа кодирования.The inverse quantization tool takes the quantized values of the spectral components and converts the integer values to unscaled reconstructed spectra. This quantizer is a compander quantizer whose compilation coefficient depends on the selected primary coding method.

На входы инструмента обратной квантизации поступают:The inputs of the inverse quantization tool are:

- квантованные величины компонент спектров.- quantized values of the components of the spectra.

На выходе инструмента обратной квантизации формируются:At the output of the inverse quantization tool, the following are formed:

- демасштабированные обратно квантизированные компоненты спектров. - demagnetized inverse quantized components of the spectra.

Инструмент заполнения шумом используется, чтобы заполнить спектральные промежутки в декодированных спектрах, которые возникают, когда квантованные спектральные величины равны нулю, например, из-за сильного ограничения на требование бит в кодирующем устройстве. Использование инструмента заполнения шумом является дополнительным.The noise filling tool is used to fill the spectral gaps in the decoded spectra that occur when the quantized spectral values are zero, for example, due to a strong restriction on the requirement of bits in the encoder. Using a noise fill tool is optional.

На входы инструмента заполнения шумом подаются:The inputs of the noise filling tool are:

- демасштабированные обратно квантизированные компоненты спектров.- demagnetized inverse quantized components of the spectra.

- Параметры заполнения шумом:- Noise filling options:

- расшифрованное представление в виде целых чисел масштабных коэффициентов. - a decrypted representation in the form of integers of scale factors.

На выходах инструмента заполнения шумом формируются:At the outputs of the noise filling tool are formed:

- демасштабированные обратно квантизированные компоненты спектров, которые ранее квантовались в ноль.- unscaled inverse quantized components of the spectra that were previously quantized to zero.

- Измененное представление в виде целых чисел масштабных коэффициентов. Инструмент перемасштабирования преобразовывает представление в виде целых чисел масштабных коэффициентов к фактическим значениям и умножает демасштабированные обратно квантизированные спектры на соответствующие масштабные коэффициенты.- Changed representation as integers of scale factors. The rescaling tool converts the integer representation of the scale factors to the actual values and multiplies the un-scaled back-quantized spectra by the corresponding scale factors.

На входы инструмента перемасштабирования поступают:The inputs of the rescaling tool are:

- Декодированное представление в виде целых чисел масштабных коэффициентов.- Decoded representation as integers of scale factors.

- Демасштабированные обратно квантизированные спектры. На выходе инструмента перемасштабирования формируются:- Dismantled inverse quantized spectra. At the output of the rescaling tool are formed:

- Масштабированные обратно квантизированные спектры.- Scaled back quantized spectra.

Для краткого обзора инструмента M\S, пожалуйста, обратитесь к ISO/IEC 14496-3, подраздел 4.1.1.2.For a brief overview of the M \ S tool, please refer to ISO / IEC 14496-3, subsection 4.1.1.2.

Для краткого обзора инструмента формирования временного шума (TNS), пожалуйста, обратитесь к ISO/IEC 14496-3, подраздел 4.1.1.2.For a quick overview of the temporary noise shaping tool (TNS), please refer to ISO / IEC 14496-3, subsection 4.1.1.2.

Инструмент банк фильтров/переключение блоков применяет обратное частотное преобразование, которое было выполнено в кодирующем устройстве. Для инструмента банк фильтров используется обратное модифицированное дискретное косинусное преобразование (IMDCT). IMDCT может настаиваться, чтобы обеспечить 120, 128, 240, 256, 320, 480, 512, 576, 960, 1024 или 1152 спектральных коэффициентов.The filter bank / block switching tool applies the inverse frequency conversion that was performed on the encoder. The filter bank tool uses the inverse modified discrete cosine transform (IMDCT). IMDCT can be infused to provide 120, 128, 240, 256, 320, 480, 512, 576, 960, 1024, or 1152 spectral coefficients.

На входы инструмента банк фильтров подаются:The filter bank is supplied with the following inputs:

- спектры (обратно квантованные),- spectra (inverse quantized),

- информация управления банком фильтров.- filter bank management information.

На выходе(ах) инструмента банк фильтров формируется (формируются):At the output (s) of the instrument, the filter bank is formed (formed):

- Аудио сигнал(ы), восстановленные на временном интервале.- Audio signal (s) recovered over a time interval.

Инструмент банк фильтров с искаженным временем/переключение блоков заменяет обычный инструмент банк фильтров/переключение блоков, когда допустим режим искажения времени. Банком фильтров является то же самое (IMDCT), которое относится к обычному банку фильтров, причем дополнительно обработанные функцией окна сэмплы искаженного (деформированного) временного интервала отображаются в линейный временной интервал путем передискретизации с изменяющейся во времени частотой.Distorted Time Filter Bank / Switch Tool blocks replaces the usual filter bank / block switching tool when time distortion mode is acceptable. The filter bank is the same (IMDCT), which refers to a conventional filter bank, and samples of the distorted (deformed) time interval additionally processed by the window function are displayed in a linear time interval by oversampling with a time-varying frequency.

На входы инструмента банк фильтров с искаженным временем поступают:The filter bank with distorted time receives the instrument inputs:

- Обратно квантованные спектры.- Inverse quantized spectra.

- Информация управления банком фильтров.- Information for managing a filter bank.

- Информация об управлении искажениями времени. На выходе (ах) инструмента банк фильтров с искаженным временем формируется (формируются):- Information about managing time distortion. At the output (s) of the instrument, a filter bank with distorted time is formed (formed):

- Аудио сигнал(ы), восстановленные на линейном временном интервале. Расширенный инструмент SBR (eSBR) восстанавливает высокочастотную полосу аудио сигнала. Это основано на повторении (репликации) последовательностей гармоник, усеченных во время кодирования. В результате, для того чтобы реконструировать спектральные характеристики оригинального сигнала, формируется огибающая спектра с восстановленной полосой высоких частот, применяется обратная фильтрация, и добавляются шумовые и синусоидальные компоненты. На вход инструмента eSBR подаются:- Audio signal (s) restored on a linear time interval. Advanced SBR Tool (eSBR) restores the high frequency band of an audio signal. This is based on the replication of sequences of harmonics truncated during coding. As a result, in order to reconstruct the spectral characteristics of the original signal, a spectral envelope with a restored high-frequency band is formed, reverse filtering is applied, and noise and sinusoidal components are added. The input to the eSBR tool is:

- Квантованные данные об огибающей спектра.- Quantized spectral envelope data.

- Разнообразные данные об управлении- A variety of management data

- сигнал на временном интервале от основного декодера ААС. - a signal on a time interval from the main AAC decoder.

На выходе инструмента eSBR формируется:The output of the eSBR tool is:

- сигнал на временном интервале или- a signal on a time interval or

- представление сигнала в QMF-области, например, в случае, если используется инструмент MPEG-окружение.- representation of the signal in the QMF region, for example, if the MPEG environment tool is used.

Инструмент MPEG-окружение (MPEGS) формирует множество сигналов из одного или более входных сигналов, применяя сложную процедуру смешения с расширением к входному сигналу(ам), которой управляют соответствующие пространственные параметры. В контексте USAC MPEGS используется для того, чтобы закодировать многоканальный сигнал, передавая стороннюю информацию о параметрах вместе с передаваемым сигналом с сокращенным числом каналов.The MPEG Environment Tool (MPEGS) generates a plurality of signals from one or more input signals by applying a complex mixing procedure with extension to the input signal (s), which is controlled by the corresponding spatial parameters. In the context of USAC, MPEGS is used to encode a multi-channel signal by transmitting third-party parameter information along with a transmitted signal with a reduced number of channels.

На вход инструмента MPEGS подается:The MPEGS instrument input is:

- сигналом с сокращенным числом каналов или- a signal with a reduced number of channels or

- представление сигнала сокращенным числом каналов в QMF-области от инструмента eSBR.- representation of the signal by the reduced number of channels in the QMF region from the eSBR tool.

На выходе инструмента MPEGS формируется:The output of the MPEGS tool is formed:

- многоканальный сигнал на временном интервале.- multichannel signal on a time interval.

Инструмент классификатор сигнала анализирует оригинальный входной сигнал и формирует из него информацию об управлении, которая вызывает выбор различных способов кодирования. Анализ входного сигнала является реализацией, зависящей и пытающейся выбрать оптимальное ядро кодирования для данного входного фрейма сигнала. Выходной сигнал классификатора сигнала может (как опция) также использоваться, чтобы влиять на поведение других инструментов, например, MPEG-окружения, расширенного SBR, банка фильтров с искаженным временем и других.The signal classifier tool analyzes the original input signal and generates control information from it, which causes the selection of various encoding methods. Analysis of the input signal is an implementation that depends on and tries to select the optimal coding core for a given input signal frame. The output of the signal classifier can (as an option) also be used to influence the behavior of other instruments, for example, MPEG environment, advanced SBR, filter bank with distorted time, and others.

На вход инструмента классификатор сигнала подается:The signal classifier is supplied to the instrument input:

- оригинальный неизмененный входной сигнал,- original unchanged input signal,

- дополнительные параметры, зависящие от реализации.- additional implementation-specific parameters.

На выходе инструмента классификатор сигнала формируется:At the output of the instrument, a signal classifier is formed:

- управляющий сигнал для управления выбором ядра кодирования (не LP кодирования фильтрованной области частот, LP кодирования фильтрованной области частот, или LP кодирования фильтрованной временной области).- a control signal for controlling the selection of the coding core (not LP coding of the filtered frequency domain, LP coding of the filtered frequency domain, or LP coding of the filtered time domain).

В соответствии с данным изобретением, разрешение времени/частоты в блоке 410 на фиг.12А и в конвертере 523 на фиг.12А управляется в зависимости от аудио сигнала. Взаимосвязь между длиной окна, длиной преобразования, временным и частотным разрешением иллюстрированы на фиг.13А, где становится ясно, что для большой длины окна временное разрешение понижается, но разрешение частот становится высоким, и для короткой длины окна временное разрешение высоко, но частотное разрешение низкое.In accordance with this invention, the time / frequency resolution in block 410 in FIG. 12A and in converter 523 in FIG. 12A is controlled depending on the audio signal. The relationship between window length, conversion length, time and frequency resolution is illustrated in FIG. 13A, where it becomes clear that for a large window length, the temporal resolution decreases, but the frequency resolution becomes high, and for a short window length, the temporal resolution is high, but the frequency resolution is low .

В первом канале кодирования, который является предпочтительно ААС кодирующим каналом, элементы, обозначенные 410, 1201, 1202, 4021 на фиг.12А, могут использовать различные окна, где форма окна определена анализатором сигнала, который предпочтительно находится в блоке 300 классификатора сигнала, но который может также быть отдельным модулем. Кодирующее устройство выбирает одно из окон, иллюстрированных на фиг.13В, у которых есть различные разрешения времени/частоты. Разрешение времени/частоты первого длинного окна, второго окна, четвертого окна, пятого окна и шестого окна равно 2048 значений выборки для длины преобразования 1024. У короткого окна, иллюстрированного в третьей линии на фиг.13В, разрешение времени составляет 256 значений выборки в соответствии с размером окна. Это соответствует длине преобразования 128.In the first coding channel, which is preferably an AAC coding channel, the elements indicated by 410, 1201, 1202, 4021 in FIG. 12A may use various windows where the window shape is determined by a signal analyzer, which is preferably located in the signal classifier block 300, but which may also be a separate module. The encoder selects one of the windows illustrated in FIG. 13B, which have different time / frequency resolutions. The time / frequency resolution of the first long window, the second window, the fourth window, the fifth window and the sixth window is 2048 sample values for the conversion length 1024. For the short window illustrated in the third line of FIG. 13B, the time resolution is 256 sample values in accordance with window size. This corresponds to a conversion length of 128.

Аналогично, у последних двух окон есть длина окна, равная 2304, которая является лучшей для разрешения частоты, чем окно в первой линии, но более низкой для временного разрешения. Длина преобразования для окон в последних двух линиях равна 1152.Similarly, the last two windows have a window length of 2304, which is better for frequency resolution than the window in the first line, but lower for time resolution. The conversion length for windows in the last two lines is 1152.

В первом канале кодирования могут быть построены различные последовательности окон, которые построены из окон преобразования на фиг.13В. Хотя на фиг.13С иллюстрирована только короткая последовательность, в то время как другие "последовательности" состоят из единственного окна, могут также быть построены длинные последовательности, состоящие из большего количества окон. Отметим, что согласно фиг.13В, для меньшего числа коэффициентов, то есть 960 вместо 1024, временное разрешение также ниже, чем для соответствующего более высокого числа коэффициентов, такого как 1024.In the first coding channel, various sequences of windows that are constructed from the transform windows in FIG. 13B can be constructed. Although only a short sequence is illustrated in FIG. 13C, while other “sequences” consist of a single window, long sequences consisting of more windows can also be constructed. Note that according to FIG. 13B, for a smaller number of coefficients, that is, 960 instead of 1024, the time resolution is also lower than for the corresponding higher number of coefficients, such as 1024.

Фиг.14А-14G иллюстрируют различные разрешения/размеры окна во втором канале кодирования. В предпочтительном решении данного изобретения у второго канала кодирования есть первый канал обработки, который является кодером временного интервала ACELP 526, и второй канал обработки, включающий банк фильтров 523. В этом канале суперфрейм длиной, например, 2048 сэмплов подразделен на фреймы по 256 образцов. Отдельные фреймы по 256 сэмплов могут отдельно использоваться так, чтобы могла быть применена последовательность четырех окон, где каждое окно покрывает два фрейма, когда используется MDCT с 50-процентным наложением. Тогда используется высокое разрешение, как иллюстрировано на фиг.14D. Альтернативно, когда сигнал позволяет использовать более длинные окна, быть использована последовательность такая, как изображённая на фиг.14С, где применен двойной размер окна, имеющий 1024 сэмпла для каждого окна (средние окна), так чтобы одно окно покрыло четыре фрейма при 50-процентном наложении.14A-14G illustrate various window resolutions / sizes in a second coding channel. In a preferred solution of the present invention, the second encoding channel has a first processing channel, which is an ACELP 526 time slot encoder, and a second processing channel including a filter bank 523. In this channel, the superframe, for example, 2048 samples in length, is divided into frames of 256 samples. Separate frames of 256 samples can be used separately so that a sequence of four windows can be applied, where each window covers two frames when using MDCT with 50 percent overlap. Then high resolution is used, as illustrated in FIG. 14D. Alternatively, when the signal allows the use of longer windows, a sequence such as that shown in FIG. 14C is used, where a double window size is applied having 1024 samples for each window (middle windows) so that one window covers four frames at 50 percent overlay.

Наконец, когда сигнал таков, что может использоваться длинное окно, это длинное окно покрывает более чем 4096 сэмплов снова с 50-процентным наложением.Finally, when the signal is such that a long window can be used, this long window covers over 4096 samples again with 50 percent overlap.

В привилегированном решении, в котором есть два канала, где у одного канала есть кодирующее устройство ACELP, положение фрейма ACELP, обозначенное "А" в суперфрейме, может также определять размер окна, примененного для двух смежных фреймов ТСХ, обозначенных "Т" на фиг. 14Е. В основном представляет интерес использование длинных окон, когда бы это ни было возможно. Однако должны быть применены короткие окна, когда один фрейм Т расположен между двумя фреймами А. Средние окна могут быть применены, когда есть два смежных фрейма Т. Однако когда есть три смежных фрейма Т, соответствующее большее окно не может быть эффективным из-за дополнительной сложности. Поэтому, третий фрейм Т, хотя и не предшествует фрейму А, может быть обработан коротким окном. Когда у целого суперфрейма только есть фреймы 1, тогда может быть применено длинное окно.In a preferred solution in which there are two channels where one channel has an ACELP encoder, the position of the ACELP frame indicated by “A” in the superframe can also determine the size of the window applied to the two adjacent TLC frames indicated by “T” in FIG. 14E. It is mainly of interest to use long windows whenever possible. However, short windows should be applied when one frame T is located between two frames A. Middle windows can be applied when there are two adjacent frames T. However, when there are three adjacent frames T, the corresponding larger window cannot be effective due to the additional complexity . Therefore, the third frame T, although it does not precede frame A, can be processed with a short window. When the whole superframe only has frames 1, then a long window can be applied.

Фиг.14F иллюстрирует несколько альтернатив для окон, где размер окна всегда 2х (двухкратное) число 1g спектральных коэффициентов из-за предпочтительного 50-процентного наложения. Однако могут быть применены другие проценты наложения для всех каналов кодирования так, что отношение между размером окна и диной преобразования может также отличаться от двух и даже приблизиться единице, когда не применено никакое совмещение временных интервалов.Fig. 14F illustrates several alternatives for windows, where the window size is always 2x (twice) the number 1g of spectral coefficients due to a preferred 50 percent overlap. However, other overlap percentages can be applied to all coding channels so that the ratio between the window size and the conversion dyne can also differ from two or even close to one when no time slot matching is applied.

Фиг.14G иллюстрирует правила для того, чтобы построить окно, основанное на правилах, данных на фиг.14F. Величина ZL иллюстрирует нули в начале окна. Величина L иллюстрирует число коэффициентов окна в зоне совмещения. Величины в части М являются "1" единицами, не вводящими любое совмещение в результате наложения со смежным окном, у которого есть нулевые величины в части, соответствующей М. Часть М сопровождается правой зоной наложения R, за которой следует зона нулей ZR, которые соответствовали бы части М следующего окна.FIG. 14G illustrates rules for constructing a window based on the rules given in FIG. 14F. The ZL value illustrates the zeros at the beginning of the window. The value of L illustrates the number of window coefficients in the registration area. The values in part M are “1” units that do not introduce any alignment as a result of overlapping with an adjacent window that has zero values in the part corresponding to M. Part M is followed by a right overlay zone R, followed by a zone of zeros ZR that would correspond part M of the next window.

Ниже приведены материалы, которые описывают предпочтительное и подробное выполнение изобретенной схемы кодирования/расшифровки аудио, особенно относительно стороны декодера.The following are materials that describe a preferred and detailed implementation of the inventive audio coding / decoding scheme, especially with respect to the decoder side.

Окна и последовательности оконWindows and window sequences

Квантизация и кодирование сделаны в области частот. С этой целью временной .сигнал времени отображается в область частот в кодирующем устройстве. Декодер выполняет обратное отображение, как описано в подпункте 2. В зависимости от сигнала кодер может изменить разрешение времени/частоты при использовании трех различных размеров окон: 2304, 2048 и 256. Чтобы переключаться между окнами, используются окна перехода LONG_START_WINDOW, LONG_STOP_WINDOW, START_WINDOW_LPD, STOP_WINDOW_1152, STOP_START_WINDOW и STOP_START_WINDOW_1152. В таблице 5.11 приведены окна, определена соответствующая длина преобразования и показана схематически форма окон. Используется три длины преобразования: 1152, 1024 (или 960) (относятся к длинному преобразованию) и 128 (или 120) коэффициентов (относятся к короткому преобразованию).Quantization and coding are done in the frequency domain. To this end, a temporary. Time signal is mapped to the frequency domain in the encoder. The decoder performs the reverse mapping as described in subclause 2. Depending on the signal, the encoder can change the time / frequency resolution when using three different window sizes: 2304, 2048, and 256. To switch between the windows, the transition windows LONG_START_WINDOW, LONG_STOP_WINDOW, START_WINDOW_LPD, STOP_WINDOW_11 , STOP_START_WINDOW and STOP_START_WINDOW_1152. Table 5.11 shows the windows, the corresponding conversion length is determined and the shape of the windows is shown schematically. Three transform lengths are used: 1152, 1024 (or 960) (refer to the long transform) and 128 (or 120) coefficients (refer to the short transform).

Последовательность окон состоит из окон так, что raw_data_block всегда содержит данные, представленные 1024 (или 960) выходных сэмплов. Элемент данных window_sequence обозначает последовательность фактически используемых окон. Фиг.13С иллюстрирует, как последовательность окон образуется из индивидуальных окон. См. подпункт 2 для получения более детальной информации о преобразовании и окнах.A window sequence consists of windows so that raw_data_block always contains the data represented by 1024 (or 960) output samples. The window_sequence data element indicates the sequence of actually used windows. 13C illustrates how a sequence of windows is formed from individual windows. See subclause 2 for more information on transforms and windows.

Масштабирующие полосы и группировкаScaling stripes and grouping

См. ISO/IEC 14496-3, п. 4, подпункт 4.5.2.3.4See ISO / IEC 14496-3, clause 4, subclause 4.5.2.3.4

Как описано в ISO/IEC 14496-3, п. 4, подпункт 4.5.2.3.4, ширина масштабирующих полос основана на имитации критических полос человеческой слуховой системы. По этой причине число масштабирующих полос в спектре и их ширина зависит от длины преобразования и частоты осуществления выборки. В табл. 4.110-4.128, в ISO/IEC 14496-3, п.4, подпункт 4.5.4, приведен список смещений начал каждой масштабирующей полосы для длин преобразований 1024 (960) и 128 (120) и частот дискретизации. Таблицы, изначально разработанные для LONG_WINDOW, LONG_START_WINDOW and LONG_STOP_WINDOW, используются для START_WINDOW_LPD и STOP_START_WINDOW. Таблицами смещений для STOP_WINDOW_1152 и STOP_START_WINDOW_1152 являются табл. 4-10.As described in ISO / IEC 14496-3, clause 4, subclause 4.5.2.3.4, the width of the scaling bands is based on simulating the critical bands of the human auditory system. For this reason, the number of scaling bands in the spectrum and their width depends on the conversion length and the sampling frequency. In the table. 4.110-4.128, in ISO / IEC 14496-3, clause 4, subclause 4.5.4, a list of offsets of the beginnings of each scaling band is given for transform lengths of 1024 (960) and 128 (120) and sampling frequencies. Tables originally designed for LONG_WINDOW, LONG_START_WINDOW and LONG_STOP_WINDOW are used for START_WINDOW_LPD and STOP_START_WINDOW. The offset tables for STOP_WINDOW_1152 and STOP_START_WINDOW_1152 are tab. 4-10.

Функция декодирования lpd_channel_stream()Decoding Function lpd_channel_stream ()

Элемент битового потока lpd_channel_stream() содержит всю необходимую информацию, чтобы декодировать один фрейм "области линейного предсказания" кодированного сигнала. Он получает сигнал для одного фрейма кодированного сигнала, который кодирован в LPC-области, т.е. включает шаг LPC фильтрации. Остаточный сигнал этого фильтра (так называемое "возбуждение") затем представлен или с помощью модуля ACELP, или в области MDCT преобразования ("преобразование кодированного возбуждения ", ТСХ). Чтобы достичь хорошего приближения к характеристикам сигнала, один фрейм разбивается на четыре более коротких единицы равного размера, каждая из которых кодируется или с использованием кодирующей схемы ACELP, или ТСХ.The bit stream element lpd_channel_stream () contains all the necessary information to decode a single frame of the "linear prediction region" of the encoded signal. It receives the signal for one frame of the encoded signal, which is encoded in the LPC region, i.e. includes LPC filtering step. The residual signal of this filter (the so-called “excitation”) is then represented either by the ACELP module or in the MDCT transform region (“coded excitation transform”, TLC). To achieve a good approximation to the signal characteristics, one frame is divided into four shorter units of equal size, each of which is encoded using either the ACELP coding scheme or TLC.

Этот процесс аналогичен кодирующей схеме, описанной в 3GPP TS 26.290. Из этого документа взята незначительно отличающаяся терминология, где один "суперфрейм" обозначает сегмент сигнала из 1024 сэмплов, где "фрейм" составляет в точности четверть от 1024 сэмплов, т.е. 256 сэмплов. Каждый из этих фреймов далее подразделяется на четыре "субфрейма" равной длины. Заметим, что в данном подразделе используется эта терминология.This process is similar to the coding scheme described in 3GPP TS 26.290. A slightly different terminology is taken from this document, where one “superframe” denotes a signal segment of 1024 samples, where the “frame” is exactly a quarter of 1024 samples, i.e. 256 samples. Each of these frames is further subdivided into four "subframes" of equal length. Note that this terminology is used in this subsection.

Определения, элементы данныхDefinitions, data elements

acelp_core_modeacelp_core_mode Это битовое поле обозначает точную схему расположения бит в случае, если ACELP используется как режим кодирования Ipd.This bit field indicates the exact bit pattern in case ACELP is used as the IPD encoding mode. lpd_modelpd_mode Это битовое поле обозначает режимы кодирования каждого из четырех фреймов в одном суперфрейме битового потока lpd_channel_stream() (соответствует одному ААС фрейму). Режим кодирования сохраняется в массиве mod[] и может принимать значения от 0 до 3. Отображение from lpd_mode в mod[] определяется ниже в табл. 1.This bit field denotes the coding modes of each of the four frames in one superframe of the lpd_channel_stream () bit stream (corresponds to one AAC frame). The encoding mode is stored in the mod [] array and can take values from 0 to 3. The mapping from lpd_mode to mod [] is defined in the table below. one.

Табл. 1 - Отображение режимов кодирования для lpd_channel_stream()Tab. 1 - Display encoding modes for lpd_channel_stream ()

Значение битов в определяемом режимеThe value of the bits in the determined mode оставшиеся mod[] элементыremaining mod [] elements Ipd_modeIpd_mode bit 4bit 4 bit 3bit 3 bit 2bit 2 bit 1bit 1 bit 0bit 0 0…150 ... 15 00 mod[3]mod [3] mod[2]mod [2] mod[1]mod [1] mod[0]mod [0] 16…1916 ... 19 1one 00 00 mod[3]mod [3] mod[2]mod [2] mod[1]=2 mod[0]=2mod [1] = 2 mod [0] = 2 20…2320 ... 23 1one 00 1one mod[1]mod [1] mod[0]mod [0] mod[3]=2 mod[2]=2mod [3] = 2 mod [2] = 2 2424 1one 1one 00 00 00 mod[3]=2 mod[2]=2 mod[1]=2 mod[0]=2mod [3] = 2 mod [2] = 2 mod [1] = 2 mod [0] = 2 2525 1one 1one 00 00 1one mod[3]=3 mod[2]=3 mod[1]=3 mod[0]=3mod [3] = 3 mod [2] = 3 mod [1] = 3 mod [0] = 3 26…3126 ... 31 ReservedReserved

mod[0…3] Значения в массиве mod[] обозначают соответствующие режимы кодирования каждого фрейма:mod [0 ... 3] The values in the mod [] array indicate the corresponding encoding modes of each frame:

Табл. 2 - Режимы кодирования, обозначенные mod[]Tab. 2 - Encoding modes indicated by mod []

величина mod[x]magnitude mod [x] Режим кодирования фреймаFrame coding mode Элемент битового потокаBitstream element 00 ACELPACELP acelp_coding()acelp_coding () 1one one frame of TCXone frame of TCX tcx_coding()tcx_coding () 22 TCX covering half a superframeTCX covering half a superframe tcx_coding()tcx_coding () 33 TCX covering entire superframeTCX covering entire superframe tcx_coding()tcx_coding ()

acelp_coding()acelp_coding () Элемент синтаксической структуры, который содержит все данные для декодирования одного фрейма ACELP сигнала возбуждения.An element of the syntactic structure that contains all the data for decoding one frame of the ACELP excitation signal. tcx_coding()tcx_coding () Элемент синтаксической структуры, который содержит все данные для декодирования одного фрейма с использованием основанного на MDCT преобразования кодированного возбуждения (ТСХ).A syntax structure element that contains all the data for decoding a single frame using MDCT-based coded excitation (TLC) conversion. first_tcx_flagfirst_tcx_flag Флаг, показывающий текущий обрабатываемый фрейм ТСХ, который первый в суперфрейме.A flag showing the currently processed TLC frame, which is the first in the superframe. lpc_data()lpc_data () синтаксической структуры, который содержит все данные для декодирования набора всех параметров LPC фильтра, требуемых для декодирования текущего суперфрейма.a syntactic structure that contains all the data for decoding the set of all LPC filter parameters required to decode the current superframe. first_lpd_flagfirst_lpd_flag Флаг, показывающий, что текущий суперфрейм является первым в последовательности суперфреймов, которая кодирована в LPC области. Этот флаг может быть также определён из истории элемента битового потока core_mode (core_mode0 и core_model в случае channel_pair_element) в соответствии с табл. 3.A flag indicating that the current superframe is the first in the sequence of superframes that is encoded in the LPC area. This flag can also be determined from the history of the element of the bit stream core_mode (core_mode0 and core_model in the case of channel_pair_element) in accordance with Table 3.

Табл. 3 - Определение first_lpd_flagTab. 3 - Definition of first_lpd_flag

core_mode - предыдущего фрейма (суперфрейма)core_mode - previous frame (superframe) core_mode текущего фрейма (суперфрейма)core_mode of the current frame (superframe) first_Ipd_flagfirst_Ipd_flag 00 1one 1one 1one 1one 00

Figure 00000002
Figure 00000002

По аналогии с [8], раздел 5.2.2, существует 26 следующих вариантов ACELP или ТСХ в одном суперфрейме битового потока lpd_channel_stream. Один из этих 26 вариантов режима обозначен в битовом потоке элементом lpd_mode. Отображение lpd_mode на действующий режим кодирования для каждого фрейма в подфрейме показано в табл. 1 и табл.2.By analogy with [8], Section 5.2.2, there are 26 of the following ACELP or TLC options in one superframe of the lpd_channel_stream bitstream. One of these 26 mode options is indicated in the bitstream by lpd_mode. The mapping of lpd_mode to the current encoding mode for each frame in the subframe is shown in Table. 1 and table 2.

Табл. 4 - Масштабирующие полосы частот для длины окна 2304 при STOP_START_1152_WINDOW и STOP_1152_WINDOW 44.1 и 48 кГцTab. 4 - Scaling frequency bands for window length 2304 at STOP_START_1152_WINDOW and STOP_1152_WINDOW 44.1 and 48 kHz

fs [кГц]fs [kHz] 44.1,4844.1,48 num_swb_long_windownum_swb_long_window 4949 swbswb swb_offset_long_windowswb_offset_long_window swbswb swb_offset_long_windowswb_offset_long_window 00 00 2525 216216 1one 4four 2626 240240 22 88 2727 264264 33 1212 2828 292292 4four 1616 2929th 320320 55 20twenty 30thirty 352352 66 2424 3131 384384 77 2828 3232 416416 88 3232 3333 448448 99 3636 3434 480480 1010 4040 3535 512512 11eleven 4848 3636 544544 1212 5656 3737 576576 1313 6464 3838 608608 14fourteen 7272 3939 640640 15fifteen 8080 4040 672672 1616 8888 4141 704704 1717 9696 4242 736736 18eighteen 108108 4343 768768 1919 120120 4444 800800 20twenty 132132 4545 832832 2121 144144 4646 864864 2222 160160 4747 896896 2323 176176 4848 928928 2424 196196 11521152

Табл. 5 - Масштабирующие полосы частот для длины окна 2304 при STOP_START_1152_WINDOW и STOP_1152 WINDOW 32 кГцTab. 5 - Scaling frequency bands for window length 2304 at STOP_START_1152_WINDOW and STOP_1152 WINDOW 32 kHz

fs [кГц]fs [kHz] 3232 num_swb_long_windownum_swb_long_window 5151 swbswb swb_offset_long_windowswb_offset_long_window swbswb swb_offset_long_windowswb_offset_long_window 00 00 2626 240240 1one 4four 2727 264264 22 88 2828 292292 33 1212 2929th 320320 4four 1616 30thirty 352352 55 20twenty 3131 384384 66 2424 3232 416416 77 2828 3333 448448 88 3232 3434 480480 99 3636 3535 512512 1010 4040 3636 544544 11eleven 4848 3737 576576 1212 5656 3838 608608 1313 6464 3939 640640 14fourteen 7272 4040 672672 15fifteen 8080 4141 704704 1616 8888 4242 736736 1717 9696 4343 768768 18eighteen 108108 4444 800800 1919 120120 4545 832832 20twenty 132132 4646 864864 2121 144144 4747 896896 2222 160160 4848 928928 2323 176176 4949 960960 2424 196196 50fifty 992992 2525 216216 11521152

Табл. 6 - Масштабирующие полосы частот для длины окна 2304 при STOP_START_1152_WINDOW и STOP_1152_WINDOW 8 кГцTab. 6 - Scaling frequency bands for window length 2304 at STOP_START_1152_WINDOW and STOP_1152_WINDOW 8 kHz

fs [кГц]fs [kHz] 88 num_swb_long_windownum_swb_long_window 4040 swbswb swb_offset_long_windowswb_offset_long_window swbswb Swb_offset_long_windowSwb_offset_long_window 00 00 2121 288288 1one 1212 2222 308308 22 2424 2323 328328 33 3636 2424 348348 4four 4848 2525 372372 55 6060 2626 396396 66 7272 2727 420420 77 8484 2828 448448 88 9696 2929th 476476 99 108108 508508

1010 120120 3131 544544 11eleven 132132 3232 580580 1212 144144 3333 620620 1313 156156 3434 664664 14fourteen 172172 3535 712712 15fifteen 188188 3636 764764 1616 204204 3737 820820 1717 220220 3838 880880 18eighteen 236236 3939 944944 1919 252252 11521152 20twenty 268268

Табл. 7 - Масштабирующие полосы частот для длины окна 2304 при STOP_START_1152_WINDOW и STOP_1152_WINDOW 11.025,12 и 16 кГцTab. 7 - Scaling frequency bands for window length 2304 at STOP_START_1152_WINDOW and STOP_1152_WINDOW 11.025.12 and 16 kHz

fs [кГц]fs [kHz] 11.025,12, 1611.025,12,16 num_swb_long_windownum_swb_long_window 4343 swbswb swb_offset_long_windowswb_offset_long_window swbswb swb_offset_long_windowswb_offset_long_window 00 00 2222 228228 1one 88 2323 244244 22 1616 2424 260260 33 2424 2525 280280 4four 3232 2626 300300 55 4040 2727 320320 66 4848 2828 344344 77 5656 2929th 368368 88 6464 30thirty 396396 99 7272 3131 424424 1010 8080 3232 456456 11eleven 8888 3333 492492 1212 100one hundred 3434 532532 1313 112112 3535 572572 14fourteen 124124 3636 616616 15fifteen 136136 3737 664664 1616 148148 3838 716716 1717 160160 3939 772772 18eighteen 172172 4040 832832 1919 184184 4141 896896 20twenty 196196 4242 960960 2121 212212 11521152

Табл. 8 - Масштабирующие полосы частот для длины окна 2304 при STOP_START_1152_WINDOW и STOP_1152_WINDOW 22.05 и 24 кГцTab. 8 - Scaling frequency bands for window length 2304 at STOP_START_1152_WINDOW and STOP_1152_WINDOW 22.05 and 24 kHz

fs [кГц]fs [kHz] 22.05 and 2405.22 and 24 num_swb_long_windownum_swb_long_window 4747 swbswb swb_offset_long_windowswb_offset_long_window swbswb swb_offset_long_windowswb_offset_long_window 00 00 2424 160160 1one 4four 2525 172172 22 88 2626 188188 33 1212 2727 204204 4four 16 .16 . 2828 220220 55 20twenty 2929th 240240 66 2424 30thirty 260260 77 2828 3131 284284 88 3232 3232 308308 99 3636 3333 336336 1010 4040 3434 364364 11eleven 4444 3535 396396 1212 5252 3636 432432 ЦTs 6060 3737 468468 14fourteen 6868 3838 508508 15fifteen 7676 3939 552552 1616 8484 4040 600600 1717 9292 4141 652652 18eighteen 100one hundred 4242 704704 1919 108108 4343 768768 20twenty 116116 4444 832832 2121 124124 4545 896896 2222 136136 4646 960960 2323 148148 11521152

Табл. 9 - Масштабирующие полосы частот для длины окна 2304 при STOP_START_1152_WINDOW и STOP 1152 WINDOW 64 кГцTab. 9 - Scaling frequency bands for window length 2304 at STOP_START_1152_WINDOW and STOP 1152 WINDOW 64 kHz

fs [кГц]fs [kHz] 6464 num_swb_long_windownum_swb_long_window 47(46)47 (46) swbswb swb_offset_long_windowswb_offset_long_window swbswb swb_offset_long_windowswb_offset_long_window 00 00 2424 172172 1one 4four 2525 192192 22 88 2626 216216 33 1212 2727 240240 4four 1616 2828 268268 55 20twenty 2929th 304304 66 2424 30thirty 344344 77 2828 3131 384384 88 3232 3232 424424 99 3636 3333 464464 1010 4040 3434 504504 11eleven 4444 3535 544544 1212 4848 3636 584584 1313 5252 3737 624624 14fourteen 5656 3838 664664 15fifteen 6464 3939 704704 1616 7272 4040 744744 1717 8080 4141 784784 18eighteen 8888 4242 824824 1919 100one hundred 4343 864864 20twenty 112112 4444 904904 2121 124124 4545 944944 2222 140140 4646 984984 2323 156156 11521152

Табл. 10 - Масштабирующие полосы частот для длины окна 2304 при STOP START 1152 WINDOW и STOP 1152 WINDOW 88.2 и 96 кГцTab. 10 - Scaling frequency bands for window length 2304 with STOP START 1152 WINDOW and STOP 1152 WINDOW 88.2 and 96 kHz

fs [кГц]fs [kHz] 88.2 and 9688.2 and 96 num_swb_long_windownum_swb_long_window 4141 swbswb swb_offset_long_windowswb_offset_long_window swbswb swb_offset_long_windowswb_offset_long_window 00 00 2121 120120 1one 4four 2222 132132 22 88 2323 144144 33 1212 2424 156156 4four 1616 2525 172172 55 20twenty 2626 188188 66 2424 2727 212212 77 2828 2828 240240 88 3232 2929th 276276 99 3636 30thirty 320320 1010 4040 3131 384384 11eleven 4444 3232 448448 1212 4848 3333 512512 1313 5252 3434 576576 14fourteen 5656 3535 640640 15fifteen 6464 3636 704704 1616 7272 3737 768768 1717 8080 3838 832832 18eighteen 8888 3939 896896 1919 9696 4040 960960 20twenty 108108 11521152

Таблицы ссылок на масштабирующие полосы частотScaling Band Reference Tables

Для всех других ссылок на масштабирующие полосы частот, пожалуйста, обратитесь к ISO/IEC 14496-3, раздел 4, с таблицы 4.129 раздела 4.5.4 до таблицы 4.147.For all other references to scaling frequency bands, please refer to ISO / IEC 14496-3, clause 4, from table 4.129 of clause 4.5.4 to table 4.147.

КвантизацияQuantization

Для квантизации спектральных коэффициентов ААС в кодирующем устройстве используется не однородный квантизатор. Поэтому декодер должен выполнить инверсию не однородной квантизации после декодирования Хаффмана коэффициентов масштабирования (см. подпункт 6.3), и декодирования данных без шума (см. подпункт 6.1).To quantize the spectral coefficients of AAS in the encoder, a non-uniform quantizer is used. Therefore, the decoder must invert the non-uniform quantization after decoding the Huffman scaling factors (see subclause 6.3) and decoding the data without noise (see clause 6.1).

Для квантизации спектральных коэффициентов ТСХ используется однородный квантизатор. Никакая обратная квантизация не необходима в декодере после декодирования спектральных данных без шума.A homogeneous quantizer is used to quantize the spectral coefficients of TLC. No inverse quantization is necessary in the decoder after decoding the spectral data without noise.

Банк фильтров и переключение блокаFilter Bank and Block Switching

Описание инструментаTool description

Временное/частотное представление сигнала отображается во временную область и подается на модуль банка фильтров. Этот модуль состоит из обратного модифицированного дискретного косинумного преобразования (IMDCT), окна и функции наложения-сложения. Чтобы адаптировать разрешение времени/частоты банка фильтров к особенностям входного сигнала, используется инструмент переключения. Число N представляет длину окна, где N - функция window_sequence (см. подпункт 1.1). Для каждого канала N/2 величин частот-времени Xi,k преобразуются в xi,n величины на временном интервале N, с использованием IMDCT. После применения функции окна, для каждого канала, первая половина zi,n последовательности добавляется ко второй половине предыдущего блока, обработанного функцией окна, последовательности z(i-1),n, чтобы восстановить на выходе сэмплы для каждого канала outi,n.The time / frequency representation of the signal is displayed in the time domain and fed to the filter bank module. This module consists of an inverse modified discrete cosine transform (IMDCT), a window, and an overlay-add function. To adapt the resolution of the time / frequency of the filter bank to the characteristics of the input signal, a switching tool is used. The number N represents the length of the window, where N is the window_sequence function (see subclause 1.1). For each channel, N / 2 frequency-time values X i, k are converted to x i, n values on time interval N, using IMDCT. After applying the window function, for each channel, the first half z i, n of the sequence is added to the second half of the previous block processed by the window function, the sequence z (i-1), n , in order to restore the samples for each channel out i, n to the output.

ОпределенияDefinitions

window_sequencewindow_sequence 2 бита, показывающие какая используется последовательность окон (т.е. размер блока).2 bits indicating which window sequence is being used (i.e. block size). window_shapewindow_shape 1 бит, показывающий какая выбрана оконная функция.1 bit showing which window function is selected.

На фиг.13С показано восемь window_sequences (ONLY_LONG_SEQUENCE, LONG_START_SEQUENCE, EIGHT_SHORT_SEQUENCE, LONG_STOP_SEQUENCE, STOP_START_SEQUENCE, STOP_1152_SEQUENCE, LPD_START_SEQUENCE, STOP_START_1152_SEQUENCE).13C shows eight window_sequences (ONLY_LONG_SEQUENCE, LONG_START_SEQUENCE, EIGHT_SHORT_SEQUENCE, LONG_STOP_SEQUENCE, STOP_START_SEQUENCE, STOP_1152_SEQUENCE, LPD_START_SEQUENCE, STOP_START_1152_SEQUENCE).

В последовательности LPD_SEQUENCE ссылаются на все доступные варианты режимов окна/кодирования в так называемом кодеке области линейного предсказания (см. раздел 1.3). В контексте декодирования фрейма, кодированного в частотной области, важно знать, является ли режим кодирования следующего фрейма в LP области, что обозначено LPD_SEQUENCE. Однако точная структура LPD_SEQUENCE обеспечивает декодирование кодированного фрейма в LP области.In the LPD_SEQUENCE sequence, all available window / coding mode options are referred to in the so-called codec of the linear prediction region (see section 1.3). In the context of decoding a frame encoded in the frequency domain, it is important to know whether the encoding mode of the next frame in the LP domain is indicated by LPD_SEQUENCE. However, the precise structure of the LPD_SEQUENCE allows decoding of the encoded frame in the LP region.

Процесс декодирования IMDCTIMDCT Decoding Process

Аналитическим выражением IMDCT является:The analytical expression of IMDCT is:

x i , n = 2 N k = 0 N 2 1 s p e c [ i ] [ k ] cos ( 2 π N ( n + n 0 ) ( k 1 2 ) )  for 0 n < N

Figure 00000003
x i , n = 2 N k = 0 N 2 - one s p e c [ i ] [ k ] cos ( 2 π N ( n + n 0 ) ( k one 2 ) ) for 0 n < N
Figure 00000003

где:Where:

n = индекс сэмпла;n = sample index;

i = индекс окна;i = window index;

k = индекс спектрального коэффициента;k = spectral coefficient index;

N = длина окна, основанная на величине window_ sequence;N = window length based on window_ sequence value;

n0=(N/2+1)/2.n 0 = (N / 2 + 1) / 2.

Окно синтеза длины N для обратного преобразования является функцией синтаксического элемента window_sequence и алгоритмического содержания. Это определено следующим образом:A synthesis window of length N for the inverse transform is a function of the syntax element window_sequence and the algorithmic content. It is defined as follows:

Длина окна 2304:Window Length 2304:

N = { 2304,  if STOP_1152_SEQUENCE 2304 , if STOP_START_1152_SEQUENCE

Figure 00000004
N = { 2304, if STOP_1152_SEQUENCE 2304 , if STOP_START_1152_SEQUENCE
Figure 00000004

Длина окна 2048:Window Length 2048:

N = { 2048,  if ONLY_LONG_SEQUENCE 2048,  if LONG_START_SEQUENCE 256,  if EIGHT_SHORT_SEQUENCE 2048,  if LONG_STOP_SEQUENCE 2048,  if STOP_START_SEQOENCE 2048,  if LPD_START_SEQUENCE

Figure 00000005
N = { 2048, if ONLY_LONG_SEQUENCE 2048, if LONG_START_SEQUENCE 256, if EIGHT_SHORT_SEQUENCE 2048, if LONG_STOP_SEQUENCE 2048, if STOP_START_SEQOENCE 2048, if LPD_START_SEQUENCE
Figure 00000005

Интерпретации блока перехода are следующие:The interpretations of the transition block are as follows:

и з  ONLY_LONG_SEQUENCE в  { ONLY_LONG_SEQUENCE LONG_START_SEQUENCE LPD_START_SEQUENCE

Figure 00000006
and s ONLY_LONG_SEQUENCE in { ONLY_LONG_SEQUENCE LONG_START_SEQUENCE LPD_START_SEQUENCE
Figure 00000006

и з  LONG_START_SEQUENCE в  { EIGHT_SHORT_SEQUENCE LONG_STOP_SEQUENCE

Figure 00000007
and s LONG_START_SEQUENCE in { EIGHT_SHORT_SEQUENCE LONG_STOP_SEQUENCE
Figure 00000007

и з  LONG_STOP_SEQUENCE в  { O N L Y _ L O N G _ S E Q U E N C E L O N G _ S T A R T _ S E Q U E N C E L P D _ S T A R T _ S E Q U E N C E

Figure 00000008
and s LONG_STOP_SEQUENCE in { O N L Y _ L O N G _ S E Q U E N C E L O N G _ S T A R T _ S E Q U E N C E L P D _ S T A R T _ S E Q U E N C E
Figure 00000008

и з  ENGHT_SHORT_SEQUENCE в  { EIGHT_SHORT_SEQUENCE LONG_STOP_SEQUENCE STOP_START_SEQUENCE

Figure 00000009
and s ENGHT_SHORT_SEQUENCE in { EIGHT_SHORT_SEQUENCE LONG_STOP_SEQUENCE STOP_START_SEQUENCE
Figure 00000009

и з  LPD_SEQUENCE в  { LPD_SEQUENCE STOP_1152_SEQUENCE STOP_START_1152_SEQUENCE

Figure 00000010
and s LPD_SEQUENCE in { LPD_SEQUENCE STOP_1152_SEQUENCE STOP_START_1152_SEQUENCE
Figure 00000010

и з  STOP_START_SEQUENCE в  { EIGHT_SHORT_SEQUENCE LONG_STOP_SEQUENCE

Figure 00000011
and s STOP_START_SEQUENCE in { EIGHT_SHORT_SEQUENCE LONG_STOP_SEQUENCE
Figure 00000011

и з  LPD_START_SEQUENCE в  { LPD_SEQUENCE

Figure 00000012
and s LPD_START_SEQUENCE in { LPD_SEQUENCE
Figure 00000012

и з  STOP_1152_SEQUENCE в  { ONLY_LONG_SEQUENCE LONG_START_SEQUENCE

Figure 00000013
and s STOP_1152_SEQUENCE in { ONLY_LONG_SEQUENCE LONG_START_SEQUENCE
Figure 00000013

и з  STOP_START_1152_SEQUENCE в  { EIGHT_SHORT_SEQUENCE LONG_STOP_SEQUENCE

Figure 00000014
and s STOP_START_1152_SEQUENCE in { EIGHT_SHORT_SEQUENCE LONG_STOP_SEQUENCE
Figure 00000014

Оконная обработка и переключение блокаWindow processing and block switching

В зависимости от элемента window_sequence и window_shape используются различные окна преобразований. Объединение половин окна описывает следующие представления всех возможных последовательностей окон window_sequences.Different transform windows are used depending on the window_sequence and window_shape elements. The union of the window halves describes the following representations of all possible window sequences:

Для window_shape == 1, коэффициенты окна определяются окном Кайсера-Бесселя (KBD) следующим образом:For window_shape == 1, the window coefficients are determined by the Kaiser-Bessel window (KBD) as follows:

W K B D _ L E F T , N ( n ) = p = 0 n [ W ' ( p , α ) ] p = 0 N / 2 [ W ' ( p , α ) ] f o r  0 n < N 2

Figure 00000015
W K B D _ L E F T , N ( n ) = p = 0 n [ W '' ( p , α ) ] p = 0 N / 2 [ W '' ( p , α ) ] f o r 0 n < N 2
Figure 00000015

W K B D _ R I G H T , N ( n ) = p = 0 N n 1 [ W ' ( p , α ) ] p = 0 N / 2 [ W ' ( p , α ) ] f o r   N 2 n < N

Figure 00000016
W K B D _ R I G H T , N ( n ) = p = 0 N - n - one [ W '' ( p , α ) ] p = 0 N / 2 [ W '' ( p , α ) ] f o r N 2 n < N
Figure 00000016

где:Where:

W', оконная функция Кайсера-Бесселя, см. [5], определенная как:W ', the Kaiser-Bessel window function, see [5], defined as:

W ' ( n , α ) = I 0 [ π α 10 ( n N / 4 N / 4 ) 2 ] I 0 [ π a ] д л я  0 n N 2

Figure 00000017
W '' ( n , α ) = I 0 [ π α 10 - ( n - N / four N / four ) 2 ] I 0 [ π a ] d l I am 0 n N 2
Figure 00000017

I 0 [ x ] = k = 0 [ ( x 2 ) k k ! ] 2

Figure 00000018
I 0 [ x ] = k = 0 [ ( x 2 ) k k ! ] 2
Figure 00000018

α=альфа фактор ядра окна, α = { 4  для N = 2048 ( 1920 ) 6 для N = 256 ( 240 )

Figure 00000019
α = alpha factor of the window core, α = { four for N = 2048 ( 1920 ) 6 for N = 256 ( 240 )
Figure 00000019

В другом случае, для window_shape == 0, используется синусоидальное окно:In another case, for window_shape == 0, a sinusoidal window is used:

W S I N _ L E F T , N ( n ) = sin ( π N ( n + 1 2 ) ) for 0 n < N 2

Figure 00000020
W S I N _ L E F T , N ( n ) = sin ( π N ( n + one 2 ) ) for 0 n < N 2
Figure 00000020

W S I N _ R I G H T , N ( n ) = sin ( π N ( n + 1 2 ) ) for  N 2 n < N

Figure 00000021
W S I N _ R I G H T , N ( n ) = sin ( π N ( n + one 2 ) ) for N 2 n < N
Figure 00000021

Длина окна N может быть 2048(1920) или 256(240) для KBD и синусоидального окна. В случае STOP_1152_SEQUENCE и STOP_START_1152_SEQUENCE, N может быть 2048 или 256, склоны окна аналогичные, но плоская вершина длиннее.The window length N can be 2048 (1920) or 256 (240) for KBD and a sine window. In the case of STOP_1152_SEQUENCE and STOP_START_1152_SEQUENCE, N can be 2048 or 256, the window slopes are similar, but the flat top is longer.

Только в случае LPD_START_SEQUENCE правая часть окна является синусоидальным окном длиной 64 сэмпла.Only in the case of LPD_START_SEQUENCE the right part of the window is a sinusoidal window with a length of 64 samples.

В подпунктах a)-h) этого раздела показано, как получить возможные последовательности окон.Subparagraphs a) -h) of this section show how to obtain possible window sequences.

Для всех типов window_sequences (последовательность окон) window_shape (форма окна) левой половины первого окна преобразования определяется формой окна предыдущего блока. Следующая формула выражает этот факт:For all types of window_sequences (window sequence), the window_shape (window shape) of the left half of the first transformation window is determined by the window shape of the previous block. The following formula expresses this fact:

W L E F T , N ( n ) = { W K B D _ L E F T , N ( n ) ,  if window_shape_previous_block = = 1 W SIN_LEFT ,N ( n ) , if window_shape_previous_block = = 0

Figure 00000022
W L E F T , N ( n ) = { W K B D _ L E F T , N ( n ) , if window_shape_previous_block = = one W SIN_LEFT , N ( n ) , if window_shape_previous_block = = 0
Figure 00000022

где:Where:

window_shape_previous_block (форма окна предыдущего блока); window_shape предыдущего блока (i-1).window_shape_previous_block (window shape of the previous block); window_shape of the previous block (i-1).

Для первого декодируемого блока first raw_data_block() форма окна window_shape левой и правой половин окна одинаковы.For the first decoded block first raw_data_block (), the window shape of the window_shape of the left and right halves of the window is the same.

a) ONLY_LONG_SEQUENCE:a) ONLY_LONG_SEQUENCE:

window_sequence == ONLY_LONG_SEQUENCE последовательность окон является равной одному LONG_WINDOW с полной длиной окна N_l равной 2048 (1920).window_sequence == ONLY_LONG_SEQUENCE The window sequence is one LONG_WINDOW with the total window length N_l equal to 2048 (1920).

При форме окна window_shape == 1, окно для ONLY_LONG_SEQUENCE дается следующим выражением:When the window form is window_shape == 1, the window for ONLY_LONG_SEQUENCE is given by the following expression:

W ( n ) = { W L E F T , N _ l ( n ) , f o r  0 n < N_l/2 W K B D _ R I G H T , N _ l ( n ) f o r  N_1/2 n < N_l

Figure 00000023
W ( n ) = { W L E F T , N _ l ( n ) , f o r 0 n < N_l / 2 W K B D _ R I G H T , N _ l ( n ) f o r N_1 / 2 n < N_l
Figure 00000023

При window_shape == 0 окно для ONLY_LONG_SEQUENCE может быть описано выражением:With window_shape == 0, the window for ONLY_LONG_SEQUENCE can be described by the expression:

W ( n ) = { W L E F T , N _ l ( n ) , f o r  0 n < N_l/2 W S I N _ R I G H T , N _ l ( n ) f o r  N_1/2 n < N_l

Figure 00000024
W ( n ) = { W L E F T , N _ l ( n ) , f o r 0 n < N_l / 2 W S I N _ R I G H T , N _ l ( n ) f o r N_1 / 2 n < N_l
Figure 00000024

После оконной обработки величины (zi,n) временной области могут быть описаны выражением:After window processing, the values (z i, n ) of the time domain can be described by the expression:

zi,n=w(n)·xi,n;z i, n = w (n) x i, n ;

b) LONG_START_SEQUENCE:b) LONG_START_SEQUENCE:

Длинная стартовая последовательность LONG_START_SEQUENCE необходима, чтобы получить правильное перекрытие и сложение для переходного блока из NLY_LONG_SEQUENCE в EIGHT_SHORT_SEQUENCE.A long start sequence LONG_START_SEQUENCE is needed to get the correct overlap and addition for the transition block from NLY_LONG_SEQUENCE to EIGHT_SHORT_SEQUENCE.

Длина окна N_l и N_s устанавливается равной 2048 (1920) и 256 (240) соответственно.The window lengths N_l and N_s are set to 2048 (1920) and 256 (240), respectively.

Если window_shape == 1, то окно для LONG_START_SEQUENCE дается следующим выражением:If window_shape == 1, then the window for LONG_START_SEQUENCE is given by the following expression:

W ( n ) = { W L E F T , N _ l ( n ) , f o r  0 n < N_l/2 1.0, for N_l/2 n < 3N_l-N_s 4 W K B D _ R I G H T , N _ s ( n + N _ s 2 3 N _ l N _ s 4 ) , f o r   3N_l-N_s 4 n < 3 N _ l + N _ s 4 0.0, f o r   3N_l + N_s 4 n < N _ l

Figure 00000025
W ( n ) = { W L E F T , N _ l ( n ) , f o r 0 n < N_l / 2 1.0, for N_l / 2 n < 3N_l-N_s four W K B D _ R I G H T , N _ s ( n + N _ s 2 - 3 N _ l - N _ s four ) , f o r 3N_l-N_s four n < 3 N _ l + N _ s four 0.0, f o r 3N_l + N_s four n < N _ l
Figure 00000025

Если window_shape == 0 , то окно для LONG_START_SEQUENCE выглядит как:If window_shape == 0, then the window for LONG_START_SEQUENCE looks like:

W ( n ) = { W L E F T , N _ l ( n ) , f o r  0 n < N_l/2 1.0, for N_l/2 n < 3N_l-N_s 4 W S I N _ R I G H T , N _ s ( n + N _ s 2 3 N _ l N _ s 4 ) , f o r   3N_l-N_s 4 n < 3 N _ l + N _ s 4 0.0, f o r   3N_l + N_s 4 n < N _ l

Figure 00000026
W ( n ) = { W L E F T , N _ l ( n ) , f o r 0 n < N_l / 2 1.0, for N_l / 2 n < 3N_l-N_s four W S I N _ R I G H T , N _ s ( n + N _ s 2 - 3 N _ l - N _ s four ) , f o r 3N_l-N_s four n < 3 N _ l + N _ s four 0.0, f o r 3N_l + N_s four n < N _ l
Figure 00000026

Обработанные функцией окна величины могут быть вычислены с использованием формулы, описанной в а).The values processed by the window function can be calculated using the formula described in a).

с) EIGHT JSHORTc) EIGHT JSHORT

Последовательность окон window_sequence == EIGHT_SHORT состоит из восьми перекрывающихся и сложенных SHORT_WINDOWs (коротких окон) с длиной N_s, равной 256 (240) каждое. Общая длина последовательности окон вместе с предшествующими и последующими нулями составляет 2048 (1920). Каждый из восьми коротких блоков сначала раздельно обрабатывается функцией окна. Номер короткого блока индексируется переменной j=0, … , M-1(M=N_l/N_s).The window sequence window_sequence == EIGHT_SHORT consists of eight overlapping and stacked SHORT_WINDOWs (short windows) with an N_s length of 256 (240) each. The total length of the window sequence along with the previous and subsequent zeros is 2048 (1920). Each of the eight short blocks is first separately processed by the window function. The short block number is indexed by the variable j = 0, ..., M-1 (M = N_l / N_s).

Форма окна window_shape предыдущего блока влияет только на первый из восьми 'коротких блоков (W0(n)) only. Если window_shape == 1, оконная функция дается выражением:The window shape of the window_shape of the previous block affects only the first of eight 'short blocks (W 0 (n)) only. If window_shape == 1, the window function is given by:

W 0 ( n ) = { W L E F T , N _ s ( n ) , f o r  0 n < N_s/2 W K B D _ R I G H T , N _ s ( n ) , f o r  N_s/2 n < N_s

Figure 00000027
W 0 ( n ) = { W L E F T , N _ s ( n ) , f o r 0 n < N_s / 2 W K B D _ R I G H T , N _ s ( n ) , f o r N_s / 2 n < N_s
Figure 00000027

W 1 ( M 1 ) ( n ) = { W K B D _ L E F T , N _ s ( n ) f o r  0 n < N_s/2 W K B D _ R I G H T , N _ s ( n ) , f o r  N_s/2 n < N_s

Figure 00000028
W one - ( M - one ) ( n ) = { W K B D _ L E F T , N _ s ( n ) f o r 0 n < N_s / 2 W K B D _ R I G H T , N _ s ( n ) , f o r N_s / 2 n < N_s
Figure 00000028

В другом случае window_shape == 0, оконная функция может быть описана как:In another case, window_shape == 0, the window function can be described as:

W 0 ( n ) = { W L E F T , N _ s ( n ) , f o r  0 n < N_s/2 W K B D _ R I G H T , N _ s ( n ) , f o r  N_s/2 n < N_s

Figure 00000029
W 0 ( n ) = { W L E F T , N _ s ( n ) , f o r 0 n < N_s / 2 W K B D _ R I G H T , N _ s ( n ) , f o r N_s / 2 n < N_s
Figure 00000029

W 1 ( M 1 ) ( n ) = { W S I N _ L E F T , N _ s ( n ) , f o r  0 n < N_s/2 W S I N _ R I G H T , N _ s ( n ) , f o r  N_s/2 n < N_s

Figure 00000030
W one - ( M - one ) ( n ) = { W S I N _ L E F T , N _ s ( n ) , f o r 0 n < N_s / 2 W S I N _ R I G H T , N _ s ( n ) , f o r N_s / 2 n < N_s
Figure 00000030

Перекрытие и сложение последовательности восьми коротких окон EIGHTJ3HORT window_sequence получается обработкой оконной функцией величин zi,n во временной области и описывается выражением:Overlapping and adding up a sequence of eight short windows EIGHTJ3HORT window_sequence is obtained by processing the window function of the values z i, n in the time domain and is described by the expression:

z i , n = { 0, f o r  0 n < N_l-N_s 4 x 0 ,n- N_l-N_s 4 W 0 ( n N _ l N _ s 4 ) , f o r   N_l-N_s 4 n < N _ l + N _ s 4 x j 1, n N _ l + ( 2 j 3 ) N _ s 4 W j 1 ( n N _ l + ( 2 j 3 ) N _ s 4 ) + x j , n N _ l + ( 2 j 1 ) N _ s 4 W j ( n N _ l + ( 2 j 1 ) N _ s 4 ) , f o r  1 j < M N_l + ( 2j-1 ) N _ s 4 n < N _ l + ( 2 j + 1 ) N _ s 4 x M 1, n N _ l + ( 2 M 3 ) N _ s 4 W M 1 ( n N _ l + ( 2 M 3 ) N _ s 4 ) , f o r   N_l + ( 2M-1 ) N _ s 4 n < N _ l + ( 2 M + 1 ) N _ s 4 0, f o r   N_l + ( 2M + 1 ) N _ s 4 n < N _ l

Figure 00000031
z i , n = { 0 f o r 0 n < N_l-n_s four x 0 , n- N_l-n_s four W 0 ( n - N _ l - N _ s four ) , f o r N_l-n_s four n < N _ l + N _ s four x j - one, n - N _ l + ( 2 j - 3 ) N _ s four W j - one ( n - N _ l + ( 2 j - 3 ) N _ s four ) + x j , n - N _ l + ( 2 j - one ) N _ s four W j ( n - N _ l + ( 2 j - one ) N _ s four ) , f o r one j < M , N_l + ( 2j-1 ) N _ s four n < N _ l + ( 2 j + one ) N _ s four x M - one, n - N _ l + ( 2 M - 3 ) N _ s four W M - one ( n - N _ l + ( 2 M - 3 ) N _ s four ) , f o r N_l + ( 2M-1 ) N _ s four n < N _ l + ( 2 M + one ) N _ s four 0 f o r N_l + ( 2M + one ) N _ s four n < N _ l
Figure 00000031

d) LONG_STOP_SEQUENCEd) LONG_STOP_SEQUENCE

Эта последовательность окон необходима, чтобы переключиться из EIGHT_SHORT_SEQUENCE обратно в ONLY_LONG_SEQUENCE.This window sequence is necessary to switch from EIGHT_SHORT_SEQUENCE back to ONLY_LONG_SEQUENCE.

Если window_shape == 1 окно для LONG_STOP_SEQUENCE дается следующим выражением:If window_shape == 1 window for LONG_STOP_SEQUENCE is given by the following expression:

W ( n ) = { 0.0, f o r  0 n < N _ l N _ s 4 W L E F T , N _ s ( n N _ l N _ s 4 ) , for  N_l-N_s 4 n < N _ l + N _ s 4 1.0, f o r   N_l + N_s 4 n < N _ l / 2 W K B D _ R I G H T , N _ l ( n ) , f o r  N_l/2 N_l

Figure 00000032
W ( n ) = { 0.0, f o r 0 n < N _ l - N _ s four W L E F T , N _ s ( n - N _ l - N _ s four ) , for N_l-n_s four n < N _ l + N _ s four 1.0, f o r N_l + N_s four n < N _ l / 2 W K B D _ R I G H T , N _ l ( n ) , f o r N_l / 2 N_l
Figure 00000032

Если window_shape == 0 окно для LONG_START_SEQUENCE определяется выражением:If window_shape == 0 the window for LONG_START_SEQUENCE is defined by:

W ( n ) = { 0.0, f o r  0 n < N _ l N _ s 4 W L E F T , N _ s ( n N _ l N _ s 4 ) , for  N_l-N_s 4 n < N _ l + N _ s 4 1.0, f o r   N_l + N_s 4 n < N _ l / 2 W S I N _ R I G H T , N _ l ( n ) , f o r  N_l/2 N_l

Figure 00000033
W ( n ) = { 0.0, f o r 0 n < N _ l - N _ s four W L E F T , N _ s ( n - N _ l - N _ s four ) , for N_l-n_s four n < N _ l + N _ s four 1.0, f o r N_l + N_s four n < N _ l / 2 W S I N _ R I G H T , N _ l ( n ) , f o r N_l / 2 N_l
Figure 00000033

Обработанные оконной функцией величины на временном интервале могут быть вычислены с использованием формулы, описанной в а).The values processed by the window function over a time interval can be calculated using the formula described in a).

е) STOP_START_SEQUENCE:e) STOP_START_SEQUENCE:

Элемент STOP_START_SEQUENCE необходим, чтобы получить правильное перекрытие и сложение для блока перехода из EIGHT_SHORT_SEQUENCE в EIGHT_SHORT_SEQUENCE, когда необходима только длинная последовательность ONLY_LONG_SEQUENCE.The STOP_START_SEQUENCE element is needed to get the correct overlap and addition for the transition block from EIGHT_SHORT_SEQUENCE to EIGHT_SHORT_SEQUENCE, when only a long ONLY_LONG_SEQUENCE sequence is needed.

Длины окон N_l N_s равны 2048 (1920) и 256 (240) соответственно.The window lengths N_l N_s are 2048 (1920) and 256 (240), respectively.

Если window_shape == 1, окно для STOP_START_SEQUENCE дается следующим выражением:If window_shape == 1, the window for STOP_START_SEQUENCE is given by the following expression:

W ( n ) = { 0.0, f o r  0 n < N_l-N_s 4 W L E F T , N _ s ( n N _ l N _ s 4 ) , f o r   N_l-N_s 4 n < N _ l + N _ s 4 1.0, f o r   N_l + N_s 4 n < 3 N _ l N _ s 4 W K B D _ R I G H T , N _ s ( n + N _ s 2 3 N _ l N _ s 4 ) , f o r   3N_l-N_s 4 n < 3 N _ l + N _ s 4 0.0, f o r   3N_l + N_s 4 n < N _ l

Figure 00000034
W ( n ) = { 0.0, f o r 0 n < N_l-n_s four W L E F T , N _ s ( n - N _ l - N _ s four ) , f o r N_l-n_s four n < N _ l + N _ s four 1.0, f o r N_l + N_s four n < 3 N _ l - N _ s four W K B D _ R I G H T , N _ s ( n + N _ s 2 - 3 N _ l - N _ s four ) , f o r 3N_l-N_s four n < 3 N _ l + N _ s four 0.0, f o r 3N_l + N_s four n < N _ l
Figure 00000034

Если window_shape == 0, окно для STOP_START_SEQUENCE выглядит как:If window_shape == 0, the window for STOP_START_SEQUENCE looks like:

W ( n ) = { 0.0, f o r  0 n < N_l-N_s 4 W L E F T , N _ s ( n N _ l N _ s 4 ) , f o r   N_l-N_s 4 n < N _ l + N _ s 4 1.0, f o r   N_l + N_s 4 n < 3 N _ l N _ s 4 W S I N _ R I G H T , N _ s ( n + N _ s 2 3 N _ l N _ s 4 ) , f o r   3N_l-N_s 4 n < 3 N _ l + N _ s 4 0.0, f o r   3N_l + N_s 4 n < N _ l

Figure 00000035
W ( n ) = { 0.0, f o r 0 n < N_l-n_s four W L E F T , N _ s ( n - N _ l - N _ s four ) , f o r N_l-n_s four n < N _ l + N _ s four 1.0, f o r N_l + N_s four n < 3 N _ l - N _ s four W S I N _ R I G H T , N _ s ( n + N _ s 2 - 3 N _ l - N _ s four ) , f o r 3N_l-N_s four n < 3 N _ l + N _ s four 0.0, f o r 3N_l + N_s four n < N _ l
Figure 00000035

Обработанные оконной функцией величины на временном интервале могут быть вычислены с использованием формулы, описанной в а).The values processed by the window function over a time interval can be calculated using the formula described in a).

f) LPD_START_SEQUENCE:f) LPD_START_SEQUENCE:

Элемент LPD_START_SEQUENCE необходим, чтобы получить правильное перекрытие и сложение для блока перехода из ONLY_LONG_SEQUENCE в LPD_SEQUENCE.The LPD_START_SEQUENCE element is needed to get the correct overlap and addition for the transition block from ONLY_LONG_SEQUENCE to LPD_SEQUENCE.

Длины окон N_l и N_s равны 2048 (1920) and 256 (240) соответственно.The window lengths N_l and N_s are 2048 (1920) and 256 (240), respectively.

Если window_shape == 1, окно для LPD_START_SEQUENCE дается выражением:If window_shape == 1, the window for LPD_START_SEQUENCE is given by:

W ( n ) = { W L E F T , N _ l ( n ) , f o r  0 n < N_l 2 1.0, f o r   N_l 2 n < 3 N _ l N _ s 4 W K B D _ R I G H T , N _ s 2 ( n + N _ s 4 3 N _ l N _ s 4 ) , f o r   3N_l-N_s 4 n < 3 N _ l 4 0.0, f o r   3N_l 4 n < N _ l

Figure 00000036
W ( n ) = { W L E F T , N _ l ( n ) , f o r 0 n < N_l 2 1.0, f o r N_l 2 n < 3 N _ l - N _ s four W K B D _ R I G H T , N _ s 2 ( n + N _ s four - 3 N _ l - N _ s four ) , f o r 3N_l-N_s four n < 3 N _ l four 0.0, f o r 3N_l four n < N _ l
Figure 00000036

Если window_shape == 0, окно для LPD_START_SEQUENCE выглядит как:If window_shape == 0, the window for LPD_START_SEQUENCE looks like:

W ( n ) = { W L E F T , N _ l ( n ) , f o r  0 n < N_l 2 1.0, f o r   N_l 2 n < 3 N _ l N _ s 4 W S I N _ R I G H T , N _ s 2 ( n + N _ s 4 3 N _ l N _ s 4 ) , f o r   3N_l-N_s 4 n < 3 N _ l 4 0.0, f o r   3N_l 4 n < N _ l

Figure 00000037
W ( n ) = { W L E F T , N _ l ( n ) , f o r 0 n < N_l 2 1.0, f o r N_l 2 n < 3 N _ l - N _ s four W S I N _ R I G H T , N _ s 2 ( n + N _ s four - 3 N _ l - N _ s four ) , f o r 3N_l-N_s four n < 3 N _ l four 0.0, f o r 3N_l four n < N _ l
Figure 00000037

Обработанные оконной функцией величины на временном интервале могут быть вычислены с использованием формулы, описанной в а).The values processed by the window function over a time interval can be calculated using the formula described in a).

g) STOP_1152_SEQUENCE:g) STOP_1152_SEQUENCE:

Элемент STOP_1152JSEQUENCE необходим, чтобы получить правильное перекрытие и сложение для блока перехода из LPDJSEQUENCE в ONLY_LONG_SEQUENCE.The STOP_1152JSEQUENCE element is necessary to get the correct overlap and addition for the transition block from LPDJSEQUENCE to ONLY_LONG_SEQUENCE.

Длины окон N_l и N_s равны 2048 (1920) и 256 (240) соответственно.The window lengths N_l and N_s are 2048 (1920) and 256 (240), respectively.

Если window_shape == 1, окно для STOP_1152_SEQUENCE дается выражением:If window_shape == 1, the window for STOP_1152_SEQUENCE is given by:

W ( n ) = { 0.0, f o r  0 n < N_l 4 W L E F T , N _ s ( n N _ l 4 ) , f o r   N_l 4 n < N _ l + 2 N _ s 4 1.0, f o r   N_l + 2 N_s 4 n < 2 N _ l + 3 N _ s 4 W K B D _ R I G H T , N _ l ( n + N _ l 2 2 N _ l + 3 N _ s 4 ) , f o r   2N_l-3N_s 4 n < N _ l + 3 N _ s 4 0.0, f o r  N_l + 3N_s 4 n < N _ l + N _ s

Figure 00000038
W ( n ) = { 0.0, f o r 0 n < N_l four W L E F T , N _ s ( n - N _ l four ) , f o r N_l four n < N _ l + 2 N _ s four 1.0, f o r N_l + 2 N_s four n < 2 N _ l + 3 N _ s four W K B D _ R I G H T , N _ l ( n + N _ l 2 - 2 N _ l + 3 N _ s four ) , f o r 2N_l-3N_s four n < N _ l + 3 N _ s four 0.0, f o r N_l + 3N_s four n < N _ l + N _ s
Figure 00000038

Если window_shape === 0, окно для STOP_1152JSEQUENCE выглядит как:If window_shape === 0, the window for STOP_1152JSEQUENCE looks like:

W ( n ) = { 0.0, f o r  0 n < N_l 4 W L E F T , N _ s ( n N _ l 4 ) , f o r   N_l 4 n < N _ l + 2 N _ s 4 1.0, f o r   N_l + 2 N_s 4 n < 2 N _ l + 3 N _ s 4 W S I N _ R I G H T , N _ l ( n + N _ l 2 2 N _ l + 3 N _ s 4 ) , f o r   2N_l + 3N_s 4 n < N _ l + 3 N _ s 4 0.0, f o r  N_l + 3N_s 4 n < N _ l + N _ s

Figure 00000039
W ( n ) = { 0.0, f o r 0 n < N_l four W L E F T , N _ s ( n - N _ l four ) , f o r N_l four n < N _ l + 2 N _ s four 1.0, f o r N_l + 2 N_s four n < 2 N _ l + 3 N _ s four W S I N _ R I G H T , N _ l ( n + N _ l 2 - 2 N _ l + 3 N _ s four ) , f o r 2N_l + 3N_s four n < N _ l + 3 N _ s four 0.0, f o r N_l + 3N_s four n < N _ l + N _ s
Figure 00000039

Обработанные оконной функцией величины на временном интервале могут быть вычислены с использованием формулы, описанной в а).The values processed by the window function over a time interval can be calculated using the formula described in a).

h) STOP_START_1152_SEQUENCE:h) STOP_START_1152_SEQUENCE:

Элемент STOPJ3TART_1152_SEQUENCE необходим, чтобы получить правильное перекрытие и сложение для блока перехода из LPD_SEQUENCE в EIGHT_SHORT_SEQUENCE, когда необходима только длинная последовательность ONLY_LONG_SEQUENCE.The STOPJ3TART_1152_SEQUENCE element is needed to get the correct overlap and addition for the transition block from LPD_SEQUENCE to EIGHT_SHORT_SEQUENCE when only the long ONLY_LONG_SEQUENCE sequence is needed.

Длины окон N_l и N_s равны 2048 (1920) и 256 (240) соответственно. Если window_shape == 1, окно для STOP_START_SEQUENCE дается выражением:The window lengths N_l and N_s are 2048 (1920) and 256 (240), respectively. If window_shape == 1, the window for STOP_START_SEQUENCE is given by:

W ( n ) = { 0.0, f o r  0 n < N_l 4 W L E F T , N _ s ( n N _ l 4 ) , f o r   N_l 4 n < N _ l + 2 N _ s 4 1.0, f o r   N_l + 2 N_s 4 n < 3 N _ l 4 + N _ s 2 W K B D _ R I G H T , N _ s ( n + N _ s 2 3 N _ l 4 + N _ s 2 ) , f o r   3N_l 4 + N _ s 2 n < 3 N _ l 4 + N _ s 0.0, f o r   3N_l 4 + N _ s n < N _ l + N _ s

Figure 00000040
W ( n ) = { 0.0, f o r 0 n < N_l four W L E F T , N _ s ( n - N _ l four ) , f o r N_l four n < N _ l + 2 N _ s four 1.0, f o r N_l + 2 N_s four n < 3 N _ l four + N _ s 2 W K B D _ R I G H T , N _ s ( n + N _ s 2 - 3 N _ l four + N _ s 2 ) , f o r 3N_l four + N _ s 2 n < 3 N _ l four + N _ s 0.0, f o r 3N_l four + N _ s n < N _ l + N _ s
Figure 00000040

Если window_shape == 0, окно для STOP_START_SEQUENCE выглядит как:If window_shape == 0, the window for STOP_START_SEQUENCE looks like:

W ( n ) = { 0.0, f o r  0 n < N_l 4 W L E F T , N _ s ( n N _ l 4 ) , f o r   N_l 4 n < N _ l + 2 N _ s 4 1.0, f o r   N_l + 2 N_s 4 n < 3 N _ l 4 + N _ s 2 W S I N _ R I G H T , N _ s ( n + N _ s 2 3 N _ l 4 + N _ s 2 ) , f o r   3N_l 4 + N _ s 2 n < 3 N _ l 4 + N _ s 0.0, f o r   3N_l 4 + N _ s n < N _ l + N _ s

Figure 00000041
W ( n ) = { 0.0, f o r 0 n < N_l four W L E F T , N _ s ( n - N _ l four ) , f o r N_l four n < N _ l + 2 N _ s four 1.0, f o r N_l + 2 N_s four n < 3 N _ l four + N _ s 2 W S I N _ R I G H T , N _ s ( n + N _ s 2 - 3 N _ l four + N _ s 2 ) , f o r 3N_l four + N _ s 2 n < 3 N _ l four + N _ s 0.0, f o r 3N_l four + N _ s n < N _ l + N _ s
Figure 00000041

Обработанные оконной функцией величины на временном интервале могут быть вычислены с использованием формулы, описанной в а).The values processed by the window function over a time interval can be calculated using the formula described in a).

Перекрытие и сложение с предыдущей последовательностью оконOverlap and add with previous window sequence

Помимо перекрытия и сложения последовательности восьми коротких окон EIGHT_SHORT window_sequence первая (левая) часть каждой последовательности окон window_sequence перекрывается и складывается со второй (правой) частью предыдущей последовательности окон window_sequence, что приводит к окончательному значению .величин outi,n во временной области.In addition to overlapping and adding up a sequence of eight short EIGHT_SHORT window_sequence windows, the first (left) part of each window_sequence window sequence overlaps and adds to the second (right) part of the previous window_sequence window sequence, which leads to the final value of the values out i, n in the time domain.

Математическое описание этой операции может быть дано следующим образом.A mathematical description of this operation can be given as follows.

В случае ONLY_LONG_SEQUENCE, LONG_START_SEQUENCE, EIGHT_SHORT_SEQUENCE, LONG_STOP_SEQUENCE, STOP_START_SEQUENCE, LPD_START_SEQUENCE:In the case of ONLY_LONG_SEQUENCE, LONG_START_SEQUENCE, EIGHT_SHORT_SEQUENCE, LONG_STOP_SEQUENCE, STOP_START_SEQUENCE, LPD_START_SEQUENCE:

o u t i , n = z i , n + z i 1, n + N 2

Figure 00000042
; f o r  0 n < N 2
Figure 00000043
, N=2048 (1920) o u t i , n = z i , n + z i - one, n + N 2
Figure 00000042
; f o r 0 n < N 2
Figure 00000043
, N = 2048 (1920)

И в случае STOP_1152_SEQUENCE, STOP_START_1152_SEQUENCE:And in the case of STOP_1152_SEQUENCE, STOP_START_1152_SEQUENCE:

o u t i , n = z i , n + z i 1, n + N _ l 2 + 3 N _ s 4

Figure 00000044
; f o r  0 n < N_l 2
Figure 00000045
, N_l=2048, N_s=256 o u t i , n = z i , n + z i - one, n + N _ l 2 + 3 N _ s four
Figure 00000044
; f o r 0 n < N_l 2
Figure 00000045
, N_l = 2048, N_s = 256

В случае LPD_START_SEQUENCE, следующая последовательность является LPDJSEQUENCE. Чтобы получить хорошее перекрытие и сложение к левой части LPD_SEQUENCE применяется окно SIN или KBD.In the case of LPD_START_SEQUENCE, the next sequence is LPDJSEQUENCE. To get good overlap and addition, the SIN or KBD window is applied to the left side of LPD_SEQUENCE.

W S I N _ L E F T , N ( n ) = sin ( π N ( n + 1 2 ) )

Figure 00000046
f o r  0 n < N 2
Figure 00000043
With N=128 W S I N _ L E F T , N ( n ) = sin ( π N ( n + one 2 ) )
Figure 00000046
f o r 0 n < N 2
Figure 00000043
With N = 128

В случае STOP_1152_SEQUENCE, STOP_START_1152_SEQUENCE предыдущей последовательностью является LPD_SEQUENCE. Чтобы получить хорошее перекрытие и сложение, к левой части LPD_SEQUENCE применяется окно TDAC.In the case of STOP_1152_SEQUENCE, STOP_START_1152_SEQUENCE, the previous sequence is LPD_SEQUENCE. To get good overlap and addition, the TDAC window is applied to the left of LPD_SEQUENCE.

IMDCTIMDCT

См. подпункт 2.3.1See subclause 2.3.1

Обработка оконной функцией и переключение блоковWindow function processing and block switching

В зависимости от элемента window_shape используются различные прототипы окон преобразования с избыточной частотой выборки, длина окон с избыточной частотой выборки определяется какDepending on the window_shape element, various prototypes of conversion windows with an excessive sampling frequency are used; the length of windows with an excessive sampling frequency is defined as

NOS=2·n_long·os_factor_winN OS = 2 n_long os_factor_win

Для window_shape == 1, коэффициенты окна даются окном Кайсера-Бесселя (KBD) следующим образом:For window_shape == 1, window coefficients are given by the Kaiser-Bessel window (KBD) as follows:

W K B D ( n N O S 2 ) = p = 0 N O S n 1 [ W ( p , α ) ] p = 0 N O S / 2 [ W ( p , α ) ] f o r   N OS 2 n < N O S

Figure 00000047
W K B D ( n - N O S 2 ) = p = 0 N O S - n - one [ W ( p , α ) ] p = 0 N O S / 2 [ W ( p , α ) ] f o r N OS 2 n < N O S
Figure 00000047

где:Where:

W, оконная функция Кайсера-Бесселя, см. [5], определенная как:W, the Kaiser-Bessel window function, see [5], defined as:

W ' ( n , α ) = [ π α 1.0 ( n N O S / 4 N O S / 4 ) ] I 0 [ π α ] f o r  0 n N OS 2

Figure 00000048
W '' ( n , α ) = [ π α 1.0 - ( n - N O S / four N O S / four ) ] I 0 [ π α ] f o r 0 n N OS 2
Figure 00000048

I 0 [ x ] = k = 0 [ ( x 2 ) k k ! ] 2

Figure 00000049
I 0 [ x ] = k = 0 [ ( x 2 ) k k ! ] 2
Figure 00000049

α = альфа фактор ядра окна, α=4α = alpha factor of the window core, α = 4

С другой стороны, для window-shape == 0, применяется синусоидальное окно (SIN):On the other hand, for window-shape == 0, a sinusoidal window (SIN) is used:

W S I N ( n N O S 2 ) = sin ( π N O S ( n + 1 2 ) ) f o r   N OS 2 n < N O S

Figure 00000050
W S I N ( n - N O S 2 ) = sin ( π N O S ( n + one 2 ) ) f o r N OS 2 n < N O S
Figure 00000050

Для всех видов window_sequences прототип, используемый для левой части окна определяется формой окна предыдущего блока. Следующая формула выражает этот факт:For all types of window_sequences, the prototype used for the left side of the window is determined by the window shape of the previous block. The following formula expresses this fact:

l e f t _ w i n d o w _ s h a p e [ n ] = { W K B D [ n ] ,  if window_shape_previous_block = = 1 W SIN [ n ] ,  if window_shape_previous_block = = 0

Figure 00000051
l e f t _ w i n d o w _ s h a p e [ n ] = { W K B D [ n ] , if window_shape_previous_block = = one W Sin [ n ] , if window_shape_previous_block = = 0
Figure 00000051

Аналогично прототип для правильной формы окна определен следующей формулой:Similarly, the prototype for the correct form of the window is defined by the following formula:

r i g h t _ w i n d o w _ s h a p e [ n ] = { W K B D [ n ] ,  if window_shape = = 1 W SIN [ n ] ,  if window_shape = = 0

Figure 00000052
r i g h t _ w i n d o w _ s h a p e [ n ] = { W K B D [ n ] , if window_shape = = one W Sin [ n ] , if window_shape = = 0
Figure 00000052

Так как длины перехода уже определены, это должно быть дифференцировано только между EIGHT_SHORT_SEQUENCE и всеми другими:Since transition lengths are already defined, this should only be differentiated between EIGHT_SHORT_SEQUENCE and all others:

a)EIGHT SHORT SEQUENCE:a) EIGHT SHORT SEQUENCE:

Следующий код на языке Си описывает обработку оконной функцией и внутреннее перекрытие-сложение последовательности EIGHT_SHORT_SEQUENCE:The following C code describes window function processing and internal overlap-addition of the EIGHT_SHORT_SEQUENCE sequence:

Figure 00000053
Figure 00000053

Figure 00000054
Figure 00000054

Figure 00000055
Figure 00000055

TCX, основанный на MDCTMDCT based TCX

Описание инструментаTool description

Когда core_mode равен 1, и когда выбран один или больше из трех режимов TCX кодирования, как "линейная область предсказания", то есть один из 4 элементов массива mod[] больше чем 0, используется инструмент TCX, основанный на MDCT. TCX, основанный на MDCT, получает квантованные спектральные коэффициенты от арифметического декодера. Прежде чем применить обратное преобразование MDCT, квантованные коэффициенты сначала дополняются комфортным шумом, чтобы получить во временной области взвешенный синтезированный сигнал, который затем подается на LPC-фильтр взвешенного синтезированного сигнала.When core_mode is 1, and when one or more of the three TCX coding modes is selected as the "linear prediction region", that is, one of the 4 elements of the mod [] array is greater than 0, the MDCT-based TCX tool is used. An MDCT-based TCX receives quantized spectral coefficients from an arithmetic decoder. Before applying the inverse MDCT transform, the quantized coefficients are first supplemented with comfort noise to obtain a weighted synthesized signal in the time domain, which is then fed to the LPC filter of the weighted synthesized signal.

ОпределенияDefinitions

IgIg Число квантованных спектральных коэффициентов на выходе арифметического декодераThe number of quantized spectral coefficients at the output of an arithmetic decoder noise_factornoise_factor Индекс уровня шума квантизацииQuantization Noise Level Index noise levelnoise level Уровень шума, внесенного реконструированным спектромReconstructed Spectrum Noise Level noise[]noise [] Вектор сформированного шумаNoise generated vector global_gainglobal_gain Индекс перемасштабирующего усиления квантизацииResampling Quantization Gain Index gg перемасштабирующее усилениеrescaling gain rmsrms Средний квадрат синтезированного сигнала во временной области х[],The average square of the synthesized signal in the time domain x [], х[]x [] Синтезированный сигнал во временной областиSynthesized time-domain signal

Процесс декодированияDecoding process

ТСХ на основе MDCT получает от арифметического декодера множество Ig квантованных спектральных коэффициентов, которые определены величинами mod[] и last_lpd_mode. Эти две величины также определяют длину и форму окна, которое будет применено в обратном MDCT. Окно составлено из трех частей, левой части перекрытия сэмплов L, средней части сэмплов М и правой части перекрытия сэмплов R. Чтобы получить окно MDCT длины 2*lg, слева добавлены нули ZL и нули ZR с правой стороны, как показано на фиг.14G для табл. 3/фиг.14F.MDCT-based TLC receives from the arithmetic decoder a plurality of Ig quantized spectral coefficients, which are determined by the mod [] and last_lpd_mode values. These two values also determine the length and shape of the window to be applied in the reverse MDCT. The window is made up of three parts, the left side of the sample overlap L, the middle part of the samples M and the right side of the sample overlap R. To get a 2 * log length MDCT window, ZL zeros and ZR zeros on the right are added on the left, as shown in Fig. 14G for tab. 3 / Fig. 14F.

Табл. 3 - Число спектральных коэффициентов как функция last_lpd_mode и mod[]Tab. 3 - Number of spectral coefficients as a function of last_lpd_mode and mod []

Величины last_Ipd_modeLast_Ipd_mode values Величина mod[x]Value mod [x] Число Ig спектральных коэффициентовThe number of Ig spectral coefficients ZLZl LL МM RR ZRZr 00 1one 320320 160160 00 256256 128128 9696 00 22 576576 288288 00 512512 128128 224224 00 33 11521152 512512 128128 10241024 128128 512512 1…31 ... 3 1one 256256 6464 128128 128128 128128 6464 1…31 ... 3 22 512512 192192 128128 384384 128128 192192 1..31..3 33 10241024 448448 128128 896896 128128 448448

Окно MDCT дается выражениемThe MDCT window is given by

W ( n ) = { 0 f o r  0 n < ZL W S I N _ L E F T , L ( n Z L ) for ZL nZL + L 1 for ZL + L n < ZL + L + M W S I N _ R I G H T , R ( n Z L L M ) for ZL + L + M ZL + L + M + R 0 for ZL + L + M + R n < 2lg

Figure 00000056
W ( n ) = { 0 f o r 0 n < Zl W S I N _ L E F T , L ( n - Z L ) for zl nZL + L one for zl + L n < Zl + L + M W S I N _ R I G H T , R ( n - Z L - L - M ) for zl + L + M Zl + L + M + R 0 for zl + L + M + R n < 2lg
Figure 00000056

Квантованные спектральные коэффициенты quant[], сформированные арифметическим декодером и добавленные комфортным шумом. Уровень введенного шума определен декодированным параметром noise_factor следующим образом:Quantized spectral coefficients quant [], formed by an arithmetic decoder and added by comfortable noise. The input noise level is determined by the decoded parameter noise_factor as follows:

noise_level = 0.0625 *(8-noise_factor)noise_level = 0.0625 * (8-noise_factor)

Затем, с использованием случайной функции random_sign(), формирующей случайные величины -1 или +1, вычисляется вектор шума noise[].Then, using the random function random_sign (), generating random variables -1 or +1, the noise vector noise [] is calculated.

noise[i] = random_sign()*noise_level;noise [i] = random_sign () * noise_level;

Векторы quant[] и noise[] объединяются, чтобы сформировать вектор реконструированных спектральных коэффициентов r[], способом, в котором 8 последовательных нулей в quant[] заменяются компонентами шума noise[]. Последовательности из 8 ненулевых значений определяются в соответствии с формулой:The vectors quant [] and noise [] combine to form the vector of reconstructed spectral coefficients r [], in a way in which 8 consecutive zeros in quant [] are replaced with noise components noise []. Sequences of 8 non-zero values are determined in accordance with the formula:

{ r l [ i ] = 1 f o r i [ 0,1 g / 6 ] r l [ lg / 6 + i ] = k = 0 7 | q u a n t [ lg / 6 + 8. [ i / 8 ] + k ] | f o r i [ lg / 6 ]

Figure 00000057
{ r l [ i ] = one f o r i [ 0.1 g / 6 ] r l [ lg / 6 + i ] = k = 0 7 | | | q u a n t [ lg / 6 + 8. [ i / 8 ] + k ] | | | f o r i [ lg / 6 ]
Figure 00000057

Тогда реконструированный спектр получается как:Then the reconstructed spectrum is obtained as:

r [ i ] = { q u a n t [ i ] i f r l [ i ] = 1 n o i s e [ i ] o t h e r w i s e

Figure 00000058
r [ i ] = { q u a n t [ i ] i f r l [ i ] = one n o i s e [ i ] o t h e r w i s e
Figure 00000058

Перед использование обратного MDCT применяется спектральное сглаживание в соответствии со следующими шагами:Before using inverse MDCT, spectral smoothing is applied in accordance with the following steps:

1. Вычисление энергии Em 8-мерного блока с индексом m для каждого 8-мерного блока первой четверти спектра.1. Calculation of the energy E m of an 8-dimensional block with index m for each 8-dimensional block of the first quarter of the spectrum.

2. Вычисление выражения Rm=sqrt(Em/EI), где I является индексом блока с максимальной величиной из всех Em.2. Calculation of the expression R m = sqrt (E m / E I ), where I is the block index with the maximum value of all E m .

3. если Rm<0.1, то Rm=0.13. if R m <0.1, then R m = 0.1

4. если Rm<Rm-1, то Rm=Rm-1 4. if R m <R m-1 , then R m = R m-1

Каждый 8-размерный блок, лежащий в первой четверти спектра, затем умножается на параметр Rm.Each 8-dimensional block lying in the first quarter of the spectrum is then multiplied by the parameter R m .

Реконструированный (восстановленный) спектр поступает на обратное преобразование MDCT. He обработанный оконной функцией выходной сигнал х[] перемасштабируется с использованием параметра усиления g, полученного инверсией квантизации декодированного индекса decoded global_gain:The reconstructed (reconstructed) spectrum is fed to the inverse MDCT transform. The output signal x [] processed by the window function is rescaled using the gain parameter g obtained by inverting the quantization of the decoded global_gain index:

g=10global_gain/28/(2.rms) g = 10 global_gain / 28 / (2.rms)

Где rms вычисляется как:Where rms is calculated as:

r m s = i = lg / 2 3 * lg / 2 1 x 2 [ i ] L + M + R

Figure 00000059
r m s = i = lg / 2 3 * lg / 2 - one x 2 [ i ] L + M + R
Figure 00000059

Тогда демасштабированный синтезированный во временной области сигнал равен:Then the demapped signal synthesized in the time domain is equal to:

xw[i]=x[i]·gx w [i] = x [i] · g

После демасштабирования применяется обработка оконной функцией и перекрытие/сложение.After de-scaling, window function processing and overlap / addition are applied.

Восстановленный ТСХ сигнал х(n) затем фильтруется с использованием фильтра A(z)(1-αz-1)/(A(z/λ), чтобы найти сигнал возбуждения, который поступит на фильтер синтеза. Заметим, что за подфрейм для фильтрации используется интерполирующий LP фильтр. Как только возбуждение определено, сигнал восстанавливается путем пропускания возбуждения через фильтр синтеза 1/Â(z) и затем через фильтр 1/(1-0.68z-1), как описано выше.The reconstructed TLC signal x (n) is then filtered using the filter A (z) (1-αz -1 ) / (A (z / λ) to find the excitation signal that will go to the synthesis filter. Note what kind of subframe to filter an interpolating LP filter is used. Once the excitation is determined, the signal is restored by passing the excitation through a 1 / Â (z) synthesis filter and then through a 1 / (1-0.68z -1 ) filter, as described above.

Заметим, что возбуждение также необходимо, чтобы обновить адаптивную кодовую таблицу ACELP и позволить переключаться от ТСХ к ACELP в последующем фрейме. Отметим также, что продолжительность синтеза ТСХ дана длиной фрейма ТСХ (без наложения): 256,512 или 1024 сэмпла для значений mod[] 1,2 или 3 соответственно.Note that excitation is also necessary in order to update the ACELP adaptive code table and allow switching from TLC to ACELP in a subsequent frame. We also note that the duration of TLC synthesis is given by the length of the TLC frame (without overlapping): 256.512 or 1024 samples for mod [] values of 1.2 or 3, respectively.

ОпределенияDefinitions

Определения могут быть найдены в ISO/IEC 14496-3, подраздел 1, подпункт 1.3 (Термины и определения) и в 3GPP TS 26.290, раздел 3 (Определения и сокращения).Definitions can be found in ISO / IEC 14496-3, subsection 1, subclause 1.3 (Terms and definitions) and in 3GPP TS 26.290, section 3 (Definitions and abbreviations).

Хотя некоторые аспекты были описаны в контексте устройства, ясно, что эти аспекты также представляют описание соответствующего метода, где блок или устройство соответствуют шагу метода или особенности шага метода. Аналогично, аспекты, описанные в контексте шага метода также, представляют описание соответствующего блока или пункта, или особенности соответствующего устройства.Although some aspects have been described in the context of a device, it is clear that these aspects also represent a description of the corresponding method, where the unit or device corresponds to a method step or a feature of a method step. Likewise, aspects described in the context of a method step also provide a description of the corresponding block or item, or features of the corresponding device.

Закодированный согласно изобретению аудио сигнал может быть сохранен на цифровом носителе данных или может быть передан на среде передачи, такой как беспроводная среда передачи или проводная среда передачи, такая как Интернет.The audio signal encoded according to the invention may be stored on a digital storage medium or may be transmitted on a transmission medium, such as a wireless transmission medium or a wired transmission medium, such as the Internet.

В зависимости от определенных требований выполнения воплощения изобретения могут быть осуществлены в аппаратных средствах или в программном обеспечении. Воплощение может быть выполнено с использованием цифрового носителя данных, например дискеты, DVD, компакт-диска, ROM, EPROM, EEPROM или FLASH памяти, на которых с помощью электроники сохранены удобочитаемые управляющие сигналы, которые могут быть использованы программируемой компьютерной системой, таким образом, что будет выполнен соответствующий метод.Depending on certain requirements, embodiments of the invention may be implemented in hardware or in software. The embodiment can be performed using a digital storage medium, for example, a diskette, DVD, CD, ROM, EPROM, EEPROM or FLASH memory, on which electronically readable control signals are stored that can be used by a programmable computer system, so that the corresponding method will be executed.

Некоторые воплощения согласно изобретению включают носитель информации, на который с помощью электроники записаны удобочитаемые управляющие сигналы, которые могут быть использованы программируемой компьютерной системой таким образом, что будет выполнен один из описанных здесь методов.Some embodiments of the invention include a storage medium onto which readable control signals are electronically recorded that can be used by a programmable computer system such that one of the methods described herein is performed.

Вообще, воплощения данного изобретения могут быть осуществлены как продукт компьютерной программы с программным кодом, служащим для того, чтобы выполнить один из методов, когда компьютерная программа выполняется на компьютере. Программный код может, например, быть сохранен на машиночитаемом носителе.In general, embodiments of the present invention can be implemented as a computer program product with program code serving to execute one of the methods when the computer program is executed on a computer. The program code may, for example, be stored on a computer-readable medium.

Другие воплощения включают компьютерную программу для того, чтобы выполнить один из описанных здесь методов, сохраненный на машиночитаемом носителе.Other embodiments include a computer program in order to execute one of the methods described herein stored on a computer-readable medium.

Другими словами, воплощением изобретенного метода тогда является компьютерная программа, имеющая программный код для того, чтобы выполнить один из описанных здесь методов, когда компьютерная программа выполняется на компьютере.In other words, an embodiment of the invented method is then a computer program having program code for executing one of the methods described herein when the computer program is executed on a computer.

Дальнейшим воплощением изобретенных методов тогда является носитель информации (или цифровой носитель данных, или удобочитаемая компьютером среда), включающая компьютерную программу для того, чтобы выполнить один из описанных здесь методов.A further embodiment of the invented methods is then a storage medium (either a digital storage medium or a computer readable medium) comprising a computer program in order to execute one of the methods described herein.

Дальнейшим воплощением изобретенного метода тогда является поток данных или последовательность сигналов, представляющих компьютерную программу для того, чтобы выполнить один из описанных здесь методов. Поток данных или последовательность сигналов могут, например, формироваться, чтобы быть переданными через систему передачи данных, например, через Интернет.A further embodiment of the invented method is then a data stream or a sequence of signals representing a computer program in order to execute one of the methods described here. A data stream or a sequence of signals may, for example, be configured to be transmitted through a data transmission system, for example, via the Internet.

Дальнейшее воплощение включает средство обработки, например, компьютер, или программируемое логическое устройство, выполненное с возможностью осуществить один из описанных здесь методов.A further embodiment includes a processing means, for example, a computer, or a programmable logic device, configured to implement one of the methods described herein.

Дальнейшее воплощение включает компьютер, на который затем установлена компьютерная программа для того, чтобы выполнить один из описанных здесь методов.A further embodiment includes a computer on which a computer program is then installed in order to perform one of the methods described herein.

В некоторых воплощениях может использоваться программируемое логическое устройство (например, программируемую логическую интегральную схему), выполненное с возможностью осуществления некоторых или всех описанных здесь методов. В некоторых воплощениях программируемая логическая интегральная схема может взаимодействовать с микропроцессором, чтобы выполнить один из описанных здесь методов. Вообще, методы предпочтительно выполняются любым устройством на базе аппаратных средств.In some embodiments, a programmable logic device (eg, a programmable logic integrated circuit) may be used, configured to implement some or all of the methods described herein. In some embodiments, a programmable logic integrated circuit may interact with a microprocessor to perform one of the methods described herein. In general, the methods are preferably performed by any hardware-based device.

Описанные выше воплощения просто являются иллюстрациями для воплощения принципов данного изобретения. Подразумевается, что модификации и изменения величин и описанных здесь деталей будут очевидны для специалистов, квалифицированных в технике. Поэтому, есть намерение ограничиться только формулой изобретения, а не определенными деталями, представленными посредством описания и объяснения воплощений.The embodiments described above are merely illustrations for embodying the principles of the present invention. It is understood that modifications and changes to the quantities and details described herein will be apparent to those skilled in the art. Therefore, it is intended to be limited only by the claims and not by certain details presented by way of description and explanation of embodiments.

ЛитератураLiterature

[1] ISO/IEC 11172-3:1993, Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s, Part 3: Audio.[1] ISO / IEC 11172-3: 1993, Information technology - Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit / s, Part 3: Audio.

[2] ITU-T Rec.H.222.0 (1995) ISO/IEC 13818-1:2000, Information technology - Generic coding of moving pictures and associated audio information: - Part 1: Systems.[2] ITU-T Rec. H.222.0 (1995) ISO / IEC 13818-1: 2000, Information technology - Generic coding of moving pictures and associated audio information: - Part 1: Systems.

[3] ISO/IEC 13818-3:1998, Information technology - Generic coding of moving pictures and associated audio information: - Part 3: Audio.[3] ISO / IEC 13818-3: 1998, Information technology - Generic coding of moving pictures and associated audio information: - Part 3: Audio.

[4] ISO/IEC 13818-7:2004, Information technology - Generic coding of moving pictures and associated audio information: - Part 7: Advanced Audio Coding (AAC).[4] ISO / IEC 13818-7: 2004, Information technology - Generic coding of moving pictures and associated audio information: - Part 7: Advanced Audio Coding (AAC).

[5] КОЛЕС 14496-3:2005, Information technology - Coding of audio-visual objects - Part 1: Systems[5] WHEELS 14496-3: 2005, Information technology - Coding of audio-visual objects - Part 1: Systems

[6] ISO/IEC 14496-3:2005, Information technology - Coding of audio-visual objects - Part 3: Audio[6] ISO / IEC 14496-3: 2005, Information technology - Coding of audio-visual objects - Part 3: Audio

[7] ISOAEC 23003-1:2007, Information technology - MPEG audio technologies - Part 1: MPEG Surround[7] ISOAEC 23003-1: 2007, Information technology - MPEG audio technologies - Part 1: MPEG Surround

[8] 3GPP TS 26.290 V6.3.0, Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codec; Transcoding functions[8] 3GPP TS 26.290 V6.3.0, Extended Adaptive Multi-Rate - Wideband (AMR-WB +) codec; Transcoding functions

[9] 3GPP TS 26.190, Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions[9] 3GPP TS 26.190, Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions

[10] 3GPP TS 26.090, Adaptive Multi-Rate (AMR) speech codec; Transcoding functions[10] 3GPP TS 26.090, Adaptive Multi-Rate (AMR) speech codec; Transcoding functions

Claims (21)

1. Аудио кодирующее устройство для того, чтобы закодировать аудио сигнал, включающее первый канал кодирования (400) для того, чтобы закодировать аудио сигнал, используя первый кодирующий алгоритм для получения первого кодированного аудио сигнала, при этом первый канал кодирования содержит первый преобразователь время/частота (410) для преобразования входного аудио сигнала в спектральную область;
второй канал кодирования (500) для того, чтобы закодировать аудио сигнал, используя второй кодирующий алгоритм, для получения второго кодированного аудио сигнала, где первый кодирующий алгоритм отличается от второго кодирующего алгоритма, а второй канал кодирования включает преобразователь области для того, чтобы преобразовать входной аудио сигнал из входной области в аудио сигнал выходной области, и второй преобразователь (523) для того, чтобы преобразовать входной аудио сигнал в спектральную область;
переключатель (200) для переключения между первым каналом кодирования и вторым каналом кодирования так, чтобы для части входного аудио сигнала или первый кодированный аудио сигнал, или второй кодированный аудио сигнал были в выходном аудио сигнале кодирующего устройства;
анализатор аудио сигнала (300, 525) для того, чтобы проанализировать часть аудио сигнала, чтобы определить, представлена ли часть аудио сигнала как первый кодированный аудио сигнал или второй кодированный аудио сигнал в выходном аудио сигнале кодирующего устройства, где анализатор аудио сигнала, кроме того, выполнен с возможностью определить соответствующее непостоянное разрешение времени/частоты первого преобразователя и второго преобразователя, когда сформированы первый кодированный аудио сигнал или второй кодированный аудио сигнал, представляющее часть аудио сигнала; и
выходной интерфейс (800) для того, чтобы сформировать выходной аудио сигнал кодирующего устройства, включающий первый кодированный аудио сигнал и второй кодированный аудио сигнал и информацию, указывающую на первый кодированный аудио сигнал и второй кодированный аудио сигнал, и информацию, указывающую на разрешение времени/частоты, примененную для кодирования первого закодированного аудио сигнала и для кодирования второго закодированного аудио сигнала.
1. An audio encoder for encoding an audio signal including a first encoding channel (400) in order to encode an audio signal using a first encoding algorithm to obtain a first encoded audio signal, wherein the first encoding channel comprises a first time / frequency converter (410) for converting the input audio signal into a spectral region;
a second encoding channel (500) in order to encode the audio signal using the second encoding algorithm to obtain a second encoded audio signal, where the first encoding algorithm is different from the second encoding algorithm, and the second encoding channel includes a region converter in order to convert the input audio a signal from an input region to an audio signal of an output region, and a second converter (523) in order to convert the input audio signal to a spectral region;
a switch (200) for switching between the first encoding channel and the second encoding channel so that for a part of the input audio signal, either the first encoded audio signal or the second encoded audio signal is in the audio output of the encoder;
an audio signal analyzer (300, 525) in order to analyze a portion of the audio signal to determine whether a portion of the audio signal is represented as a first encoded audio signal or a second encoded audio signal in the audio output of the encoder, where the audio signal analyzer is further configured to determine an appropriate non-constant time / frequency resolution of the first converter and the second converter when the first encoded audio signal or the second encoded audio signal is generated, Representing a part of the audio signal; and
an output interface (800) for generating an output audio signal of an encoder including a first encoded audio signal and a second encoded audio signal and information indicative of a first encoded audio signal and a second encoded audio signal and information indicative of time / frequency resolution used to encode the first encoded audio signal and to encode the second encoded audio signal.
2. Аудио кодирующее устройство по п.1, в котором анализатор аудио сигнала (300, 525) выполнен с возможностью классифицировать часть аудио сигнала как подобный речи аудио сигнал или подобный музыке аудио сигнал и выполнен с возможностью обнаружить переходной процесс в случае музыкального аудио сигнала для того, чтобы определить разрешение времени/частоты первого преобразователя время/частота (410) или для того, чтобы выполнить обработку анализа через синтез для того, чтобы определить разрешение времени/частоты второго преобразователя (523).2. The audio encoding device according to claim 1, wherein the audio signal analyzer (300, 525) is configured to classify a portion of the audio signal as a speech-like audio signal or a music-like audio signal, and is configured to detect a transient in the case of a music audio signal for in order to determine the time / frequency resolution of the first time / frequency converter (410) or in order to perform analysis analysis through synthesis in order to determine the time / frequency resolution of the second converter (523). 3. Аудио кодирующее устройство по п.1, где первый преобразователь время/частота (410) и второй преобразователь (523) включают процессор преобразования с переменной оконной функцией, включающий оконную функцию с переменным размером окна и функцию преобразования с переменной длиной преобразования, и где анализатор аудио сигнала (300/525) выполнен с возможностью управления, основанного на анализе аудио сигнала, размере окна и/или длине преобразования.3. The audio encoder according to claim 1, wherein the first time / frequency converter (410) and the second converter (523) include a variable window function conversion processor including a variable window size window function and a variable length conversion function, and where the audio signal analyzer (300/525) is configured to control based on the analysis of the audio signal, window size and / or conversion length. 4. Аудио кодирующее устройство по п.1, в которых второй канал кодирования включает первый канал обработки (522), выполненный с возможностью обработать аудио сигнал в области, определенной преобразователем области (510), и второй канал обработки (523, 524), включающий второй преобразователь (523), где анализатор аудио сигнала выполнен с возможностью разделить часть аудио сигнала в последовательность подчастей и где анализатор аудио сигнала выполнен с возможностью определить разрешение времени/частоты второго преобразователя (523) в зависимости от положения подчасти, обработанной в первом канале обработки, относительно подчасти части, обработанной во втором канале обработки.4. The audio encoding device according to claim 1, in which the second encoding channel includes a first processing channel (522), configured to process the audio signal in the region defined by the region converter (510), and a second processing channel (523, 524), including the second converter (523), where the audio signal analyzer is configured to divide a portion of the audio signal into a sequence of sub-parts, and where the audio signal analyzer is configured to determine the time / frequency resolution of the second converter (523) depending dix subpart treated in the first treatment channel relative to subpart portion processed in the second processing channel. 5. Аудио кодирующее устройство по п.4, в котором первый канал обработки включает кодирующее устройство ACELP (526), в котором второй канал обработки включает блоки MDCT-TCX обработки (527), в котором анализатор аудио сигнала (300/525) выполнен с возможностью установки высокого значения временного разрешения второго преобразователя, определенного длиной подчасти или сравнительно низкого значения временного разрешения, определенного длиной подчасти, умноженной на целочисленное значение большее чем один.5. The audio encoder according to claim 4, wherein the first processing channel includes an ACELP encoder (526), in which the second processing channel includes MDCT-TCX processing units (527), in which the audio signal analyzer (300/525) is configured the ability to set a high value of the temporal resolution of the second converter, determined by the length of the sub-part or a relatively low value of the time resolution, determined by the length of the sub-part, multiplied by an integer value greater than one. 6. Аудио кодирующее устройство по п.1, в котором анализатор аудио сигнала (300, 525) выполнен с возможностью определить классификацию аудио сигнала в постоянном растре, покрывающем множество блоков аудиосэмплов одинакового размера, и выполнен с возможностью разделить блок на переменное число блоков в зависимости от аудио сигнала, где длина подблока определяет в первом случае временное/частотное разрешение или во втором случае частотное разрешение.6. The audio encoding device according to claim 1, in which the audio signal analyzer (300, 525) is configured to determine the classification of the audio signal in a constant raster covering a plurality of blocks of audio samples of the same size, and is configured to divide the block into a variable number of blocks depending from an audio signal, where the length of the sub-block determines in the first case the time / frequency resolution or in the second case the frequency resolution. 7. Аудио кодирующее устройство по п.1, в котором анализатор аудио сигнала (300, 525) выполнен с возможностью определения временного/частотного разрешения, чтобы выбрать из множества различных длин окон, по крайней мере, две различных длины из множества 2304, 2048, 256, 1920, 2160, 240 сэмплов, или выбрать из различных длин преобразования различные длины преобразования, включающие, по крайней мере, две из множества, состоящего из 1152, 1024, 1080, 960, 128, 120 коэффициентов блока преобразования, или в котором анализатор аудио сигнала (300, 525) выполнен с возможностью определения временного/частотного разрешения второго преобразователя как одного из множества различных длин окна, множества различных длин окна, являющимся, по крайней мере, двумя из 640, 1152, 2304, 512, 1024 или 2048 сэмплов, или как одного из множества различных длин преобразования, различные длины преобразования, включающие, по крайней мере, две из множества, состоящего из 320, 576, 1152, 256, 512, 1024 спектральных коэффициентов блока преобразования.7. The audio encoding device according to claim 1, wherein the audio signal analyzer (300, 525) is configured to determine a time / frequency resolution to select from at least two different lengths of the set of different window lengths from the set of 2304, 2048, 256, 1920, 2160, 240 samples, or choose from different transform lengths different transform lengths, including at least two of the set consisting of 1152, 1024, 1080, 960, 128, 120 coefficients of the transform block, or in which the analyzer the audio signal (300, 525) is configured to the time / frequency resolution of the second converter as one of many different window lengths, many different window lengths, which are at least two of 640, 1152, 2304, 512, 1024 or 2048 samples, or as one of many different conversion lengths, various transform lengths, including at least two of the set consisting of 320, 576, 1152, 256, 512, 1024 spectral coefficients of the transform block. 8. Аудио кодирующее устройство по п.1, в котором второй канал кодирования включает первый канал обработки (522) для того, чтобы обработать аудио сигнал;
второй канал обработки, включающий второй преобразователь; и
далее переключатель (521) для того, чтобы переключиться между первым каналом обработки (522) и вторым каналом обработки (523, 524) так, чтобы для части входного аудио сигнала во второй канал кодирования или первый обработанный аудио сигнал или второй обработанный аудио сигнал были во втором кодированном аудио сигнале.
8. The audio encoder according to claim 1, wherein the second encoding channel includes a first processing channel (522) in order to process the audio signal;
a second processing channel including a second converter; and
further a switch (521) in order to switch between the first processing channel (522) and the second processing channel (523, 524) so that for a part of the input audio signal into the second encoding channel or the first processed audio signal or the second processed audio signal second encoded audio signal.
9. Способ аудио кодирования аудио сигнала, включающий кодирование в первом канале кодирования (400) аудио сигнала, используя первый кодирующий алгоритм, для получения первого кодируемого аудио сигнала, первый канал кодирования, включающий первый преобразователь время/частота(410) для того, чтобы преобразовать входной аудио сигнал в спектральную область;
кодирование во втором канале кодирования (500) аудио сигнала, используя второй кодирующий алгоритм, чтобы получить второй кодированный аудио сигнал, где первый кодирующий алгоритм отличается от второго кодирующего алгоритма, второй канал кодирования, включающий преобразователь области для того, чтобы преобразовать входной аудио сигнал из входной области в выходную область, и второй преобразователь (523) для того, чтобы преобразовать входной аудио сигнал в спектральную область;
переключение (200) между первым каналом кодирования и вторым каналом кодирования так, чтобы для части входного аудио сигнала в выходном аудио сигнале были или первый кодированный аудио сигнал, или второй кодированный аудио сигнал кодирующего устройства;
анализ (300, 525) части аудио сигнала, чтобы определить, представлена ли часть аудио сигнала как первый кодированный аудио сигнал или второй кодированный аудио сигнал в выходном аудио сигнале кодирующего устройства,
определение соответствующего непостоянного разрешения времени/частоты первого преобразователя и второго преобразователя, когда сформированы первый кодированный аудио сигнал или второй кодированный аудио сигнал, представляющие часть сформированного аудио сигнала; и
формирование (800) выходного аудио сигнала кодирующего устройства, включающего первый кодированный аудио сигнал и второй кодированный аудио сигнал и информацию, указывающую на первый кодированный аудио сигнал и второй кодированный аудио сигнал, и информацию, указывающую на разрешение времени/частоты, примененную для кодирования первого закодированного аудио сигнала и для того, чтобы кодировать второй закодированный аудио сигнал.
9. A method of audio encoding an audio signal, including encoding an audio signal in a first encoding channel (400) using a first encoding algorithm to obtain a first encoded audio signal, a first encoding channel including a first time / frequency converter (410) in order to convert input audio signal in the spectral region;
encoding an audio signal in a second encoding channel (500) using a second encoding algorithm to obtain a second encoded audio signal, where the first encoding algorithm is different from the second encoding algorithm, a second encoding channel including a region converter in order to convert the input audio signal from the input region into the output region, and the second Converter (523) in order to convert the input audio signal into a spectral region;
switching (200) between the first coding channel and the second coding channel so that for a part of the input audio signal, either the first encoded audio signal or the second encoded audio signal of the encoder in the audio output signal;
analyzing (300, 525) the portion of the audio signal to determine whether the portion of the audio signal is represented as a first encoded audio signal or a second encoded audio signal in the audio output of the encoder,
determining an appropriate non-constant time / frequency resolution of the first converter and the second converter when the first encoded audio signal or the second encoded audio signal representing a part of the generated audio signal is generated; and
generating (800) an output audio signal of an encoder including a first encoded audio signal and a second encoded audio signal and information indicative of a first encoded audio signal and a second encoded audio signal, and information indicative of a time / frequency resolution used to encode the first encoded audio signal and in order to encode a second encoded audio signal.
10. Аудио декодер для того, чтобы декодировать кодированный аудио сигнал, включающий первый кодированный аудио сигнал, второй кодированный аудио сигнал, признак, указывающий на первый кодированный аудио сигнал и второй кодированный аудио сигнал, и информацию о разрешении времени/частоты, которая будет использоваться для того, чтобы декодировать первый кодированный аудио сигнал и второй кодированный аудио сигнал, аудио декодер включает
первый канал декодирования (431, 440) для того, чтобы декодировать первый кодированный аудио сигнал, используя первый управляемый преобразователь частота/время (440), первый управляемый преобразователь частота/время, выполненный с возможностью управления с использованием информации о разрешении времени/частоты для первого кодированного аудио сигнала, чтобы получить первый декодированный аудио сигнал;
второй канал декодирования для того, чтобы декодировать второй кодированный аудио сигнал, используя второй управляемый преобразователь частота/время (534), второй управляемый преобразователь частота/время (534), выполненный с возможностью управления с использованием информации о разрешении времени/частоты для второго кодированного аудио сигнала;
контроллер (990) для того, чтобы управлять первым преобразователем частота/время (440) и вторым преобразователем частота/время (534), используя информацию о разрешении времени/частоты;
преобразователь области (540) для того, чтобы сформировать синтезированный аудио сигнал, используя второй декодированный аудио сигнал; и
объединитель (604) для того, чтобы объединить первый декодированный аудио сигнал и синтезированный аудио сигнал, чтобы получить декодированный аудио сигнал.
10. An audio decoder for decoding an encoded audio signal including a first encoded audio signal, a second encoded audio signal, a flag indicating a first encoded audio signal and a second encoded audio signal, and time / frequency resolution information to be used for in order to decode the first encoded audio signal and the second encoded audio signal, the audio decoder includes
the first decoding channel (431, 440) in order to decode the first encoded audio signal using the first controllable frequency / time converter (440), the first controllable frequency / time converter configured to control using time / frequency resolution information for the first an encoded audio signal to obtain a first decoded audio signal;
a second decoding channel in order to decode the second encoded audio signal using a second controlled frequency / time converter (534), a second controlled frequency / time converter (534) configured to control using time / frequency resolution information for the second encoded audio signal;
a controller (990) for controlling the first frequency / time converter (440) and the second frequency / time converter (534) using time / frequency resolution information;
a region converter (540) in order to generate a synthesized audio signal using a second decoded audio signal; and
combiner (604) in order to combine the first decoded audio signal and the synthesized audio signal to obtain a decoded audio signal.
11. Аудио декодер по п.10, в котором контроллер (990) выполнен с возможностью управления первым преобразователем частота/время (440) и вторым конвертером преобразователем частота/время (534) так, чтобы для первого преобразователя частота/время (440) разрешение времени/частоты выбиралось из множества различных длин окна, различные длины окна, являющиеся, по крайней мере, двумя из 2304, 2048, 256, 1920, 2160, 240 сэмплов, или выбиралось из множества различных длин преобразования, различные длины преобразования, включающие, по крайней мере, две из группы, состоящей из 1152, 1024, 1080, 960, 128, 120 коэффициентов блока преобразования, или для второго преобразователя частота/время (534) разрешение времени/частоты выбиралось как одно из множества различных длин окна, множества различных длин окна, являющихся, по крайней мере, двумя из 640, 1152, 2304, 512, 1024 или 2048 сэмплов, или выбиралось из множества различных длин преобразования, различные длины преобразования, включающие, по крайней мере, две из группы, состоящей из 320, 576, 1152, 256, 512, 1024 спектральных коэффициентов блока преобразования.11. The audio decoder of claim 10, in which the controller (990) is configured to control the first frequency / time converter (440) and the second converter the frequency / time converter (534) so that for the first frequency / time converter (440) resolution time / frequency was selected from many different window lengths, different window lengths, which are at least two of 2304, 2048, 256, 1920, 2160, 240 samples, or selected from many different conversion lengths, various conversion lengths, including at least two of the group consisting of and 1152, 1024, 1080, 960, 128, 120 coefficients of the conversion unit, or for the second frequency / time converter (534), the time / frequency resolution was selected as one of many different window lengths, many different window lengths, which are at least two from 640, 1152, 2304, 512, 1024 or 2048 samples, or was chosen from a variety of different conversion lengths, various conversion lengths, including at least two from the group consisting of 320, 576, 1152, 256, 512, 1024 spectral conversion block coefficients. 12. Аудио декодер по п.10, в котором второй канал декодирования включает первый обратный канал обработки (531) для обратной обработки первого обработанного аудио сигнала, который дополнительно включен в кодированный аудио сигнал, чтобы получить первый обратно обработанный аудио сигнал;
где второй управляемый преобразователь частота/время (534) расположен во втором обратном канале обработки, выполненном с возможностью инверсии обработки второго кодированного аудио сигнала в области идентичной области первого обратно обработанного аудио сигнала, чтобы получить второй обратно обработанный аудио сигнал;
дальнейший объединитель (532) для того, чтобы объединить первый обратно обработанный аудио сигнал и второй обратно обработанный аудио сигнал, чтобы получить объединенный аудио сигнал; и
где объединенный аудио сигнал поступает в объединитель (600).
12. The audio decoder of claim 10, wherein the second decoding channel includes a first reverse processing channel (531) for reverse processing the first processed audio signal, which is further included in the encoded audio signal to obtain a first back-processed audio signal;
where the second controlled frequency / time converter (534) is located in the second reverse processing channel, configured to invert the processing of the second encoded audio signal in an area identical to the region of the first back-processed audio signal to obtain a second back-processed audio signal;
a further combiner (532) in order to combine the first back-processed audio signal and the second back-processed audio signal to obtain a combined audio signal; and
where the combined audio signal enters the combiner (600).
13. Аудио декодер по п.10, где первый преобразователь частота/время (440) и второй преобразователь частота/время являются преобразователями с отменой совмещения во временной области, имеющие блок перекрытия/сложения (440 с) для того, чтобы отменить совмещение во временной области, включенное в первый кодированный аудио сигнал и во второй кодированный аудио сигнал.13. The audio decoder of claim 10, where the first frequency / time converter (440) and the second frequency / time converter are time-alignment converters having an overlap / addition unit (440 s) in order to cancel time-alignment areas included in the first encoded audio signal and in the second encoded audio signal. 14. Аудио декодер по п.10, в котором кодированный аудио сигнал включает кодированную идентификацию информации о способе, является ли кодируемый аудио сигнал первым кодированным аудио сигналом или вторым кодированным аудио сигналом, и
где декодер далее включает входной интерфейс (900) для того, чтобы интерпретировать кодированную информацию о способе, чтобы определить, должен ли кодированный аудио сигнал подаваться в первый канал декодирования или во второй канал декодирования.
14. The audio decoder of claim 10, wherein the encoded audio signal includes an encoded identification of method information, whether the encoded audio signal is a first encoded audio signal or a second encoded audio signal, and
where the decoder further includes an input interface (900) in order to interpret the encoded method information to determine whether the encoded audio signal should be supplied to the first decoding channel or to the second decoding channel.
15. Аудио декодер по п.1, в котором первый кодированный аудио сигнал закодирован арифметически и где первый канал кодирования включает арифметический декодер.15. The audio decoder according to claim 1, wherein the first encoded audio signal is arithmetically encoded and where the first encoding channel includes an arithmetic decoder. 16. Аудио декодер по п.1, в котором первый канал кодирования включает деквантизатор, имеющий неоднородную характеристику деквантизации для того, чтобы аннулировать результат неоднородной квантизации, примененной при формировании первого кодированного аудио сигнала, где второй канал кодирования включает деквантизатор, в котором используются другие характеристики деквантизации, или где второй канал кодирования не включает деквантизатор.16. The audio decoder according to claim 1, in which the first coding channel includes a decanter having a non-uniform de-quantization characteristic in order to cancel the result of the non-uniform quantization applied in generating the first encoded audio signal, where the second coding channel includes a de-quantizer using other characteristics dequantization, or where the second coding channel does not include the dequantizer. 17. Аудио декодер по п.1, в котором контроллер (990) выполнен с возможностью управления первым преобразователем частота/время и вторым преобразователем частота/время, применяя для каждого преобразователя дискретное разрешение частоты/времени из числа возможных различных дискретных разрешений частоты/времени, число возможных различных разрешений частоты/времени, являющееся большим для второго преобразователя по сравнению с числом возможных различных разрешений частоты/времени для первого преобразователя.17. The audio decoder according to claim 1, in which the controller (990) is configured to control the first frequency / time converter and the second frequency / time converter, applying for each converter a discrete frequency / time resolution from among various different discrete frequency / time resolutions, the number of possible different frequency / time resolutions, which is large for the second converter, compared to the number of possible different frequency / time resolutions for the first converter. 18. Аудио декодер по п.10, в котором преобразователь области является процессором LPC синтеза (544), формирующим синтезированный аудио сигнал, используя информацию о фильтре LPC, информация о фильтре LPC, включаемая в кодированный аудио сигнал.18. The audio decoder of claim 10, wherein the region converter is an LPC synthesis processor (544) that generates a synthesized audio signal using LPC filter information, LPC filter information included in the encoded audio signal. 19. Способ аудио декодирования кодированного аудио сигнала, кодированного аудио сигнала, включающего первый кодированный аудио сигнал, второй кодированный аудио сигнал, признак, указывающий на первый кодированный аудио сигнал и второй кодированный аудио сигнал, и информацию о разрешении времени/частоты, которая будет использоваться для того, чтобы декодировать первый кодированный аудио сигнал и второй кодированный аудио сигнал, включающий декодирование первым каналом декодирования (431, 440) первого кодированного аудио сигнала с использованием первого управляемого преобразователя частота/время (440), первый управляемый преобразователь частота/время, выполненный с возможностью управления с использованием информации о разрешении времени/частоты для первого кодированного аудио сигнала, чтобы получить первый декодированный аудио сигнал;
декодирование вторым каналом декодирования второго кодированного аудио сигнала с использованием второго управляемого преобразователя частота/время (534), второй управляемый преобразователь частота/время (534), выполненный с возможностью управления с использованием информации о разрешении времени/частоты для второго кодированного аудио сигнала;
управление (990) первым преобразователем частота/время (440) и вторым преобразователем частота/время (534) с использованием информации о разрешении времени/частоты;
формирование (540) преобразователем области синтезированного аудио сигнала с использованием второго декодированного аудио сигнала; и
объединение (604) первого декодированного аудио сигнала и синтезированного аудио сигнала, чтобы получить декодированный аудио сигнал.
19. A method for audio decoding an encoded audio signal, an encoded audio signal including a first encoded audio signal, a second encoded audio signal, a flag indicative of a first encoded audio signal and a second encoded audio signal, and time / frequency resolution information to be used for to decode the first encoded audio signal and the second encoded audio signal, including decoding the first decoding channel (431, 440) of the first encoded audio signal using the first controlled frequency / time converter (440), the first controlled frequency / time converter configured to control using time / frequency resolution information for the first encoded audio signal to obtain a first decoded audio signal;
decoding a second decoding channel of a second encoded audio signal using a second controlled frequency / time converter (534), a second controlled frequency / time converter (534) configured to control using time / frequency resolution information for the second encoded audio signal;
controlling (990) a first frequency / time converter (440) and a second frequency / time converter (534) using time / frequency resolution information;
generating (540) a converter of a region of synthesized audio signal using a second decoded audio signal; and
combining (604) a first decoded audio signal and a synthesized audio signal to obtain a decoded audio signal.
20. Считываемый компьютером носитель, содержащий записанную на нем программу, которая побуждает процессор компьютера осуществлять этапы способа по п.9.20. A computer-readable medium comprising a program recorded thereon, which causes the computer processor to carry out the steps of the method of claim 9. 21. Считываемый компьютером носитель, содержащий записанную на нем программу, которая побуждает процессор компьютера осуществлять этапы способа по п.19. 21. A computer-readable medium comprising a program recorded thereon, which causes the computer processor to carry out the steps of the method of claim 19.
RU2011117699/08A 2008-10-08 2009-10-07 Multi-resolution switched audio encoding/decoding scheme RU2520402C2 (en)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US10382508P 2008-10-08 2008-10-08
EP08017663.9 2008-10-08
EP08017663 2008-10-08
US61/103,825 2008-10-08
EP09002271.6 2009-02-18
EP09002271A EP2144230A1 (en) 2008-07-11 2009-02-18 Low bitrate audio encoding/decoding scheme having cascaded switches
PCT/EP2009/007205 WO2010040522A2 (en) 2008-10-08 2009-10-07 Multi-resolution switched audio encoding/decoding scheme

Publications (2)

Publication Number Publication Date
RU2011117699A RU2011117699A (en) 2012-11-10
RU2520402C2 true RU2520402C2 (en) 2014-06-27

Family

ID=42101010

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2011117699/08A RU2520402C2 (en) 2008-10-08 2009-10-07 Multi-resolution switched audio encoding/decoding scheme

Country Status (14)

Country Link
EP (2) EP3640941A1 (en)
JP (1) JP5555707B2 (en)
KR (3) KR20130069833A (en)
CN (1) CN102177426B (en)
AR (1) AR076060A1 (en)
BR (1) BRPI0914056B1 (en)
CA (1) CA2739736C (en)
CO (1) CO6362072A2 (en)
MX (1) MX2011003824A (en)
MY (1) MY154633A (en)
RU (1) RU2520402C2 (en)
TW (2) TWI419148B (en)
WO (1) WO2010040522A2 (en)
ZA (1) ZA201102537B (en)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2654160C1 (en) * 2015-12-23 2018-05-16 Сяоми Инк. Audio signals reproduction method and device
US10056089B2 (en) 2014-07-28 2018-08-21 Huawei Technologies Co., Ltd. Audio coding method and related apparatus
RU2677385C2 (en) * 2014-07-28 2019-01-16 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Processing device, method and computer program for processing of sound signal using truncated part of overlapping window analysis or synthesis
RU2687872C1 (en) * 2015-12-14 2019-05-16 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Device and method for processing coded sound signal
RU2701060C2 (en) * 2014-09-30 2019-09-24 Сони Корпорейшн Transmitting device, transmission method, receiving device and reception method
RU2729603C2 (en) * 2015-09-25 2020-08-11 Войсэйдж Корпорейшн Method and system for encoding a stereo audio signal using primary channel encoding parameters for encoding a secondary channel
RU2738323C1 (en) * 2017-11-10 2020-12-11 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Signal filtering
US11043226B2 (en) 2017-11-10 2021-06-22 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
US11127408B2 (en) 2017-11-10 2021-09-21 Fraunhofer—Gesellschaft zur F rderung der angewandten Forschung e.V. Temporal noise shaping
US11217261B2 (en) 2017-11-10 2022-01-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding audio signals
US11315583B2 (en) 2017-11-10 2022-04-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US11315580B2 (en) 2017-11-10 2022-04-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
US11380341B2 (en) 2017-11-10 2022-07-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
RU2779265C2 (en) * 2017-12-19 2022-09-05 Долби Интернэшнл Аб Methods, devices and systems for improvement of unified decoding and coding of speech and audio
US11462226B2 (en) 2017-11-10 2022-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
US11532316B2 (en) 2017-12-19 2022-12-20 Dolby International Ab Methods and apparatus systems for unified speech and audio decoding improvements
US11562754B2 (en) 2017-11-10 2023-01-24 Fraunhofer-Gesellschaft Zur F Rderung Der Angewandten Forschung E.V. Analysis/synthesis windowing function for modulated lapped transformation

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2460158A4 (en) 2009-07-27 2013-09-04 A method and an apparatus for processing an audio signal
EP2478520A4 (en) * 2009-09-17 2013-08-28 Univ Yonsei Iacf A method and an apparatus for processing an audio signal
WO2011147950A1 (en) * 2010-05-28 2011-12-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low-delay unified speech and audio codec
US9275650B2 (en) 2010-06-14 2016-03-01 Panasonic Corporation Hybrid audio encoder and hybrid audio decoder which perform coding or decoding while switching between different codecs
HUE039862T2 (en) 2010-07-02 2019-02-28 Dolby Int Ab Audio decoding with selective post filtering
PT3751564T (en) * 2010-07-20 2023-01-06 Fraunhofer Ges Forschung Audio encoder, audio decoder, method for encoding and audio information, method for decoding an audio information and computer program using an optimized hash table
RU2560788C2 (en) 2011-02-14 2015-08-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Device and method for processing of decoded audio signal in spectral band
CN105304090B (en) 2011-02-14 2019-04-09 弗劳恩霍夫应用研究促进协会 Using the prediction part of alignment by audio-frequency signal coding and decoded apparatus and method
JP5849106B2 (en) 2011-02-14 2016-01-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン Apparatus and method for error concealment in low delay integrated speech and audio coding
PT2676270T (en) 2011-02-14 2017-05-02 Fraunhofer Ges Forschung Coding a portion of an audio signal using a transient detection and a quality result
JP5625126B2 (en) 2011-02-14 2014-11-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン Linear prediction based coding scheme using spectral domain noise shaping
TWI488176B (en) * 2011-02-14 2015-06-11 Fraunhofer Ges Forschung Encoding and decoding of pulse positions of tracks of an audio signal
MX2013009305A (en) 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Noise generation in audio codecs.
JP5800915B2 (en) 2011-02-14 2015-10-28 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ Encoding and decoding the pulse positions of tracks of audio signals
SG185519A1 (en) 2011-02-14 2012-12-28 Fraunhofer Ges Forschung Information signal representation using lapped transform
TWI480857B (en) 2011-02-14 2015-04-11 Fraunhofer Ges Forschung Audio codec using noise synthesis during inactive phases
EP2700072A4 (en) 2011-04-21 2016-01-20 Samsung Electronics Co Ltd Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefor
RU2619710C2 (en) 2011-04-21 2017-05-17 Самсунг Электроникс Ко., Лтд. Method of encoding coefficient quantization with linear prediction, sound encoding method, method of decoding coefficient quantization with linear prediction, sound decoding method and record medium
CN106157968B (en) * 2011-06-30 2019-11-29 三星电子株式会社 For generating the device and method of bandwidth expansion signal
CN104040624B (en) 2011-11-03 2017-03-01 沃伊斯亚吉公司 Improve the non-voice context of low rate code Excited Linear Prediction decoder
US9043201B2 (en) * 2012-01-03 2015-05-26 Google Technology Holdings LLC Method and apparatus for processing audio frames to transition between different codecs
US9489962B2 (en) * 2012-05-11 2016-11-08 Panasonic Corporation Sound signal hybrid encoder, sound signal hybrid decoder, sound signal encoding method, and sound signal decoding method
EP3933836A1 (en) 2012-11-13 2022-01-05 Samsung Electronics Co., Ltd. Method and apparatus for determining encoding mode, method and apparatus for encoding audio signals, and method and apparatus for decoding audio signals
BR112015014212B1 (en) * 2012-12-21 2021-10-19 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. GENERATION OF A COMFORT NOISE WITH HIGH SPECTRO-TEMPORAL RESOLUTION IN DISCONTINUOUS TRANSMISSION OF AUDIO SIGNALS
WO2014096280A1 (en) 2012-12-21 2014-06-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Comfort noise addition for modeling background noise at low bit-rates
CN103915100B (en) * 2013-01-07 2019-02-15 中兴通讯股份有限公司 A kind of coding mode switching method and apparatus, decoding mode switching method and apparatus
JP6218855B2 (en) * 2013-01-29 2017-10-25 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. AUDIO ENCODER, AUDIO DECODER, SYSTEM, METHOD, AND COMPUTER PROGRAM USING INCREASED TEMPERATURE RESOLUTION IN TEMPERATURE PROXIMITY OF ON-SET OR OFFSET OF FLUSION OR BRUSTING
EP3451334B1 (en) 2013-01-29 2020-04-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Noise filling concept
MX346945B (en) 2013-01-29 2017-04-06 Fraunhofer Ges Forschung Apparatus and method for generating a frequency enhancement signal using an energy limitation operation.
JP6253674B2 (en) 2013-01-29 2017-12-27 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ Apparatus and method for processing an encoded signal, and encoder and method for generating an encoded signal
JP6181773B2 (en) 2013-01-29 2017-08-16 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン Noise filling without side information for CELP coder
WO2014159898A1 (en) 2013-03-29 2014-10-02 Dolby Laboratories Licensing Corporation Methods and apparatuses for generating and using low-resolution preview tracks with high-quality encoded object and multichannel audio signals
EP2804176A1 (en) 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
EP3605532B1 (en) 2013-05-24 2021-09-29 Dolby International AB Audio encoder
EP2830058A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
TWI557726B (en) * 2013-08-29 2016-11-11 杜比國際公司 System and method for determining a master scale factor band table for a highband signal of an audio signal
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP3067886A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
KR102398124B1 (en) * 2015-08-11 2022-05-17 삼성전자주식회사 Adaptive processing of audio data
US10134412B2 (en) * 2015-09-03 2018-11-20 Shure Acquisition Holdings, Inc. Multiresolution coding and modulation system
US9959877B2 (en) * 2016-03-18 2018-05-01 Qualcomm Incorporated Multi channel coding
EP3443557B1 (en) * 2016-04-12 2020-05-20 Fraunhofer Gesellschaft zur Förderung der Angewand Audio encoder for encoding an audio signal, method for encoding an audio signal and computer program under consideration of a detected peak spectral region in an upper frequency band
US10362423B2 (en) * 2016-10-13 2019-07-23 Qualcomm Incorporated Parametric audio decoding
CN107404625B (en) * 2017-07-18 2020-10-16 海信视像科技股份有限公司 Sound effect processing method and device of terminal
US10957331B2 (en) * 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder
US10847172B2 (en) 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder
CN113574889B (en) * 2019-03-14 2024-01-12 北京字节跳动网络技术有限公司 Signaling and syntax of loop shaping information
US20230179764A1 (en) * 2021-12-06 2023-06-08 Tencent America LLC Arrangement of adaptive loop filter coefficients for fast vectorized transpositions

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2214047C2 (en) * 1997-11-19 2003-10-10 Самсунг Электроникс Ко., Лтд. Method and device for scalable audio-signal coding/decoding
EP1396844A1 (en) * 2002-09-04 2004-03-10 Microsoft Corporation Unified lossy and lossless audio compression
RU2005135650A (en) * 2003-04-17 2006-03-20 Конинклейке Филипс Электроникс Н.В. (Nl) AUDIO SYNTHESIS

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3317470B2 (en) * 1995-03-28 2002-08-26 日本電信電話株式会社 Audio signal encoding method and audio signal decoding method
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5848391A (en) * 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
DE19706516C1 (en) * 1997-02-19 1998-01-15 Fraunhofer Ges Forschung Encoding method for discrete signals and decoding of encoded discrete signals
JP3211762B2 (en) * 1997-12-12 2001-09-25 日本電気株式会社 Audio and music coding
ES2247741T3 (en) * 1998-01-22 2006-03-01 Deutsche Telekom Ag SIGNAL CONTROLLED SWITCHING METHOD BETWEEN AUDIO CODING SCHEMES.
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6963842B2 (en) * 2001-09-05 2005-11-08 Creative Technology Ltd. Efficient system and method for converting between different transform-domain signal representations
DE10217297A1 (en) * 2002-04-18 2003-11-06 Fraunhofer Ges Forschung Device and method for coding a discrete-time audio signal and device and method for decoding coded audio data
US7043423B2 (en) * 2002-07-16 2006-05-09 Dolby Laboratories Licensing Corporation Low bit-rate audio coding systems and methods that use expanding quantizers with arithmetic coding
JP2007506986A (en) * 2003-09-17 2007-03-22 北京阜国数字技術有限公司 Multi-resolution vector quantization audio CODEC method and apparatus
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
FI118835B (en) * 2004-02-23 2008-03-31 Nokia Corp Select end of a coding model
US7596486B2 (en) * 2004-05-19 2009-09-29 Nokia Corporation Encoding an audio signal using different audio coder modes
US8744862B2 (en) * 2006-08-18 2014-06-03 Digital Rise Technology Co., Ltd. Window selection based on transient detection and location to provide variable time resolution in processing frame-based data
US20090281812A1 (en) * 2006-01-18 2009-11-12 Lg Electronics Inc. Apparatus and Method for Encoding and Decoding Signal
CN102395033B (en) * 2006-12-12 2014-08-27 弗劳恩霍夫应用研究促进协会 Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream
KR100883656B1 (en) * 2006-12-28 2009-02-18 삼성전자주식회사 Method and apparatus for discriminating audio signal, and method and apparatus for encoding/decoding audio signal using it

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2214047C2 (en) * 1997-11-19 2003-10-10 Самсунг Электроникс Ко., Лтд. Method and device for scalable audio-signal coding/decoding
EP1396844A1 (en) * 2002-09-04 2004-03-10 Microsoft Corporation Unified lossy and lossless audio compression
RU2005135650A (en) * 2003-04-17 2006-03-20 Конинклейке Филипс Электроникс Н.В. (Nl) AUDIO SYNTHESIS

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10706866B2 (en) 2014-07-28 2020-07-07 Huawei Technologies Co., Ltd. Audio signal encoding method and mobile phone
US10056089B2 (en) 2014-07-28 2018-08-21 Huawei Technologies Co., Ltd. Audio coding method and related apparatus
RU2677385C2 (en) * 2014-07-28 2019-01-16 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Processing device, method and computer program for processing of sound signal using truncated part of overlapping window analysis or synthesis
US10262666B2 (en) 2014-07-28 2019-04-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions
US10269366B2 (en) 2014-07-28 2019-04-23 Huawei Technologies Co., Ltd. Audio coding method and related apparatus
US11664036B2 (en) 2014-07-28 2023-05-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Processor and method for processing an audio signal using truncated analysis or synthesis window overlap portions
US10902861B2 (en) 2014-07-28 2021-01-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Processor and method for processing an audio signal using truncated analysis or synthesis window overlap portions
US10504534B2 (en) 2014-07-28 2019-12-10 Huawei Technologies Co., Ltd. Audio coding method and related apparatus
RU2701060C2 (en) * 2014-09-30 2019-09-24 Сони Корпорейшн Transmitting device, transmission method, receiving device and reception method
RU2729603C2 (en) * 2015-09-25 2020-08-11 Войсэйдж Корпорейшн Method and system for encoding a stereo audio signal using primary channel encoding parameters for encoding a secondary channel
US10839813B2 (en) 2015-09-25 2020-11-17 Voiceage Corporation Method and system for decoding left and right channels of a stereo sound signal
RU2765565C2 (en) * 2015-09-25 2022-02-01 Войсэйдж Корпорейшн Method and system for encoding stereophonic sound signal using encoding parameters of primary channel to encode secondary channel
US11056121B2 (en) 2015-09-25 2021-07-06 Voiceage Corporation Method and system for encoding left and right channels of a stereo sound signal selecting between two and four sub-frames models depending on the bit budget
US10984806B2 (en) 2015-09-25 2021-04-20 Voiceage Corporation Method and system for encoding a stereo sound signal using coding parameters of a primary channel to encode a secondary channel
US11100939B2 (en) 2015-12-14 2021-08-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an encoded audio signal by a mapping drived by SBR from QMF onto MCLT
RU2687872C1 (en) * 2015-12-14 2019-05-16 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Device and method for processing coded sound signal
US11862184B2 (en) 2015-12-14 2024-01-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an encoded audio signal by upsampling a core audio signal to upsampled spectra with higher frequencies and spectral width
RU2654160C1 (en) * 2015-12-23 2018-05-16 Сяоми Инк. Audio signals reproduction method and device
US11380339B2 (en) 2017-11-10 2022-07-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US11545167B2 (en) 2017-11-10 2023-01-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
US11315583B2 (en) 2017-11-10 2022-04-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US11315580B2 (en) 2017-11-10 2022-04-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
US11380341B2 (en) 2017-11-10 2022-07-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
US11043226B2 (en) 2017-11-10 2021-06-22 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
US11386909B2 (en) 2017-11-10 2022-07-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US11127408B2 (en) 2017-11-10 2021-09-21 Fraunhofer—Gesellschaft zur F rderung der angewandten Forschung e.V. Temporal noise shaping
US11462226B2 (en) 2017-11-10 2022-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
US11217261B2 (en) 2017-11-10 2022-01-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding audio signals
RU2738323C1 (en) * 2017-11-10 2020-12-11 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Signal filtering
US11562754B2 (en) 2017-11-10 2023-01-24 Fraunhofer-Gesellschaft Zur F Rderung Der Angewandten Forschung E.V. Analysis/synthesis windowing function for modulated lapped transformation
US11532316B2 (en) 2017-12-19 2022-12-20 Dolby International Ab Methods and apparatus systems for unified speech and audio decoding improvements
RU2779265C2 (en) * 2017-12-19 2022-09-05 Долби Интернэшнл Аб Methods, devices and systems for improvement of unified decoding and coding of speech and audio

Also Published As

Publication number Publication date
EP2345030A2 (en) 2011-07-20
TWI419148B (en) 2013-12-11
CA2739736C (en) 2015-12-01
ZA201102537B (en) 2011-12-28
MX2011003824A (en) 2011-05-02
RU2011117699A (en) 2012-11-10
KR20130133917A (en) 2013-12-09
JP5555707B2 (en) 2014-07-23
EP3640941A1 (en) 2020-04-22
CN102177426A (en) 2011-09-07
AU2009301358A1 (en) 2010-04-15
TWI520128B (en) 2016-02-01
CA2739736A1 (en) 2010-04-15
BRPI0914056A2 (en) 2015-11-03
WO2010040522A2 (en) 2010-04-15
JP2012505423A (en) 2012-03-01
AU2009301358A8 (en) 2011-05-26
KR20110081291A (en) 2011-07-13
KR20130069833A (en) 2013-06-26
TW201344679A (en) 2013-11-01
TW201142827A (en) 2011-12-01
CN102177426B (en) 2014-11-05
MY154633A (en) 2015-07-15
WO2010040522A3 (en) 2010-09-02
AR076060A1 (en) 2011-05-18
KR101403115B1 (en) 2014-06-27
CO6362072A2 (en) 2012-01-20
BRPI0914056B1 (en) 2019-07-02

Similar Documents

Publication Publication Date Title
US11676611B2 (en) Audio decoding device and method with decoding branches for decoding audio signal encoded in a plurality of domains
RU2520402C2 (en) Multi-resolution switched audio encoding/decoding scheme
EP2146344B1 (en) Audio encoding/decoding scheme having a switchable bypass
KR101346894B1 (en) Audio encoder/decoder, encoding/decoding method, and recording medium
AU2009301358B2 (en) Multi-resolution switched audio encoding/decoding scheme