ES2741963T3 - Audio signal encoders, methods for encoding an audio signal and software - Google Patents

Audio signal encoders, methods for encoding an audio signal and software Download PDF

Info

Publication number
ES2741963T3
ES2741963T3 ES11180988T ES11180988T ES2741963T3 ES 2741963 T3 ES2741963 T3 ES 2741963T3 ES 11180988 T ES11180988 T ES 11180988T ES 11180988 T ES11180988 T ES 11180988T ES 2741963 T3 ES2741963 T3 ES 2741963T3
Authority
ES
Spain
Prior art keywords
audio signal
time
window function
signal
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES11180988T
Other languages
Spanish (es)
Inventor
Stefan Bayer
Sascha Disch
Ralf Geiger
Max Neuendorf
Gerald Schuller
Guillaume Fuchs
Bernd Edler
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2741963T3 publication Critical patent/ES2741963T3/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Geophysics And Detection Of Objects (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

Codificador de audio para generar una señal de audio codificada, que comprende: un analizador (516, 520) de señal de audio para analizar si un marco de tiempo de la señal de audio tiene una característica armónica o de expresión; un controlador (504) de función de ventana para seleccionar una función de ventana dependiendo de una característica armónica o de expresión de la señal de audio; un generador (502) de ventanas para generar ventanas de la señal de audio utilizando la función de ventana seleccionada para obtener un marco con ventanas; y un procesador (508, 512) para procesar adicionalmente el marco con ventanas para obtener la señal de audio codificada; en el que el controlador (504) de función de ventana comprende un detector (700) de transitorios para detectar un transitorio, en el que el controlador de función de ventana está configurado para conmutar de una función de ventana para un bloque grande a una función de ventana para un bloque corto, cuando un transitorio se detecta y el analizador (516, 520) de señal de audio no encuentra una característica armónica o de expresión, y para no conmutar a la función de ventana para el bloque corto, cuando se detecta un transitorio y el analizador (516, 520) de señal de audio encuentra una característica armónica o de expresión; y en el que el controlador (504) de función de ventana está configurado para conmutar de una función (706) de ventana que tiene una longitud de muestras 2048 como el bloque largo, pero que tiene una porción (708) cero y una porción (710) de no aliasing a una función (707) de ventana que es más larga que la función de ventana para un bloque corto y está adaptada para obtener una longitud (712) de superposición más corta con una ventana (706) previa que la función (714) de ventana para un bloque largo y que tiene una porción cero a la izquierda de una región (712) y una porción de no aliasing a la derecha de la región (712), cuando se detecta un transitorio y la señal tiene una característica armónica o de expresión, de modo que hay una porción de superposición entre 1/4 y 1/32 de la longitud de función de ventana completa.Audio encoder for generating an encoded audio signal, comprising: an audio signal analyzer (516, 520) for analyzing whether a time frame of the audio signal has a harmonic or expression characteristic; a window function controller (504) for selecting a window function depending on an harmonic or expression characteristic of the audio signal; a window generator (502) for generating windows of the audio signal using the selected window function to obtain a windowed frame; and a processor (508, 512) to further process the windowed frame to obtain the encoded audio signal; wherein the window function controller (504) comprises a transient detector (700) for detecting a transient, wherein the window function controller is configured to switch from a window function for a large block to a function window for a short block, when a transient is detected and the audio signal analyzer (516, 520) cannot find a harmonic or expression characteristic, and not to switch to the window function for the short block, when it is detected a transient and the audio signal analyzer (516, 520) finds a harmonic or expression characteristic; and wherein the window function controller (504) is configured to switch from a window function (706) that has a sample length 2048 as the long block, but that has a zero portion (708) and a portion ( 710) of not aliasing to a window function (707) that is longer than the window function for a short block and is adapted to obtain a shorter overlap length (712) with a window (706) prior to the function (714) window for a long block and having a zero portion to the left of a region (712) and a non-aliasing portion to the right of the region (712), when a transient is detected and the signal has a harmonic or expression characteristic, so there is an overlap portion between 1/4 and 1/32 of the full window function length.

Description

DESCRIPCIÓNDESCRIPTION

Codificadores de señal de audio, métodos para codificar una señal de audio y programas informáticosAudio signal encoders, methods for encoding an audio signal and software

La presente invención se refiere a codificación y decodificación de audio y específicamente a la codificación/decodificación de la señal de audio que tiene un contenido armónico o de expresión, el cual se puede someter a un procesamiento de distorsión (warp) de tiempo.The present invention relates to audio coding and decoding and specifically to the coding / decoding of the audio signal having a harmonic or expression content, which can be subjected to time warp distortion processing.

A continuación, se dará una breve introducción al campo de la codificación de audio distorsionado en el tiempo, cuyos conceptos se pueden aplicar en conjunto con algunas de las realizaciones de la invención.Next, a brief introduction to the field of time-distorted audio coding will be given, the concepts of which can be applied in conjunction with some of the embodiments of the invention.

En los últimos años, se han desarrollado técnicas para transformar una señal de audio en una representación de dominio de frecuencia, y para codificar con eficiencia esta representación de dominio de frecuencia, por ejemplo tomando en cuenta umbrales de enmascaramiento perceptual. Este concepto de codificación de señal de audio es particularmente eficiente si la longitud del bloque, para el cual se transmite un conjunto de coeficientes espectrales codificados, es larga, y si sólo un número relativamente pequeño de coeficientes espectrales están bien por encima del umbral de enmascaramiento global mientras que un gran número de coeficientes espectrales está cerca o por debajo del umbral de enmascaramiento global y de este modo puede ser insignificante (o codificado con la longitud de código mínima).In recent years, techniques have been developed to transform an audio signal into a frequency domain representation, and to efficiently encode this frequency domain representation, for example taking into account perceptual masking thresholds. This concept of audio signal coding is particularly efficient if the block length, for which a set of coded spectral coefficients is transmitted, is long, and if only a relatively small number of spectral coefficients are well above the masking threshold. global while a large number of spectral coefficients is near or below the global masking threshold and thus can be insignificant (or coded with the minimum code length).

Por ejemplo, las transformadas con superposición moduladas por seno o coseno a menudo se utilizan en aplicaciones para codificación de fuente debido a sus propiedades de compactación de energía. Es decir, para tonos armónicos con frecuencias fundamentales constantes (tono), éstas concentran la energía de señal hasta una número bajo de componentes espectrales (sub-bandas), lo cual conduce a una representación de señal eficiente. Se proporciona un ejemplo en “A Window Switching Algorithm for AVS Audio Coding” de Shuixian Et al., NETWORKING AND MOBILE COMPUTING, WICOM 2007, INTERNATIONAL CONFERENCE ON, IEEE, PISCATAWAY, NJ, EE.UU, 21 de septiembre de 2007”.For example, sine or cosine modulated overlay transforms are often used in applications for source coding due to their energy compaction properties. That is, for harmonic tones with constant fundamental frequencies (tone), they concentrate the signal energy to a low number of spectral components (sub-bands), which leads to an efficient signal representation. An example is provided in “A Window Switching Algorithm for AVS Audio Coding” by Shuixian Et al., NETWORKING AND MOBILE COMPUTING, WICOM 2007, INTERNATIONAL CONFERENCE ON, IEEE, PISCATAWAY, NJ, USA, September 21, 2007 ”.

En general, el tono (fundamental) de una señal se entenderá como la frecuencia dominante más baja que se distingue del espectro de la señal. En el modelo de expresión común, el tono es la frecuencia de la señal de la excitación modulada por la garganta humana. Si solo una frecuencia fundamental simple estuviera presente, el espectro sería extremadamente simple, comprendiendo la frecuencia fundamental y los sobretonos únicamente. Un espectro de este tipo podría codificarse en forma muy eficiente. Para señales con tono variable, sin embargo, la energía correspondiente a cada componente armónico se dispersa sobre varios coeficientes de transformación, conduciendo de este modo a una reducción de la eficiencia de codificación.In general, the (fundamental) tone of a signal will be understood as the lowest dominant frequency that is distinguished from the signal spectrum. In the common expression model, the tone is the frequency of the excitation signal modulated by the human throat. If only a simple fundamental frequency were present, the spectrum would be extremely simple, comprising the fundamental frequency and overtones only. Such a spectrum could be encoded very efficiently. For signals with variable tone, however, the energy corresponding to each harmonic component is dispersed over several transformation coefficients, thus leading to a reduction in coding efficiency.

A fin de solucionar esta reducción de la eficiencia de codificación, la señal de audio a ser codificada se re-muestrea en forma eficaz sobre una rejilla temporal no uniforme. En el procesamiento subsiguiente, las posiciones de muestra obtenidas por el re-muestreado no uniforme se procesan como si representaran los valores sobre una rejilla temporal uniforme. Esta operación normalmente se denota por la frase “distorsión de tiempo”. Los tiempos de muestra se pueden elegir en forma ventajosa dependiendo de la variación temporal del tono, de modo que una variación de tono en la versión de tiempo distorsionado de la señal de audio es más pequeña que una variante de tono en la versión original de la señal de audio (antes de la distorsión de tiempo). Esta variante de tono además puede denotarse con la frase “contorno de distorsión de tiempo”. Después de la distorsión de tiempo de la señal de audio, la versión distorsionada de tiempo de la señal de audio se convierte en el dominio de frecuencia. La distorsión de tiempo que depende del tono tiene el efecto de que la representación de dominio de frecuencia de la señal de audio distorsionada en el tiempo exhibe típicamente una compactación de energía en un número mucho más pequeño de componentes espectrales que una representación de dominio de frecuencia de la señal de audio original (sin distorsión de tiempo).In order to solve this reduction in coding efficiency, the audio signal to be encoded is effectively resampled on a non-uniform time grid. In subsequent processing, the sample positions obtained by non-uniform resampling are processed as if they represented the values on a uniform time grid. This operation is usually denoted by the phrase "time distortion." The sample times can be chosen advantageously depending on the temporal variation of the tone, so that a variation of tone in the distorted time version of the audio signal is smaller than a tone variant in the original version of the audio signal (before time distortion). This variant of tone can also be denoted by the phrase "time distortion contour". After the time distortion of the audio signal, the distorted time version of the audio signal becomes the frequency domain. The time-dependent distortion of the tone has the effect that the frequency domain representation of the time-distorted audio signal typically exhibits a compaction of energy in a much smaller number of spectral components than a frequency domain representation of the original audio signal (no time distortion).

En el lado del decodificador, la representación de dominio de frecuencia de la señal de audio distorsionada en el tiempo se retro convierte al dominio de tiempo, de modo que una representación de dominio de tiempo de la señal de audio distorsionada en el tiempo está disponible en el lado del decodificador. Sin embargo, en la representación de dominio de tiempo de la señal de audio distorsionada en el tiempo reconstruida en el lado del decodificador, las variaciones del tono original de la señal de audio de entrada por el lado del decodificador no se incluyen. En consecuencia, incluso se aplica otra distorsión de tiempo por el re-muestreado de la representación del dominio del tiempo reconstruido en el lado del decodificador de la señal de audio distorsionada en el tiempo. A fin de obtener una buena reconstrucción de la señal de audio de entrada por el lado del decodificador en el decodificador, se desea que la distorsión de tiempo del lado del decodificador sea al menos aproximadamente la operación inversa con respecto a la distorsión de tiempo del lado del decodificador. A fin de obtener una distorsión de tiempo apropiada, se desea tener información disponible en el decodificador lo cual permite un ajuste de la distorsión de tiempo en el lado del decodificador.On the decoder side, the frequency domain representation of the time distorted audio signal is converted back to the time domain, so that a time domain representation of the time distorted audio signal is available at The decoder side. However, in the time domain representation of the distorted audio signal in the reconstructed time on the decoder side, variations of the original tone of the input audio signal by the decoder side are not included. Consequently, another time distortion is even applied by the resampling of the reconstructed time domain representation on the decoder side of the time distorted audio signal. In order to obtain a good reconstruction of the input audio signal from the decoder side in the decoder, it is desired that the time distortion of the decoder side be at least approximately the inverse operation with respect to the side time distortion of the decoder. In order to obtain an appropriate time distortion, it is desired to have information available in the decoder which allows an adjustment of the time distortion on the decoder side.

Dado que típicamente se requiere transferir este tipo de información desde el codificador de señal de audio al decodificador de señal de audio, se desea mantener una pequeña velocidad de bits requerida para esta transmisión mientras aún se permite una reconstrucción confiable de la información de distorsión de tiempo requerida en el lado del decodificador.Since it is typically required to transfer this type of information from the audio signal encoder to the Audio signal decoder, it is desired to maintain a small bit rate required for this transmission while still allowing a reliable reconstruction of the required time distortion information on the decoder side.

En vista de la descripción anterior, existe un deseo de crear un concepto el cual permita una aplicación de velocidad de bits eficiente del concepto de distorsión de tiempo en un codificador de audio.In view of the above description, there is a desire to create a concept which allows an efficient bit rate application of the concept of time distortion in an audio encoder.

Es el objetivo de algunos ejemplos de comparación crear conceptos para mejorar la impresión del oído provista por una señal de audio codificada sobre la base de información disponible en un codificador de señal de audio de distorsión de tiempo o un decodificador de señal de audio de distorsión de tiempo.It is the objective of some comparison examples to create concepts for improving ear impression provided by an encoded audio signal based on information available in a time distortion audio signal encoder or a distortion audio signal decoder of weather.

Este objetivo se logra mediante un proveedor de la señal de activación de distorsión de tiempo para aportar una señal de activación de distorsión de tiempo sobre la base de una representación de una señal de audio tal como se describe a continuación, un codificador de señal de audio para codificar una señal de audio de entrada tal como se describe a continuación, un método para proveer una señal de activación de distorsión de tiempo tal como se describe a continuación, un método para proveer una representación codificada de una señal de audio de entrada tal como se describe a continuación, o un programa informático tal como se describe a continuación.This objective is achieved by a provider of the time distortion activation signal to provide a time distortion activation signal based on a representation of an audio signal as described below, an audio signal encoder to encode an input audio signal as described below, a method for providing a time distortion activation signal as described below, a method for providing an encoded representation of an input audio signal such as described below, or a computer program as described below.

Es un objetivo adicional de la presente invención proveer un esquema de codificación/decodificación de audio mejorado, el cual provee una velocidad de bits más baja o de calidad superiorIt is a further objective of the present invention to provide an improved audio coding / decoding scheme, which provides a lower or higher quality bit rate

Este objetivo se obtiene mediante un codificador de audio según la reivindicación 1 ó 2, un método de codificación de audio según la reivindicación 3 ó 4 o un programa informático según la reivindicación 5.This objective is obtained by means of an audio encoder according to claim 1 or 2, an audio coding method according to claim 3 or 4 or a computer program according to claim 5.

Las realizaciones según la invención se refieren a métodos para un codificador de transformación MDCT de distorsión de tiempo. Algunas realizaciones se refieren a herramientas sólo para el codificador. Sin embargo, otras realizaciones también se refieren a herramientas para el decodificador.The embodiments according to the invention relate to methods for a time distortion MDCT transformation encoder. Some embodiments relate to tools only for the encoder. However, other embodiments also refer to tools for the decoder.

Una realización según un ejemplo de comparación crea un proveedor de la señal de activación de distorsión de tiempo para proporcionar una señal de activación de distorsión de tiempo sobre la base de una representación de una señal de audio. El proveedor de la señal de activación de distorsión de tiempo comprende un proveedor de información de compactación de energía configurado para proveer una información de compactación de energía que describe una compactación de energía en una representación del espectro transformado por la distorsión de tiempo de la señal de audio. El proveedor de la señal de activación de distorsión de tiempo también comprende un comparador configurado para comparar la información de compactación de energía con un valor de referencia, y proveer la señal de activación de distorsión de tiempo con dependencia de un resultado de la comparación.An embodiment according to a comparison example creates a provider of the time distortion activation signal to provide a time distortion activation signal based on a representation of an audio signal. The provider of the time distortion activation signal comprises an energy compaction information provider configured to provide an energy compaction information describing an energy compaction in a representation of the spectrum transformed by the time distortion of the signal. Audio. The provider of the time distortion activation signal also comprises a comparator configured to compare the energy compaction information with a reference value, and to provide the time distortion activation signal depending on a comparison result.

Esta realización se basa en el hallazgo de que el uso de una funcionalidad de distorsión de tiempo en un codificador de señal de audio típicamente otorga una mejora, en el sentido de una reducción de la velocidad de bits de la señal de audio codificada, si la representación del espectro transformado por la distorsión de tiempo de la señal de audio comprende una distribución de energía lo suficientemente compacta en que la energía se concentra en una o más regiones espectrales (o líneas espectrales). Esto se debe al hecho de que una distorsión de tiempo exitosa otorga el efecto de disminuir la velocidad de bits al transformar un espectro embarrado, por ejemplo de un marco de audio, dentro del espectro que tiene uno o más picos discernibles, y en consecuencia tiene una compactación de energía más alta que el espectro de la señal de audio original (sin distorsión de tiempo).This embodiment is based on the finding that the use of a time distortion functionality in an audio signal encoder typically grants an improvement, in the sense of a reduction in the bit rate of the encoded audio signal, if the Representation of the spectrum transformed by the time distortion of the audio signal comprises a sufficiently compact energy distribution in which the energy is concentrated in one or more spectral regions (or spectral lines). This is due to the fact that a successful time distortion gives the effect of decreasing the bit rate by transforming a muddy spectrum, for example of an audio frame, within the spectrum that has one or more discernible peaks, and consequently has a compaction of energy higher than the spectrum of the original audio signal (without time distortion).

Con respecto a esta publicación, debe entenderse que un marco de la señal de audio, durante el cual el tono de la señal de audio varía significativamente, comprende un espectro embarrado. El tono con variación en el tiempo de la señal de audio tiene el efecto de que una transformación de dominio de tiempo en un dominio de frecuencia sobre el marco de la señal de audio da por resultado una distribución embarrada de la energía de señal sobre la frecuencia, en particular en la región de mayor frecuencia. En consecuencia, una representación del espectro de esta señal de audio original (sin distorsión de tiempo) comprende una compactación de energía baja y típicamente no exhibe picos espectrales en una porción de frecuencia más alta del espectro, o sólo exhibe picos espectrales relativamente pequeños en la porción de frecuencia más alta del espectro. A diferencia, si la distorsión de tiempo es con éxito (en cuanto a suministrar una mejora de la eficiencia de codificación) la distorsión de tiempo de la señal de audio original da una señal de audio distorsionada en el tiempo que tiene un espectro con picos relativamente más altos y claros (en particular en la porción de frecuencia más alta del espectro). Esto se debe al hecho de que una señal de audio con un tono con variación en el tiempo se transforma en una señal de audio distorsionada en el tiempo que tiene una variación de tono más pequeña o incluso un tono aproximadamente constante. En consecuencia, la representación del espectro de la señal de audio distorsionada en el tiempo (la cual se puede considerar como una representación del espectro transformado por la distorsión de tiempo de la señal de audio) comprende uno o más picos espectrales claros. En otras palabras, el manchado del espectro de la señal de audio original (que tiene tono temporalmente variable) es reducido por una operación de distorsión de tiempo con éxito, de modo que la representación del espectro transformado por la distorsión de tiempo de la señal de audio comprende compactación de energía más alta que el espectro de la señal de audio original. No obstante, la distorsión de tiempo no siempre es con éxito en la mejora de la eficiencia de la codificación. Por ejemplo, la distorsión de tiempo no mejora la eficiencia de la codificación si la señal de audio de entrada comprende grandes componentes de ruido, o si el contorno de distorsión de tiempo extraído es impreciso.With respect to this publication, it should be understood that an audio signal frame, during which the tone of the audio signal varies significantly, comprises a muddy spectrum. The tone with variation in the time of the audio signal has the effect that a transformation of time domain in a frequency domain over the frame of the audio signal results in a muddy distribution of the signal energy over the frequency , particularly in the region with the highest frequency. Consequently, a representation of the spectrum of this original audio signal (without time distortion) comprises a low energy compaction and typically does not exhibit spectral peaks in a higher frequency portion of the spectrum, or only exhibits relatively small spectral peaks in the highest frequency portion of the spectrum. In contrast, if the time distortion is successful (in terms of providing improved coding efficiency), the time distortion of the original audio signal gives a time distorted audio signal that has a spectrum with relatively spikes. louder and clearer (particularly in the higher frequency portion of the spectrum). This is due to the fact that an audio signal with a time-varying tone is transformed into a time-distorted audio signal that has a smaller tone variation or even an approximately constant tone. Consequently, the representation of the spectrum of the audio signal distorted over time (which can be considered as a representation of the spectrum transformed by the time distortion of the audio signal) comprises one or more clear spectral peaks. In other words, the spotting of the spectrum of the original audio signal (which has a temporarily variable tone) is reduced by a successful time distortion operation, so that the representation of the spectrum transformed by the time distortion of the signal from audio comprises more energy compaction high than the spectrum of the original audio signal. However, time distortion is not always successful in improving coding efficiency. For example, time distortion does not improve coding efficiency if the input audio signal comprises large noise components, or if the time distortion contour extracted is inaccurate.

En vista de esta situación, la información de compactación de energía provista por el proveedor de información de compactación de energía es un indicador valioso para decidir si la distorsión de tiempo es con éxito en cuanto a reducción de la velocidad.In view of this situation, the energy compaction information provided by the energy compaction information provider is a valuable indicator for deciding whether the time distortion is successful in terms of speed reduction.

Una realización crea un proveedor de la señal de activación de distorsión de tiempo para proveer una señal de activación de distorsión de tiempo sobre la base de una representación de una señal de audio. El proveedor de activación de la distorsión de tiempo comprende dos proveedores de representación de la distorsión de tiempo configurado para proveer dos representaciones de la distorsión de tiempo de la misma señal de audio que utiliza diferente información del contorno de distorsión de tiempo. De este modo, los proveedores de representación de la distorsión de tiempo pueden estar configurados (en forma estructural y/o funcional) de la misma forma y utilizar la misma señal de audio pero diferente información del contorno de distorsión de tiempo. El proveedor de la señal de activación de distorsión de tiempo además comprende dos proveedores de información de compactación de energía configurado para proveer una primera información de compactación de energía sobre la base de la primera representación de distorsión de tiempo y proveer una segunda información de compactación de energía sobre la base de la segunda representación de distorsión de tiempo. Los proveedores de información de compactación de energía pueden estar configurados de la misma forma pero para utilizar las diferentes representaciones de distorsión de tiempo. Más aún el proveedor de la señal de activación de distorsión de tiempo comprende un comparador para comparar las dos informaciones de compactación de energía diferentes y proveer la señal de activación de distorsión de tiempo con dependencia de un resultado de la comparación.One embodiment creates a provider of the time distortion activation signal to provide a time distortion activation signal based on a representation of an audio signal. The time distortion activation provider comprises two time distortion representation providers configured to provide two representations of the time distortion of the same audio signal using different time distortion contour information. In this way, the providers of time distortion representation can be configured (structurally and / or functionally) in the same way and use the same audio signal but different time distortion contour information. The time distortion activation signal provider further comprises two providers of energy compaction information configured to provide a first energy compaction information based on the first time distortion representation and provide a second energy compaction information. energy based on the second time distortion representation. The energy compaction information providers may be configured in the same way but to use the different time distortion representations. Moreover, the provider of the time distortion activation signal comprises a comparator for comparing the two different energy compaction information and providing the time distortion activation signal depending on a comparison result.

En una realización preferida, el proveedor de información de compactación de energía está configurado para proveer una medida de planicidad espectral que describe la representación del espectro transformado por la distorsión de tiempo de la señal de audio como la información de compactación de energía. Se ha hallado que la distorsión de tiempo es con éxito, en cuanto a reducir una velocidad de bits, si transforma un espectro de una señal de audio de entrada en un espectro de distorsión de tiempo menos plano representando una versión distorsionada en el tiempo de la señal de audio de entrada. En consecuencia, la medida de planicidad espectral se puede utilizar para decidir, sin realizar un proceso de codificación espectral completo, si la distorsión de tiempo debe ser activada o desactivada.In a preferred embodiment, the energy compaction information provider is configured to provide a spectral flatness measurement that describes the representation of the spectrum transformed by the time distortion of the audio signal as the energy compaction information. It has been found that the time distortion is successful, in terms of reducing a bit rate, if you transform a spectrum of an input audio signal into a less flat time distortion spectrum representing a time-distorted version of the audio input signal Consequently, the spectral flatness measurement can be used to decide, without performing a complete spectral coding process, whether the time distortion must be activated or deactivated.

En una realización preferida, el proveedor de información de compactación de energía está configurado para computar un cociente de un medio geométrico de un medio geométrico de espectro de potencia de transformación de la distorsión de tiempo y un medio aritmético de espectro de potencia de transformación de la distorsión de tiempo, para obtener la medida de la planicidad espectral. Se ha hallado que este cociente es una medida de planicidad espectral la cual está bien adaptada para describir los posibles ahorros de velocidad de bits que pueden obtenerse mediante una distorsión de tiempo.In a preferred embodiment, the energy compaction information provider is configured to compute a ratio of a geometric medium of a time distortion transformation power spectrum geometric medium and a transformation power spectrum spectrum arithmetic medium of the time distortion, to obtain the measure of spectral flatness. It has been found that this ratio is a measure of spectral flatness which is well adapted to describe the possible bit rate savings that can be obtained by a time distortion.

En otra realización preferida, el proveedor de información de compactación de energía está configurado para enfatizar una porción de frecuencia más alta de la representación del espectro transformado por la distorsión de tiempo cuando se compara con una porción de frecuencia más baja de la representación del espectro transformado por la distorsión de tiempo, para obtener la información de compactación de energía. Este concepto se basa en el hallazgo de que la distorsión de tiempo típicamente tiene un impacto mucho mayor sobre el rango de frecuencia más alto que sobre el rango de frecuencia más bajo. En consecuencia, una evaluación dominante del rango de frecuencia más alto es apropiada para determinar la efectividad de la distorsión de tiempo utilizando una medida de la planicidad espectral. Además, las señales típicas de audio exhiben un contenido armónico (que comprende la armonía de una frecuencia fundamental) la cual decae en intensidad con la frecuencia creciente. Un énfasis de una porción de frecuencia superior de la representación del espectro transformado por la distorsión de tiempo cuando se compara con una porción de frecuencia inferior a la de la representación del espectro transformado por la distorsión de tiempo además ayuda a compensar esta decadencia típica de las líneas espectrales con frecuencia creciente. Para resumir, una consideración enfatizada de la porción de frecuencia más alta del espectro otorga una confiabilidad aumentada de la información de compactación de energía y por lo tanto permite una provisión más confiable de la señal de activación de distorsión de tiempo.In another preferred embodiment, the energy compaction information provider is configured to emphasize a higher frequency portion of the transformed spectrum representation by time distortion when compared to a lower frequency portion of the transformed spectrum representation. by time distortion, to obtain the energy compaction information. This concept is based on the finding that time distortion typically has a much greater impact on the higher frequency range than on the lower frequency range. Consequently, a dominant evaluation of the higher frequency range is appropriate to determine the effectiveness of time distortion using a measure of spectral flatness. In addition, typical audio signals exhibit harmonic content (which comprises the harmony of a fundamental frequency) which decays in intensity with increasing frequency. An emphasis of a higher frequency portion of the representation of the spectrum transformed by the time distortion when compared with a lower frequency portion than the representation of the spectrum transformed by the time distortion also helps to compensate for this typical decay of the spectral lines with increasing frequency. To summarize, an emphasized consideration of the higher frequency portion of the spectrum gives increased reliability of the energy compaction information and therefore allows a more reliable provision of the time distortion trigger signal.

En otra realización preferida, el proveedor de información de compactación de energía está configurado para proveer una pluralidad de medidas banda por banda de planicidad espectral, y para computar un promedio de la pluralidad de medidas banda por banda de planicidad espectral, para obtener la información de compactación de energía. Se ha hallado que la consideración de medidas espectrales de planicidad banda por banda otorga una información particularmente confiable respecto a si la distorsión de tiempo es efectiva para reducir la velocidad de bits de una señal de audio codificada. En primer lugar, la codificación de la representación del espectro transformado por la distorsión de tiempo se realiza típicamente en el modo banda por banda, de modo que una combinación de las medidas banda por banda de planicidad espectral se adapta bien a la codificación y por lo tanto representa una mejora que puede obtenerse de la velocidad de bits con buena precisión. Además, una computación de banda por banda de medidas de planicidad espectral sustancialmente elimina la dependencia de la información de compactación de energía a partir de una distribución de la armonía. Por ejemplo, incluso si una banda de frecuencia más alta comprende una energía relativamente pequeña (más pequeña que las energías de bandas de frecuencia inferiores), la banda de frecuencia más alta puede ser incluso perceptualmente relevante. Sin embargo, el impacto positivo de una distorsión de tiempo (en el sentido de una reducción del manchado de las líneas espectrales) sobre esta banda de frecuencia más alta sería considerado como bajo, simplemente debido a la baja energía de la banda de frecuencia más alta, Si la medida de planicidad espectral no se computase en el modo banda por banda. A diferencia, al aplicar el cálculo banda por banda, se puede tomar en consideración un impacto positivo de la distorsión de tiempo con un peso apropiado, porque las medidas de planicidad espectral banda por banda son independientes de las energías absolutas en las bandas de frecuencia respectivas.In another preferred embodiment, the energy compaction information provider is configured to provide a plurality of band-by-band spectral band measurements, and to compute an average of the plurality of band-by-band spectral band measurements, to obtain the information of energy compaction It has been found that the consideration of spectral measures of band-by-band flatness gives particularly reliable information as to whether the time distortion is effective in reducing the bit rate of an encoded audio signal. First, the coding of the spectrum representation transformed by the time distortion is typically performed in the band-by-band mode, so that a combination of The band-by-band measures of spectral flatness are well adapted to the coding and therefore represent an improvement that can be obtained from the bit rate with good precision. In addition, a band-by-band computation of spectral flatness measures substantially eliminates the dependence of energy compaction information from a distribution of harmony. For example, even if a higher frequency band comprises a relatively small energy (smaller than the lower frequency band energies), the higher frequency band may even be significantly relevant. However, the positive impact of a time distortion (in the sense of a reduction in spectral line staining) on this higher frequency band would be considered as low, simply due to the low energy of the higher frequency band. , If the spectral flatness measurement is not computed in the band-by-band mode. In contrast, when applying the band-by-band calculation, a positive impact of the time distortion with an appropriate weight can be taken into account, because the band-by-band spectral flatness measurements are independent of the absolute energies in the respective frequency bands .

En otra realización preferida, el proveedor de la señal de activación de distorsión de tiempo comprende un calculador de valor de referencia configurado para computar una medida de planicidad espectral que describe una representación del espectro sin distorsión de tiempo de la señal de audio, para obtener el valor de referencia. En consecuencia, la señal de activación de distorsión de tiempo puede ser provista sobre la base de una comparación de la planicidad espectral de una versión sin distorsión de tiempo de la señal de audio de entrada y una planicidad espectral de una versión de distorsión de tiempo de la señal de audio de entrada.In another preferred embodiment, the provider of the time distortion activation signal comprises a reference value calculator configured to compute a spectral flatness measurement that describes a representation of the spectrum without time distortion of the audio signal, to obtain the reference value. Accordingly, the time distortion activation signal may be provided on the basis of a comparison of the spectral flatness of a timeless distortion version of the input audio signal and a spectral flatness of a time distortion version of The input audio signal.

En otra realización preferida, el proveedor de información de compactación de energía está configurado para proveer una medida de entropía perceptual que describe la representación del espectro transformado por la distorsión de tiempo de la señal de audio como la información de compactación de energía. Este concepto se basa en el hallazgo de que la entropía perceptual de la representación del espectro transformado por la distorsión de tiempo es un buen estimado de un número de bits (o una velocidad) requerido para codificar el espectro transformado por la distorsión de tiempo. En consecuencia, la medida de entropía perceptual de la representación del espectro transformado por la distorsión de tiempo es una buena medida respecto si puede esperarse una reducción de la velocidad de bits por la distorsión de tiempo, incluso en vista del hecho de que una información de distorsión de tiempo adicional debe ser codificada si se utiliza la distorsión de tiempo.In another preferred embodiment, the energy compaction information provider is configured to provide a perceptual entropy measurement that describes the representation of the spectrum transformed by the time distortion of the audio signal as the energy compaction information. This concept is based on the finding that the perceptual entropy of the representation of the spectrum transformed by the time distortion is a good estimate of a number of bits (or a speed) required to encode the spectrum transformed by the time distortion. Consequently, the measure of perceptual entropy of the representation of the spectrum transformed by time distortion is a good measure of whether a reduction in bit rate can be expected by time distortion, even in view of the fact that information from Additional time distortion must be encoded if time distortion is used.

En otra realización preferida, el proveedor de información de compactación de energía está configurado para proveer una medida de autocorrelación que describe una autocorrelación de una representación de la distorsión de tiempo de la señal de audio como la información de compactación de energía. Este concepto se basa en el hallazgo de que la eficiencia de la distorsión de tiempo (en cuanto a reducción de la velocidad de bits) se puede medir (o al menos estimar) sobre la base de una señal de dominio de tiempo (o un remuestreado no uniforme) distorsionada en el tiempo. Se ha hallado que la distorsión de tiempo es eficiente si la señal del dominio de tiempo distorsionada en el tiempo comprende un grado relativamente alto de periodicidad, lo cual se refleja por la medida de autocorrelación. A diferencia, si la señal del dominio de tiempo distorsionada en el tiempo no comprende una periodicidad significativa, puede concluirse que la distorsión de tiempo no es eficiente.In another preferred embodiment, the energy compaction information provider is configured to provide an autocorrelation measure that describes an autocorrelation of a representation of the time distortion of the audio signal as the energy compaction information. This concept is based on the finding that the efficiency of time distortion (in terms of bit rate reduction) can be measured (or at least estimated) on the basis of a time domain signal (or a resampled not uniform) distorted over time. The time distortion has been found to be efficient if the time domain signal distorted in time comprises a relatively high degree of periodicity, which is reflected by the autocorrelation measurement. In contrast, if the time domain signal distorted in time does not comprise a significant periodicity, it can be concluded that the time distortion is not efficient.

Este hallazgo se basa en el hecho de que una distorsión de tiempo eficiente transforma una porción de una señal sinusoide de una frecuencia variable (la cual no comprende una periodicidad) en una porción de una señal sinusoide de frecuencia aproximadamente constante (la cual comprende un grado alto de periodicidad). A diferencia, si la distorsión de tiempo no es capaz de proveer una señal de dominio de tiempo con un grado alto de periodicidad, puede esperarse que la distorsión de tiempo tampoco provea un ahorro de velocidad de bits significativa, lo cual justificaría su aplicación.This finding is based on the fact that an efficient time distortion transforms a portion of a sinusoidal signal of a variable frequency (which does not comprise a periodicity) into a portion of a sinusoid signal of approximately constant frequency (which comprises a degree high periodicity). In contrast, if the time distortion is not able to provide a time domain signal with a high degree of periodicity, it can be expected that the time distortion does not provide significant bit rate savings, which would justify its application.

En una realización preferida, el proveedor de información de compactación de energía está configurado para determinar una suma de valores absolutos de una función de autocorrelación normalizada (sobre una pluralidad de valores de retardo) de la representación de distorsión de tiempo de la señal de audio, para obtener la información de compactación de energía. Se ha hallado que la determinación del complejo por computación de los picos de autocorrelación no es necesaria para estimar la eficiencia de la distorsión de tiempo. En cambio, se ha hallado que una evaluación de de la suma de la autocorrelación sobre un rango (amplio) de valores de retardo de la autocorrelación además otorga resultados muy confiables. Esto se debe al hecho de que la distorsión de tiempo realmente transforma una pluralidad de componentes de señal (por ejemplo una frecuencia fundamental y armónica de la misma) de frecuencia variable en componentes de señal periódicos. En consecuencia, la autocorrelación de este tipo señal de distorsión de tiempo exhibe picos a una pluralidad de valores de retardo de autocorrelación. De este modo, la formación de la suma es una forma eficiente desde el punto de vista computacional para extraer la información de compactación de energía de la autocorrelación.In a preferred embodiment, the energy compaction information provider is configured to determine a sum of absolute values of a normalized autocorrelation function (over a plurality of delay values) of the time distortion representation of the audio signal, to obtain the energy compaction information. It has been found that the determination of the complex by computation of autocorrelation peaks is not necessary to estimate the efficiency of time distortion. Instead, it has been found that an evaluation of the sum of the autocorrelation over a (wide) range of autocorrelation delay values also provides very reliable results. This is due to the fact that time distortion actually transforms a plurality of signal components (for example a fundamental and harmonic frequency thereof) of variable frequency into periodic signal components. Consequently, autocorrelation of this type time distortion signal exhibits peaks at a plurality of autocorrelation delay values. Thus, sum formation is a computationally efficient way to extract energy compaction information from the autocorrelation.

En otra realización preferida, el proveedor de la señal de activación de distorsión de tiempo comprende un calculador de valor de referencia configurado para computar el valor de referencia sobre la base de una representación espectral sin distorsión de tiempo de la señal de audio o sobre la base de una representación de dominio de tiempo sin distorsión de tiempo de la señal de audio. En este caso, el comparador típicamente está configurado para formar un valor de relación utilizando la información de compactación de energía que describe una compactación de energía en un espectro transformado por la distorsión de tiempo de la señal de audio y el valor de referencia. El comparador además está configurado para comparar el valor de relación con uno o más valores de umbral para obtener la señal de activación de distorsión de tiempo. Se ha hallado que la relación entre una información de compactación de energía en el caso sin distorsión de tiempo y la información de compactación de energía en el caso de distorsión de tiempo permite una generación eficiente desde el punto de vista computacional a la vez de lo suficientemente confiable de la señal de activación de distorsión de tiempo.In another preferred embodiment, the provider of the time distortion activation signal comprises a reference value calculator configured to compute the reference value on the basis of a spectral representation without time distortion of the audio signal or on the basis of a time domain representation without time distortion of the audio signal. In this case, the comparator is typically configured to form a relationship value using the energy compaction information describing an energy compaction in a spectrum transformed by the time distortion of the audio signal and the reference value. The comparator is also configured to compare the relationship value with one or more threshold values to obtain the time distortion activation signal. It has been found that the relationship between an energy compaction information in the case without time distortion and the energy compaction information in the case of time distortion allows efficient generation from the computational point of view at the same time sufficiently Reliable time distortion activation signal.

Otra realización preferida crea un codificador de señal de audio para codificar una señal de audio de entrada, para obtener una representación codificada de la señal de audio de entrada. El codificador de señal de audio comprende un transformador de distorsión de tiempo configurado para proveer una representación del espectro transformado por la distorsión de tiempo sobre la base de la señal de audio de entrada. El codificador de señal de audio además comprende un proveedor de la señal de activación de distorsión de tiempo, como se describió anteriormente. El proveedor de la señal de activación de distorsión de tiempo está configurado para recibir la señal de audio de entrada y proveer la información de compactación de energía de modo que la información de compactación de energía describe una compactación de energía en la representación del espectro transformado por la distorsión de tiempo de la señal de audio de entrada. El codificador de señal de audio además comprende un controlador configurado para proveer en forma selectiva, con dependencia de la señal de activación de distorsión de tiempo, una porción de contorno de distorsión de tiempo no constante hallada (variable) o información de la distorsión de tiempo, o una porción de contorno de distorsión de tiempo estándar constante (no-variable) o información de la distorsión de tiempo a un transformador de distorsión de tiempo. De esta forma, es posible aceptar o rechazar en forma selectiva una porción de contorno de distorsión de tiempo no constante hallada en la derivación de la representación de la señal de audio codificada de la señal de audio de entrada.Another preferred embodiment creates an audio signal encoder to encode an input audio signal, to obtain an encoded representation of the input audio signal. The audio signal encoder comprises a time distortion transformer configured to provide a representation of the spectrum transformed by the time distortion based on the input audio signal. The audio signal encoder further comprises a provider of the time distortion activation signal, as described above. The provider of the time distortion activation signal is configured to receive the input audio signal and provide the energy compaction information so that the energy compaction information describes an energy compaction in the representation of the spectrum transformed by Time distortion of the input audio signal. The audio signal encoder further comprises a controller configured to selectively provide, depending on the time distortion trigger signal, a portion of the non-constant time distortion contour found (variable) or time distortion information. , or a portion of constant standard (non-variable) time distortion contour or time distortion information to a time distortion transformer. In this way, it is possible to selectively accept or reject a non-constant time distortion contour portion found in the derivation of the encoded audio signal representation from the input audio signal.

Este concepto se basa en el hallazgo de que no siempre es eficiente introducir una información de distorsión de tiempo en una representación codificada de la señal de audio de entrada, porque un número importante de bits es necesario para codificar la información de distorsión de tiempo. Además, se ha hallado que la información de compactación de energía, la cual se computa mediante el proveedor de la señal de activación de distorsión de tiempo, es una medida eficiente desde el punto de vista computacional para decidir respecto si es ventajoso proveer un transformador de distorsión de tiempo con la porción de contorno de distorsión de tiempo hallada variable (noconstante) o un contorno de distorsión de tiempo estándar (no-variable, constante). Debe observarse que cuando un transformador de distorsión de tiempo comprende una transformada superpuesta, una porción de contorno de distorsión de tiempo hallada puede ser utilizada en el cómputo de dos o más bloques de transformada subsiguientes. En particular, se ha hallado que no es necesario codificar completamente tanto la versión de la representación espectral transformada por la distorsión de tiempo de la señal de audio de entrada utilizando la porción de contorno de distorsión de tiempo recientemente hallada variable y la versión de la representación espectral transformada por la distorsión de tiempo de la señal de audio de entrada utilizando una porción de contorno de distorsión de tiempo estándar (no variable) a fin de poder tomar la decisión si la distorsión de tiempo permite un ahorro en la velocidad de bits o no. En cambio, se ha hallado que una evaluación de la compactación de energía de la representación espectral transformada por la distorsión de tiempo de la señal de audio de entrada forma una base confiable de la decisión. En consecuencia, una velocidad de bits requerida se puede mantener baja. This concept is based on the finding that it is not always efficient to enter a time distortion information into an encoded representation of the input audio signal, because a significant number of bits is necessary to encode the time distortion information. In addition, it has been found that the energy compaction information, which is computed by the provider of the time distortion activation signal, is a computationally efficient measure to decide whether it is advantageous to provide a power transformer. Time distortion with the portion of time distortion contour found variable (non-constant) or a standard time distortion contour (non-variable, constant). It should be noted that when a time distortion transformer comprises an overlapping transform, a portion of the time distortion contour found can be used in the computation of two or more subsequent transform blocks. In particular, it has been found that it is not necessary to fully encode both the version of the spectral representation transformed by the time distortion of the input audio signal using the newly found time distortion contour portion variable and the version of the representation spectral transformed by the time distortion of the input audio signal using a standard (non-variable) time distortion contour portion in order to be able to make the decision whether the time distortion allows saving in bit rate or not . On the other hand, it has been found that an evaluation of the energy compaction of the spectral representation transformed by the time distortion of the input audio signal forms a reliable basis for the decision. Consequently, a required bit rate can be kept low.

En una realización preferida adicional, el codificador de señal de audio comprende una interfaz de salida configurada para incluir en forma selectiva, con dependencia de la señal de activación de distorsión de tiempo, una información del contorno de distorsión de tiempo que representa un contorno de distorsión hallado variable de tiempo dentro de la representación codificada de la señal de audio De este modo, se puede obtener una elevada eficiencia de la codificación de señal de audio, sin tomar en cuenta si la señal de entrada se ajusta bien para la distorsión de tiempo o no.In a further preferred embodiment, the audio signal encoder comprises an output interface configured to selectively, depending on the time distortion activation signal, a time distortion contour information representing a distortion contour. found time variable within the encoded representation of the audio signal In this way, high efficiency of the audio signal encoding can be obtained, regardless of whether the input signal is well adjusted for time distortion or do not.

Una realización adicional según un ejemplo de comparación crea un método para proveer una señal de activación de distorsión de tiempo sobre la base de una señal de audio. El método cumple la funcionalidad del proveedor de la señal de activación de distorsión de tiempo y puede ser suplementado por cualquiera de los rasgos y funcionalidad que se describen en la presente con respecto al proveedor de la señal de activación de distorsión de tiempo.A further embodiment according to a comparison example creates a method for providing a time distortion activation signal based on an audio signal. The method fulfills the functionality of the provider of the time distortion activation signal and can be supplemented by any of the features and functionality described herein with respect to the provider of the time distortion activation signal.

Otra realización según un ejemplo de comparación crea un método para codificar una señal de audio de entrada, para obtener una representación codificada de la señal de audio de entrada. Este método puede ser suplementado por cualquier de los rasgos y funcionalidades descritos en el presente documento con respecto al codificador de señal de audio.Another embodiment according to a comparison example creates a method for encoding an input audio signal, to obtain an encoded representation of the input audio signal. This method can be supplemented by any of the features and functionalities described herein with respect to the audio signal encoder.

Otra realización según un ejemplo de comparación crea un programa informático para realizar los métodos mencionados en el presente documento.Another embodiment according to a comparison example creates a computer program to perform the methods mentioned herein.

Según un primer aspecto, un análisis de la señal de audio, si una señal de audio tiene una característica armónica o una característica de expresión se utiliza en forma ventajosa para controlar el procesamiento del relleno de ruido del lado del codificador y/o del lado del decodificador. El análisis de la señal de audio se puede obtener fácilmente en un sistema, en el cual se utiliza una funcionalidad de distorsión de tiempo, dado que esta funcionalidad de distorsión de tiempo típicamente comprende un seguidor de tono y/o un clasificador de señal para distinguir entre la expresión por un lado y la música por el otro y/o para distinguir entre la expresión sonora y la expresión sorda. Dado que esta información está disponible en un contexto de este tipo sin costos adicionales, la información disponible se utiliza en forma ventajosa para controlar el rasgo de relleno de ruido de modo que, especialmente para las señales de expresión, un relleno de ruido entre líneas armónicas se reduce, o, para señales de expresión en particular, incluso se elimina. Aún en situaciones, donde un contenido armónico se obtiene, por una expresión no se detecta directamente por parte del detector de expresiones, una reducción del relleno de ruido no obstante dará por resultado una calidad de mayor percepción. Si bien este rasgo es particularmente útil en un sistema, en el cual el análisis armónico/de expresión se lleva a cabo de cualquier modo, y esta información, por lo tanto, está disponible sin costos adicionales, el control del esquema de relleno de ruido se basa en un análisis de la señal, si la señal tiene una característica armónica o de expresión o no, también es útil, incluso cuando un analizador de señal específico debe ser inserto en el sistema, dado que la calidad se mejora sin el aumento de la velocidad de bits o, se establece en forma alternativa, la velocidad de bits es disminuida sin tener una pérdida de calidad, dado que los bits requeridos para codificar el nivel de relleno de ruido son reducidos cuando el nivel de relleno de ruido en sí mismo, el cual puede transmitirse desde un codificador a un decodificador, se reduce.According to a first aspect, an analysis of the audio signal, if an audio signal has a harmonic characteristic or an expression characteristic is advantageously used to control the processing of the noise filling of the encoder side and / or decoder side. The analysis of the audio signal can be easily obtained in a system, in which a time distortion functionality is used, since this time distortion functionality typically comprises a tone follower and / or a signal classifier to distinguish between the expression on the one hand and the music on the other and / or to distinguish between the sound expression and the deaf expression. Since this information is available in such a context without additional costs, the available information is advantageously used to control the noise fill feature so that, especially for expression signals, a noise fill between harmonic lines it is reduced, or, for particular expression signals, it is even eliminated. Even in situations, where harmonic content is obtained, by an expression it is not detected directly by the expression detector, a reduction in noise filling will however result in a higher perception quality. While this feature is particularly useful in a system, in which harmonic / expression analysis is carried out in any way, and this information, therefore, is available at no additional cost, the control of the noise fill scheme It is based on a signal analysis, if the signal has a harmonic or expression characteristic or not, it is also useful, even when a specific signal analyzer must be inserted into the system, since the quality is improved without increasing bit rate or, alternatively, the bit rate is decreased without having a loss of quality, since the bits required to encode the noise fill level are reduced when the noise fill level itself , which can be transmitted from an encoder to a decoder, is reduced.

En un aspecto de la presente invención, el resultado del análisis de señal es decir, si la señal es una señal armónica o una señal de expresión se utiliza para controlar el procesamiento de la función de ventana de un codificador de audio. Se ha hallado que en una situación, en la cual una señal de expresión o una señal armónica se inician, la posibilidad es alta de modo que un codificador sencillo cambiará de ventanas largas a ventanas cortas. Estas ventanas cortas, sin embargo, tienen una resolución de frecuencia correspondientemente reducida la cual, por otro lado, disminuiría la ganancia de codificación para las señales fuertemente armónicas y por lo tanto aumentan el número de bits necesarios para codificar este tipo de porción de señal. En vista de esto, la presente invención que se define en este aspecto utiliza ventanas más largas que una ventana corta cuando se detecta el inicio de una señal de expresión o armónica. En forma alternativa, las ventanas se seleccionan con una longitud aproximadamente similar a las ventanas largas, pero con una superposición más corta a fin de reducir en forma efectiva los pre-ecos. En general, la característica de la señal, si el marco de tiempo de una señal de audio tiene una característica armónica o de expresión se utiliza para seleccionar una función de generación de ventanas para este marco de tiempo.In one aspect of the present invention, the result of the signal analysis is, if the signal is a harmonic signal or an expression signal is used to control the processing of the window function of an audio encoder. It has been found that in a situation, in which an expression signal or a harmonic signal is initiated, the possibility is high so that a simple encoder will change from long windows to short windows. These short windows, however, have a correspondingly reduced frequency resolution which, on the other hand, would decrease the encoding gain for strongly harmonic signals and therefore increase the number of bits necessary to encode this type of signal portion. In view of this, the present invention defined in this aspect uses windows longer than a short window when the start of an expression or harmonic signal is detected. Alternatively, the windows are selected with a length approximately similar to the long windows, but with a shorter overlay in order to effectively reduce the pre-echoes. In general, the signal characteristic, if the time frame of an audio signal has a harmonic or expression characteristic, is used to select a window generation function for this time frame.

Según un aspecto adicional, la herramienta de TNS (formato de ruido temporal) es controlada en base a si la señal subyacente se basa en una función de distorsión de tiempo o está en un dominio lineal. Típicamente, una señal que ha sido procesada por una función de distorsión de tiempo tendrá un contenido armónico fuerte. De otro modo, un seguidor de tono asociado con una etapa de distorsión de tiempo no dará salida a un contorno de tono válido y, en ausencia de este contorno de tono válido, una funcionalidad de distorsión de tiempo habría sido desactivada para este marco de tiempo de la señal de audio. Sin embargo, las señales armónicas, normalmente serán adecuadas para ser sometidas al procesamiento de TNS. El procesamiento de TNS es particularmente útil e induce una ganancia significativa en velocidad de bits/calidad, cuando la señal procesada por la etapa de TNS tiene un espectro bastante plano. Sin embargo, cuando la apariencia de la señal es tonal es decir, no plana, como es el caso de los espectros que tiene un contenido armónico o contenido sonoro, la ganancia en calidad/velocidad de bits provista por la herramienta de TNS será reducida. Por lo tanto, sin la modificación de la herramienta de TNS, las porciones distorsionadas en el tiempo típicamente no serían procesadas por la TNS, pero serían procesadas sin un filtro de TNS. Por otro lado, el rasgo de formateado de ruido de TNS no obstante provee una calidad mejorada específicamente en situaciones, done la señal es variable en amplitud/potencia. En casos, donde un inicio de una señal armónica o señal de expresión está presente, y donde el rasgo de cambio de bloque se implementa de modo que, en lugar de este inicio, largas ventanas o al menos ventanas más largas que las ventanas cortas se mantienen, la activación del rasgo de formato del ruido temporal para este marco dará como resultado una concentración del ruido alrededor del inicio de expresión lo cual reduce en forma efectiva los pre-ecos, que podrían ocurrir antes del inicio de la expresión debido a una cuantificación del marco que se produce en el procesamiento del subsiguiente codificador.According to an additional aspect, the TNS (temporal noise format) tool is controlled based on whether the underlying signal is based on a time distortion function or is in a linear domain. Typically, a signal that has been processed by a time distortion function will have a strong harmonic content. Otherwise, a tone follower associated with a time distortion stage will not output a valid tone contour and, in the absence of this valid tone contour, a time distortion functionality would have been deactivated for this time frame. of the audio signal. However, harmonic signals will normally be suitable for TNS processing. TNS processing is particularly useful and induces a significant gain in bit rate / quality, when the signal processed by the TNS stage has a fairly flat spectrum. However, when the appearance of the signal is tonal, that is, not flat, as is the case of spectra that have harmonic content or sound content, the gain in quality / bit rate provided by the TNS tool will be reduced. Therefore, without modification of the TNS tool, time-distorted portions would typically not be processed by the TNS, but would be processed without a TNS filter. On the other hand, the TNS noise formatting feature nonetheless provides improved quality specifically in situations, where the signal is variable in amplitude / power. In cases, where a start of a harmonic signal or expression signal is present, and where the block change feature is implemented so that, instead of this start, long windows or at least windows longer than short windows are maintained, the activation of the temporal noise format feature for this frame will result in a noise concentration around the start of expression which effectively reduces the pre-echoes, which could occur before the start of the expression due to quantification of the frame that occurs in the processing of the subsequent encoder.

Según un aspecto adicional, un número variable de líneas se procesa mediante un cuantificador/codificador entrópico dentro de un aparato de codificación de audio, a fin de dar cuenta del ancho de banda variable, el cual se introduce de marco a marco debido a la realización de la función de distorsión de tiempo con una característica de distorsión de tiempo variable/contorno de distorsión. Cuando la función de distorsión de tiempo da por resultado la situación que el tiempo del marco (en términos lineales) incluido en un marco de distorsión de tiempo se incrementa, el ancho de banda de una simple línea de frecuencia se disminuye, y, para un ancho de banda completo constante, el número de líneas de frecuencia a ser procesadas debe incrementarse con respecto a una situación sin distorsión de tiempo. Cuando, por otro lado, la función de distorsión de tiempo da por resultado el hecho de que el tiempo real de la señal de audio en el dominio de distorsión de tiempo disminuye con respecto a la longitud del bloque de la señal de audio en el dominio lineal, el ancho de banda de la frecuencia de una línea de frecuencia simple se incrementa y, por lo tanto, el número de líneas procesadas por un codificador fuente debe ser incrementado con respecto a una situación sin distorsión de tiempo a fin de tener una variación de ancho de banda reducida u, óptimamente, sin variación de ancho de banda.According to an additional aspect, a variable number of lines is processed by an entropic quantizer / encoder within an audio coding apparatus, in order to account for the variable bandwidth, which is introduced from frame to frame due to the embodiment of the time distortion function with a variable time distortion / contour distortion feature. When the time distortion function results in the situation that the frame time (in linear terms) included in a time distortion frame is increased, the bandwidth of a single frequency line is decreased, and, for a Constant full bandwidth, the number of frequency lines to be processed must be increased with respect to a situation without time distortion. When, on the other hand, the time distortion function results in the fact that the real time of the audio signal in the time distortion domain decreases with respect to the block length of the audio signal in the domain linearly, the frequency bandwidth of a single frequency line is increased and, therefore, the number of lines processed by a source encoder must be increased with with respect to a situation without time distortion in order to have a reduced bandwidth variation or, optimally, without bandwidth variation.

A continuación se describen realizaciones preferidas con respecto a los dibujos adjuntos, en los cuales:Preferred embodiments are described below with respect to the accompanying drawings, in which:

la figura 1 muestra un diagrama esquemático en bloque de un proveedor de la señal de activación de distorsión de tiempo, según una realización según un ejemplo de comparación;Figure 1 shows a schematic block diagram of a provider of the time distortion activation signal, according to an embodiment according to a comparison example;

la figura 2a muestra un diagrama esquemático en bloque de un codificador de señal de audio, según una realización según un ejemplo de comparación;Figure 2a shows a schematic block diagram of an audio signal encoder, according to an embodiment according to a comparison example;

la figura 2b muestra otro diagrama esquemático en bloque de un proveedor de la señal de activación de distorsión de tiempo según un ejemplo de comparación;Figure 2b shows another schematic block diagram of a provider of the time distortion activation signal according to a comparison example;

la figura 3a muestra una representación gráfica de un espectro de una versión sin distorsión de tiempo de una señal de audio;Figure 3a shows a graphical representation of a spectrum of a version without time distortion of an audio signal;

la figura 3b muestra una representación gráfica de un espectro de una versión de distorsión de tiempo de la señal de audio;Figure 3b shows a graphical representation of a spectrum of a time distortion version of the audio signal;

la figura 3c muestra una representación gráfica de un cálculo individual de medidas de planicidad espectral para diferentes bandas de frecuencia;Figure 3c shows a graphical representation of an individual calculation of spectral flatness measurements for different frequency bands;

la figura 3d muestra una representación gráfica de un cálculo de una medida de planicidad espectral que considera únicamente la porción de frecuencia más alta del espectro;Figure 3d shows a graphical representation of a calculation of a measure of spectral flatness that considers only the highest frequency portion of the spectrum;

la figura 3e muestra una representación gráfica de un cálculo de una medida de planicidad espectral que utiliza una representación espectral en la cual se enfatiza una porción de frecuencia más alta sobre una porción de frecuencia más baja;Figure 3e shows a graphical representation of a calculation of a spectral planarity measure using a spectral representation in which a higher frequency portion is emphasized over a lower frequency portion;

la figura 3f muestra un diagrama esquemático en bloque de un proveedor de información de compactación de energía, según otra realización según un ejemplo de comparación;Figure 3f shows a schematic block diagram of an energy compaction information provider, according to another embodiment according to a comparison example;

la figura 3g muestra una representación gráfica de una señal de audio que tiene un tono temporalmente variable en el dominio de tiempo;Figure 3g shows a graphic representation of an audio signal that has a temporarily variable tone in the time domain;

la figura 3h muestra una representación gráfica de una versión de distorsión de tiempo (remuestreada no uniforme) de la señal de audio de la figura 3g;Figure 3h shows a graphical representation of a time distortion version (resampled non-uniform) of the audio signal of Figure 3g;

la figura 3i muestra una representación gráfica de una función de autocorrelación de la señal de audio según la figura 3g;Figure 3i shows a graphic representation of an autocorrelation function of the audio signal according to Figure 3g;

la figura 3j muestra una representación gráfica de una función de autocorrelación de la señal de audio según la figura 3h;Figure 3j shows a graphic representation of an autocorrelation function of the audio signal according to Figure 3h;

la figura 3k muestra un diagrama esquemático en bloque de un proveedor de información de compactación de energía, según otra realización según un ejemplo de comparación;Figure 3k shows a schematic block diagram of an energy compaction information provider, according to another embodiment according to a comparison example;

la figura 4a muestra un diagrama de flujo de un método para proveer una señal de activación de distorsión de tiempo sobre la base de una señal de audio;Figure 4a shows a flow chart of a method for providing a time distortion activation signal based on an audio signal;

la figura 4b muestra un diagrama de flujo de un método para codificar una señal de audio de entrada para obtener una representación codificada de la señal de audio de entrada, según una realización según un ejemplo de comparación;Figure 4b shows a flow chart of a method for encoding an input audio signal to obtain an encoded representation of the input audio signal, according to an embodiment according to a comparison example;

la figura 5a ilustra una realización preferida de un codificador de audio que tiene aspectos de la invención;Figure 5a illustrates a preferred embodiment of an audio encoder having aspects of the invention;

la figura 5b ilustra una realización preferida de un decodificador de audio que tiene aspectos de la invención;Figure 5b illustrates a preferred embodiment of an audio decoder having aspects of the invention;

la figura 6a ilustra una realización preferida del aspecto de relleno de ruido según un ejemplo de comparación; la figura 6b ilustra una tabla que define la función de control llevada a cabo por el manipulador de nivel de relleno de ruido; Figure 6a illustrates a preferred embodiment of the noise fill aspect according to a comparison example; Figure 6b illustrates a table defining the control function performed by the noise fill level manipulator;

la figura 7a ilustra una realización preferida para llevar a cabo un cambio de bloque basado en la distorsión de tiempo según la presente invención;Figure 7a illustrates a preferred embodiment for carrying out a block change based on time distortion according to the present invention;

la figura 7b ilustra una realización alternativa para influir en la función de generación de ventanas;Figure 7b illustrates an alternative embodiment to influence the window generation function;

la figura 7c ilustra una realización alternativa adicional para ilustrar la función de generación de ventanas en base a la información de distorsión de tiempo;Figure 7c illustrates a further alternative embodiment to illustrate the window generation function based on the time distortion information;

la figura 7d ilustra una secuencia de generación de ventanas de un comportamiento de AAC normal en un inicio sonoro;Figure 7d illustrates a window generation sequence of normal AAC behavior at a sound start;

la figura 7e ilustra secuencias de ventanas alternativas según una realización preferida de la presente invención; la figura 8a ilustra la realización preferida de un control en base a la distorsión de tiempo de la herramienta de TNS (formato de ruido temporal) según un ejemplo de comparación;Figure 7e illustrates alternative window sequences according to a preferred embodiment of the present invention; Figure 8a illustrates the preferred embodiment of a control based on the time distortion of the TNS tool (temporal noise format) according to a comparison example;

la figura 8b ilustra una tabla que define los procedimientos de control realizados en el generador de la señal del control de umbral en la figura 8a;Figure 8b illustrates a table defining the control procedures performed in the threshold control signal generator in Figure 8a;

la figura 9a-9e ilustra diferentes características de distorsión de tiempo y la correspondiente influencia sobre el ancho de banda de la señal de audio que se produce a continuación de una función de regeneración de tiempo del lado del decodificador;Figure 9a-9e illustrates different time distortion characteristics and the corresponding influence on the bandwidth of the audio signal that is produced following a time regeneration function on the decoder side;

la figura 10a ilustra una realización preferida de un controlador para controlar el número de líneas dentro de un procesador de codificación según un ejemplo de comparación;Figure 10a illustrates a preferred embodiment of a controller for controlling the number of lines within an encoding processor according to a comparison example;

la figura 10b ilustra la dependencia entre el número de líneas a ser descartadas/agregadas para una velocidad de muestreo;Figure 10b illustrates the dependence between the number of lines to be discarded / added for a sampling rate;

la figura 11 ilustra una comparación entre una escala de tiempo lineal y una escala de tiempo distorsionado;Figure 11 illustrates a comparison between a linear time scale and a distorted time scale;

la figura 12a ilustra una implementación en el contexto de la extensión del ancho de banda; yFigure 12a illustrates an implementation in the context of bandwidth extension; Y

la figura 12b ilustra una tabla que muestra la dependencia entre la velocidad de muestreo local en el dominio de distorsión de tiempo y el control de coeficientes espectrales.Figure 12b illustrates a table showing the dependence between the local sampling rate in the time distortion domain and the control of spectral coefficients.

La figura 1 muestra un diagrama esquemático en bloque del proveedor de la señal de activación de distorsión de tiempo, según una realización de la invención. El proveedor 100 de la señal de activación de distorsión de tiempo está configurado para recibir una representación 110 de una señal de audio y proveer, sobre la base del mismo, una señal 112 de activación de distorsión de tiempo. El proveedor 100 de la señal de activación de distorsión de tiempo comprende un proveedor 120 de información de compactación de energía, el cual está configurado para proveer una información 122 de compactación de energía, que describe una compactación de energía en una representación del espectro transformado por la distorsión de tiempo de la señal de audio. El proveedor 100 de la señal de activación de distorsión de tiempo además comprende un comparador 130 configurado para comparar la información 122 de compactación de energía con un valor 132 de referencia, y proveer la señal 112 de activación de distorsión de tiempo con dependencia del resultado de la comparación.Figure 1 shows a schematic block diagram of the provider of the time distortion activation signal, according to an embodiment of the invention. The provider 100 of the time distortion activation signal is configured to receive a representation 110 of an audio signal and provide, on the basis thereof, a time distortion activation signal 112. The provider 100 of the time distortion activation signal comprises a provider 120 of energy compaction information, which is configured to provide an energy compaction information 122, which describes an energy compaction in a representation of the spectrum transformed by Time distortion of the audio signal. The provider 100 of the time distortion activation signal further comprises a comparator 130 configured to compare the energy compaction information 122 with a reference value 132, and to provide the time distortion activation signal 112 depending on the result of the comparison.

Como se mencionó anteriormente, se ha hallado que la información de compactación de energía es una información valiosa la cual permite si una distorsión de tiempo otorga un almacenamiento de bits o no. Se ha hallado que la presencia de almacenamiento de bits está íntimamente correlacionada con la cuestión si la distorsión de tiempo da por resultado una compactación de energía o no.As mentioned earlier, it has been found that the energy compaction information is valuable information which allows whether a time distortion grants bit storage or not. It has been found that the presence of bit storage is closely correlated with the question whether the time distortion results in a power compaction or not.

La figura 2a muestra un diagrama esquemático en bloque de un codificador 200 de señal de audio, según una realización de la invención. El codificador 200 de señal de audio está configurado para recibir una señal 210 de audio de entrada (también denominada para a(t)) y proveer, sobre la base del mismo, una representación 212 codificada de la señal 210 de audio de entrada. El codificador 200 de señal de audio comprende un transformador 220 de distorsión de tiempo, el cual está configurado para recibir la señal 210 de audio de entrada (la cual puede estar representada en un dominio de tiempo) y proveer, sobre la base del mismo, una representación 222 espectral transformada por la distorsión de tiempo de la señal 210 de audio de entrada. El codificador 200 de señal de audio además comprende un analizador 284 de distorsión de tiempo, el cual está configurado para analizar la señal 210 de audio de entrada y proveer, sobre la base del mismo, una información 286 del contorno de distorsión de tiempo (por ejemplo información absoluta o relativa del contorno de distorsión de tiempo).Figure 2a shows a schematic block diagram of an audio signal encoder 200, according to an embodiment of the invention. The audio signal encoder 200 is configured to receive an input audio signal 210 (also referred to as a (t)) and provide, on the basis thereof, an encoded representation 212 of the input audio signal 210. The audio signal encoder 200 comprises a time distortion transformer 220, which is configured to receive the input audio signal 210 (which may be represented in a time domain) and provide, on the basis thereof, a spectral representation 222 transformed by the time distortion of the input audio signal 210. The audio signal encoder 200 further comprises a time distortion analyzer 284, which is configured to analyze the input audio signal 210 and provide, on the basis thereof, information 286 of the time distortion contour (by example absolute or relative information of the time distortion contour).

El codificador 200 de señal de audio además comprende un mecanismo de cambio, por ejemplo en la forma de un cambio 240 controlado, para decidir respecto si la información 286 del contorno de distorsión de tiempo hallada o una información 288 estándar del contorno de distorsión de tiempo se utiliza para otro procesamiento. De este modo, el mecanismo 240 de cambio está configurado para proveer en forma selectiva, con dependencia de una información de activación de distorsión de tiempo, ya sea la información 286 hallada del contorno de distorsión de tiempo o una información 288 estándar del contorno de distorsión de tiempo como información nueva del contorno de distorsión de tiempo 242, para un posterior procesamiento, por ejemplo para un transformador 220 de distorsión de tiempo. Debe observarse, que un transformador 220 de distorsión de tiempo puede utilizar por ejemplo la nueva información 242 del contorno de distorsión de tiempo (por ejemplo una nueva porción de contorno de distorsión de tiempo) y, además, una información de distorsión de tiempo previamente obtenida (por ejemplo una o más porciones de contorno de distorsión de tiempo previamente obtenidas) para la distorsión de tiempo de un marco de audio. El pos-procesamiento del espectro opcional puede comprender por ejemplo un formato de ruido temporal y/o un análisis de relleno de ruido. El codificador 200 de señal de audio además comprende un cuantificador/codificador 260, el cual está configurado para recibir la representación 222 espectral (opcionalmente procesada por el pos procesamiento 250 del espectro) y para cuantificar y codificar la representación espectral transformada 222. A este fin, el cuantificador/codificador 260 puede ser acoplado con un modelo 270 perceptual y recibir una información 272 de relevancia perceptual desde el modelo 270 perceptual, para considerar un enmascaramiento perceptual y ajustar las precisiones de cuantificación en diferentes cajas de frecuencia según la percepción humana. El codificador 200 de señal de audio además comprende una interfaz 280 de salida la cual está configurada para proveer la representación 212 codificada de la señal de audio sobre la base de la representación 262 cuantificada y codificada suministrada por el cuantificador/codificador 260.The audio signal encoder 200 further comprises a switching mechanism, for example in the form of a controlled change 240, to decide whether the information 286 of the time distortion contour found or a standard information 288 of the time distortion contour is used for other processing. Thus, the switching mechanism 240 is configured to provide selectively, depending on a time distortion activation information, either the information 286 found from the time distortion contour or a standard information 288 from the distortion contour of time as new information of the time distortion contour 242, for further processing, for example for a time distortion transformer 220. It should be noted that a time distortion transformer 220 can use for example the new information 242 of the time distortion contour (for example a new portion of time distortion contour) and, in addition, a time distortion information previously obtained (for example one or more previously obtained time distortion contour portions) for the time distortion of an audio frame. The post-processing of the optional spectrum may comprise for example a temporary noise format and / or a noise fill analysis. The audio signal encoder 200 further comprises a quantifier / encoder 260, which is configured to receive the spectral representation 222 (optionally processed by post processing 250 of the spectrum) and to quantify and encode the transformed spectral representation 222. To this end , the quantifier / encoder 260 can be coupled with a perceptual model 270 and receive information 272 of perceptual relevance from the perceptual model 270, to consider a perceptual masking and adjust the quantification accuracies in different frequency boxes according to human perception. The audio signal encoder 200 further comprises an output interface 280 which is configured to provide the encoded representation 212 of the audio signal based on the quantified and encoded representation 262 supplied by the quantizer / encoder 260.

El codificador 200 de señal de audio además comprende un proveedor de la señal de activación de distorsión de tiempo 230, el cual está configurado para proveer una señal 232 de activación de distorsión de tiempo. La señal 232 de activación de distorsión de tiempo, por ejemplo, se puede utilizar para controlar el mecanismo 240 de cambio, para decidir respecto si la información 286 del contorno de distorsión de tiempo recientemente hallada o una información 288 estándar del contorno de distorsión de tiempo se utiliza en otros pasos de procesamiento (por ejemplo por un transformador 220 de distorsión de tiempo). Además, la información 232 de activación de distorsión de tiempo se puede utilizar en un contacto 280 para decidir respecto si información 242 del contorno de distorsión de tiempo nueva seleccionada (seleccionada de la información 286 del contorno de distorsión de tiempo recientemente hallada y la información estándar del contorno de distorsión de tiempo) está incluida en la representación 212 codificada de la señal 210 de audio de entrada. Típicamente, la información del contorno de distorsión de tiempo sólo se incluye en la representación 212 codificada de la señal de audio si la información del contorno de distorsión de tiempo seleccionada describe un contorno de distorsión de tiempo no constante (variable). Además, la información 232 de la activación de la distorsión de tiempo puede en si misma estar incluida en la representación 212 codificada, por ejemplo en la forma de una marca de un bit que indica la activación o desactivación de la distorsión de tiempo.The audio signal encoder 200 further comprises a provider of the time distortion activation signal 230, which is configured to provide a time distortion activation signal 232. The time distortion activation signal 232, for example, can be used to control the switching mechanism 240, to decide whether the information 286 of the newly found time distortion contour or a standard information 288 of the time distortion contour it is used in other processing steps (for example by a time distortion transformer 220). In addition, time distortion activation information 232 can be used on a contact 280 to decide whether information 242 of the newly selected time distortion contour (selected from information 286 of the newly found time distortion contour and standard information of the time distortion contour) is included in the encoded representation 212 of the input audio signal 210. Typically, the time distortion contour information is only included in the encoded representation 212 of the audio signal if the selected time distortion contour information describes a non-constant (variable) time distortion contour. In addition, the information 232 of the activation of the time distortion may itself be included in the encoded representation 212, for example in the form of a one-bit mark indicating the activation or deactivation of the time distortion.

A fin de facilitar el entendimiento, debe observarse que un transformador 220 de distorsión de tiempo típicamente comprende un generador de ventanas (generador de ventana) de análisis 220a, un remuestreador o “distorsionador de tiempo” 220b (time warper) y un transformador de dominio espectral (o convertidor de tiempo/frecuencia) 220c. Dependiendo de la implementación, sin embargo, el distorsionador de tiempo 220b puede ser colocado - en una dirección de procesamiento de señal -antes del generador de ventana de análisis 220a. Sin embargo, la distorsión de tiempo y el dominio de tiempo para la transformación del dominio espectral pueden combinarse en una sola unidad en algunas realizaciones.In order to facilitate understanding, it should be noted that a time distortion transformer 220 typically comprises a window generator (window generator) for analysis 220a, a resampler or "time distorter" 220b ( time warper) and a domain transformer spectral (or time / frequency converter) 220c. Depending on the implementation, however, the time distorter 220b can be placed - in a signal processing direction - before the analysis window generator 220a. However, time distortion and time domain for spectral domain transformation can be combined into a single unit in some embodiments.

A continuación se describirán los detalles con relación al funcionamiento del proveedor de la señal de activación de distorsión de tiempo 230. Debe observarse que el proveedor de la señal de activación de distorsión de tiempo 230 puede ser equivalente al proveedor 100 de la señal de activación de distorsión de tiempo.Details regarding the operation of the provider of the time distortion activation signal 230 will be described below. It should be noted that the provider of the time distortion activation signal 230 may be equivalent to the supplier 100 of the activation signal of time distortion

El proveedor 230 de la señal de activación de distorsión de tiempo está configurado con preferencia para recibir la representación 210 de la señal de audio del dominio de tiempo (además designado con a(t)), la información 286 del contorno de distorsión de tiempo recientemente hallada, y la información 288 estándar del contorno de distorsión de tiempo. El proveedor 230 de la señal de activación de distorsión de tiempo está además configurado para obtener, utilizando la señal 210 de audio del dominio de tiempo, la información 286 del contorno de distorsión de tiempo recientemente hallada y la información 288 estándar del contorno de distorsión de tiempo, una información de compactación de energía que describe una compactación de energía debido a la información 286 del contorno de distorsión de tiempo recientemente hallada, y proveer la señal 232 de activación de distorsión de tiempo sobre la base de esta información de compactación de energía.The provider 230 of the time distortion activation signal is preferably configured to receive representation 210 of the audio signal of the time domain (further designated with a (t)), information 286 of the time distortion contour recently found, and the 288 standard information of the time distortion contour. The provider 230 of the time distortion activation signal is further configured to obtain, using the time domain audio signal 210, the newly found time distortion contour information 286 and the standard distortion contour information 288 time, an energy compaction information describing an energy compaction due to the information 286 of the recently found time distortion contour, and providing the time distortion activation signal 232 based on this energy compaction information.

La figura 2b muestra un diagrama esquemático en bloque de un proveedor 234 de la señal de activación de distorsión de tiempo, según una realización de la invención. El proveedor 234 de la señal de activación de distorsión de tiempo puede tomar la función del proveedor 230 de la señal de activación de distorsión de tiempo en algunas realizaciones. El proveedor 234 de la señal de activación de distorsión de tiempo está configurado para recibir una señal 210 de audio de entrada, y dos informaciones 286 y 288 del contorno de distorsión de tiempo, y proveer, sobre la base del mismo, una señal 234p de activación de distorsión de tiempo. La señal 234p de activación de distorsión de tiempo puede tomar la función de la señal 232 de activación de distorsión de tiempo. El proveedor de la señal de activación de distorsión de tiempo comprende dos proveedores 234a, 234g de la representación de la distorsión de tiempo idénticos, los cuales están configurados para recibir la señal 210 de audio de entrada y la información 286 y 288 del contorno de distorsión de tiempo respectivamente y proveer, sobre la base del mismo, dos representaciones 234e y 234k de distorsión de tiempo, respectivamente. El proveedor 234 de la señal de activación de distorsión de tiempo además comprende dos proveedores 234f y 234l de información de compactación de energía idénticos, los cuales están configurados para recibir las representaciones 234e y 234k de distorsión de tiempo, respectivamente, y, sobre la base del mismo, proveer la información 234m y 234n de compactación de energía, respectivamente. El proveedor de la señal de activación de distorsión de tiempo además comprende un comparador 234o, configurado para recibir la información 234m y 234n de compactación de energía, y, sobre la base del mismo proveer la señal 234p de activación de distorsión de tiempo.Figure 2b shows a block schematic diagram of a provider 234 of the time distortion activation signal, according to an embodiment of the invention. The provider 234 of the time distortion activation signal may take the role of the supplier 230 of the time distortion activation signal in some embodiments. The provider 234 of the time distortion activation signal is configured to receive an input audio signal 210, and two information 286 and 288 of the time distortion contour, and provide, on the basis thereof, a 234p time distortion activation signal. The time distortion activation signal 234p can take the function of the time distortion activation signal 232. The provider of the time distortion activation signal comprises two providers 234a, 234g of the identical time distortion representation, which are configured to receive the input audio signal 210 and the information 286 and 288 of the distortion contour of time respectively and provide, on the basis thereof, two representations 234e and 234k of time distortion, respectively. The provider 234 of the time distortion activation signal further comprises two providers 234f and 234l of identical energy compaction information, which are configured to receive the time distortion representations 234e and 234k, respectively, and, based on thereof, provide the 234m and 234n energy compaction information, respectively. The provider of the time distortion activation signal further comprises a comparator 234o, configured to receive the energy compaction 234m and 234n information, and, on the basis thereof, provide the time distortion activation signal 234p.

A fin de facilitar el entendimiento, debe observarse que los proveedores 234a y 234g de representación de la distorsión de tiempo típicamente comprenden (opcional) idénticos generadores 234b y 234h de ventanas de análisis, idénticos remuestreadores o distorsionadores 234c y 234i de tiempo, y (opcional) idénticos transformadores 234d y 234j del dominio espectral.In order to facilitate understanding, it should be noted that providers 234a and 234g of time distortion representation typically comprise (optional) identical generators 234b and 234h of analysis windows, identical resamplers or time distorters 234c and 234i, and (optional ) identical transformers 234d and 234j of the spectral domain.

A continuación, se mencionarán diferentes conceptos para obtener la información de compactación de energía. De antemano, se dará una introducción que explica el efecto de distorsión de tiempo sobre una señal de audio típica. A continuación, el efecto de distorsión de tiempo sobre una señal de audio se describirá tomando como referencia las figuras 3a y 3b. La figura 3a muestra una representación gráfica de un espectro de una señal de audio. Una abscisa 301 describe una frecuencia y una ordenada 302 describe la intensidad de la señal de audio. Una curva 303 describe la intensidad de la señal de audio sin distorsión de tiempo como una función de la frecuencia f.Next, different concepts for obtaining energy compaction information will be mentioned. In advance, an introduction will be given explaining the effect of time distortion on a typical audio signal. Next, the effect of time distortion on an audio signal will be described with reference to Figures 3a and 3b. Figure 3a shows a graphical representation of a spectrum of an audio signal. An abscissa 301 describes a frequency and an ordinate 302 describes the intensity of the audio signal. A curve 303 describes the intensity of the audio signal without time distortion as a function of the frequency f.

La figura 3b muestra una representación gráfica de un espectro de una versión de distorsión de tiempo de la señal de audio representada en la figura 3a. Nuevamente, una abscisa 306 describe una frecuencia y una ordenada 307 describe la intensidad de la versión distorsionada de la señal de audio. Una curva 308 describe la intensidad de la versión de la distorsión de tiempo de la señal de audio sobre la frecuencia. Como puede observarse a partir de una comparación de la representación gráfica de las figuras 3a y 3b, la versión sin distorsión de tiempo de la señal de audio comprende un espectro embarrado, en particular en una región de frecuencia más alta. A diferencia, la versión de la distorsión de tiempo de la señal de audio de entrada comprende un espectro que tiene picos espectrales claramente distinguibles, incluso en la región de frecuencia más alta. Además, un moderado afilado de los picos espectrales incluso puede observarse en la región espectral más baja de la versión de la distorsión de tiempo de la señal de audio de entrada.Figure 3b shows a graphical representation of a spectrum of a time distortion version of the audio signal represented in Figure 3a. Again, an abscissa 306 describes a frequency and an ordinate 307 describes the intensity of the distorted version of the audio signal. A curve 308 describes the intensity of the time distortion version of the audio signal over the frequency. As can be seen from a comparison of the graphic representation of Figures 3a and 3b, the time-distorted version of the audio signal comprises a muddy spectrum, in particular in a higher frequency region. In contrast, the time distortion version of the input audio signal comprises a spectrum that has clearly distinguishable spectral peaks, even in the higher frequency region. In addition, moderate sharpening of the spectral peaks can even be observed in the lowest spectral region of the time distortion version of the input audio signal.

Debe observarse que el espectro de la versión de la distorsión de tiempo de la señal de audio de entrada, el cual se muestra en la figura 3b, puede cuantificarse y codificarse, por ejemplo mediante el cuantificador/codificador 260, con una velocidad de bits más baja que el espectro de la señal de audio de entrada sin distorsionar en la figura 3a. Esto se debe al hecho de que un espectro embarrado típicamente comprende un gran número de coeficientes espectrales perceptualmente relevantes (es decir un número relativamente pequeño de coeficientes espectrales cuantificados en cero o cuantificados a valores pequeños), mientras que un espectro “menos plano” como se muestra en la figura 3 típicamente comprende un mayor número de coeficientes espectrales cuantificado en cero o cuantificados a valores pequeños. Los coeficientes espectrales cuantificados en cero o cuantificados a valores pequeños se pueden codificar con menos bits que los coeficientes espectrales cuantificados a valores superiores, de modo que el espectro de la figura 3b puede ser codificado utilizando menos bits que el espectro de la figura 3a. No obstante, debe observarse además que el uso de una distorsión de tiempo no siempre da por resultado una mejora significativa de la eficiencia de codificación de la señal de distorsión de tiempo. En consecuencia, en algunos casos, el precio, en cuanto a velocidad de bits, requerido para la codificación de la información de distorsión de tiempo (por ejemplo contorno de distorsión de tiempo) puede exceder los salvados, en cuanto a velocidad de bits, para codificar el espectro transformado por la distorsión de tiempo (cuando se compara con el espectro transformado sin distorsión de tiempo). En este caso, es preferible proveer la representación codificada de la señal de audio utilizando un contorno de distorsión de tiempo estándar (no variable) para controlar la transformación de la distorsión de tiempo. En consecuencia, la transmisión de cualquier información de distorsión de tiempo (es decir, información del contorno de distorsión de tiempo) se puede omitir (salvo una marca que indica la desactivación de la distorsión de tiempo), manteniendo de este modo la velocidad de bits baja.It should be noted that the spectrum of the time distortion version of the input audio signal, which is shown in Figure 3b, can be quantified and encoded, for example by quantizer / encoder 260, with a bit rate more Low than the spectrum of the input audio signal without distorting in Figure 3a. This is due to the fact that a muddy spectrum typically comprises a large number of significantly relevant spectral coefficients (ie a relatively small number of spectral coefficients quantified at zero or quantified at small values), while a "less flat" spectrum as Sample in Figure 3 typically comprises a greater number of spectral coefficients quantified at zero or quantified at small values. Spectral coefficients quantified at zero or quantified at small values can be encoded with fewer bits than spectral coefficients quantified at higher values, so that the spectrum of Figure 3b can be encoded using fewer bits than the spectrum of Figure 3a. However, it should also be noted that the use of a time distortion does not always result in a significant improvement in the coding efficiency of the time distortion signal. Consequently, in some cases, the price, in terms of bit rate, required for the encoding of the time distortion information (eg time distortion contour) may exceed the saved ones, in terms of bit rate, for encode the transformed spectrum by time distortion (when compared to the transformed spectrum without time distortion). In this case, it is preferable to provide the encoded representation of the audio signal using a standard (non-variable) time distortion contour to control the transformation of the time distortion. Consequently, the transmission of any time distortion information (i.e. time distortion contour information) can be omitted (except for a mark indicating the deactivation of time distortion), thus maintaining the bit rate. low.

A continuación, diferentes conceptos para un cálculo confiable y eficiente a nivel computacional de una señal 112 232, 234p de activación de distorsión de tiempo, se describirá tomando como referencia las figuras 3c-3k. Sin embargo, antes de eso, el antecedente del concepto de la invención se resumirá brevemente.Next, different concepts for a reliable and efficient computational calculation of a signal 112 232, 234p of time distortion activation, will be described by reference to Figures 3c-3k. However, before that, the background of the concept of the invention will be briefly summarized.

La presunción básica es que la aplicación de la distorsión de tiempo sobre una señal armónica con un tono variable hace el tono constante, y al hacer el tono constante mejora la codificación de los espectros obtenidos por una siguiente transformación de la frecuencia de tiempo, porque en lugar del manchado de las diferentes armonías sobre varias cajas espectrales (ver las figuras 3a) sólo un número limitado de líneas significativas permanecen (ver la figura 3b). Sin embargo, incluso cuando se detecta una variante de tono, la mejora en la ganancia de codificación (es decir la cantidad de bits almacenados) puede ser insignificante (por ejemplo si uno tiene un ruido fuerte subyacente a la señal armónica, o si la variante es tan pequeña que el manchado de las armonías más altas no es un problema), o puede ser inferior a la cantidad de bits necesarios para transferir el contorno de distorsión de tiempo al decodificador, o simplemente puede ser incorrecto. En estos casos, es preferible rechazar el contorno de distorsión de tiempo variable (por ejemplo 286) producido por un codificador del contorno de distorsión de tiempo y en su lugar utilizar una señalización de un bit eficiente, señalizando un contorno de distorsión de tiempo estándar (no variable).The basic assumption is that the application of time distortion on a harmonic signal with a variable tone makes the constant tone, and by making the constant tone improves the coding of the spectra obtained by a subsequent transformation of the time frequency, because instead of staining the different harmonies on several spectral boxes (see figures 3a) only one number Limited significant lines remain (see Figure 3b). However, even when a tone variant is detected, the improvement in encoding gain (i.e. the amount of stored bits) can be negligible (for example if one has a loud noise underlying the harmonic signal, or if the variant it is so small that spotting the higher harmonies is not a problem), or it may be less than the amount of bits needed to transfer the time distortion contour to the decoder, or it may simply be incorrect. In these cases, it is preferable to reject the variable time distortion contour (for example 286) produced by a time distortion contour encoder and instead use efficient one bit signaling, signaling a standard time distortion contour ( not variable).

El alcance de la presente invención comprende la creación de un método para decidir si una porción de contorno de distorsión de tiempo obtenida provee suficiente ganancia de codificación (por ejemplo suficiente ganancia de codificación para compensar el espacio libre inutilizado requerido para la codificación para el contorno de distorsión de tiempo).The scope of the present invention comprises the creation of a method for deciding whether a time distortion contour portion obtained provides sufficient coding gain (for example sufficient coding gain to compensate for the unused free space required for coding for the contour of time distortion).

Como se estableció anteriormente, el aspecto más importante de la distorsión de tiempo es la compactación de la energía espectral para un número más pequeño de líneas (véanse las figuras 3a y 3b). Una mirada a ésta muestra que una compactación de energía además corresponde a un espectro más “sin planicidad” (véanse las figuras 3a y 3b), dado que la diferencia entre los picos y los valles del espectro se incrementa. La energía se concentra en menos líneas teniendo las líneas entre aquéllos menos energía que antes.As stated earlier, the most important aspect of time distortion is the compaction of the spectral energy for a smaller number of lines (see Figures 3a and 3b). A look at this shows that a compaction of energy also corresponds to a spectrum more "without flatness" (see Figures 3a and 3b), since the difference between the peaks and valleys of the spectrum is increased. The energy is concentrated in less lines having the lines between those less energy than before.

Las figuras 3a y 3b muestran un ejemplo esquemático con una espectro sin distorsión de un marco con fuertes armonías y variación de tono (figura 3a) y el espectro de la versión de la distorsión de tiempo del mismo marco (figura 3b).Figures 3a and 3b show a schematic example with a distortion-free spectrum of a frame with strong harmonies and tone variation (figure 3a) and the time distortion version of the same frame (figure 3b).

En vista de esta situación, se ha hallado que es ventajoso utilizar la medida de planicidad espectral como una medida posible para la eficiencia de la distorsión de tiempo.In view of this situation, it has been found that it is advantageous to use the spectral flatness measurement as a possible measure for the efficiency of time distortion.

La planicidad espectral puede calcularse, por ejemplo, dividiendo el medio geométrico del espectro de potencia por el medio aritmético del espectro de potencia. Por ejemplo, la planicidad espectral (además designada brevemente como “planicidad”) se puede computar según la siguiente ecuación:Spectral flatness can be calculated, for example, by dividing the geometric medium of the power spectrum by the arithmetic means of the power spectrum. For example, spectral flatness (also briefly designated as "flatness") can be computed according to the following equation:

Planicidad

Figure imgf000012_0001
Flatness
Figure imgf000012_0001

En lo anterior, x(n) representa la magnitud de un número binario n. Además, en lo anterior, N representa un número total de cajas espectrales consideradas para el cálculo de la medida de planicidad espectral.In the above, x (n) represents the magnitude of a binary number n. In addition, in the above, N represents a total number of spectral boxes considered for the calculation of the spectral flatness measurement.

En una realización de la invención, el cálculo mencionado anteriormente de la “planicidad”, el cual puede ser útil como una información de compactación de energía, se puede llevar a cabo utilizando las representaciones 234e, 234k del espectro transformado por la distorsión de tiempo, de modo que se puede sostener la siguiente relación:In one embodiment of the invention, the above-mentioned calculation of "flatness", which may be useful as an energy compaction information, can be carried out using representations 234e, 234k of the spectrum transformed by time distortion, so that the following relationship can be sustained:

x(n) = |x |tw (n).x (n) = | x | tw (n).

En este caso, N puede ser igual al número de líneas espectrales provistas por el transformador 234d, 234j de domino espectral y |x |tw (n) es una representación 234e, 234k del espectro transformado de la distorsión de tiempo.In this case, N can be equal to the number of spectral lines provided by the spectral domain transformer 234d, 234j and | x | tw (n) is a representation 234e, 234k of the transformed time distortion spectrum.

Aunque la medida espectral es una cantidad útil para la provisión de la señal de activación de distorsión de tiempo, una desventaja de la medida de planicidad espectral, al igual que la medida de relación señal a ruido (SNR), es que si se aplica al espectro total, enfatiza partes con energía más alta. Normalmente, los espectros armónicos tienen una cierta inclinación espectral, lo que significa que la mayor parte de la energía se concentra en los primeros pocos tonos parciales y a continuación disminuye con la frecuencia creciente, conduciendo a una sub-representación de los parciales más elevados en la medida. Esto no se desea en algunas realizaciones, dado que es la intención mejorar la calidad de estos parciales más altos, porque se embarran la mayoría de las veces (véase la figura 3a). A continuación, se describirán varios conceptos opcionales para la mejora de la relevancia de la medida de planicidad espectral.Although the spectral measurement is a useful amount for the provision of the time distortion activation signal, a disadvantage of the spectral flatness measurement, as well as the signal to noise ratio (SNR) measurement, is that if applied to the Total spectrum, emphasizes parts with higher energy. Normally, harmonic spectra have a certain spectral inclination, which means that most of the energy is concentrated in the first few partial tones and then decreases with increasing frequency, leading to a sub-representation of the higher partials in the measure. This is not desired in some embodiments, since it is the intention to improve the quality of these higher partials, because they get muddy most of the time (see Figure 3a). Next, several optional concepts for improving the relevance of the spectral flatness measurement will be described.

En una realización según la invención, se elige un enfoque similar a la denominada medida de “SNR segmental”, que conduce a una medida de la planicidad espectral banda por banda. Un cálculo de la medida de planicidad espectral se realiza (por ejemplo en forma separada) dentro de un número de bandas, y se toma la principal (o medio). Las diferentes bandas podrían tener igual ancho de banda. Sin embargo, con preferencia, los anchos de banda pueden seguir una escala perceptual, al igual que las bandas críticas, o corresponder, por ejemplo, a las bandas del factor de escala de la denominada “codificación de audio avanzada” también conocida como AAC.In an embodiment according to the invention, an approach similar to the so-called "segmental SNR" measure is chosen, which leads to a measure of the spectral flatness band by band. A calculation of the flatness measure Spectral is performed (for example separately) within a number of bands, and the main (or middle) is taken. Different bands could have equal bandwidth. However, preferably, the bandwidths can follow a perceptual scale, like the critical bands, or correspond, for example, to the bands of the scale factor of the so-called "advanced audio coding" also known as AAC.

El concepto antes mencionado se explicará brevemente a continuación, tomando como referencia la figura 3c, la cual muestra una representación gráfica de un cálculo individual de medidas de planicidad espectral para diferentes bandas de frecuencia. Como puede observarse, el espectro puede dividirse en diferentes bandas 311, 312, 313 de frecuencia, las cuales pueden un ancho de banda igual o las cuales pueden tener diferentes anchos de banda. Por ejemplo, una primera medida de planicidad espectral puede computarse para la primera banda 311 de frecuencia, por ejemplo, utilizando la ecuación para la “planicidad” dada anteriormente. En este cálculo, se pueden considerar las cajas de frecuencia de la primera banda de frecuencia (n variable en funciones puede tomar los índices de caja de frecuencia de las cajas de frecuencia de la primera banda de frecuencia), y puede considerarse el ancho de la primera banda 311 de frecuencia (N variable puede tomar el ancho en cuanto a cajas de frecuencia de la primera banda de frecuencia). En consecuencia, se obtiene una medida de planicidad para la primera banda 311 de frecuencia. De manera similar, una medida de planicidad puede computarse para la segunda banda 312 de frecuencia, tomando en cuenta las cajas de frecuencia de las segundas bandas de frecuencia 312 y además el ancho de la segunda banda de frecuencia. Más aún, las medidas de planicidad de las bandas de frecuencia adicionales, del tipo tercera banda 313 de frecuencia, pueden computarse de la misma forma.The aforementioned concept will be briefly explained below, taking as reference figure 3c, which shows a graphical representation of an individual calculation of spectral flatness measurements for different frequency bands. As can be seen, the spectrum can be divided into different frequency bands 311, 312, 313, which can have an equal bandwidth or which can have different bandwidths. For example, a first measure of spectral flatness can be computed for the first frequency band 311, for example, using the equation for the "flatness" given above. In this calculation, the frequency boxes of the first frequency band can be considered (n variable in functions can take the frequency box indices of the frequency boxes of the first frequency band), and the width of the frequency can be considered first frequency band 311 (variable N can take the width in terms of frequency boxes of the first frequency band). Consequently, a planarity measure is obtained for the first frequency band 311. Similarly, a measure of flatness can be computed for the second frequency band 312, taking into account the frequency boxes of the second frequency bands 312 and also the width of the second frequency band. Moreover, the flatness measures of the additional frequency bands, of the third frequency band type 313, can be computed in the same way.

A continuación, un promedio de las medidas de plenitud para diferentes bandas 311, 312, 313 de frecuencia se puede computar y el promedio puede ser útil como la información de compactación de energía.Next, an average of the fullness measurements for different frequency bands 311, 312, 313 can be computed and the average can be useful as the energy compaction information.

Otro enfoque (para la mejora de la derivación de la señal de activación de distorsión de tiempo) consiste en aplicar la medida de planicidad espectral sólo por encima de una cierta frecuencia. Este enfoque se ilustra en la figura 3b. Como puede observarse, sólo cajas de frecuencia en una porción 316 de frecuencia más alta de los espectros se consideran para un cálculo de la medida de planicidad espectral. Una porción de frecuencia inferior del espectro es insignificante para el cálculo de la medida de planicidad espectral. La porción 316 de frecuencia más alta se puede considerar banda de frecuencia por banda de frecuencia para el cálculo de la medida de planicidad espectral. En forma alternativa, la porción 316 de frecuencia más alta completa se puede considerar en su totalidad para el cálculo de la medida de planicidad espectral.Another approach (for improving the derivation of the time distortion activation signal) is to apply the spectral planarity measurement only above a certain frequency. This approach is illustrated in Figure 3b. As can be seen, only frequency boxes in a higher frequency portion 316 of the spectra are considered for a calculation of the spectral planarity measurement. A lower frequency portion of the spectrum is insignificant for the calculation of the spectral flatness measurement. The higher frequency portion 316 can be considered frequency band by frequency band for the calculation of the spectral flatness measurement. Alternatively, the full higher frequency portion 316 may be considered in its entirety for the calculation of the spectral flatness measurement.

Para resumir lo anterior, se puede establecer que la disminución en la planicidad espectral (originada por la aplicación de la distorsión de tiempo) se puede considerar como una primera medida para la eficiencia de la distorsión de tiempo.To summarize the above, it can be established that the decrease in spectral flatness (caused by the application of time distortion) can be considered as a first measure for the efficiency of time distortion.

Por ejemplo, el proveedor 100, 230, 234 de la señal de activación de distorsión de tiempo (o el comparador 130, 234° del mismo) puede comparar la medida de planicidad espectral de la representación 234e espectral transformada por la distorsión de tiempo con una medida de planicidad espectral de la representación 234k espectral transformada por la distorsión de tiempo utilizando una información estándar del contorno de distorsión de tiempo, y para decidir sobre la base de dicha comparación si la señal de activación de distorsión de tiempo debe ser activa o inactiva. Por ejemplo, la distorsión de tiempo se activa por medio de una configuración apropiada de la señal de activación de distorsión de tiempo si la distorsión de tiempo da por resultado una reducción suficiente de la medida de planicidad espectral cuando se compara con un caso sin distorsión de tiempo.For example, the provider 100, 230, 234 of the time distortion activation signal (or comparator 130, 234 ° thereof) can compare the spectral planarity measurement of the spectral representation 234e transformed by the time distortion with a Spectral planarity measurement of the spectral representation 234k transformed by the time distortion using a standard time distortion contour information, and to decide on the basis of such comparison whether the time distortion trigger signal must be active or inactive. For example, the time distortion is activated by an appropriate configuration of the time distortion trigger signal if the time distortion results in a sufficient reduction of the spectral planarity measurement when compared to a case without distortion of weather.

Además de los enfoques mencionados anteriormente, la porción de frecuencia superior del espectro se puede enfatizar (por ejemplo por un escalamiento apropiado) sobre la porción de frecuencia inferior para el cálculo de la medida de planicidad espectral. La figura 3c muestra una representación gráfica de un espectro transformado por la distorsión de tiempo en la cual una porción de frecuencia más alta es enfatizada sobre una porción de frecuencia más baja. En consecuencia, se compensa una sub-representación de parciales más alta en el espectro. De este modo, la medida de planicidad se puede computar sobre el espectro escalado completo en el cual las cajas de frecuencia más alta son enfatizadas sobre las cajas de frecuencia más baja, como se muestra en la figura 3e.In addition to the approaches mentioned above, the upper frequency portion of the spectrum can be emphasized (for example by appropriate scaling) on the lower frequency portion for the calculation of the spectral flatness measurement. Figure 3c shows a graphical representation of a spectrum transformed by the time distortion in which a higher frequency portion is emphasized over a lower frequency portion. Consequently, a higher sub-representation of partials in the spectrum is compensated. Thus, the flatness measurement can be computed on the full scaled spectrum in which the higher frequency boxes are emphasized on the lower frequency boxes, as shown in Figure 3e.

En cuanto a almacenamientos de bits, una medida típica para codificar la eficiencia sería la entropía perceptual, la cual puede definirse de un modo que se correlacione muy bien con el número real de bits necesarios para codificar un cierto espectro como se describe en 3GPP TS 26.403 V7.0.0: 3rd Generation Partnership Project; Technical Specification Group Services and System Aspects; General audio codec audio processing functions; Enhanced aacPlus general audio codec; Encoder specification AAC part: Sección 5.6.1.1.3 Relation between bit demand and perceptual entropy. Como resultado de ello, la reducción de la entropía perceptual es otra medida para determinar cómo sería la eficiencia de la distorsión de tiempo.As for bit storage, a typical measure to encode efficiency would be perceptual entropy, which can be defined in a way that correlates very well with the actual number of bits needed to encode a certain spectrum as described in 3GPP TS 26.403 V7.0.0: 3rd Generation Partnership Project; Technical Specification Group Services and System Aspects; General audio codec audio processing functions; Enhanced aacPlus general audio codec; Encoder specification AAC part: Section 5.6.1.1.3 Relation between bit demand and perceptual entropy. As a result, the reduction of perceptual entropy is another measure to determine how the efficiency of time distortion would be.

La figura 3f muestra un proveedor 325 de información de compactación de energía, el cual puede tomar el lugar del proveedor 120, 234f, 234l de información de compactación de energía, y el cual se puede utilizar en los proveedores 100, 290, 234 de la señal de activación de distorsión de tiempo. El proveedor 325 de información de compactación de energía está configurado para recibir una representación de la señal de audio, por ejemplo, en la forma de una representación 234e, 234k del espectro transformado por la distorsión de tiempo, además designado con |x |tw . El proveedor 325 de información de compactación de energía además está configurado para proveer una información 326 de entropía perceptual, la cual puede tomar el lugar de la información 122, 234m, 234n de compactación de energía.Figure 3f shows a provider 325 of energy compaction information, which can take the place of provider 120, 234f, 234l of energy compaction information, and which can be used in suppliers 100, 290, 234 of the time distortion activation signal. The 325 compaction information provider of energy is configured to receive a representation of the audio signal, for example, in the form of a representation 234e, 234k of the spectrum transformed by the time distortion, also designated with | x | tw. The energy compaction information provider 325 is further configured to provide perceptual entropy information 326, which can take the place of the energy compaction information 122, 234m, 234n.

El proveedor 325 de información de compactación de energía comprende un calculador 327 del factor de forma, el cual está configurado para recibir la representación 234e, 234k del espectro transformado por la distorsión de tiempo y proveer, sobre la base del mismo, una información 328 del factor de forma, la cual puede estar asociada con una banda de frecuencia. El proveedor 325 de información de compactación de energía además comprende un calculador 329 de energía de la banda de frecuencia, el cual está configurado para calcular una información (330) de energía de la banda de frecuencia en(n) sobre la base de la representación 234e, 234k del espectro de distorsión de tiempo. El proveedor 325 de información de compactación de energía además comprende un estimador 331 de número de líneas, el cual está configurado para proveer una información (332) estimada del número de líneas nl para una banda de frecuencia que tiene índice n. Además, el proveedor 325 de información de compactación de energía comprende un calculador 333 de entropía perceptual, el cual está configurado para computar la información de entropía perceptual 326 sobre la base de la información 330 de energía de la banda de frecuencia y de la información 332 estimada del número de líneas. Por ejemplo, el calculador 327 del factor de forma puede estar configurado para computar el factor forma segúnThe energy compaction information provider 325 comprises a form factor calculator 327, which is configured to receive the representation 234e, 234k of the spectrum transformed by the time distortion and provide, on the basis thereof, an information 328 of the form factor, which may be associated with a frequency band. The energy compaction information provider 325 further comprises a frequency band energy calculator 329, which is configured to calculate a frequency band energy information (330) in (n) based on the representation 234e, 234k of the time distortion spectrum. The energy compaction information provider 325 further comprises an estimator 331 of the number of lines, which is configured to provide an estimated information (332) of the number of lines nl for a frequency band having index n. In addition, the energy compaction information provider 325 comprises a perceptual entropy calculator 333, which is configured to compute the perceptual entropy information 326 based on the frequency band energy information 330 and the information 332 Estimated number of lines. For example, the form factor calculator 327 may be configured to compute the form factor according to

kOffset kOffset ( n 1 ) -1(n 1) -1

ffac(n) = X 4 \X (k) ffac ( n) = X 4 \ X ( k )

k=kOffset (n) (1) k = kOffset (n) (1)

En la ecuación anterior, ffac(n) designa el factor forma para la banda de frecuencia que tiene un índice de banda de frecuencia n. k designa una variable en funcionamiento, la cual funciona sobre los índices de caja espectral de la banda de factor en escala (o banda de frecuencia) n. X(k) designa un valor espectral (por ejemplo, un valor de energía o un valor de magnitud) de la caja espectral (o caja de frecuencia) que tiene un índice de caja espectral (o un índice de caja de frecuencia) k.In the previous equation, ffac (n) designates the form factor for the frequency band that has a frequency band index n. k designates a variable in operation, which operates on the spectral box indices of the scale factor band (or frequency band) n. X (k) designates a spectral value (for example, an energy value or a magnitude value) of the spectral box (or frequency box) having a spectral box index (or a frequency box index) k.

El estimador del número de líneas puede estar configurado para estimar el número de líneas que no son cero, designadas con nl, según la siguiente ecuación:The estimator of the number of lines can be configured to estimate the number of non-zero lines, designated with nl, according to the following equation:

Figure imgf000014_0001
Figure imgf000014_0001

En la ecuación anterior, en(n) designa una energía en la banda de frecuencia o banda de factor de escala n. kOffset(n+1)-kOffset(n) designa un ancho de la banda de frecuencia o banda de factor de escala de índice n en cuanto a cajas de frecuencia.In the previous equation, in (n) designate an energy in the frequency band or scale factor band n. kOffset (n + 1) -kOffset (n) designates a width of the frequency band or index scale factor band n in terms of frequency boxes.

Más aún, el calculador de entropía perceptual 332 puede estar configurado para computar la información de entropía perceptual sfbPe según la siguiente ecuación:Moreover, the perceptual entropy calculator 332 can be configured to compute the perceptual entropy information sfbPe according to the following equation:

Figure imgf000014_0002
Figure imgf000014_0002

En lo anterior, se pueden sostener las siguientes relaciones:In the above, the following relationships can be sustained:

c1 = log 2 (8) c2 = log 2 (2.5) c3 = 1 - c2 /c1, (4)c1 = log 2 (8) c 2 = log 2 (2.5) c3 = 1 - c2 / c1, (4)

Una entropía perceptual total pe se puede computar como la suma de las entropías perceptuales de múltiples bandas de frecuencia o bandas de factor de escala.A total perceptual entropy pe can be computed as the sum of the perceptual entropies of multiple frequency bands or scale factor bands.

Como se mencionó anteriormente, la información de entropía de percepción 326 se puede utilizar como una información de compactación de energía. As mentioned earlier, the perception entropy information 326 can be used as an energy compaction information.

Para otros detalles que se refieren al cómputo de la entropía perceptual, se hace referencia a la sección 5.6.1.1.3 del International Standard “3GPP TS 26.403 V7.0.0(2006-06)”.For other details that refer to the calculation of perceptual entropy, reference is made to section 5.6.1.1.3 of the International Standard “3GPP TS 26.403 V7.0.0 (2006-06)”.

A continuación, se describirá un concepto para el cómputo de la información de compactación de energía en el dominio de tiempo.Next, a concept for the computation of the energy compaction information in the time domain will be described.

Otra mirada al TW-MDCT (transformada de coseno discreto modificada por la distorsión de tiempo) es la idea básica para cambiar la señal de una manera que tenga un tono constante o casi constante dentro de un bloque. Si se obtiene un tono constante, esto significa que la máxima de la autocorrelación de un bloque en proceso aumenta. Dado que no es trivial hallar la máxima correspondiente en la autocorrelación para el caso de distorsión de tiempo y sin distorsión de tiempo, la suma de los valores absolutos para la autocorrelación normalizada se puede utilizar como medida para la mejora. Un aumento en esta suma corresponde a un aumento en la compactación de energía. Another look at TW-MDCT (discrete cosine transform modified by time distortion) is the basic idea to change the signal in a way that has a constant or almost constant tone within a block. If a constant tone is obtained, this means that the maximum autocorrelation of a block in process increases. Since it is not trivial to find the corresponding maximum in the autocorrelation in the case of time distortion and without time distortion, the sum of the absolute values for the normalized autocorrelation can be used as a measure for improvement. An increase in this sum corresponds to an increase in energy compaction.

Este concepto se explicará en detalle a continuación, tomando como referencia las figuras 3g, 3h, 3i, 3j y 3k.This concept will be explained in detail below, taking as reference the figures 3g, 3h, 3i, 3j and 3k.

La figura 3g muestra una representación gráfica de una señal sin distorsión de tiempo en el dominio de tiempo. Una abscisa 350 describe el tiempo, y una ordenada 351 describe un nivel a(t) de la señal de tiempo sin distorsión de tiempo. Una curva 352 describe la evolución temporal de la señal de tiempo sin distorsión de tiempo. Se presume que la frecuencia de la señal sin distorsión de tiempo descripta por la curva 352 aumenta en el tiempo, como puede observarse en la figura 3g.Figure 3g shows a graphical representation of a signal without time distortion in the time domain. An abscissa 350 describes the time, and an ordinate 351 describes a level a (t) of the time signal without time distortion. A curve 352 describes the temporal evolution of the time signal without time distortion. It is presumed that the frequency of the signal without time distortion described by curve 352 increases in time, as can be seen in Figure 3g.

La figura 3h muestra una representación gráfica de una versión de distorsión de tiempo de la señal de tiempo de la figura 3g. Una abscisa 355 describe la distorsión de tiempo (por ejemplo, en forma normalizada) y una ordenada 356 describe el nivel de la versión de la distorsión de tiempo a(tw) de la señal a(t). Como puede observarse in La figura 3h, la versión de la distorsión de tiempo a(tw) de la señal de tiempo sin distorsión de tiempo a(t) comprende (al menos aproximadamente) una frecuencia temporalmente constante en el dominio de distorsión de tiempo.Figure 3h shows a graphical representation of a time distortion version of the time signal of Figure 3g. An abscissa 355 describes the time distortion (for example, in normalized form) and an ordinate 356 describes the level of the time distortion version a (tw) of the signal a (t). As can be seen in Figure 3h, the time distortion version a (tw) of the time signal without time distortion a (t) comprises (at least approximately) a temporarily constant frequency in the time distortion domain.

En otras palabras, la figura 3h ilustra el hecho de que una señal de tiempo de una frecuencia temporalmente variable se transforma en una señal de tiempo de una frecuencia temporalmente constante mediante una operación de distorsión de tiempo apropiada, la cual puede comprender un remuestreado de la distorsión de tiempo.In other words, Figure 3h illustrates the fact that a time signal of a temporarily variable frequency is transformed into a time signal of a temporarily constant frequency by an appropriate time distortion operation, which may comprise a resampling of the time distortion

La figura 3i muestra una representación gráfica de una función de autocorrelación de la señal de tiempo sin distorsión de tiempo a(t). Una abscisa 360 describe un retardo en la autocorrelación t, y una ordenada 361 describe la magnitud de la función de autocorrelación. Las marcas 362 describen una evolución de la autocorrelación Ru w (t) como una función del retardo de la autocorrelación t. Como puede observarse a partir de la figura 3i, la función de autocorrelación Ruw de la señal de tiempo sin distorsión de tiempo a(t) comprende un pico para t = 0 (que refleja la energía de la señal a(t)) y toma pequeños valores para t £ 0.Figure 3i shows a graphical representation of a time signal autocorrelation function without time distortion at (t). An abscissa 360 describes a delay in autocorrelation t, and an ordinate 361 describes the magnitude of the autocorrelation function. The marks 362 describe an evolution of the autocorrelation R uw (t) as a function of the autocorrelation delay t . As can be seen from Figure 3i, the Ruw autocorrelation function of the time signal without time distortion a (t) comprises a peak for t = 0 (which reflects the energy of the signal a (t)) and takes Small values for t £ 0.

La figura 3j muestra una representación gráfica de la función de autocorrelación Rtw de la señal de tiempo de distorsión de tiempo a(tw). Como puede observarse a partir de la figura 3j, la función de autocorrelación Rtw comprende un pico para t = 0, y además comprende picos para otros valores t1, t2, t3 del retardo de la autocorrelación t. Estos picos adicionales para t1, t2, t3 se obtienen por el efecto de la distorsión de tiempo para aumentar la periodicidad de la señal de tiempo de distorsión de tiempo a(tw). Esta periodicidad se refleja mediante los picos adicionales de la función de autocorrelación Rtw (t) cuando se compara con la función de autocorrelación Ru w (t). De este modo, la presencia de picos adicionales (o la intensidad aumentada de picos) de la función de autocorrelación de la señal de audio distorsionada en el tiempo, cuando se compara con la función de autocorrelación de la señal de audio original puede ser utilizada como una indicación de la efectividad (en cuanto a una reducción de la velocidad de bits) de la distorsión de tiempo.Figure 3j shows a graphical representation of the autocorrelation function Rtw of the time distortion time signal a (tw). As can be seen from Figure 3j, the autocorrelation function Rtw comprises a peak for t = 0, and also comprises peaks for other values t1, t2, t3 of the autocorrelation delay t. These additional peaks for t1, t2, t3 are obtained by the effect of time distortion to increase the periodicity of the time distortion time signal to (tw). This periodicity is reflected by the additional peaks of the autocorrelation function Rtw (t) when compared to the autocorrelation function R uw (t). Thus, the presence of additional peaks (or the increased intensity of peaks) of the autocorrelation function of the distorted audio signal over time, when compared with the autocorrelation function of the original audio signal can be used as an indication of the effectiveness (in terms of a reduction in bit rate) of time distortion.

La figura 3k muestra un diagrama esquemático en bloque de un proveedor 370 de información de compactación de energía configurado para recibir una representación de dominio de tiempo de distorsión de tiempo de la señal de audio, por ejemplo, la señal 234e, 234k de distorsión de tiempo (donde la transformada 234d, 234j de dominio espectral y opcionalmente el generador 234b y 234h de ventanas de análisis se omite), y proveer, sobre la base del mismo, una información 374 de compactación de energía, la cual puede tomar la función de la información 372 de compactación de energía. El proveedor 370 de información de compactación de energía de la figura 3k comprende un calculador 371 de autocorrelación configurado para computar la función de autocorrelación Rtw(T) de la señal de distorsión de tiempo a(tw) sobre un rango predeterminado de valores discretos de t. El proveedor 370 de información de compactación de energía además comprende un sumador 372 de autocorrelación configurado para sumar una pluralidad de valores de la función de autocorrelación Rtw(T) (por ejemplo, sobre un rango predeterminado de valores discretos de t) y proveer la suma obtenida como la información 122, 234m, 234n de compactación de energía. Figure 3k shows a block schematic diagram of a provider of energy compaction information 370 configured to receive a time domain time representation of the audio signal, for example, time distortion signal 234e, 234k (where the transformed 234d, 234j of spectral domain and optionally the generator 234b and 234h of analysis windows is omitted), and provide, on the basis of it, an information 374 of energy compaction, which can take the function of 372 energy compaction information. The energy compaction information provider 370 of Figure 3k comprises an autocorrelation calculator 371 configured to compute the autocorrelation function Rtw (T) of the time distortion signal a (tw) over a predetermined range of discrete values of t . The energy compaction information provider 370 further comprises an autocorrelation adder 372 configured to sum a plurality of values of the autocorrelation function Rtw (T) (for example, over a predetermined range of discrete values of t ) and provide the sum obtained as information 122, 234m, 234n of energy compaction.

De este modo, el proveedor 370 de información de compactación de energía permite la provisión de información confiable que indica la eficiencia de la distorsión de tiempo sin realizar realmente la transformación de dominio espectral de la versión del dominio de tiempo de distorsión de tiempo de la señal 210 de audio de entrada. Por lo tanto, es posible realizar una transformación de dominio espectral de la versión de la distorsión de tiempo de la señal 310 de audio de entrada sólo si se halla, sobre la base de la información 122 de compactación de energía, 234m, 234n provista por el proveedor 370 de información de compactación de energía, que la distorsión de tiempo realmente otorga una eficiencia de codificación mejorada.In this way, the energy compaction information provider 370 allows the provision of reliable information indicating the efficiency of time distortion without actually performing the domain transformation. spectral version of the time distortion time domain of the input audio signal 210. Therefore, it is possible to perform a spectral domain transformation of the time distortion version of the input audio signal 310 only if it is found, based on the energy compaction information 122, 234m, 234n provided by the energy compaction information provider 370, that the time distortion really gives improved coding efficiency.

Para resumir lo anterior, las realizaciones según la invención crean un concepto para una revisión final de la calidad. Un contorno de tono resultante (utilizado en un codificador de señal de audio de distorsión de tiempo) se evalúa en cuanto a su ganancia de codificación y si se acepta o se rechaza. Varias medidas concernientes a la escasez de ganancia de codificación o del espectro se pueden tomar en cuenta para esta decisión, por ejemplo, una medida de planicidad espectral, una medida de plenitud espectral segmental banda por banda, y/o una entropía perceptual. El uso de diferente información de compactación espectral se ha discutido, por ejemplo, el uso de una medida de planicidad espectral, el uso de una medida de entropía perceptual, y el uso de una mediad de autocorrelación de dominio de tiempo. No obstante, existen otras medidas que muestran una compactación de la energía en un espectro distorsionado en el tiempo.To summarize the above, the embodiments according to the invention create a concept for a final quality review. A resulting tone contour (used in a time distortion audio signal encoder) is evaluated for its encoding gain and whether it is accepted or rejected. Several measures concerning the shortage of coding or spectrum gain can be taken into account for this decision, for example, a measure of spectral flatness, a measure of segmental spectral fullness band by band, and / or a perceptual entropy. The use of different spectral compaction information has been discussed, for example, the use of a measure of spectral flatness, the use of a measure of perceptual entropy, and the use of a time domain autocorrelation measure. However, there are other measures that show a compaction of energy in a spectrum distorted over time.

Todas estas medidas se pueden utilizar. Con preferencia, para todas estas medidas, se define una relación entre la medida para espectro sin distorsión de tiempo y uno con distorsión de tiempo, y se establece un umbral para esta relación en el codificador para determinar si un el contorno de distorsión de tiempo obtenido brinda un beneficio en la codificación o no.All these measures can be used. Preferably, for all these measurements, a relationship between the measurement for spectrum without time distortion and one with time distortion is defined, and a threshold is established for this relationship in the encoder to determine whether a time distortion contour is obtained. provides a benefit in coding or not.

Todas estas medidas se pueden aplicar a un marco completo, donde sólo la tercera porción del contorno de tono es nuevo (donde, por ejemplo, tres porciones del contorno de tono están asociadas con el marco completo), o con preferencia sólo para la porción de la señal, para lo cual se obtuvo esta nueva porción, por ejemplo, utilizando una transformada con una ventana superpuesta baja centrada sobre la porción de señal (respectiva).All these measures can be applied to a complete frame, where only the third portion of the tone contour is new (where, for example, three portions of the tone contour are associated with the complete frame), or preferably only for the portion of the signal, for which this new portion was obtained, for example, using a transform with a low superimposed window centered on the signal portion (respective).

Naturalmente, una sola medida o una combinación de las medidas antes mencionadas se pueden utilizar según se desee.Naturally, a single measurement or a combination of the aforementioned measures can be used as desired.

La figura 4a muestra un diagrama de flujo de un método para proveer una señal de activación de distorsión de tiempo sobre la base de una señal de audio. El método 400 de la figura 4a comprende un paso 410 para suministrar una información de compactación de energía que describe una compactación de energía en una representación espectral transformada por la distorsión de tiempo de la señal de audio. El método 400 además comprende un paso 420 para comparar la información de compactación de energía con un valor de referencia. El método 400 además comprende un paso 430 para suministrar la señal de activación de distorsión de tiempo con dependencia del resultado de la comparación.Figure 4a shows a flow chart of a method for providing a time distortion activation signal based on an audio signal. The method 400 of Figure 4a comprises a step 410 to provide an energy compaction information describing an energy compaction in a spectral representation transformed by the time distortion of the audio signal. The method 400 further comprises a step 420 to compare the energy compaction information with a reference value. The method 400 further comprises a step 430 to deliver the time distortion activation signal depending on the result of the comparison.

El método 400 puede ser suplementado por cualquiera de los rasgos y funcionalidades que se describen en la presente con respecto a la provisión de la señal de activación de distorsión de tiempo.The method 400 may be supplemented by any of the features and functionalities described herein with respect to the provision of the time distortion activation signal.

La figura 4b muestra un diagrama de flujo de un método para codificar una señal de audio de entrada para obtener una representación codificada de la señal de audio de entrada. El método 450 opcionalmente comprende un paso 460 para suministrar una representación espectral transformada por la distorsión de tiempo sobre la base de la señal de audio de entrada. El método 450 además comprende un paso 470 para suministrar una señal de activación de distorsión de tiempo. El paso 470, por ejemplo, puede comprender la funcionalidad del método 400. De este modo, la información de compactación de energía puede ser provista de modo que la información de compactación de energía describa una compactación de energía en la representación del espectro transformado por la distorsión de tiempo de la señal de audio de entrada. El método 450 además comprende un paso 480 para suministrar en forma selectiva, con dependencia de la señal de activación de distorsión de tiempo, una descripción de la representación espectral transformada por la distorsión de tiempo de la señal de audio de entrada utilizando una información del contorno de distorsión de tiempo recientemente hallada o una descripción de una representación espectral transformada sin distorsión de tiempo de la señal de audio de entrada utilizando una información estándar del contorno de distorsión de tiempo (no variable) para la inclusión en la representación codificada de la señal de audio de entrada.Figure 4b shows a flow chart of a method for encoding an input audio signal to obtain an encoded representation of the input audio signal. The method 450 optionally comprises a step 460 to provide a spectral representation transformed by the time distortion based on the input audio signal. Method 450 further comprises a step 470 to deliver a time distortion activation signal. Step 470, for example, may comprise the functionality of method 400. In this way, the energy compaction information can be provided so that the energy compaction information describes an energy compaction in the representation of the spectrum transformed by the Time distortion of the input audio signal. The method 450 further comprises a step 480 to selectively provide, with dependence on the time distortion activation signal, a description of the spectral representation transformed by the time distortion of the input audio signal using contour information of recently found time distortion or a description of a spectral representation transformed without time distortion of the input audio signal using a standard time distortion contour information (non-variable) for inclusion in the encoded representation of the signal from audio input

El método 450 puede ser suplementado por cualquiera de los rasgos y funcionalidades mencionados en la presente con respecto a la codificación de la señal de audio de entrada.Method 450 may be supplemented by any of the features and functionalities mentioned herein with respect to the encoding of the input audio signal.

La figura 5 ilustra una realización preferida de un codificador de audio según la presente invención, en la cual varios aspectos de la presente invención son implementados. Se provee una señal de audio en una entrada del codificador 500. Esta señal de audio será típicamente una señal de audio discreta la cual ha sido derivada de una señal de audio análoga utilizando una velocidad de muestreado la cual además se denomina la velocidad de muestreado normal. Esta velocidad de muestreado normal es diferente de una velocidad de muestreado local generada en una operación de la función de distorsión de tiempo, y la velocidad de muestreado normal de la señal de audio en la entrada 500 es una velocidad de muestreado constante que de por resultado muestras de audio separadas por una porción de tiempo constante. La señal se coloca en un generador 502 de ventanas de análisis, el cual está, en esta realización, conectado un controlador de función de generación de ventanas 504. El generador 502 de ventanas de análisis está conectado a un distorsionador 506 de tiempo (time warper). Dependiendo de la implementación, sin embargo, el distorsionador 506 de tiempo puede ser colocado - en una dirección de procesamiento de señal - antes del generador 502 de ventanas de análisis. Se prefiere esta implementación, cuando una característica de distorsión de tiempo se requiere para la generación de ventanas de análisis en bloque 502, y cuando la función de distorsión de tiempo deba realizarse sobre muestras de distorsión de tiempo en vez de muestras sin distorsión de tiempo. Específicamente en el contexto de distorsión de tiempo basado en MDCT como se describe en Bernd Edler et al., “Time Warped MDCT”, Solicitud de Patente Internacional PCT/EP2009/002118. Para otras aplicaciones de distorsión de tiempo tal como las que se describen en L. Villemoes, “Time Warped Transform Coding of Audio Signals”, Solicitud de Patente Internacional PCT/EP2006/010246, Noviembre de 2005., la colocación entre el distorsionador 506 de tiempo y el generador 502 de ventanas de análisis se puede establecer según lo requerido. Además, un convertidor 508 de tiempo/frecuencia se provee para realizar una conversión de tiempo/frecuencia de una señal de audio distorsionada en el tiempo en una representación espectral. La representación espectral puede ser ingresada en una etapa 510 de TNS (formato de ruido temporal), la cual provee, como una salida 5l0a, información de TNS y, como una salida 510b, valores residuales espectrales. La salida 510b está acoplada a un cuantificador y codificador 512 en bloque el cual puede ser controlado por un modelo 514 perceptual para cuantificar una señal de modo que el ruido de cuantificación se esconda por debajo del umbral de enmascaramiento perceptual de la señal de audio. Figure 5 illustrates a preferred embodiment of an audio encoder according to the present invention, in which various aspects of the present invention are implemented. An audio signal is provided at an input of the encoder 500. This audio signal will typically be a discrete audio signal which has been derived from an analog audio signal using a sampling rate which is also called the normal sampling rate. . This normal sampling rate is different from a local sampling rate generated by a operation of the time distortion function, and the normal sampling rate of the audio signal at input 500 is a constant sampling rate that results in audio samples separated by a constant portion of time. The signal is placed in an analysis window generator 502, which, in this embodiment, is connected to a window generation function controller 504. The analysis window generator 502 is connected to a time warper 506 ). Depending on the implementation, however, the time distorter 506 may be placed - in a signal processing direction - before the generator 502 of analysis windows. This implementation is preferred, when a time distortion characteristic is required for the generation of block analysis windows 502, and when the time distortion function must be performed on time distortion samples instead of samples without time distortion. Specifically in the context of time distortion based on MDCT as described in Bernd Edler et al., "Time Warped MDCT", International Patent Application PCT / EP2009 / 002118. For other time distortion applications such as those described in L. Villemoes, "Time Warped Transform Coding of Audio Signals", International Patent Application PCT / EP2006 / 010246, November 2005., the placement between the 506 distorter of Time and analysis window generator 502 can be set as required. In addition, a time / frequency converter 508 is provided to perform a time / frequency conversion of a time distorted audio signal into a spectral representation. The spectral representation can be entered in a step 510 of TNS (temporal noise format), which provides, as a 5l0a output, TNS information and, as an output 510b, spectral residual values. Output 510b is coupled to a block quantifier and encoder 512 which can be controlled by a perceptual model 514 to quantify a signal so that the quantization noise is hidden below the perceptual masking threshold of the audio signal.

Adicionalmente, el codificador ilustrado en la figura 5a comprende un analizador 516 de distorsión de tiempo, el cual puede ser implementado como un seguidor de tono, que provee una información de la distorsión de tiempo en la salida 518. La señal en la línea 518 puede comprender una característica de distorsión de tiempo, una característica de tono, un contorno de tono, o una información, si la señal analizada por el analizador de distorsión de tiempo es una señal armónica o una señal sin armonía. El analizador de distorsión de tiempo además puede implementar la funcionalidad de distinguir entre la expresión sonora y la expresión sorda. Sin embargo, dependiendo de la implementación, y si un clasificador 520 de señal está implementado, la decisión sonora/sorda puede efectuarse además mediante el clasificador 520 de señal. En este caso, el analizador de distorsión de tiempo no necesariamente debe realizar la misma funcionalidad. La salida 518 del analizador de distorsión de tiempo está conectada a al menos una y con preferencia más de una funcionalidad en el grupo de funcionalidad que comprende el controlador 504 de la función de generación de ventanas, el distorsionador 506 de tiempo, la etapa 510 de TNS, el cuantificador 512 y codificador y una interfaz 522 de salida.Additionally, the encoder illustrated in Figure 5a comprises a time distortion analyzer 516, which can be implemented as a tone follower, which provides time distortion information at output 518. The signal on line 518 can comprise a time distortion characteristic, a tone characteristic, a tone contour, or an information, if the signal analyzed by the time distortion analyzer is a harmonic signal or a signal without harmony. The time distortion analyzer can also implement the functionality to distinguish between sound expression and deaf expression. However, depending on the implementation, and if a signal classifier 520 is implemented, the sound / deaf decision can also be made by the signal classifier 520. In this case, the time distortion analyzer must not necessarily perform the same functionality. The output 518 of the time distortion analyzer is connected to at least one and preferably more than one functionality in the functionality group comprising the controller 504 of the window generating function, the time distorter 506, the step 510 of TNS, quantifier 512 and encoder and an output interface 522.

En forma análoga, una salida 522 del clasificador 520 de señal puede estar conectada a una o más de las funcionalidades de un grupo de funcionalidades que comprende el controlador 504 de la función de generación de ventanas, la etapa 510 de TNS, un analizador 524 de relleno de ruido o la interfaz 522 de salida. Además, una salida 518 del analizador de distorsión de tiempo puede estar conectada al analizador 524 de relleno de ruido.Similarly, an output 522 of the signal classifier 520 may be connected to one or more of the functionalities of a group of functionalities comprising the controller 504 of the window generation function, step 510 of TNS, an analyzer 524 of Noise padding or 522 output interface. In addition, an output 518 of the time distortion analyzer may be connected to the noise fill analyzer 524.

Aunque la figura 5a ilustra una situación, donde la señal de audio en la entrada 500 del generador de ventanas de análisis es ingresada en un analizador 516 de distorsión de tiempo y el clasificador 520 de señal, las señales de entrada para estas funcionalidades además se pueden tomar de la salida del generador 502 de ventanas de análisis y, con respecto al clasificador de señal, incluso se pueden tomar de la salida del distorsionador 506 de tiempo, la salida del convertidor 508 de tiempo/frecuencia o la salida de la etapa 510 de TNS.Although Figure 5a illustrates a situation, where the audio signal at the input 500 of the analysis window generator is input into a time distortion analyzer 516 and the signal classifier 520, the input signals for these functionalities can also be take from the output of the generator 502 of analysis windows and, with respect to the signal classifier, they can even be taken from the output of the time distorter 506, the output of the time / frequency converter 508 or the output of step 510 of TNS

Además de la salida de una señal por el cuantificador codificador 512 que se indica en 526, la interfaz 522 de salida recibe la información 510a del lado del TNS, una información 528 del lado del modelo perceptual, el cual puede incluir factores de escala en forma codificada, datos de indicación de distorsión de tiempo para más información del lado de la distorsión de tiempo avanzada tal como el contorno de tono en la línea 518 y la información de clasificación de señal en la línea 522. Además, el analizador 524 de relleno de ruido puede producir además datos de relleno de ruido en la salida 530 en la interfaz 522 de salida. La interfaz 522 de salida está configurada para generar datos de salida de audio codificada en la línea 532 para la transmisión a un decodificador o para almacenar en un dispositivo de almacenamiento tal como un dispositivo de memoria. Dependiendo de la implementación, los datos de salida 532 pueden incluir todos los de la entrada en la interfaz 522 de salida o pueden contener menos información, siempre que la información no sea requerida por el correspondiente decodificador, el cual tiene una funcionalidad reducida, o siempre que la información ya esté disponible en el decodificador debido a una transmisión mediante un canal de transmisión diferente.In addition to the output of a signal by the encoder quantifier 512 indicated in 526, the output interface 522 receives information 510a from the side of the TNS, information 528 from the side of the perceptual model, which may include scaling factors in form encoded, time distortion indication data for more information on the side of the advanced time distortion such as the tone contour on line 518 and the signal classification information on line 522. In addition, the fill-in analyzer 524 Noise can also produce noise filler data at output 530 at output interface 522. The output interface 522 is configured to generate audio output data encoded on line 532 for transmission to a decoder or to store in a storage device such as a memory device. Depending on the implementation, the output data 532 may include all of the input on the output interface 522 or may contain less information, provided that the information is not required by the corresponding decoder, which has reduced functionality, or always that the information is already available in the decoder due to a transmission through a different transmission channel.

El codificador ilustrado en la figura 5a puede ser implementado como se define en detalle en estándar MPEG-4 además de las funcionalidades adicionales que se ilustran en el codificador de la invención en la figura 5a representada por el controlador 504 de la función de generación de ventanas, el analizador 524 de relleno de ruido, el cuantificador codificador 512 y la etapa 510 de TNS, los cuales tienen, en comparación con el estándar MPEG-4, una funcionalidad avanzada. Otra descripción se encuentra en el estándar AAC (estándar internacional 13818-7) o 3GPP TS 26.403 V7.0.0: Third generation partnership project; technical specification group services and system aspect; general audio codec audio processing functions; enhanced AAC plus general audio codec.The encoder illustrated in Figure 5a can be implemented as defined in detail in the MPEG-4 standard in addition to the additional functionalities illustrated in the encoder of the invention in Figure 5a represented by the controller 504 of the window generation function. , noise filler analyzer 524, encoder quantifier 512 and step 510 of TNS, which have, in comparison to the MPEG-4 standard, advanced functionality. Another description is found in the AAC standard (international standard 13818-7) or 3GPP TS 26.403 V7.0.0: Third generation partnership project; technical specification group services and system aspect; general audio codec audio processing functions; enhanced AAC plus general audio codec.

A continuación, se describe la figura 5b, la cual ilustra una realización preferida de un decodificador de audio para decodificar una señal de audio codificada recibida a través de la entrada 540. La interfaz 540 de entrada es operativa para procesar la señal de audio codificada de modo que los diferentes ítems de información de la información son extraídos de la señal en la línea 540. Esta información comprende información 541 de clasificación de señal, información 542 de distorsión de tiempo, datos 543 de relleno de ruido, factores 544 de escala, datos 545 de TNS e información 546 espectral codificada. La información espectral codificada es ingresada en un decodificador 547 entrópico, el cual puede comprender un decodificador Huffman o un decodificador aritmético, siempre que la funcionalidad del codificador en el bloque 512 en la figura 5a sea implementada en la forma del correspondiente codificador tal como un codificador Huffman o un codificador aritmético. La información espectral codificada es ingresada al re-cuantificador 550, el cual está conectado a un relleno 552 de ruido. La salida del relleno 552 de ruido es ingresada a una etapa 554 de TNS inversa, la cual además recibe los datos de TNS en la línea 545. Dependiendo de la implementación, el relleno 552 de ruido y la etapa 554 de TNS se pueden aplicar en diferente orden de modo que el relleno 552 de ruido operes en los datos de salida de la etapa 554 de TNS más que en los datos de entrada de TNS. Además, se provee un convertidor 556 de frecuencia/tiempo, el cual alimenta un regenerador 558 de tiempo (time dewarper). A la salida de la cadena de procesamiento de señal, un generador de ventana de síntesis que realiza con preferencia un procesamiento de superposición/agregado se aplica como se indica en 560. El orden del regenerador 558 de tiempo y la etapa 560 de síntesis se puede cambiar, pero, en la realización preferida, se prefiere realizar un algoritmo de codificado/decodificación en base a MDCT como se define en el estándar AAC (AAC = codificación de audio avanzada). A continuación, la operación de desvanecimiento cruzado inherente de un bloque al próximo debido al procedimiento de superposición/agregado se utiliza con ventaja como la última operación en las cadenas de procesamiento de modo que todos los artefactos que bloquean la distorsión en la conversión se evitan en forma efectiva.Next, Figure 5b is described, which illustrates a preferred embodiment of an audio decoder for decoding an encoded audio signal received through input 540. The input interface 540 is operative to process the encoded audio signal of so that the different information information items are extracted from the signal on line 540. This information includes signal classification information 541, time distortion information 542, noise fill data 543, scale factors 544, data 545 of TNS and 546 encoded spectral information. The encoded spectral information is entered into an entropic decoder 547, which may comprise a Huffman decoder or an arithmetic decoder, provided that the functionality of the encoder in block 512 in Figure 5a is implemented in the form of the corresponding encoder such as an encoder Huffman or an arithmetic encoder. The encoded spectral information is entered into re-quantizer 550, which is connected to a noise fill 552. The output of the noise fill 552 is entered into a reverse TNS stage 554, which also receives the TNS data on line 545. Depending on the implementation, the noise fill 552 and the TNS step 554 can be applied in different order so that the noise fill 552 operates in the output data of step 554 of TNS rather than in the input data of TNS. In addition, a frequency / time converter 556 is provided, which feeds a time regenerator 558 ( time dewarper). At the output of the signal processing chain, a synthesis window generator that preferably performs an overlay / aggregate processing is applied as indicated in 560. The order of the time regenerator 558 and the synthesis step 560 can be change, but, in the preferred embodiment, it is preferred to perform an encoding / decoding algorithm based on MDCT as defined in the AAC standard (AAC = advanced audio coding). Next, the inherent cross fade operation from one block to the next due to the overlay / aggregate procedure is advantageously used as the last operation in the processing chains so that all artifacts that block the distortion in the conversion are avoided in effective way.

Adicionalmente, se proporciona un analizador de relleno 562 de ruido, que está configurado para controlar el relleno 552 de ruido y que recibe como una entrada, información 542 sobre la distorsión temporal y/o información sobre la clasificación 541 de señales e información sobre el espectro recuantificado, según sea el caso.Additionally, a noise 562 fill analyzer is provided, which is configured to control the noise fill 552 and which receives as input, information 542 on temporal distortion and / or information on the classification 541 of signals and spectrum information. quantified, as the case may be.

Preferiblemente, todas las funcionalidades descritas de aquí en adelante se aplican juntas en un esquema de codificador/decodificador de audio mejorado. No obstante, las funcionalidades descritas de aquí en adelante también pueden aplicarse independientemente una a la otra, es decir, de manera que solamente se implementa una o un grupo, pero no todas las funcionalidades en un cierto esquema de codificador/decodificador.Preferably, all the functionalities described hereafter are applied together in an improved audio encoder / decoder scheme. However, the functionalities described hereafter can also be applied independently to each other, that is, so that only one or a group is implemented, but not all the functionalities in a certain encoder / decoder scheme.

Posteriormente, se describe en detalle el aspecto de relleno de ruido de la presente invención.Subsequently, the noise fill aspect of the present invention is described in detail.

En una realización, la información adicional proporcionada por la herramienta 516 de contornos de tono/distorsión temporal en la figura 5a se utiliza de manera beneficiosa para controlar otras herramientas del codificador/decodificador y, específicamente, la herramienta de relleno de ruido implementada por el analizador 524 de relleno de ruido del lado del codificador y/o implementada por el analizador de relleno 562 de ruido y el relleno 552 de ruido del lado del decodificador.In one embodiment, the additional information provided by the tone contour / time distortion tool 516 in Figure 5a is beneficially used to control other encoder / decoder tools and, specifically, the noise fill tool implemented by the analyzer 524 noise fill of the encoder side and / or implemented by the noise fill analyzer 562 and the noise fill 552 of the decoder side.

Varias herramientas del codificador dentro del marco AAC tal como una herramienta de relleno de ruido se controlan mediante la información recopilada por el análisis de contornos de tonos y/o por un conocimiento adicional de una clasificación de señales proporcionada por el clasificador 520 de señales.Several encoder tools within the AAC framework such as a noise fill tool are controlled by the information collected by the analysis of tone contours and / or by additional knowledge of a signal classification provided by the signal classifier 520.

Un contorno de tonos encontrado indica segmentos de señales con una estructura armónica clara, de manera que el relleno de ruido entre las líneas armónicas podría disminuir la calidad percibida, especialmente en las señales de expresión, por lo tanto el nivel de ruido se reduce, cuando se encuentra un contorno de tono. De otra manera, habría ruido entre los tonos parciales, que tienen el mismo efecto que el ruido de cuantificación incrementado para un espectro manchado. Además, la cantidad de reducción del nivel de ruido además puede mejorarse utilizando la información del clasificador de señales, de modo que p. ejemplo para las señales de expresión no habría ningún relleno de ruido y se aplicaría un relleno de ruido moderado a las señales genéricas con una estructura armónica fuerte.A contour of tones found indicates segments of signals with a clear harmonic structure, so that the noise filling between the harmonic lines could decrease the perceived quality, especially in expression signals, therefore the noise level is reduced, when A tone contour is found. Otherwise, there would be noise between the partial tones, which have the same effect as the increased quantization noise for a spotted spectrum. In addition, the amount of noise level reduction can also be improved using the information of the signal classifier, so that p. For example, for expression signals there would be no noise fill and a moderate noise fill would be applied to generic signals with a strong harmonic structure.

Generalmente, el relleno 552 de ruido es útil para insertar líneas espectrales en un espectro decodificado, donde los ceros se han transmitido de un codificador a un decodificador, es decir, donde el cuantificador 512 en la figura 5a ha cuantificado líneas espectrales en cero. Naturalmente, cuantificar las líneas espectrales en cero redujo mucho la velocidad de bits de la señal transmitida, y, en teoría, la eliminación de estas líneas espectrales (pequeñas) no es audible, cuando estas líneas espectrales están por debajo del umbral de enmascaramiento perceptual según lo determinado por el modelo 514 perceptual. No obstante, se ha descubierto que estos “agujeros espectrales”, que pueden incluir muchas líneas espectrales adyacentes dan como resultado un sonido bastante poco natural. Por lo tanto, se proporciona una herramienta de relleno de ruido para insertar líneas espectrales en las posiciones, donde las líneas se han cuantificado en cero mediante un cuantificador del lado del codificador. Estas líneas espectrales pueden tener una amplitud o fase aleatoria, y estas líneas espectrales sintetizadas del lado del decodificador se escalan utilizando una medición de relleno de ruido determinada del lado del codificador según lo ilustrado en la figura 5a o dependiendo de una medición determinada del lado del decodificador según lo ilustrado en la figura 5b por bloque 562 opcional. El analizador 524 de relleno de ruido en la figura 5a, por lo tanto, está configurado para estimar una medición de relleno de ruido de una energía de valores de audio cuantificados en cero para un marco temporal de la señal de audio.Generally, noise fill 552 is useful for inserting spectral lines into a decoded spectrum, where zeros have been transmitted from an encoder to a decoder, that is, where quantizer 512 in Figure 5a has quantified spectral lines at zero. Naturally, quantifying the spectral lines at zero greatly reduced the bit rate of the transmitted signal, and, in theory, the elimination of these (small) spectral lines is not audible, when these spectral lines are below the perceptual masking threshold according to as determined by the 514 perceptual model. However, it has been discovered that these "spectral holes", which may include many adjacent spectral lines, result in a rather unnatural sound. Therefore, a noise fill tool is provided to insert spectral lines into positions, where the lines have been quantified at zero by a quantifier on the encoder side. These spectral lines they can have a random amplitude or phase, and these spectral lines synthesized from the decoder side are scaled using a noise fill measurement determined from the encoder side as illustrated in Figure 5a or depending on a given measurement of the decoder side as illustrated in Figure 5b by optional block 562. The noise fill analyzer 524 in Figure 5a, therefore, is configured to estimate a noise fill measurement of an energy of zero-quantized audio values for a time frame of the audio signal.

En una realización de la presente invención, el codificador de audio para codificar una señal de audio en línea 500 comprende el cuantificador 512 que se configura para cuantificar valores de audio, donde el cuantificador 512 además está configurado para cuantificar en cero valores de audio por debajo de un umbral de cuantificación. Este umbral de cuantificación puede ser el primer paso de un cuantificador basado en pasos, que se utiliza para la decisión, si un cierto valor de audio se cuantifica en cero, es decir, en un índice de cuantificación de cero, o se cuantifica en uno, es decir, un índice de cuantificación de uno que indica que el valor de audio está por encima de este primer umbral. Aunque el cuantificador en la figura 5a se ilustra como que realiza la cuantificación de valores de dominio de la frecuencia, el cuantificador también puede utilizarse para cuantificar valores de dominio del tiempo en una realización alternativa, en la que el relleno de ruido se realiza en el dominio del tiempo en vez del dominio de la frecuencia.In one embodiment of the present invention, the audio encoder for encoding an in-line audio signal 500 comprises quantizer 512 that is configured to quantify audio values, where quantizer 512 is also configured to quantify audio values below zero. of a quantification threshold. This quantification threshold may be the first step of a step-based quantifier, which is used for the decision, if a certain audio value is quantified at zero, that is, at a quantization index of zero, or quantified by one , that is, a quantification index of one that indicates that the audio value is above this first threshold. Although the quantifier in Figure 5a is illustrated as performing the quantification of frequency domain values, the quantifier can also be used to quantify time domain values in an alternative embodiment, in which the noise filling is performed in the time domain instead of frequency domain.

El analizador 524 de relleno de ruido se implementa como un calculador de relleno de ruido para estimar una medición de relleno de ruido de una energía de valores de audio cuantificados en cero para un marco de tiempo de la señal de audio por parte del cuantificador 512. Adicionalmente, el codificador de audio comprende un analizador de señales de audio 600 ilustrado en la figura 6a, que se configura para analizar, si el marco temporal de la señal de audio tiene una característica armónica o una característica de expresión. El analizador 600 de señales puede, por ejemplo, comprender el bloque 516 de la figura 5a o el bloque 520 de la figura 5a o puede comprender cualquiera de los dispositivos para analizar, si una señal es una señal armónica o una señal de expresión. Debido a que el analizador 516 de distorsión temporal se implementa para buscar siempre un contorno de tonos, y debido a que la presencia de un contorno de tonos indica una estructura armónica de la señal, el analizador 600 de señales en la figura 6a puede implementarse como un rastreador de tonos o un calculador de contornos de distorsión temporal de un analizador de distorsión temporal.The noise fill analyzer 524 is implemented as a noise fill calculator to estimate a noise fill measurement of an energy of zero-quantized audio values for a time frame of the audio signal by the quantizer 512. Additionally, the audio encoder comprises an audio signal analyzer 600 illustrated in Figure 6a, which is configured to analyze, if the time frame of the audio signal has a harmonic characteristic or an expression characteristic. The signal analyzer 600 may, for example, comprise block 516 of Figure 5a or block 520 of Figure 5a or it may comprise any of the devices for analyzing whether a signal is a harmonic signal or an expression signal. Because the temporal distortion analyzer 516 is implemented to always look for a tone contour, and because the presence of a tone contour indicates a harmonic structure of the signal, the signal analyzer 600 in Figure 6a can be implemented as a tone tracker or a temporal distortion contour calculator of a temporal distortion analyzer.

El codificador de audio adicionalmente comprende un manipulador del nivel de relleno 602 de ruido ilustrado en la figura 6a, que produce una medición/nivel de relleno de ruido a ser producido en la interfaz 522 de salida indicada en 530 en la figura 5a. El manipulador de medición de relleno 602 de ruido está configurado para manipular la medición de relleno de ruido dependiendo de la característica armónica o de expresión de la señal de audio. El codificador de audio adicionalmente comprende la interfaz 522 de salida para generar una señal codificada para transmisión o almacenamiento, la señal codificada que comprende la medición de relleno de ruido manipulada producida por el bloque 602 en línea 530. Este valor corresponde a los valores producidos por el bloque 562 en la implementación del lado del decodificador ilustrada en la figura 5b.The audio encoder additionally comprises a noise level 602 manipulator illustrated in Figure 6a, which produces a measurement / level of noise level to be produced at the output interface 522 indicated in 530 in Figure 5a. The noise fill measurement manipulator 602 is configured to manipulate the noise fill measurement depending on the harmonic or expression characteristic of the audio signal. The audio encoder additionally comprises the output interface 522 for generating an encoded signal for transmission or storage, the encoded signal comprising the manipulated noise fill measurement produced by block 602 in line 530. This value corresponds to the values produced by block 562 in the implementation of the decoder side illustrated in Figure 5b.

Según lo indicado en la figura 5a y figura 5b, la manipulación del nivel de relleno de ruido puede implementarse en un codificador o puede implementarse en un decodificador o puede implementarse en ambos dispositivos juntos. En una implementación del lado del decodificador, el decodificador para decodificar una señal codificada de audio comprende la interfaz 539 de entrada para procesar la señal codificada en línea 540 para obtener una medición de relleno de ruido, es decir, datos de relleno de ruido en línea 543, datos de audio codificados en línea 546. El decodificador adicionalmente comprende un decodificador 547 y re-cuantificador 550 para generar datos recuantificados.As indicated in Figure 5a and Figure 5b, manipulation of the noise fill level can be implemented in an encoder or can be implemented in a decoder or can be implemented in both devices together. In an implementation of the decoder side, the decoder for decoding an encoded audio signal comprises the input interface 539 for processing the encoded signal in line 540 to obtain a noise fill measurement, that is, noise fill data in line 543, audio data encoded in line 546. The decoder additionally comprises a decoder 547 and re-quantizer 550 for generating quantified data.

Adicionalmente, el decodificador comprende un analizador 600 de señales (Figura 6a) que puede implementarse en el analizador de relleno 562 de ruido en la figura 5b para recuperar información, en el caso de un marco temporal de los datos de audio posea una característica armónica o de expresión.Additionally, the decoder comprises a signal analyzer 600 (Figure 6a) that can be implemented in the noise filler analyzer 562 in Figure 5b to retrieve information, in the case of a time frame of the audio data possesses a harmonic characteristic or expression.

Adicionalmente, se proporciona el relleno 552 de ruido para generar datos de audio de relleno de ruido, en donde el relleno 552 de ruido está configurado para generar los datos de relleno de ruido en respuesta a la medición de relleno de ruido transmitida a través de la señal codificada y generada por la interfaz de entrada en la línea 543 y la característica armónica o de expresión de los datos de audio según lo definido por el analizador de señales 516 y/o 550 del lado del codificador o según lo definido por el ítem 562 del lado del decodificador a través del procesamiento e interpretación de la información sobre la distorsión temporal 542 que indica, si un cierto marco temporal ha sido sometido a un procesamiento de distorsión temporal o no.Additionally, noise fill 552 is provided to generate noise fill audio data, wherein noise fill 552 is configured to generate noise fill data in response to the measurement of noise fill transmitted through the signal encoded and generated by the input interface on line 543 and the harmonic or expression characteristic of the audio data as defined by the signal analyzer 516 and / or 550 on the encoder side or as defined by item 562 on the decoder side through the processing and interpretation of the information about the temporal distortion 542 that it indicates, whether a certain time frame has undergone a temporary distortion processing or not.

Adicionalmente, el decodificador comprende un procesador para procesar los datos recuantificados y los datos de audio de relleno de ruido para obtener una señal de audio decodificada. El procesador puede incluir los ítems 554, 556, 558, 560 en la figura 5b según sea el caso. Adicionalmente, dependiendo de la implementación específica del algoritmo del codificador/decodificador, el procesador puede incluir otros bloques de procesamiento, que se proporcionan, por ejemplo, en un codificador de dominio del tiempo tal como el codificador AMR WB+ u otros codificadores de expresión.Additionally, the decoder comprises a processor to process the quantified data and the noise filler audio data to obtain a decoded audio signal. The processor may include items 554, 556, 558, 560 in Figure 5b as appropriate. Additionally, depending on the specific implementation of the encoder / decoder algorithm, the processor may include other processing blocks, which are provided, for example, in a time domain encoder such as the AMR WB + encoder or others. expression encoders

La manipulación inventiva de relleno de ruido puede, por lo tanto, implementarse del lado del codificador solamente calculando la medición sencilla de ruido y manipulando esta medición de ruido sobre la base de la información armónica/de expresión y transmitiendo la medición de relleno de ruido manipulada ya correcta que entonces puede ser aplicada por un decodificador de manera sencilla. En forma alternativa, la medición de relleno de ruido no manipulada puede transmitirse desde un codificador a un decodificador, y el decodificador entonces analizará, si el marco temporal real de una señal de audio ha sufrido una distorsión temporal, es decir, tiene una característica armónica o de expresión de manera que la manipulación real de la medición de relleno de ruido se produce del lado del decodificador.The inventive noise fill manipulation can, therefore, be implemented on the encoder side only by calculating the simple noise measurement and manipulating this noise measurement based on harmonic / expression information and transmitting the manipulated noise fill measurement. already correct that then it can be applied by a decoder in a simple way. Alternatively, the unhandled noise fill measurement can be transmitted from an encoder to a decoder, and the decoder will then analyze, if the actual time frame of an audio signal has undergone a temporal distortion, that is, it has a harmonic characteristic. or expression so that the actual manipulation of the noise fill measurement occurs on the decoder side.

Posteriormente, la figura 6b se debate con el fin de explicar las realizaciones preferibles para manipular el cálculo aproximado del nivel de ruido.Subsequently, Figure 6b is discussed in order to explain the preferable embodiments for manipulating the approximate calculation of the noise level.

En la primera realización, se aplica un nivel de ruido normal, cuando la señal no tiene una característica armónica o de expresión. Este es el caso, cuando no se aplica ninguna distorsión temporal. Cuando, adicionalmente, se proporciona un clasificador de señales, después el clasificador de señales que distingue entre expresión y no expresión indicaría no expresión para la situación, donde la distorsión temporal no estaba activa, es decir, donde no se encontró ningún contorno de tonos.In the first embodiment, a normal noise level is applied, when the signal does not have a harmonic or expression characteristic. This is the case, when no temporal distortion is applied. When, in addition, a signal classifier is provided, then the signal classifier that distinguishes between expression and non-expression would indicate no expression for the situation, where temporal distortion was not active, that is, where no tone contour was found.

Cuando, sin embargo, la distorsión temporal estaba activa, es decir, cuando se encontró un contorno de tonos, que indica un contenido armónico, entonces el nivel de nivel de relleno de ruido se manipularía para que sea más bajo que en el caso normal. Cuando se proporciona un clasificador de señales adicional, y después este clasificador de señales indica expresión, y cuando simultáneamente la información sobre la distorsión temporal indica un contorno de tonos, entonces se señala un nivel de relleno de ruido más bajo o aún igual a cero. De este modo, el manipulador del nivel de relleno 602 de ruido de la figura 6a reducirá el nivel de ruido manipulado a cero o al menos a un valor menor que el valor bajo indicado en la figura 6b. Preferiblemente, el clasificador de señales adicionalmente tiene un detector sonoro/mudo según lo indicado a la izquierda de la figura 6b. En el caso de expresión sonora, se señala/aplica un nivel de relleno de ruido muy bajo o igual a cero. Sin embargo, en el caso de expresión sorda, donde el indicio de distorsión temporal no indica un procesamiento de distorsión temporal debido al hecho de que no se encontró ningún tono, pero donde el clasificador de señales señala contenido de expresión, la medición de relleno de ruido no se manipula, pero se aplica un nivel de relleno de ruido normal.When, however, temporal distortion was active, that is, when a tone contour was found, indicating a harmonic content, then the level of noise fill level would be manipulated to be lower than in the normal case. When an additional signal classifier is provided, and then this signal classifier indicates expression, and when simultaneously the information on temporal distortion indicates a tone contour, then a noise fill level lower than or even equal to zero is signaled. In this way, the noise fill level manipulator 602 of Figure 6a will reduce the manipulated noise level to zero or at least to a value less than the low value indicated in Figure 6b. Preferably, the signal classifier additionally has a sound / mute detector as indicated on the left of Figure 6b. In the case of sound expression, a noise fill level very low or equal to zero is indicated / applied. However, in the case of deaf expression, where the indication of temporal distortion does not indicate a temporal distortion processing due to the fact that no tone was found, but where the signal classifier indicates expression content, the fill measurement of Noise is not handled, but a normal noise fill level is applied.

Preferiblemente, el analizador de señales de audio comprende un rastreador de tonos para generar un indicio de tono tal como un contorno de tonos o un tono absoluto de un marco temporal de la señal de audio. Entonces, el manipulador está configurado para reducir la medición de relleno de ruido cuando se encuentra un tono, y no reducir la medición de relleno de ruido cuando no se encuentra un tono.Preferably, the audio signal analyzer comprises a tone tracker to generate a tone indication such as a tone contour or an absolute tone of a time frame of the audio signal. Then, the manipulator is configured to reduce the noise fill measurement when a tone is found, and not reduce the noise fill measurement when a tone is not found.

Según lo indicado en la figura 6a, un analizador 600 de señales, cuando se aplica del lado del decodificador, no está realizando un análisis de señales real como un rastreador de tonos o un detector sonoro/mudo, sino que el analizador de señales analiza sintácticamente la señal codificada de audio con el fin de extraer una información sobre la distorsión temporal o una información sobre la clasificación de señales. Por lo tanto, el analizador 600 de señales puede implementarse dentro de la interfaz 539 de entrada en el decodificador de la figura 5b.As indicated in Figure 6a, a signal analyzer 600, when applied on the decoder side, is not performing a real signal analysis such as a tone tracker or a sound / mute detector, but the signal analyzer parses syntactically. the encoded audio signal in order to extract information about temporal distortion or information about signal classification. Therefore, the signal analyzer 600 can be implemented within the input interface 539 in the decoder of Figure 5b.

Una realización adicional de la presente invención se debatirá posteriormente con respecto a las figuras 7a-7e. Para inicios de expresión donde comienza una parte de expresión sonora después de una porción de señales silenciosas relativas, el algoritmo de cambio de bloques podría clasificar la misma como un accidente y podría elegir bloques cortos para este marco particular, con una pérdida de ganancia de codificación en el segmento de señales que tiene una clara estructura armónica. Por lo tanto, la clasificación sonora/sorda del rastreador de tonos se utiliza para detectar inicios sonoros y evitar que el algoritmo de cambio de bloques indique un accidente del transitorio alrededor del inicio encontrado. Esta característica también puede asociarse con el clasificador de señales para evitar el cambio de bloques en las señales de expresión y permitir las mismas en todas las otras señales. Además se podría implementar un control más preciso del cambio de bloques no sólo mediante el permiso o rechazo de la detección de accidentes, sino mediante el uso de un umbral variable para la detección de accidentes basado en inicio sonoro e información sobre la clasificación de señales. Además, la información puede utilizarse para detectar accidentes como los inicios sonoros mencionados más arriba pero en vez de cambiar a bloques cortos, utiliza ventanas largas con superposiciones cortas, que siguen siendo la resolución espectral preferible pero reduce la región temporal donde pueden surgir ecos previos o posteriores. La Figura 7d muestra el comportamiento típico sin la adaptación, la figura 7e muestra dos diferentes posibilidades de adaptación (ventanas de baja superposición y prevención).A further embodiment of the present invention will be discussed later with respect to Figures 7a-7e. For early expression where a part of sound expression begins after a portion of relative silent signals, the block switching algorithm could classify it as an accident and could choose short blocks for this particular frame, with a loss of coding gain in the signal segment that has a clear harmonic structure. Therefore, the sound / deaf classification of the tone tracker is used to detect sound starts and prevent the block switching algorithm from indicating a transient accident around the found start. This feature can also be associated with the signal classifier to avoid changing blocks in expression signals and allowing them in all other signals. In addition, more precise control of block change could be implemented not only by permitting or rejecting accident detection, but also by using a variable threshold for accident detection based on sound start and information on signal classification. In addition, the information can be used to detect accidents such as the sound starts mentioned above but instead of switching to short blocks, it uses long windows with short overlays, which remain the preferable spectral resolution but reduces the temporal region where previous echoes may arise or later. Figure 7d shows the typical behavior without adaptation, Figure 7e shows two different adaptation possibilities (low overlay and prevention windows).

Un codificador de audio conforme a una realización de la presente invención funciona para generar una señal de audio tal como la señal producida por la interfaz 522 de salida de la figura 5a. El codificador de audio comprende un analizador de señales de audio tal como el analizador 516 de distorsión temporal o un clasificador 520 de señales de la figura 5a. Generalmente, el analizador de señales de audio analiza si un marco temporal de la señal de audio tiene una característica armónica o de expresión. Para este fin, el clasificador 520 de señales de la figura 5a puede incluir un detector 520a sonoro/mudo o un detector 520b de expresión /no expresión. Aunque no se muestra en la figura 7a, también puede proporcionarse un analizador de distorsión temporal tal como el analizador 516 de distorsión temporal de la figura 5a, que puede incluir un rastreador de tonos en vez de los ítems 520a y 520b o además de estas funcionalidades. Adicionalmente, el codificador de audio comprende el controlador 504 de funciones de ventanas para seleccionar una función de ventana dependiendo de una característica armónica o de expresión de la señal de audio según lo determinado por el analizador de señales de audio. El generador 502 de ventanas entonces genera ventanas de la señal de audio o, dependiendo de cierta implementación, la señal de audio distorsionada en el tiempo utilizando la función de ventana seleccionada para obtener un marco de ventana. Este marco de ventana, entonces además es procesado por un procesador para obtener una señal codificada de audio. El procesador puede comprender los ítems 508, 510, 512 ilustrados en la figura 5a o más o menos funcionalidades de los codificadores de audio bien conocidos tales como codificadores de audio basados en transformadas o codificadores de audio basados en dominios temporales que comprenden un filtro LPC tal como codificadores de expresión y, específicamente, codificadores de expresión implementados conforme la norma AMR-WB+.An audio encoder according to an embodiment of the present invention functions to generate an audio signal such as the signal produced by the output interface 522 of Figure 5a. The audio encoder comprises a Audio signal analyzer such as time distortion analyzer 516 or a signal classifier 520 of Figure 5a. Generally, the audio signal analyzer analyzes whether a time frame of the audio signal has a harmonic or expression characteristic. For this purpose, the signal classifier 520 of Figure 5a may include a sound / mute detector 520a or an expression / non-expression detector 520b. Although not shown in Figure 7a, a temporary distortion analyzer such as the temporal distortion analyzer 516 of Figure 5a may also be provided, which may include a tone tracker instead of items 520a and 520b or in addition to these functionalities. . Additionally, the audio encoder comprises the window function controller 504 for selecting a window function depending on a harmonic or expression characteristic of the audio signal as determined by the audio signal analyzer. The window generator 502 then generates windows of the audio signal or, depending on a certain implementation, the audio signal distorted over time using the selected window function to obtain a window frame. This window frame is then further processed by a processor to obtain an encoded audio signal. The processor may comprise items 508, 510, 512 illustrated in Figure 5a or more or less functionalities of well-known audio encoders such as transform-based audio encoders or time domain based audio encoders comprising such an LPC filter. as expression encoders and, specifically, expression encoders implemented according to the AMR-WB + standard.

En una realización preferente, el controlador 504 de funciones de ventanas comprende un detector 700 de transitorios para detectar un transitorio en la señal de audio, en donde el controlador de funciones de ventanas está configurado para cambiar de una función de ventana para un bloque largo a una función de ventana para un bloque corto, cuando se detecta un transitorio y el analizador de señales de audio no encuentra una característica armónica o de expresión. Cuando, sin embargo, se detecta un transitorio y el analizador de señales de audio encuentra una característica armónica o de expresión, entonces el controlador 504 de funciones de ventanas no cambia a la función de ventana para bloque corto. Las salidas de la función de ventana que indican una ventana larga cuando no se obtiene ningún transitorio y una ventana corta cuando el detector de transitorios detecta un transitorio se ilustran como 701 y 702 en la figura 7a. Este procedimiento normal según lo ejecutado por el bien conocido codificador AAC se ilustra en la figura 7d. En la posición del inicio de voz, el detector 700 de transitorios detecta un incremento en la energía desde un marco al siguiente marco y, por lo tanto, cambia de una ventana 710 larga a ventanas 712 cortas. Con el fin de acomodar este cambio, se utiliza una ventana 714 de detención larga, que tiene una primera porción 714a de superposición, una porción 714b de no aliasing (generación de señal ajena), una segunda porción 714c de superposición más corta y una porción 716 cero que se extiende entre el punto y el punto en el eje temporal indicado por las muestras 2048. Entonces, se ejecuta la secuencia de ventanas cortas indicada en 712 que, entonces, se termina mediante una ventana 718 de inicio larga que tiene una porción 718a larga de superposición que se superpone con la siguiente ventana larga no ilustrada en la figura 7d. Además, esta ventana tiene una porción 718b de no aliasing, una porción 718c de superposición corta y una porción cero que se extiende entre el punto 720 en el eje temporal hasta el punto 2048. Esta porción es una porción cero.In a preferred embodiment, the window function controller 504 comprises a transient detector 700 for detecting a transient in the audio signal, wherein the window function controller is configured to change from a window function for a long block to a window function for a short block, when a transient is detected and the audio signal analyzer does not find a harmonic or expression characteristic. When, however, a transient is detected and the audio signal analyzer finds a harmonic or expression characteristic, then the window function controller 504 does not change to the short block window function. The outputs of the window function indicating a long window when no transient is obtained and a short window when the transient detector detects a transient is illustrated as 701 and 702 in Figure 7a. This normal procedure as executed by the well-known AAC encoder is illustrated in Figure 7d. In the voice start position, the transient detector 700 detects an increase in energy from one frame to the next frame and, therefore, changes from a long window 710 to short windows 712. In order to accommodate this change, a long stop window 714 is used, which has a first overlay portion 714a, a non-aliasing portion 714b (generation of foreign signal), a second shorter overlay portion 714c and a portion 716 zero that extends between the point and the point on the time axis indicated by samples 2048. Then, the sequence of short windows indicated in 712 is executed, which is then terminated by a long start window 718 having a portion Long overlay 718a that overlaps with the following long window not illustrated in Figure 7d. In addition, this window has a non-aliasing portion 718b, a short overlay portion 718c and a zero portion that extends between point 720 on the time axis to point 2048. This portion is a zero portion.

Normalmente, el cambio a ventanas cortas es útil para evitar pre-ecos que aparezcan dentro de un marco antes del evento del transitorio que es la posición de inicio sonoro o, generalmente, el comienzo de la expresión o el comienzo de una señal que tiene un contenido armónico. Generalmente, una señal tiene un contenido armónico, cuando un rastreador de tonos decide que la señal tiene un tono. En forma alternativa, existen otras mediciones de armonicidad tales como una medición de tonalidad por encima de un cierto nivel mínimo junto con la característica de que los picos prominentes tienen una relación armónica uno con otro. Existe una pluralidad de otras técnicas para determinar, si una señal es armónica o no.Normally, switching to short windows is useful to avoid pre-echoes that appear within a frame before the event of the transient which is the sound start position or, generally, the beginning of the expression or the beginning of a signal that has a harmonic content Generally, a signal has a harmonic content, when a tone tracker decides that the signal has a tone. Alternatively, there are other harmonicity measurements such as a tonality measurement above a certain minimum level along with the characteristic that prominent peaks have a harmonic relationship with each other. There is a plurality of other techniques to determine whether a signal is harmonic or not.

Una desventaja de las ventanas cortas es que disminuye la resolución de frecuencia, ya que se incrementa la resolución temporal. Para codificación de alta calidad de la expresión y, específicamente, porciones de expresión sonora o porciones que tienen una fuerte contenido armónico, se desea una buena resolución de frecuencia. Por lo tanto, el analizador de señales de audio ilustrado en 516, 520 ó 520a, 520b es operativo para producir una señal desactivada para el detector 700 de transitorios de manera que se evita un cambio a ventanas cortas cuando se detecta un segmento de expresión sonora o un segmento de señales que tiene una fuerte característica armónica. Esto asegura que, para codificar dichas porciones de señales, se mantiene una alta resolución de frecuencia. Este es un equilibrio entre los pre-ecos por un lado y la codificación de alta calidad y alta resolución del tono para la señal de expresión o el tono para una señal de no expresión armónica por otro lado. Se ha descubierto que es mucho más perturbador cuando el espectro armónico no está codificado con precisión en comparación con cualquier pre-eco que pudiera aparecer. Con el fin de disminuir además los pre-ecos, se favorece un procesamiento TNS para dicha situación, que se debatirá con relación a las Figuras 8a y 8b.A disadvantage of short windows is that the frequency resolution decreases, since the temporal resolution is increased. For high quality coding of the expression and, specifically, portions of sound expression or portions having a strong harmonic content, a good frequency resolution is desired. Therefore, the audio signal analyzer illustrated in 516, 520 or 520a, 520b is operative to produce a deactivated signal for transient detector 700 so that a change to short windows is avoided when a sound expression segment is detected or a segment of signals that has a strong harmonic characteristic. This ensures that, in order to encode said portions of signals, a high frequency resolution is maintained. This is a balance between the pre-echoes on the one hand and the high quality coding and high resolution of the tone for the expression signal or the tone for a harmonic non-expression signal on the other hand. It has been discovered that it is much more disturbing when the harmonic spectrum is not precisely coded compared to any pre-echo that may appear. In order to further reduce pre-echoes, TNS processing is favored for said situation, which will be discussed in relation to Figures 8a and 8b.

En una realización alternativa ilustrada en la figura 7b, el analizador de señales de audio comprende un detector 520a, 520b de sonoro/mudo y/o de expresión /no expresión. Sin embargo, el detector 700 de transitorios incluido en el controlador de funciones de ventanas no está completamente activado/desactivado como en la figura 7a, sino que el umbral incluido en el detector de transitorios se controla utilizando una señal 704 de control de umbral. En esta realización, el detector 700 de transitorios está configurado para determinar una característica cuantitativa de la señal de audio y para comparar la característica cuantitativa con el umbral controlable, en donde se detecta un transitorio cuando la característica cuantitativa tiene una relación predeterminada con el umbral controlable. La característica cuantitativa puede ser un número que indica el incremento de energía de un bloque al siguiente bloque, y el umbral puede ser un cierto incremento umbral de energía. Cuando el incremento de energía de un bloque al siguiente es mayor que el incremento umbral de energía, entonces se detecta un transitorio, de manera que, en este caso, la relación predeterminada es una relación de “mayor que”. En otras realizaciones, la relación predeterminada también puede ser una relación de “menor que”, por ejemplo cuando la característica cuantitativa es un incremento invertido de energía. En la realización de la figura 7b, el umbral controlable se controla de manera que se reduce la posibilidad de un cambio a una función de ventana para un bloque corto, cuando el analizador de señales de audio ha encontrado una característica armónica o de expresión. En la realización del incremento de energía, la señal 704 de control de umbral dará como resultado un incremento del umbral de manera que los cambios a bloques cortos suceden solamente cuando el incremento de energía de un bloque al siguiente es un incremento de energía particularmente alto.In an alternative embodiment illustrated in Figure 7b, the audio signal analyzer comprises a sound / mute and / or expression / non-expression detector 520a, 520b. However, the transient detector 700 included in the window function controller is not fully activated / deactivated as in Figure 7a, but the threshold included in the transient detector is controlled using a threshold control signal 704. In this embodiment, transient detector 700 is configured to determine a quantitative characteristic of the audio signal and to compare the quantitative characteristic with the controllable threshold, where a transient is detected when the quantitative characteristic has a predetermined relationship with the controllable threshold. The quantitative characteristic may be a number that indicates the increase in energy from one block to the next block, and the threshold may be a certain increase in energy threshold. When the increase in energy from one block to the next is greater than the increase in energy threshold, then a transient is detected, so that, in this case, the predetermined ratio is a "greater than" ratio. In other embodiments, the predetermined ratio may also be a "less than" ratio, for example when the quantitative characteristic is an inverted increase in energy. In the embodiment of Figure 7b, the controllable threshold is controlled so that the possibility of a change to a window function for a short block is reduced, when the audio signal analyzer has found a harmonic or expression characteristic. In the realization of the energy increase, the threshold control signal 704 will result in an increase in the threshold so that changes to short blocks only occur when the increase in energy from one block to the next is a particularly high increase in energy.

En una realización alternativa, la señal de salida del detector 520a sonoro/mudo o el detector 520b de expresión/no expresión también puede utilizarse para controlar el controlador 504 de funciones de ventanas de manera tal que en vez de cambiar a un bloque corto en un inicio de expresión, se ejecuta un cambio a una función de ventana que es más larga que la función de ventana para el bloque corto. Esta función de ventana asegura una resolución de frecuencia más alta que una función de ventana corta, pero tiene una longitud más corta que la función de ventana larga de manera que se obtiene una buena composición entre los pre-ecos por un lado y una resolución de frecuencia suficiente por otro lado. En una realización alternativa, se puede realizar una cambiar a una función de ventana que tiene una superposición más pequeña según lo indicado por la línea sombreada en la figura 7e en 706. La función 706 de ventana tiene una longitud de muestras 2048 como el bloque largo, pero esta ventana tiene una porción 708 cero y una porción 710 de no aliasing de manera que se obtiene una longitud 712 de superposición corta desde la ventana 706 a la ventana 707 correspondiente. La función de ventana 707, nuevamente, tiene una porción cero a la izquierda de la región 712 y una porción de no aliasing a la derecha de la región 712 en analogía a la función 710 de ventana. Esta realización de baja superposición, efectivamente da como resultado una longitud de tiempo más corta para reducir los pre-ecos debido a la porción 706 y 707 cero de ventana, pero por otro lado tiene una longitud suficiente debido a la porción 714 de superposición y la porción 710 de no aliasing de manera que se mantiene una resolución de frecuencia suficiente.In an alternative embodiment, the output signal of the sound / mute detector 520a or the expression / non-expression detector 520b can also be used to control the window function controller 504 such that instead of switching to a short block in a Start of expression, a change is made to a window function that is longer than the window function for the short block. This window function ensures a higher frequency resolution than a short window function, but has a shorter length than the long window function so that a good composition is obtained between the pre-echoes on the one hand and a resolution of enough frequency on the other hand. In an alternate embodiment, a change to a window function having a smaller overlap can be made as indicated by the shaded line in Figure 7e at 706. The window function 706 has a sample length 2048 as the long block , but this window has a zero portion 708 and a non-aliasing portion 710 so that a short overlay length 712 is obtained from window 706 to the corresponding window 707. Window function 707, again, has a zero portion to the left of region 712 and a non-aliasing portion to the right of region 712 in analogy to window function 710. This low overlay embodiment effectively results in a shorter length of time to reduce the pre-echoes due to the zero portion 706 and 707 of the window, but on the other hand it has a sufficient length due to the overlay portion 714 and 710 portion of non-aliasing so that a sufficient frequency resolution is maintained.

En una implementación de MDCT preferente según lo implementado por el codificador AAC, mantener una cierta superposición proporciona la ventaja adicional de que, del lado del decodificador, se puede realizar un procesamiento de superposición/agregado lo que significa que se realiza una clase de fundido cruzado entre bloques. Esto efectivamente evita “artefactos” (en este contexto se refiere a errores en la conversión) de bloqueo. Adicionalmente, esta característica de superposición/agregado proporciona la característica de fundido cruzado sin incrementar la velocidad de bits, es decir, se obtiene un fundido cruzado críticamente mostrado. En ventanas cortas o ventanas largas regulares, la porción de superposición es una superposición del 50% según lo indicado por la porción 714 de superposición. En la realización donde la función de ventana es larga como las muestras 2048, la porción de superposición es del 50%, es decir, muestras 1024. La función de ventana que tiene una superposición más corta que se utiliza para efectivamente generar ventanas de un inicio de expresión o un inicio de una señal armónica es preferiblemente menos del 50% y es, en la realización de la figura 7e, solamente las muestras 128, que es un 1/16 del total de la longitud de ventana. Preferiblemente, se utilizan las porciones de superposición entre 1/4 y 1/32 de la longitud total de la función de ventana.In a preferred MDCT implementation as implemented by the AAC encoder, maintaining a certain overlay provides the additional advantage that, on the decoder side, an overlay / aggregate processing can be performed which means that a crossfade class is performed. between blocks This effectively avoids "artifacts" (in this context refers to errors in conversion) blocking. Additionally, this overlay / aggregate feature provides the cross fade feature without increasing the bit rate, that is, a critically shown cross fade is obtained. In short windows or regular long windows, the overlay portion is a 50% overlay as indicated by the overlay portion 714. In the embodiment where the window function is long as the 2048 samples, the overlay portion is 50%, that is, 1024 samples. The window function that has a shorter overlay that is used to effectively generate windows of a start Expression or a start of a harmonic signal is preferably less than 50% and is, in the embodiment of Figure 7e, only samples 128, which is 1/16 of the total window length. Preferably, the overlap portions between 1/4 and 1/32 of the total length of the window function are used.

La figura 7c ilustra esta realización, en la que un detector 520a sonoro/mudo ejemplar controla un selector de formas de ventanas incluido en el controlador 504 de funciones de ventanas con el fin de seleccionar una forma de ventana con una superposición corta según lo indicado en 749 o una forma de ventana con una superposición larga según lo indicado en 750. Se implementa la selección de una de ambas formas, cuando el detector 500a sonoro/mudo emite una señal sonora detectada en 751, donde la señal de audio utilizada para análisis puede ser la señal de audio en la entrada 500 en la figura 5a o una señal de audio preprocesada tal como una señal de audio distorsionada en el tiempo o una señal de audio que haya sido sometida a cualquier otra funcionalidad de preprocesamiento. Preferiblemente, el selector 504 de formas de ventanas en la figura 7c que está incluido en el controlador 504 de funciones de ventanas en la figura 5a solamente utiliza la señal 751, cuando un detector de transitorios incluido en el controlador de funciones de ventanas detecta un transitorio y ordena un cambio de una función de ventana larga a una función de ventana corta según lo debatido con relación a la figura 7a.Figure 7c illustrates this embodiment, in which an exemplary sound / mute detector 520a controls a window shape selector included in the window function controller 504 in order to select a window shape with a short overlay as indicated in 749 or a window form with a long overlay as indicated in 750. The selection of one of both forms is implemented, when the sound / mute detector 500a emits a sound signal detected in 751, where the audio signal used for analysis can be the audio signal at input 500 in Figure 5a or a preprocessed audio signal such as an audio signal distorted over time or an audio signal that has been subjected to any other preprocessing functionality. Preferably, the window shape selector 504 in Figure 7c which is included in the window function controller 504 in Figure 5a only uses signal 751, when a transient detector included in the window function controller detects a transient and orders a change from a long window function to a short window function as discussed in relation to Figure 7a.

Preferiblemente, la realización del cambio de función de ventana se combina con una realización de formato de ruido temporal debatida con relación a las figuras 8a y 8b. Sin embargo, la realización de TNS (formato de ruido temporal) también puede implementarse son la realización de cambios de bloques.Preferably, the realization of the window function change is combined with an embodiment of the temporal noise format discussed in relation to Figures 8a and 8b. However, the realization of TNS (temporary noise format) can also be implemented are the realization of block changes.

La propiedad de compactación de energía espectral de la MDCT distorsionada en el tiempo también influye en la herramienta de formato de ruido temporal (TNS), debido a que la ganancia de TNS tiende a disminuir para los marcos distorsionados en el tiempo especialmente para algunas señales de expresión. No obstante es deseable activar TNS, p. ejemplo para reducir los pre-ecos en los inicios sonoros o desviaciones sonoras (consultar la adaptación del cambio de bloques), donde no se desea ningún cambio de bloques pero aún el envolvente temporal de la señal de expresión exhibe cambios rápidos. Típicamente, un codificador utiliza alguna medición para ver si la aplicación de la TNS es provechosa para un cierto marco, por ejemplo la ganancia de predicción del filtro de TNS cuando se aplica al espectro. Entonces se prefiere un umbral de ganancia de TNS variable, que sea menor para los segmentos con un contorno de tonos activo, de manera que se asegure que la TNS esté activa más a menudo para dichas porciones de señales críticas como inicios sonoros. Como para las otras herramientas, esto también puede complementarse teniendo en cuenta la clasificación de señales.The spectral energy compaction property of the time-distorted MDCT also influences the temporal noise formatting tool (TNS), because the TNS gain tends to decrease for time-distorted frames especially for some signal signals. expression. However it is desirable activate TNS, p. example to reduce the pre-echoes at the sound beginnings or sound deviations (see the adaptation of the block change), where no block change is desired but still the temporal envelope of the expression signal exhibits rapid changes. Typically, an encoder uses some measurement to see if the application of the TNS is beneficial for a certain frame, for example the prediction gain of the TNS filter when applied to the spectrum. A variable TNS gain threshold is then preferred, which is lower for segments with an active tone contour, so as to ensure that the TNS is more often active for said portions of critical signals such as sound starts. As for the other tools, this can also be complemented taking into account the signal classification.

El codificador de audio conforme a esta realización para generar una señal de audio comprende un distorsionador temporal controlable tal como el distorsionador 506 temporal para la distorsión temporal de la señal de audio para obtener una señal de audio distorsionada en el tiempo. Adicionalmente, se proporciona un convertidor 508 de frecuencia/tiempo para convertir al menos una porción de la señal de audio distorsionada en el tiempo en una representación espectral. El convertidor 508 de frecuencia/tiempo preferiblemente implementa una transformada MDCT tal como se conoce del codificador AAC, pero el convertidor de frecuencia/tiempo también puede realizar cualquier otra clase de transformada tal como una transformada DCT, DST, DFT, FFT o MDST o puede comprender un banco de filtros tal como un banco de filtros QMF.The audio encoder according to this embodiment for generating an audio signal comprises a controllable temporary distorter such as the temporary distorter 506 for the temporary distortion of the audio signal to obtain an audio signal distorted over time. Additionally, a frequency / time converter 508 is provided to convert at least a portion of the time distorted audio signal into a spectral representation. The frequency / time converter 508 preferably implements an MDCT transform as known from the AAC encoder, but the frequency / time converter can also perform any other kind of transform such as a DCT, DST, DFT, FFT or MDST transform or can comprise a filter bank such as a QMF filter bank.

Adicionalmente, el codificador comprende una etapa 510 de formato de ruido temporal para realizar un filtrado de predicción sobre la frecuencia de la representación espectral conforme a la orden de control del formato de ruido temporal, en donde no se realiza el filtrado de predicción, cuando no existe la orden de control del formato de ruido temporal.Additionally, the encoder comprises a step 510 of temporal noise format to perform prediction filtering on the frequency of the spectral representation according to the control order of the temporal noise format, where prediction filtering is not performed, when not There is the control order of the temporary noise format.

Adicionalmente, el codificador comprende un controlador de formato de ruido temporal para generar la orden de control del formato de ruido temporal sobre la base de la representación espectral.Additionally, the encoder comprises a temporary noise format controller to generate the control order of the temporary noise format based on the spectral representation.

Específicamente, el controlador de formato de ruido temporal está configurado para incrementar la posibilidad de realizar el filtrado de predicción sobre la frecuencia, cuando la representación espectral se basa en una señal temporal distorsionada en el tiempo o para reducir la posibilidad de realizar el filtrado de predicción sobre la frecuencia, cuando la representación espectral no está basada en una señal temporal distorsionada en el tiempo. Los detalles del controlador de formato de ruido temporal se debaten con relación a la figura 8.Specifically, the temporal noise format controller is configured to increase the possibility of performing frequency prediction filtering, when the spectral representation is based on a time distorted time signal or to reduce the possibility of performing prediction filtering. on frequency, when the spectral representation is not based on a time signal distorted in time. The details of the temporary noise format controller are discussed in relation to Figure 8.

El codificador de audio adicionalmente comprende un procesador para además procesar un resultado del filtrado de predicción sobre la frecuencia para obtener la señal codificada. En una realización, el procesador comprende la etapa del etapa 512 del codificador del cuantificador ilustrada en la figura 5a.The audio encoder additionally comprises a processor to further process a prediction filtering result on the frequency to obtain the encoded signal. In one embodiment, the processor comprises the step of step 512 of the quantizer encoder illustrated in Figure 5a.

Una etapa 510 de TNS ilustrada en la figura 5a se ilustra en detalle en la figura 8. Preferiblemente, el controlador de formato de ruido temporal incluido en la etapa 510 comprende un calculador 800 de ganancia de TNS, un tomador 802 de decisión de TNS posteriormente conectado y un generador de señal 804 de control de umbral. Dependiendo de la señal del analizador 516 de distorsión temporal o el clasificador 520 de señales o ambos, el generador 804 de señal de control de umbral produce una señal 806 de control de umbral para el tomador de decisión de TNS. El tomador 802 de decisión de TNS tiene un umbral controlable, que se incrementa o se reduce conforme a la señal 806 de control de umbral. El umbral en el tomador 802 de decisión de TNS es, en esta realización, un umbral de ganancia de TNS. Cuando la ganancia de TNS realmente calculada producida por el bloque 800 excede el umbral, entonces la orden de control de TNS requiere un procesamiento de TNS como salida, mientras, en el otro caso cuando la ganancia de TNS está por debajo del umbral de ganancia de TNS, no se produce ninguna orden de TNS o se produce una señal que ordena que el procesamiento de TNS no es útil y no se va a realizar en este marco temporal específico.A step TNS 510 illustrated in Figure 5a is illustrated in detail in Figure 8. Preferably, the temporary noise format controller included in step 510 comprises a TNS gain calculator 800, a TNS decision maker 802 later connected and a signal generator 804 threshold control. Depending on the signal of the temporal distortion analyzer 516 or the signal classifier 520 or both, the threshold control signal generator 804 produces a threshold control signal 806 for the TNS decision maker. The TNS decision maker 802 has a controllable threshold, which is incremented or reduced according to the threshold control signal 806. The threshold in the TNS decision maker 802 is, in this embodiment, a TNS gain threshold. When the actually calculated TNS gain produced by block 800 exceeds the threshold, then the TNS control order requires TNS processing as output, while in the other case when the TNS gain is below the gain threshold of TNS, no TNS order is produced or a signal is produced that orders that TNS processing is not useful and will not be performed in this specific time frame.

El calculador 800 de ganancia de TNS recibe, como una entrada, la representación espectral obtenida de la señal distorsionada en el tiempo. Típicamente, una señal distorsionada en el tiempo tendrá una ganancia de TNS menor, pero por otro lado, u procesamiento de TNS debido a la característica de formato de ruido temporal en el dominio del tiempo es beneficiario en la situación específica, donde existe una señal sonora/armónica que haya sido sometida a una operación de distorsión temporal. Por otro lado, el procesamiento de TNS no es útil en situaciones, donde la ganancia de TNS es baja, lo que significa que la señal residual de TNS en la línea 510b tiene la misma energía o mayor energía que la señal antes de la etapa 510 de TNS. En una situación, donde la energía de la señal residual de TNS en línea 510d es levemente menor que la energía antes de la etapa 510 de TNS, el procesamiento de TNS podría no ser ventajoso, debido a la reducción de bits debido a que la energía levemente menor en la señal que efectivamente es utilizada por la etapa 512 del codificador de entropía/cuantificador es más pequeña que el incremento de bits introducido por la transmisión necesaria de la información 510a secundaria de TNS indicada en la figura 5a. Aunque una realización cambia automáticamente en el procesamiento de TNS para todos los marcos, en el que se ingresa una señal distorsionada en el tiempo indicada por la información sobre tonos del bloque 516 o la información 520 del clasificador de señales del bloque, una realización preferente también mantienen la posibilidad del procesamiento de TNS desactivado, pero solo cuando la ganancia es realmente baja o al menos menor que en el caso normal, cuando no se procesa ninguna señal armónica/de expresión.The TNS gain calculator 800 receives, as an input, the spectral representation obtained from the time distorted signal. Typically, a time distorted signal will have a lower TNS gain, but on the other hand, or TNS processing due to the time noise format feature in the time domain is beneficial in the specific situation, where there is a sound signal. / harmonica that has undergone a temporary distortion operation. On the other hand, TNS processing is not useful in situations where the TNS gain is low, which means that the residual TNS signal on line 510b has the same energy or greater energy than the signal before step 510 of TNS. In a situation, where the energy of the residual TNS signal in line 510d is slightly less than the energy before the TNS step 510, the processing of TNS may not be advantageous, due to the bit reduction because the energy slightly smaller in the signal that is actually used by step 512 of the entropy / quantifier encoder is smaller than the bit increment introduced by the necessary transmission of the secondary TNS information 510a indicated in Figure 5a. Although one embodiment automatically changes in TNS processing for all frames, in which a distorted signal is input in the time indicated by the tone information of block 516 or information 520 of the block's signal classifier, a preferred embodiment also they keep the possibility of TNS processing deactivated, but only when the gain is really low or at least less than in the normal case, when no harmonic / expression signal is processed.

La figura 8b ilustra una implementación donde tres ajustes de umbral diferentes son implementados por el generador 804 de señal de control de umbral /tomador 802 de decisión de TNS. Cuando no existe un contorno de tonos, y cuando el clasificador de señales indica una expresión sorda o ninguna expresión, entonces la el umbral de decisión de TNS se ajusta para que esté en un estado normal requiriendo una ganancia de TNS relativamente alta para activar la TNS. Cuando, sin embargo, se detecta un contorno de tonos, pero el clasificador de señales no indica ninguna expresión o el detector sonoro/mudo detecta una expresión sorda, entonces el umbral de decisión de TNS se fija en un nivel menor, lo que significa que aún cuando las ganancias de TNS comparativamente bajas son calculadas por el bloque 800 en la figura 8a, sin embargo se activa el procesamiento de TNS.Figure 8b illustrates an implementation where three different threshold settings are implemented by the TNS decision threshold control signal generator 804/802. When there is no tone contour, and when the signal classifier indicates a dull expression or no expression, then the TNS decision threshold is adjusted to be in a normal state requiring a relatively high TNS gain to activate the TNS . When, however, a tone contour is detected, but the signal classifier does not indicate any expression or the sound / mute detector detects a dull expression, then the TNS decision threshold is set at a lower level, which means that Even when comparatively low TNS gains are calculated by block 800 in Figure 8a, however, TNS processing is activated.

En una situación, en la que se detecta un contorno de tonos activo y en la que se encuentra una expresión sonora, entonces, el umbral de decisión de TNS se fija en el mismo nivel más bajo o se fija en un estado aún menor de manera que aún las pequeñas ganancias de TNS sean suficientes para activar un procesamiento de TNS.In a situation, in which an active tone contour is detected and in which a sound expression is found, then, the TNS decision threshold is set at the same lower level or set at an even lower state so that even small TNS earnings are sufficient to activate TNS processing.

En una realización, el controlador 800 de ganancia de TNS está configurado para estimar una ganancia en calidad o velocidad de bits, cuando la señal de audio se somete al filtrado de predicción sobre la frecuencia. Un tomador 802 de decisión de TNS compara la ganancia estimada con una umbral de decisión, y una información de control de TNS a favor del filtrado de predicción se produce por el bloque 802, cuando la ganancia estimada está en una relación predeterminada con respecto al umbral de decisión, donde esta relación predeterminada puede ser una relación de “mayor que”, pero también puede ser una relación de “menor que” para una ganancia invertida de TNS por ejemplo. Según lo debatido, el controlador de formato de ruido temporal además está configurado para variar el umbral de decisión utilizando preferiblemente la señal 806 de control de umbral de manera que, para la misma ganancia estimada, se activa el filtrado de predicción, cuando la representación espectral se basa en la señal de audio distorsionada en el tiempo, y no se activa, cuando la representación espectral no se basa en la señal de audio distorsionada en el tiempo. Normalmente, la expresión sonora exhibirá un contorno de tonos, y la expresión sorda tal como sonidos fricativos o sonidos sibilantes no exhibirá un contorno de tonos. Sin embargo, existen señales de no expresión, con fuerte contenido armónico y, por lo tanto, tienen un contorno de tonos, aunque el detector de expresión no detecta la expresión. Adicionalmente, existe cierta expresión sobre la música o música sobre señales de expresión, que el analizador de señales de audio (516 de la figura 5a por ejemplo) determina que tienen un contenido armónico, pero que no son detectadas por el clasificador 520 de señales como señal de expresión. En dicha situación, también pueden aplicarse todas las operaciones de procesamiento para señales de expresión sonoras y también darán como resultado una ventaja.In one embodiment, the TNS gain controller 800 is configured to estimate a gain in quality or bit rate, when the audio signal is subjected to frequency prediction filtering. A TNS decision maker 802 compares the estimated gain with a decision threshold, and a TNS control information in favor of prediction filtering is produced by block 802, when the estimated gain is in a predetermined relationship with respect to the threshold. decision, where this predetermined relationship may be a "greater than" ratio, but it may also be a "less than" ratio for an inverted gain of TNS for example. As discussed, the temporary noise format controller is also configured to vary the decision threshold preferably using the threshold control signal 806 so that, for the same estimated gain, prediction filtering is activated, when the spectral representation It is based on the time distorted audio signal, and is not activated, when the spectral representation is not based on the time distorted audio signal. Normally, the sound expression will exhibit a tone contour, and the deaf expression such as fricative sounds or sibilant sounds will not exhibit a tone contour. However, there are non-expression signals, with strong harmonic content and, therefore, have a tone contour, although the expression detector does not detect the expression. Additionally, there is some expression about music or music about expression signals, which the audio signal analyzer (516 of Figure 5a for example) determines to have a harmonic content, but which are not detected by the signal classifier 520 as expression signal In such a situation, all processing operations for sound expression signals can also be applied and will also result in an advantage.

Posteriormente, se describe otra realización preferente de la presente invención con respecto a un codificador de audio para codificar una señal de audio. Este codificador de audio es específicamente útil en el contexto de la extensión del ancho de banda, pero también es útil en la aplicaciones del codificador por sí solas, donde el codificador de audio se ajusta para codificar un cierto número de líneas con el fin de obtener una cierta limitación de ancho de banda/operación de filtrado de paso bajo. En las aplicaciones no distorsionadas en el tiempo, esta limitación de ancho de banda seleccionando un cierto número predeterminado de líneas dará como resultado un ancho de banda constante, ya que la frecuencia de muestreo de la señal de audio es constante. En situaciones, sin embargo, en las que se realiza un procesamiento de distorsión temporal tal como por bloque 506 en la figura 5a, un codificador que depende de un número fijo de líneas dará como resultado un ancho de banda variable introduciendo fuertes artefactos no sólo perceptibles para oyentes capacitados sino también perceptibles para oyentes no capacitados.Subsequently, another preferred embodiment of the present invention is described with respect to an audio encoder for encoding an audio signal. This audio encoder is specifically useful in the context of bandwidth extension, but it is also useful in the encoder applications alone, where the audio encoder is adjusted to encode a certain number of lines in order to obtain a certain bandwidth limitation / low pass filtering operation. In applications not distorted in time, this bandwidth limitation by selecting a certain predetermined number of lines will result in a constant bandwidth, since the sampling frequency of the audio signal is constant. In situations, however, in which a temporary distortion processing such as block 506 is performed in Figure 5a, an encoder that depends on a fixed number of lines will result in a variable bandwidth by introducing strong artifacts not only noticeable. for trained listeners but also noticeable for untrained listeners.

El codificador central AAC normalmente codifica un número fijo de líneas, ajustando en cero todos los otros por encima de la línea máxima. En el caso no distorsionado esto lleva a un efecto de paso bajo con una frecuencia de corte constante y por lo tanto un ancho de banda constante de la señal AAC decodificada. En el caso del caso distorsionado en el tiempo el ancho de banda varía debido a la variación de la frecuencia de muestreo local, una función del contorno de distorsión temporal local, que lleva a artefactos audibles. Estos artefactos pueden reducirse eligiendo en forma adaptable el número de líneas, como una función del contorno de distorsión temporal local y su velocidad de muestreo promedio obtenida, a ser codificadas en el codificador central dependiendo de la frecuencia de muestreo local de manera que se obtiene un ancho de banda promedio constante después de redistorsionar en el tiempo en el decodificador para todos los marcos. Un beneficio adicional es el ahorro de bits en el codificador.The central AAC encoder typically encodes a fixed number of lines, zeroing all others above the maximum line. In the non-distorted case this leads to a low-pass effect with a constant cut-off frequency and therefore a constant bandwidth of the decoded AAC signal. In the case of the time distorted case, the bandwidth varies due to the variation of the local sampling frequency, a function of the local temporal distortion contour, which leads to audible artifacts. These artifacts can be reduced by adaptively choosing the number of lines, as a function of the local temporal distortion contour and their average sampling rate obtained, to be encoded in the central encoder depending on the local sampling frequency so that a constant average bandwidth after redistorsing over time in the decoder for all frames. An additional benefit is the saving of bits in the encoder.

El codificador de audio conforme a esta realización comprende el distorsionador 506 temporal para distorsionar en el tiempo una señal de audio que utiliza una característica de distorsión temporal variable. Adicionalmente, se proporciona un convertidor 508 de frecuencia/tiempo para convertir una señal de audio distorsionada en el tiempo en una representación espectral que tiene un número de coeficientes espectrales. Adicionalmente, se utiliza un procesador para procesar un número variable de coeficientes espectrales para generar las señal de audio codificada, donde este procesador que comprende el bloque 512 del cuantificador/codificador de la figura 5a está configurado para fijar un número de coeficientes espectrales para un marco de la señal de audio basado en la característica de la distorsión temporal para el marco de manera que se reduzca o se elimine la variación del ancho de banda representada por el número procesado de coeficientes de frecuencia de marco a marco.The audio encoder according to this embodiment comprises the temporary distorter 506 to distort in time an audio signal that uses a variable temporal distortion feature. Additionally, a frequency / time converter 508 is provided to convert a time distorted audio signal into a spectral representation having a number of spectral coefficients. Additionally, a processor is used to process a variable number of spectral coefficients to generate the encoded audio signal, where this processor comprising block 512 of the quantizer / encoder of Figure 5a is configured to set a number of spectral coefficients for a frame. of the audio signal based on the temporal distortion characteristic for the frame so that the variation in width is reduced or eliminated of band represented by the processed number of frequency coefficients from frame to frame.

El procesador implementado por el bloque 512 puede comprender un controlador 1000 para controlar el número de líneas, donde el resultado del controlador 1000 es aquel, con respecto a un número de líneas fiado para el caso de un marco temporal que está siendo codificado sin ninguna distorsión temporal, se agrega o se descarta un cierto número variable de líneas en el extremo superior del espectro. Dependiendo de la implementación, el controlador 1000 puede recibir una información sobre el contorno de tonos en un cierto marco 1001 y/o una frecuencia de muestreo promedio local en el marco indicado en 1002.The processor implemented by block 512 may comprise a controller 1000 to control the number of lines, where the result of controller 1000 is that, with respect to a reliable number of lines in the case of a time frame that is being encoded without any distortion. temporal, a certain variable number of lines is added or discarded at the upper end of the spectrum. Depending on the implementation, the controller 1000 may receive information on the contour of tones in a certain frame 1001 and / or a local average sampling frequency in the frame indicated in 1002.

En las figuras 9(a) a 9(e), los dibujos de la derecha ilustran una cierta situación de ancho de banda para ciertos contornos de tonos sobre un marco, donde los contornos de tonos sobre el marco se ilustran en los respectivos dibujos de la izquierda para la distorsión temporal y se ilustran en los dibujos del medio después de la distorsión temporal, donde se obtiene una característica de tono sustancialmente constante. Este es el objetivo de la funcionalidad de la distorsión temporal que, después de la distorsión temporal, la característica del tono es lo más constante posible.In Figures 9 (a) to 9 (e), the drawings on the right illustrate a certain bandwidth situation for certain contours of tones on a frame, where the contours of tones on the frame are illustrated in the respective drawings of left for temporal distortion and are illustrated in the middle drawings after temporal distortion, where a substantially constant tone characteristic is obtained. This is the objective of the functionality of the temporal distortion that, after the temporal distortion, the characteristic of the tone is as constant as possible.

El ancho 900 de banda ilustra el ancho de banda que se obtiene cuando se toma un cierto número de líneas producido por un convertidor 508 de frecuencia/tiempo o producido por una etapa 510 de TNS de la figura 5a, y cuando no se realiza una operación de distorsión temporal, es decir, cuando el distorsionador 506 temporal se desactivó, según lo indicado por la línea 507 sombreada. Cuando, sin embargo, se obtiene un contorno de distorsión temporal no constante, y cuando este contorno de distorsión temporal se lleva a un tono más alto induciendo un incremento en la velocidad de muestreo (figura 9(a), (c)) el ancho de banda del espectro disminuye con respecto a una situación no distorsionada en el tiempo, normal. Esto significa que el número de líneas a ser transmitidas para este marco debe incrementarse con el fin de equilibrar esta pérdida de ancho de banda.The bandwidth 900 illustrates the bandwidth that is obtained when a certain number of lines are produced produced by a frequency / time converter 508 or produced by a TNS stage 510 of Figure 5a, and when an operation is not performed of temporal distortion, that is, when the temporary distorter 506 was deactivated, as indicated by the shaded line 507. When, however, a non-constant temporal distortion contour is obtained, and when this temporal distortion contour is brought to a higher pitch inducing an increase in the sampling rate (Figure 9 (a), (c)) the width spectrum band decreases with respect to a situation not distorted in time, normal. This means that the number of lines to be transmitted for this frame must be increased in order to balance this loss of bandwidth.

En forma alternativa, llevar el tono a un tono constante más bajo ilustrado en la figura 9(b) o figura 9(d) da como resultado una reducción de la tasa de muestreo. La reducción de la tasa de muestreo da como resultado un incremento del ancho de banda del espectro de este marco con respecto a la escala lineal, y este incremento de ancho de banda debe equilibrarse utilizando una supresión o desecho de un cierto número de líneas con respecto al valor del número de líneas para la situación normal no distorsionada en el tiempo.Alternatively, bringing the tone to a lower constant tone illustrated in Figure 9 (b) or Figure 9 (d) results in a reduction in the sampling rate. The reduction of the sampling rate results in an increase in the bandwidth of the spectrum of this frame with respect to the linear scale, and this increase in bandwidth must be balanced using a suppression or disposal of a certain number of lines with respect to to the value of the number of lines for the normal situation not distorted in time.

La figura 9(e) ilustra un caso especial, en el que un contorno de tonos se lleva a un nivel medio de manera que la frecuencia de muestreo promedio dentro de un marco es, en vez de realizar la operación de distorsión temporal, igual que la frecuencia de muestreo sin ninguna distorsión temporal. De este modo, el ancho de banda de la señal no es afectada, y puede procesarse el sencillo número de líneas a ser utilizado para el caso normal sin distorsión temporal, aunque se tenga que realizar la operación de distorsión temporal. De la figura 9, se torna claro que realizar una operación de distorsión temporal no necesariamente influye en el ancho de banda, sino que la influencia en el ancho de banda depende del contorno de tonos y la forma, como se lleva a cabo la distorsión temporal en un marco. Por lo tanto, es preferible utilizar, como valor de control, una tasa de muestreo local o promedio. La determinación de esta tasa de muestreo local se ilustra en la figura 11. La porción superior en la figura 11 ilustra una porción temporal con valores de muestreo equidistantes. Un marco incluye, por ejemplo, siete valores de muestreo indicados por Tn en la línea superior. La línea inferior muestra el resultado de una operación de distorsión temporal, en la que, totalmente, se ha producido un incremento de la tasa de muestreo. Esto significa que la longitud del marco distorsionado en el tiempo es más pequeña que la longitud temporal del marco no distorsionado en el tiempo. Sin embargo, debido a que la longitud temporal del marco distorsionado en el tiempo a ser introducido en el convertidor de frecuencia/tiempo es fija, el caso de un incremento de la tasa de muestreo hace que una porción adicional de la señal temporal que no pertenece al marco indicado por Tn sea introducido en el marco distorsionado en el tiempo según lo indicado por las líneas 1100. De este modo, un marco distorsionado en el tiempo cubre una porción temporal de la señal de audio indicada por Tlin el cual es mayor que el tiempo Tn. En vista de ello, la distancia efectiva entre dos líneas de frecuencia o el ancho de banda de la frecuencia de una única línea en el dominio lineal (el cual es el valor inverso para la resolución) ha disminuido, y el número de líneas Nn fijadas para un caso no distorsionado en el tiempo cuando se multiplica por la distancia de frecuencia reducida da como resultado un ancho de banda más pequeño, es decir, una reducción del ancho de banda.Figure 9 (e) illustrates a special case, in which a tone contour is brought to a medium level so that the average sampling frequency within a frame is, instead of performing the time distortion operation, the same as The sampling frequency without any temporal distortion. In this way, the signal bandwidth is not affected, and the simple number of lines to be used for the normal case can be processed without temporary distortion, even if the temporary distortion operation has to be performed. From Figure 9, it becomes clear that performing a temporary distortion operation does not necessarily influence bandwidth, but that the influence on bandwidth depends on the tone contour and shape, as the temporal distortion is carried out. in a frame. Therefore, it is preferable to use, as a control value, a local or average sampling rate. The determination of this local sampling rate is illustrated in Figure 11. The upper portion in Figure 11 illustrates a temporary portion with equidistant sampling values. A framework includes, for example, seven sampling values indicated by Tn on the top line. The bottom line shows the result of a temporary distortion operation, in which, totally, there has been an increase in the sampling rate. This means that the length of the frame distorted in time is smaller than the temporal length of the frame not distorted in time. However, because the time frame length distorted in time to be introduced into the frequency / time converter is fixed, the case of an increase in the sampling rate causes an additional portion of the time signal that does not belong to the frame indicated by Tn be introduced into the frame distorted in time as indicated by lines 1100. Thus, a frame distorted in time covers a temporary portion of the audio signal indicated by Tlin which is larger than the Tn time. In view of this, the effective distance between two frequency lines or the frequency bandwidth of a single line in the linear domain (which is the inverse value for resolution) has decreased, and the number of fixed Nn lines for a case not distorted in time when multiplied by the reduced frequency distance results in a smaller bandwidth, that is, a reduction in bandwidth.

El otro caso, no ilustrado en la figura 11, donde el distorsionador temporal lleva a cabo una reducción de la tasa de muestreo, la longitud de tiempo efectivo de un marco en el dominio distorsionado en el tiempo es más pequeña que la longitud temporal del dominio no distorsionado en el tiempo de manera que el ancho de banda de la frecuencia de una única línea o la distancia entre dos líneas de frecuencia se ha incrementado. Ahora, multiplicar este Af incrementado por el número Nn de líneas para el caso normal dará como resultado un ancho de banda incrementado debido a la resolución de frecuencia reducida/distancia de frecuencia incrementada entre dos coeficientes de frecuencias adyacentes.The other case, not illustrated in Figure 11, where the temporal distorter performs a reduction in the sampling rate, the effective time length of a frame in the time-distorted domain is smaller than the temporal length of the domain not distorted over time so that the frequency bandwidth of a single line or the distance between two frequency lines has increased. Now, multiplying this increased Af by the number N n of lines for the normal case will result in an increased bandwidth due to the reduced frequency resolution / increased frequency distance between two adjacent frequency coefficients.

La figura 11 adicionalmente ilustra, como se calcula una tasa de muestreo promedio fsR. Para este fin, se determina la distancia temporal entre dos muestras distorsionadas en el tiempo y se toma el valor inverso, el que se define que es la tasa de muestreo local entre dos muestras distorsionadas en el tiempo. Dicho valor puede calcularse entre cada par de muestras adyacentes, y puede calcularse el valor promedio aritmético y este valor finalmente da como resultado la tasa de muestreo promedio local, que preferiblemente se utiliza para ser ingresada en el controlador 1000 de la figura 10a.Figure 11 further illustrates how an average sampling rate fsR is calculated. For this purpose, the temporal distance between two samples distorted in time is determined and the inverse value is taken, which is defined as is the local sampling rate between two samples distorted over time. Said value can be calculated between each pair of adjacent samples, and the arithmetic average value can be calculated and this value ultimately results in the local average sampling rate, which is preferably used to be entered into the controller 1000 of Figure 10a.

La figura 10b ilustra una línea que indica cuantas líneas deben agregarse o descartarse dependiendo de la frecuencia de muestreo local, donde la frecuencia de muestreo fN para el caso no distorsionado junto con el número de líneas Nn para el caso no distorsionado en el tiempo define el ancho de banda previsto, el que debe mantenerse constante tanto como sea posible para una secuencia de marcos distorsionados en el tiempo o para una secuencia de marcos distorsionados en el tiempo y no distorsionados en el tiempo.Figure 10b illustrates a line that indicates how many lines should be added or discarded depending on the local sampling frequency, where the sampling frequency fN for the non-distorted case along with the number of lines N n for the case not distorted over time defines the expected bandwidth, which must be kept constant as much as possible for a sequence of frames distorted in time or for a sequence of frames distorted in time and not distorted in time.

La figura 12b ilustra la dependencia entre los diferentes parámetros debatidos con relación a la figura 9, Figura 10b y figura 11. Básicamente, cuando la tasa de muestreo, es decir, la tasa de muestreo promedio fSR disminuye con respecto a el caso no distorsionado en el tiempo, las líneas deben suprimirse, mientras que las líneas deben agregarse, cuando la tasa de muestreo aumenta con respecto a la tasa de muestreo normal fN para el caso no distorsionado en el tiempo de manera que las variaciones del ancho de banda de marco a marco se reducen o preferiblemente aún se eliminan tanto como sea posible.Figure 12b illustrates the dependence between the different parameters discussed in relation to Figure 9, Figure 10b and Figure 11. Basically, when the sampling rate, that is, the average sampling rate fSR decreases with respect to the case not distorted in over time, the lines should be suppressed, while the lines should be added, when the sampling rate increases with respect to the normal sampling rate fN for the case not distorted over time so that the frame bandwidth variations to frame are reduced or preferably still removed as much as possible.

El ancho de banda que resulta en el número de líneas Nn y la tasa de muestreo fN preferiblemente define la frecuencia de cruce 1200 para un codificador de audio que, además de un codificador de audio central fuente, tiene un codificador de extensión de ancho de banda (codificador BWE). Tal como se conoce en el arte, un codificador de extensión de ancho de banda solamente codifica un espectro con una alta velocidad de bits hasta la frecuencia de cruce y codifica el espectro de la banda alta, es decir, entre la frecuencia de cruce 1200 y la frecuencia fMAX con una velocidad de bits baja, donde esta velocidad de bits baja típicamente es aún menor que 1/10 o menos de la velocidad de bits requerida para la banda baja entre una frecuencia de 0 y la frecuencia de cruce 1200. La figura 12a además ilustra el ancho de banda BWa a c de un codificador de audio AAC sencillo, que es mucho mayor que la frecuencia de cruce. Por lo tanto, las líneas no solamente pueden descartares, sino que también pueden agregarse. Además, también se ilustra la variación del ancho de banda para un número de líneas constante dependiendo de la tasa de muestreo local fSR. Preferiblemente, el número de líneas a ser agregadas o a ser suprimidas con respecto al número de líneas para el caso normal se fija de manera que cada marco de los datos codificados de AAC tiene una frecuencia máxima tan cercana como sea posible a la frecuencia de cruce 1200. De este modo, se evita cualquier agujero espectral debido a la reducción del ancho de banda por un lado o un espacio libre inutilizado transmitiendo información en una frecuencia por encima de la frecuencia de cruce en el marco codificado de banda baja. Esto, por un lado, incrementa la calidad de la señal de audio decodificada y, por otro lado, disminuye la velocidad de bits. The bandwidth that results in the number of lines N n and the sampling rate fN preferably defines the crossover frequency 1200 for an audio encoder that, in addition to a central source audio encoder, has an extension width encoder of band (BWE encoder). As is known in the art, a bandwidth extension encoder only encodes a spectrum with a high bit rate up to the crossover frequency and encodes the high band spectrum, that is, between the crossover frequency 1200 and the fMAX frequency with a low bit rate, where this low bit rate is typically still less than 1/10 or less of the bit rate required for the low band between a frequency of 0 and the crossover frequency 1200. Figure 12a further illustrates the BW aac bandwidth of a simple AAC audio encoder, which is much greater than the crossover frequency. Therefore, the lines can not only be discarded, but can also be added. In addition, the variation in bandwidth for a constant number of lines is also illustrated depending on the local sampling rate fSR. Preferably, the number of lines to be added or deleted with respect to the number of lines for the normal case is set so that each frame of the AAC encoded data has a maximum frequency as close as possible to the crossover frequency 1200 In this way, any spectral hole is avoided due to the reduction of bandwidth on one side or an unused free space by transmitting information at a frequency above the crossover frequency in the low band encoded frame. This, on the one hand, increases the quality of the decoded audio signal and, on the other hand, decreases the bit rate.

El agregado real de líneas con respecto a un número fijo de líneas o una supresión de líneas con respecto al número fijo de líneas puede realizarse antes de cuantificar las líneas, es decir, en la entrada del bloque 512, o puede realizarse después de cuantificar o también puede realizarse, dependiendo del código de entropía específico, después de la codificación de entropía.The actual addition of lines with respect to a fixed number of lines or a suppression of lines with respect to the fixed number of lines can be done before quantifying the lines, that is, at the entrance of block 512, or it can be done after quantifying or It can also be done, depending on the specific entropy code, after entropy coding.

Además, es preferible llevar las variaciones de ancho de banda a un nivel mínimo y aún eliminar las variaciones de ancho de banda, pero, en otras implementaciones, aún una reducción de las variaciones del ancho de banda determinando el número de líneas que dependen de la característica de distorsión temporal aún aumenta la calidad de audio y reduce la velocidad de bits requerida en comparación con una situación, donde se aplica un número de líneas constante independientemente de una cierta característica de distorsión temporal.In addition, it is preferable to bring bandwidth variations to a minimum level and still eliminate bandwidth variations, but, in other implementations, still a reduction in bandwidth variations by determining the number of lines that depend on the Temporal distortion feature still increases audio quality and reduces the required bit rate compared to a situation, where a constant number of lines is applied regardless of a certain temporal distortion characteristic.

Aunque se han descrito algunos aspectos en el contexto de un equipo, está claro que estos aspectos también representan una descripción del método correspondiente, donde un bloque o dispositivo corresponde a un paso del método o una característica del paso del método. En forma análoga, los aspectos descritos en el contexto de un paso del método representan una descripción de un bloque correspondiente o ítem o característica del equipo correspondiente.Although some aspects have been described in the context of a team, it is clear that these aspects also represent a description of the corresponding method, where a block or device corresponds to a method step or a characteristic of the method step. Similarly, the aspects described in the context of a method step represent a description of a corresponding block or item or characteristic of the corresponding equipment.

Dependiendo de ciertos requerimientos de implementación, las realizaciones de la invención pueden implementarse en hardware o en software. La implementación puede realizarse utilizando un medio de almacenamiento digital, por ejemplo un disquete, un DVD, un CD, un ROM, un PROM, un EPROM, un EEPROM o una memoria rápida, que posea señales de control electrónicamente legibles almacenadas en los mismos, que cooperen (o sean capaces de cooperar) con un sistema informático programable de manera tal que se lleve a cabo el método respectivo. Algunas realizaciones conforme a la invención comprenden un soporte de datos que tiene señales de control electrónicamente legibles, que son capaces de cooperar con un sistema informático programable, de manera tal que se lleve a cabo uno de los métodos descritos en la presente. Generalmente, las realizaciones de la presente invención pueden implementarse como un producto de programa informático con un código de programa, el código de programa que es operativo para realizar uno de los métodos cuando el producto de programa informático funciona en la computadora. El código de programa puede por ejemplo almacenarse en un soporte legible en la máquina. Otras realizaciones comprenden el programa informático para llevar a cabo uno de los métodos descritos en la presente, almacenado en el soporte legible en la máquina. En otras palabras, una realización del método inventivo es, por lo tanto, un programa informático que tiene un código de programa para llevar a cabo uno de los métodos descritos en la presente, cuando el programa informático funciona en una computadora. Una realización adicional de los métodos inventivos es, por lo tanto, un soporte de datos (o un medio de almacenamiento digital, o un medio legible en computadora) que comprende, grabado en los mismos, el programa informático que lleva a cabo uno de los métodos descritos en la presente. Una realización adicional del método inventivo es, por lo tanto, una corriente de datos o una secuencia de señales que representan el programa informático para llevar a cabo uno de los métodos descritos en la presente. La corriente de datos o la secuencia de señales puede por ejemplo configurarse para ser transferida a través de una conexión de comunicación de datos, por ejemplo a través de Internet. Una realización adicional comprende un medio de procesamiento, por ejemplo una computadora, o un dispositivo lógico programable, configurado para o adaptado para llevar a cabo uno de los métodos descritos en la presente. Una realización adicional comprende una computadora que tiene el programa informático instalado en la mismo para llevar a cabo uno de los métodos descritos en la presente. En algunas realizaciones, puede utilizarse un dispositivo lógico programable (por ejemplo una matriz de puertas programables del campo) para llevar a cabo algunas o todas las funcionalidades de los métodos descritos en la presente. En algunas realizaciones, una matriz de puertas programables del campo puede cooperar con un microprocesador con el fin de llevar a cabo uno de los métodos descritos en el presente documento. Depending on certain implementation requirements, embodiments of the invention can be implemented in hardware or software. The implementation can be performed using a digital storage medium, for example a floppy disk, a DVD, a CD, a ROM, a PROM, an EPROM, an EEPROM or a quick memory, which has electronically readable control signals stored therein, cooperating (or being able to cooperate) with a programmable computer system in such a way that the respective method is carried out. Some embodiments according to the invention comprise a data carrier that has electronically readable control signals, which are capable of cooperating with a programmable computer system, such that one of the methods described herein is carried out. Generally, the embodiments of the present invention can be implemented as a computer program product with a program code, the program code that is operative to perform one of the methods when the computer program product operates on the computer. The program code can for example be stored on a machine readable media. Other embodiments include the computer program for carrying out one of the methods described. here, stored in the machine readable support. In other words, an embodiment of the inventive method is, therefore, a computer program that has a program code to carry out one of the methods described herein, when the computer program operates on a computer. A further embodiment of the inventive methods is, therefore, a data carrier (or a digital storage medium, or a computer readable medium) comprising, recorded therein, the computer program carried out by one of the methods described herein. A further embodiment of the inventive method is, therefore, a data stream or a sequence of signals representing the computer program for performing one of the methods described herein. The data stream or the signal sequence can for example be configured to be transferred through a data communication connection, for example over the Internet. A further embodiment comprises a processing means, for example a computer, or a programmable logic device, configured for or adapted to perform one of the methods described herein. A further embodiment comprises a computer that has the computer program installed therein to perform one of the methods described herein. In some embodiments, a programmable logic device (for example an array of field programmable gates) can be used to perform some or all of the functionalities of the methods described herein. In some embodiments, an array of programmable field doors may cooperate with a microprocessor in order to carry out one of the methods described herein.

Claims (1)

REIVINDICACIONES Codificador de audio para generar una señal de audio codificada, que comprende:Audio encoder to generate an encoded audio signal, comprising: un analizador (516, 520) de señal de audio para analizar si un marco de tiempo de la señal de audio tiene una característica armónica o de expresión;an audio signal analyzer (516, 520) to analyze whether a time frame of the audio signal has a harmonic or expression characteristic; un controlador (504) de función de ventana para seleccionar una función de ventana dependiendo de una característica armónica o de expresión de la señal de audio;a window function controller (504) for selecting a window function depending on a harmonic or expression characteristic of the audio signal; un generador (502) de ventanas para generar ventanas de la señal de audio utilizando la función de ventana seleccionada para obtener un marco con ventanas; ya window generator (502) for generating windows of the audio signal using the window function selected to obtain a window frame; Y un procesador (508, 512) para procesar adicionalmente el marco con ventanas para obtener la señal de audio codificada;a processor (508, 512) to further process the window frame to obtain the encoded audio signal; en el que el controlador (504) de función de ventana comprende un detector (700) de transitorios para detectar un transitorio, en el que el controlador de función de ventana está configurado para conmutar de una función de ventana para un bloque grande a una función de ventana para un bloque corto, cuando un transitorio se detecta y el analizador (516, 520) de señal de audio no encuentra una característica armónica o de expresión, y para no conmutar a la función de ventana para el bloque corto, cuando se detecta un transitorio y el analizador (516, 520) de señal de audio encuentra una característica armónica o de expresión; ywherein the window function controller (504) comprises a transient detector (700) to detect a transient, in which the window function controller is configured to switch from a window function for a large block to a function of window for a short block, when a transient is detected and the audio signal analyzer (516, 520) does not find a harmonic or expression characteristic, and not to switch to the window function for the short block, when it is detected a transient and the audio signal analyzer (516, 520) finds a harmonic or expression characteristic; Y en el que el controlador (504) de función de ventana está configurado para conmutar de una función (706) de ventana que tiene una longitud de muestras 2048 como el bloque largo, pero que tiene una porción (708) cero y una porción (710) de no aliasing a una función (707) de ventana que es más larga que la función de ventana para un bloque corto y está adaptada para obtener una longitud (712) de superposición más corta con una ventana (706) previa que la función (714) de ventana para un bloque largo y que tiene una porción cero a la izquierda de una región (712) y una porción de no aliasing a la derecha de la región (712), cuando se detecta un transitorio y la señal tiene una característica armónica o de expresión, de modo que hay una porción de superposición entre 1/4 y 1/32 de la longitud de función de ventana completa.wherein the window function controller (504) is configured to switch from a window function (706) that has a sample length 2048 as the long block, but has a zero portion (708) and a portion (710 ) from not aliasing to a window function (707) that is longer than the window function for a short block and is adapted to obtain a shorter overlay length (712) with a window (706) prior to the function ( 714) window for a long block and having a zero portion to the left of a region (712) and a non-aliasing portion to the right of the region (712), when a transient is detected and the signal has a characteristic harmonic or expression, so that there is an overlap portion between 1/4 and 1/32 of the full window function length. Codificador de audio para generar una señal de audio codificada, que comprende:Audio encoder to generate an encoded audio signal, comprising: un analizador (516, 520) de señal de audio para analizar si un marco de tiempo de la señal de audio tiene una característica armónica o de expresión;an audio signal analyzer (516, 520) to analyze whether a time frame of the audio signal has a harmonic or expression characteristic; un controlador (504) de función de ventana para seleccionar una función de ventana dependiendo de una característica armónica o de expresión de la señal de audio;a window function controller (504) for selecting a window function depending on a harmonic or expression characteristic of the audio signal; un generador (502) de ventanas para generar ventanas a la señal de audio utilizando la función de ventana seleccionada para obtener un marco con ventanas;a window generator (502) to generate windows to the audio signal using the window function selected to obtain a window frame; un procesador (508, 512) para procesar adicionalmente el marco con ventanas para obtener la señal de audio codificada, ya processor (508, 512) to further process the window frame to obtain the encoded audio signal, and un detector de transitorios;a transient detector; en el que el detector (700) de transitorios está configurado para detectar una característica cuantitativa de la señal de audio y para comparar la característica cuantitativa con un umbral controlable, en el que un transitorio es detectado cuando la característica cuantitativa tiene una relación predeterminada con el umbral controlable, ywherein the transient detector (700) is configured to detect a quantitative characteristic of the audio signal and to compare the quantitative characteristic with a controllable threshold, in which a transient is detected when the quantitative characteristic has a predetermined relationship with the controllable threshold, and en el que el analizador de señal de audio está configurado para controlar el umbral variable de modo que se reduce una probabilidad de una conmutación a una función de ventana para un bloque corto, cuando el analizador (516, 520) de señal de audio ha encontrado una característica armónica o de expresión.wherein the audio signal analyzer is configured to control the variable threshold so that a probability of a switching to a window function for a short block is reduced, when the audio signal analyzer (516, 520) has found a harmonic or expression characteristic. Método para generar una señal de audio codificada, que comprende:Method for generating an encoded audio signal, comprising: analizar (516, 520) si el marco de tiempo de la señal de audio tiene una característica armónica o de expresión;analyze (516, 520) if the time frame of the audio signal has a harmonic or expression characteristic; seleccionar (504) una función de ventana dependiendo de una característica armónica o de expresión de la señal de audio;select (504) a window function depending on a harmonic or expression characteristic of the audio signal; generar (502) ventanas a la señal de audio utilizando la función de ventana seleccionada para obtener un marco con ventanas; ygenerate (502) windows to the audio signal using the selected window function to obtain a frame with windows; Y procesar (508, 512) el marco con ventanas para obtener la señal de audio codificada;process (508, 512) the frame with windows to obtain the encoded audio signal; en el que se realiza una conmutación de una función de ventana para un bloque largo a una función de ventana para un bloque corto, cuando se detecta un transitorio y no se encuentra una característica armónica o de expresión mediante el análisis, yin which a switching of a window function for a long block to a window function for a short block is performed, when a transient is detected and a harmonic or expression characteristic is not found by analysis, and en el que se realiza una conmutación de una función (706) de ventana que tiene una longitud de muestras 2048 como el bloque largo, pero que tiene una porción (708) cero y una porción (710) de no aliasing a una función (707) de ventana que es más larga que la función de ventana para un bloque corto y que tiene una superposición (712) más corta con una ventana (706) previa que la función (714) de ventana para un bloque largo y que tiene una porción cero a la izquierda de una región 712 de superposición y una porción de no aliasing a la derecha de la región (712) de superposición, cuando se detecta un transitorio y la señal tiene una característica armónica o de expresión, de modo que hay una porción de superposición entre 1/4 y 1/32 de la longitud de función de ventana completa.in which a switching of a window function (706) is performed which has a sample length 2048 as the long block, but which has a zero portion (708) and a portion (710) of non-aliasing to a function (707 ) of window that is longer than the window function for a short block and that has a shorter overlay (712) with a previous window (706) than the window function (714) for a long block and that has a portion zero to the left of an overlap region 712 and a non-aliasing portion to the right of the overlay region (712), when a transient is detected and the signal has a harmonic or expression characteristic, so that there is a portion overlap between 1/4 and 1/32 of the full window function length. Método para generar una señal de audio codificada, que comprende:Method for generating an encoded audio signal, comprising: analizar (516, 520) si un marco de tiempo de la señal de audio tiene una característica armónica o de expresión;analyze (516, 520) if a time frame of the audio signal has a harmonic or expression characteristic; seleccionar (504) una función de ventana dependiendo de una característica armónica o de expresión de la señal de audio;select (504) a window function depending on a harmonic or expression characteristic of the audio signal; generar (502) ventanas a la señal de audio utilizando la función de ventana seleccionada, para obtener un marco con ventanas; ygenerate (502) windows to the audio signal using the selected window function, to obtain a frame with windows; Y procesar (508, 512) el marco con ventanas para obtener la señal de audio codificada;process (508, 512) the frame with windows to obtain the encoded audio signal; en el que se detecta una característica cuantitativa de la señal de audio y la característica cuantitativa es comparada con un umbral controlable, en el que un transitorio es detectado cuando la característica cuantitativa tiene una relación predeterminada con el umbral controlable, yin which a quantitative characteristic of the audio signal is detected and the quantitative characteristic is compared with a controllable threshold, in which a transient is detected when the quantitative characteristic has a predetermined relationship with the controllable threshold, and en el que el umbral variable es controlado de modo que se reduce una probabilidad de una conmutación a una función de ventana para un bloque corto, cuando se ha encontrado una característica armónica o de expresión.wherein the variable threshold is controlled so that a probability of a switching to a window function for a short block is reduced, when a harmonic or expression characteristic has been found. Programa informático que tiene un código de programa para realizar, cuando se ejecuta en un ordenador, el método de las reivindicaciones 3 ó 4. Computer program having a program code to perform, when executed on a computer, the method of claims 3 or 4.
ES11180988T 2008-07-11 2009-07-06 Audio signal encoders, methods for encoding an audio signal and software Active ES2741963T3 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US7987308P 2008-07-11 2008-07-11

Publications (1)

Publication Number Publication Date
ES2741963T3 true ES2741963T3 (en) 2020-02-12

Family

ID=41037694

Family Applications (5)

Application Number Title Priority Date Filing Date
ES11180989.3T Active ES2654432T3 (en) 2008-07-11 2009-07-06 Audio signal encoder, method to generate an audio signal and computer program
ES09776982T Active ES2379761T3 (en) 2008-07-11 2009-07-06 Provide a time distortion activation signal and encode an audio signal with it
ES11180983T Active ES2758799T3 (en) 2008-07-11 2009-07-06 Method and apparatus for encoding and decoding an audio signal and computer programs
ES11180990.1T Active ES2654433T3 (en) 2008-07-11 2009-07-06 Audio signal encoder, method for encoding an audio signal and computer program
ES11180988T Active ES2741963T3 (en) 2008-07-11 2009-07-06 Audio signal encoders, methods for encoding an audio signal and software

Family Applications Before (4)

Application Number Title Priority Date Filing Date
ES11180989.3T Active ES2654432T3 (en) 2008-07-11 2009-07-06 Audio signal encoder, method to generate an audio signal and computer program
ES09776982T Active ES2379761T3 (en) 2008-07-11 2009-07-06 Provide a time distortion activation signal and encode an audio signal with it
ES11180983T Active ES2758799T3 (en) 2008-07-11 2009-07-06 Method and apparatus for encoding and decoding an audio signal and computer programs
ES11180990.1T Active ES2654433T3 (en) 2008-07-11 2009-07-06 Audio signal encoder, method for encoding an audio signal and computer program

Country Status (18)

Country Link
US (7) US9015041B2 (en)
EP (5) EP2410522B1 (en)
JP (5) JP5538382B2 (en)
KR (5) KR101400484B1 (en)
CN (5) CN103000186B (en)
AR (8) AR072740A1 (en)
AT (1) ATE539433T1 (en)
AU (1) AU2009267433B2 (en)
BR (1) BRPI0910790A2 (en)
CA (5) CA2836863C (en)
ES (5) ES2654432T3 (en)
HK (5) HK1155551A1 (en)
MX (1) MX2011000368A (en)
PL (4) PL2410520T3 (en)
PT (3) PT2410520T (en)
RU (5) RU2536679C2 (en)
TW (1) TWI463484B (en)
WO (1) WO2010003618A2 (en)

Families Citing this family (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
EP2107556A1 (en) * 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
EP2410522B1 (en) 2008-07-11 2017-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, method for encoding an audio signal and computer program
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
CN102770913B (en) * 2009-12-23 2015-10-07 诺基亚公司 Sparse audio
WO2011110594A1 (en) 2010-03-10 2011-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, audio signal encoder, method for decoding an audio signal, method for encoding an audio signal and computer program using a pitch-dependent adaptation of a coding context
CA3105050C (en) 2010-04-09 2021-08-31 Dolby International Ab Audio upmixer operable in prediction or non-prediction mode
US8831933B2 (en) 2010-07-30 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for multi-stage shape vector quantization
US9208792B2 (en) * 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
WO2012037515A1 (en) 2010-09-17 2012-03-22 Xiph. Org. Methods and systems for adaptive time-frequency resolution in digital data coding
WO2012048472A1 (en) * 2010-10-15 2012-04-19 Huawei Technologies Co., Ltd. Signal analyzer, signal analyzing method, signal synthesizer, signal synthesizing method, windower, transformer and inverse transformer
JP6064600B2 (en) * 2010-11-25 2017-01-25 日本電気株式会社 Signal processing apparatus, signal processing method, and signal processing program
EP2665060B1 (en) * 2011-01-14 2017-03-08 Panasonic Intellectual Property Corporation of America Apparatus for coding a speech/sound signal
SG192748A1 (en) 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Linear prediction based coding scheme using spectral domain noise shaping
AR085218A1 (en) 2011-02-14 2013-09-18 Fraunhofer Ges Forschung APPARATUS AND METHOD FOR HIDDEN ERROR UNIFIED VOICE WITH LOW DELAY AND AUDIO CODING
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
AR085221A1 (en) 2011-02-14 2013-09-18 Fraunhofer Ges Forschung APPARATUS AND METHOD FOR CODING AND DECODING AN AUDIO SIGNAL USING AN ADVANCED DRESSED PORTION
MX2013009344A (en) 2011-02-14 2013-10-01 Fraunhofer Ges Forschung Apparatus and method for processing a decoded audio signal in a spectral domain.
TR201903388T4 (en) 2011-02-14 2019-04-22 Fraunhofer Ges Forschung Encoding and decoding the pulse locations of parts of an audio signal.
CA2827266C (en) * 2011-02-14 2017-02-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
PL2550653T3 (en) 2011-02-14 2014-09-30 Fraunhofer Ges Forschung Information signal representation using lapped transform
CN103534754B (en) 2011-02-14 2015-09-30 弗兰霍菲尔运输应用研究公司 The audio codec utilizing noise to synthesize during the inertia stage
US8838442B2 (en) 2011-03-07 2014-09-16 Xiph.org Foundation Method and system for two-step spreading for tonal artifact avoidance in audio coding
WO2012122299A1 (en) 2011-03-07 2012-09-13 Xiph. Org. Bit allocation and partitioning in gain-shape vector quantization for audio coding
WO2012122297A1 (en) * 2011-03-07 2012-09-13 Xiph. Org. Methods and systems for avoiding partial collapse in multi-block audio coding
US8891775B2 (en) * 2011-05-09 2014-11-18 Dolby International Ab Method and encoder for processing a digital stereo audio signal
TWI605448B (en) * 2011-06-30 2017-11-11 三星電子股份有限公司 Apparatus for generating bandwidth extended signal
CN102208188B (en) * 2011-07-13 2013-04-17 华为技术有限公司 Audio signal encoding-decoding method and device
CN104011794B (en) * 2011-12-21 2016-06-08 杜比国际公司 There is the audio coder of parallel architecture
KR20130109793A (en) * 2012-03-28 2013-10-08 삼성전자주식회사 Audio encoding method and apparatus for noise reduction
CN106847303B (en) * 2012-03-29 2020-10-13 瑞典爱立信有限公司 Method, apparatus and recording medium for supporting bandwidth extension of harmonic audio signal
RU2637994C1 (en) * 2012-03-29 2017-12-08 Телефонактиеболагет Л М Эрикссон (Пабл) Transforming coding/decoding of harmonic sound signals
EP2709106A1 (en) 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
CN105976824B (en) 2012-12-06 2021-06-08 华为技术有限公司 Method and apparatus for decoding a signal
US9548056B2 (en) * 2012-12-19 2017-01-17 Dolby International Ab Signal adaptive FIR/IIR predictors for minimizing entropy
ES2588156T3 (en) 2012-12-21 2016-10-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Comfort noise generation with high spectrum-time resolution in discontinuous transmission of audio signals
EP2936486B1 (en) 2012-12-21 2018-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Comfort noise addition for modeling background noise at low bit-rates
CA2897321C (en) 2013-01-08 2018-09-04 Dolby International Ab Model based prediction in a critically sampled filterbank
CN103971694B (en) 2013-01-29 2016-12-28 华为技术有限公司 The Forecasting Methodology of bandwidth expansion band signal, decoding device
CA2898677C (en) 2013-01-29 2017-12-05 Stefan Dohla Low-frequency emphasis for lpc-based coding in frequency domain
CN109346101B (en) * 2013-01-29 2024-05-24 弗劳恩霍夫应用研究促进协会 Decoder for generating frequency enhanced audio signal and encoder for generating encoded signal
RU2660605C2 (en) * 2013-01-29 2018-07-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Noise filling concept
PL3121813T3 (en) 2013-01-29 2020-08-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise filling without side information for celp-like coders
CA3029037C (en) 2013-04-05 2021-12-28 Dolby International Ab Audio encoder and decoder
CN114566182A (en) 2013-04-05 2022-05-31 杜比实验室特许公司 Companding apparatus and method for reducing quantization noise using advanced spectral extension
CN117253498A (en) 2013-04-05 2023-12-19 杜比国际公司 Audio signal decoding method, audio signal decoder, audio signal medium, and audio signal encoding method
KR101952192B1 (en) * 2013-06-21 2019-02-26 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. Time scaler, audio decoder, method and a computer program using a quality control
WO2014202784A1 (en) 2013-06-21 2014-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for improved signal fade out for switched audio coding systems during error concealment
WO2014202647A1 (en) 2013-06-21 2014-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Jitter buffer control, audio decoder, method and computer program
CN108364657B (en) 2013-07-16 2020-10-30 超清编解码有限公司 Method and decoder for processing lost frame
EP2830056A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding an audio signal with intelligent gap filling in the spectral domain
EP2830055A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
US9363027B2 (en) * 2013-08-16 2016-06-07 Arris Enterprises, Inc. Remote modulation of pre-transformed data
CN106683681B (en) * 2014-06-25 2020-09-25 华为技术有限公司 Method and device for processing lost frame
EP2980793A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder, system and methods for encoding and decoding
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980801A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
EP2980792A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980798A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
MX349256B (en) * 2014-07-28 2017-07-19 Fraunhofer Ges Forschung Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction.
EP3317879B1 (en) * 2015-06-30 2020-02-19 Fraunhofer Gesellschaft zur Förderung der Angewand Method and device for the allocation of sounds and for analysis
US9514766B1 (en) * 2015-07-08 2016-12-06 Continental Automotive Systems, Inc. Computationally efficient data rate mismatch compensation for telephony clocks
JP6705142B2 (en) * 2015-09-17 2020-06-03 ヤマハ株式会社 Sound quality determination device and program
US10186276B2 (en) * 2015-09-25 2019-01-22 Qualcomm Incorporated Adaptive noise suppression for super wideband music
US20170178648A1 (en) * 2015-12-18 2017-06-22 Dolby International Ab Enhanced Block Switching and Bit Allocation for Improved Transform Audio Coding
US9711121B1 (en) * 2015-12-28 2017-07-18 Berggram Development Oy Latency enhanced note recognition method in gaming
US9640157B1 (en) * 2015-12-28 2017-05-02 Berggram Development Oy Latency enhanced note recognition method
EP3405949B1 (en) 2016-01-22 2020-01-08 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for estimating an inter-channel time difference
US10281556B2 (en) * 2016-02-29 2019-05-07 Nextnav, Llc Interference detection and rejection for wide area positioning systems
US10397663B2 (en) * 2016-04-08 2019-08-27 Source Digital, Inc. Synchronizing ancillary data to content including audio
CN106093453B (en) * 2016-06-06 2019-10-22 广东溢达纺织有限公司 Warp beam of warping machine device for detecting density and method
CN106356076B (en) * 2016-09-09 2019-11-05 北京百度网讯科技有限公司 Voice activity detector method and apparatus based on artificial intelligence
WO2018053047A1 (en) * 2016-09-14 2018-03-22 Magic Leap, Inc. Virtual reality, augmented reality, and mixed reality systems with spatialized audio
US10242696B2 (en) 2016-10-11 2019-03-26 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications
US10475471B2 (en) * 2016-10-11 2019-11-12 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications using a neural network
US20180218572A1 (en) 2017-02-01 2018-08-02 Igt Gaming system and method for determining awards based on matching symbols
EP3382704A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal
EP3382701A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
US10431242B1 (en) * 2017-11-02 2019-10-01 Gopro, Inc. Systems and methods for identifying speech based on spectral features
EP3483879A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
JP6975928B2 (en) * 2018-03-20 2021-12-01 パナソニックIpマネジメント株式会社 Trimmer blade and hair cutting device
CN109448749B (en) * 2018-12-19 2022-02-15 中国科学院自动化研究所 Voice extraction method, system and device based on supervised learning auditory attention
CN113470671B (en) * 2021-06-28 2024-01-23 安徽大学 Audio-visual voice enhancement method and system fully utilizing vision and voice connection

Family Cites Families (90)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07850B2 (en) * 1986-03-11 1995-01-11 河本製機株式会社 Method for drying filament yarn with warp glue and drying device with warp glue
US5054075A (en) 1989-09-05 1991-10-01 Motorola, Inc. Subband decoding method and apparatus
JP3076859B2 (en) 1992-04-20 2000-08-14 三菱電機株式会社 Digital audio signal processor
US5408580A (en) 1992-09-21 1995-04-18 Aware, Inc. Audio compression system employing multi-rate signal analysis
FI105001B (en) * 1995-06-30 2000-05-15 Nokia Mobile Phones Ltd Method for Determining Wait Time in Speech Decoder in Continuous Transmission and Speech Decoder and Transceiver
US5704003A (en) * 1995-09-19 1997-12-30 Lucent Technologies Inc. RCELP coder
JP3707116B2 (en) * 1995-10-26 2005-10-19 ソニー株式会社 Speech decoding method and apparatus
US5659622A (en) * 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system
US5848391A (en) 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
US6134518A (en) 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
KR100261254B1 (en) 1997-04-02 2000-07-01 윤종용 Scalable audio data encoding/decoding method and apparatus
KR100261253B1 (en) 1997-04-02 2000-07-01 윤종용 Scalable audio encoder/decoder and audio encoding/decoding method
US6016111A (en) 1997-07-31 2000-01-18 Samsung Electronics Co., Ltd. Digital data coding/decoding method and apparatus
US6070137A (en) 1998-01-07 2000-05-30 Ericsson Inc. Integrated frequency-domain voice coding using an adaptive spectral enhancement filter
EP0932141B1 (en) * 1998-01-22 2005-08-24 Deutsche Telekom AG Method for signal controlled switching between different audio coding schemes
US6115689A (en) 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6330533B2 (en) 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US6449590B1 (en) 1998-08-24 2002-09-10 Conexant Systems, Inc. Speech encoder using warping in long term preprocessing
US7047185B1 (en) * 1998-09-15 2006-05-16 Skyworks Solutions, Inc. Method and apparatus for dynamically switching between speech coders of a mobile unit as a function of received signal quality
US7272556B1 (en) 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6424938B1 (en) * 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
US6691084B2 (en) 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
SE9903553D0 (en) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing conceptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6223151B1 (en) 1999-02-10 2001-04-24 Telefon Aktie Bolaget Lm Ericsson Method and apparatus for pre-processing speech signals prior to coding by transform-based speech coders
DE19910833C1 (en) * 1999-03-11 2000-05-31 Mayer Textilmaschf Warping machine for short warps comprises selection lever at part-rods operated by inner axial motor to swing between positions to lead yarns over or under part-rods in short cycle times
CN1227646C (en) 1999-05-26 2005-11-16 皇家菲利浦电子有限公司 Audio signal transmission system
US6581032B1 (en) 1999-09-22 2003-06-17 Conexant Systems, Inc. Bitstream protocol for transmission of encoded voice signals
US6782360B1 (en) 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6366880B1 (en) * 1999-11-30 2002-04-02 Motorola, Inc. Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies
US6718309B1 (en) * 2000-07-26 2004-04-06 Ssi Corporation Continuously variable time scale modification of digital audio signals
JP2002149200A (en) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd Device and method for processing voice
US6850884B2 (en) 2000-09-15 2005-02-01 Mindspeed Technologies, Inc. Selection of coding parameters based on spectral content of a speech signal
CN1408146A (en) * 2000-11-03 2003-04-02 皇家菲利浦电子有限公司 Parametric coding of audio signals
US6925435B1 (en) * 2000-11-27 2005-08-02 Mindspeed Technologies, Inc. Method and apparatus for improved noise reduction in a speech encoder
SE0004818D0 (en) 2000-12-22 2000-12-22 Coding Technologies Sweden Ab Enhancing source coding systems by adaptive transposition
ATE338333T1 (en) 2001-04-05 2006-09-15 Koninkl Philips Electronics Nv TIME SCALE MODIFICATION OF SIGNALS WITH A SPECIFIC PROCEDURE DEPENDING ON THE DETERMINED SIGNAL TYPE
FI110729B (en) 2001-04-11 2003-03-14 Nokia Corp Procedure for unpacking packed audio signal
KR100945673B1 (en) 2001-05-10 2010-03-05 돌비 레버러토리즈 라이쎈싱 코오포레이션 Improving transient performance of low bit rate audio codig systems by reducing pre-noise
DE20108778U1 (en) 2001-05-25 2001-08-02 Mannesmann Vdo Ag Housing for a device that can be used in a vehicle for automatically determining road tolls
US6879955B2 (en) 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
EP1278185A3 (en) 2001-07-13 2005-02-09 Alcatel Method for improving noise reduction in speech transmission
US6963842B2 (en) 2001-09-05 2005-11-08 Creative Technology Ltd. Efficient system and method for converting between different transform-domain signal representations
WO2003036620A1 (en) 2001-10-26 2003-05-01 Koninklijke Philips Electronics N.V. Tracking of sinusoidal parameters in an audio coder
CA2365203A1 (en) 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
JP2003316392A (en) 2002-04-22 2003-11-07 Mitsubishi Electric Corp Decoding of audio signal and coder, decoder and coder
US6950634B2 (en) 2002-05-23 2005-09-27 Freescale Semiconductor, Inc. Transceiver circuit arrangement and method
US7457757B1 (en) 2002-05-30 2008-11-25 Plantronics, Inc. Intelligibility control for speech communications systems
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
TWI288915B (en) * 2002-06-17 2007-10-21 Dolby Lab Licensing Corp Improved audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
US7043423B2 (en) 2002-07-16 2006-05-09 Dolby Laboratories Licensing Corporation Low bit-rate audio coding systems and methods that use expanding quantizers with arithmetic coding
KR100711280B1 (en) 2002-10-11 2007-04-25 노키아 코포레이션 Methods and devices for source controlled variable bit-rate wideband speech coding
KR20040058855A (en) * 2002-12-27 2004-07-05 엘지전자 주식회사 voice modification device and the method
IL165425A0 (en) * 2004-11-28 2006-01-15 Yeda Res & Dev Methods of treating disease by transplantation of developing allogeneic or xenogeneic organs or tissues
WO2004084181A2 (en) * 2003-03-15 2004-09-30 Mindspeed Technologies, Inc. Simple noise suppression model
JP4629353B2 (en) * 2003-04-17 2011-02-09 インベンテイオ・アクテイエンゲゼルシヤフト Mobile handrail drive for escalators or moving walkways
EP1618557B1 (en) 2003-05-01 2007-07-25 Nokia Corporation Method and device for gain quantization in variable bit rate wideband speech coding
US7363221B2 (en) 2003-08-19 2008-04-22 Microsoft Corporation Method of noise reduction using instantaneous signal-to-noise ratio as the principal quantity for optimal estimation
JP3954552B2 (en) * 2003-09-18 2007-08-08 有限会社スズキワーパー Sample warper with anti-spinning mechanism of yarn guide
KR100640893B1 (en) * 2004-09-07 2006-11-02 엘지전자 주식회사 Baseband modem and mobile terminal for voice recognition
KR100604897B1 (en) * 2004-09-07 2006-07-28 삼성전자주식회사 Hard disk drive assembly, mounting structure for hard disk drive and cell phone adopting the same
US7630902B2 (en) * 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
WO2006079813A1 (en) 2005-01-27 2006-08-03 Synchro Arts Limited Methods and apparatus for use in sound modification
US8155965B2 (en) 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
EP1864283B1 (en) 2005-04-01 2013-02-13 Qualcomm Incorporated Systems, methods, and apparatus for highband time warping
JP4550652B2 (en) 2005-04-14 2010-09-22 株式会社東芝 Acoustic signal processing apparatus, acoustic signal processing program, and acoustic signal processing method
US7885809B2 (en) 2005-04-20 2011-02-08 Ntt Docomo, Inc. Quantization of speech and audio coding parameters using partial information on atypical subsequences
DK1875463T3 (en) 2005-04-22 2019-01-28 Qualcomm Inc SYSTEMS, PROCEDURES AND APPARATUS FOR AMPLIFIER FACTOR GLOSSARY
CN1862969B (en) * 2005-05-11 2010-06-09 尼禄股份公司 Adaptive block length, constant converting audio frequency decoding method
US20070079227A1 (en) 2005-08-04 2007-04-05 Toshiba Corporation Processor for creating document binders in a document management system
JP4450324B2 (en) * 2005-08-15 2010-04-14 日立オートモティブシステムズ株式会社 Start control device for internal combustion engine
JP2007084597A (en) 2005-09-20 2007-04-05 Fuji Shikiso Kk Surface-treated carbon black composition and method for producing the same
US7720677B2 (en) 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US7366658B2 (en) * 2005-12-09 2008-04-29 Texas Instruments Incorporated Noise pre-processor for enhanced variable rate speech codec
TWI333795B (en) 2006-02-23 2010-11-21 Lg Electronics Inc Method and apparatus for processing a audio signal
TWI294107B (en) * 2006-04-28 2008-03-01 Univ Nat Kaohsiung 1St Univ Sc A pronunciation-scored method for the application of voice and image in the e-learning
RU2418322C2 (en) 2006-06-30 2011-05-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Audio encoder, audio decoder and audio processor, having dynamically variable warping characteristic
US8682652B2 (en) 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US7873511B2 (en) 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
US8036903B2 (en) 2006-10-18 2011-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
CN101025918B (en) * 2007-01-19 2011-06-29 清华大学 Voice/music dual-mode coding-decoding seamless switching method
US9653088B2 (en) 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
EP2107556A1 (en) * 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
EP2410522B1 (en) 2008-07-11 2017-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, method for encoding an audio signal and computer program
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
JP5297891B2 (en) 2009-05-25 2013-09-25 京楽産業.株式会社 Game machine
US8670990B2 (en) 2009-08-03 2014-03-11 Broadcom Corporation Dynamic time scale modification for reduced bit rate audio coding
US8886548B2 (en) 2009-10-21 2014-11-11 Panasonic Corporation Audio encoding device, decoding device, method, circuit, and program

Also Published As

Publication number Publication date
JP5538382B2 (en) 2014-07-02
JP5567192B2 (en) 2014-08-06
US9502049B2 (en) 2016-11-22
AR097967A2 (en) 2016-04-20
KR20130090919A (en) 2013-08-14
RU2012150077A (en) 2014-05-27
HK1182830A1 (en) 2013-12-06
ES2758799T3 (en) 2020-05-06
CN103000186A (en) 2013-03-27
JP2014002404A (en) 2014-01-09
US9015041B2 (en) 2015-04-21
EP2410519A1 (en) 2012-01-25
US20150066493A1 (en) 2015-03-05
RU2589309C2 (en) 2016-07-10
RU2011104002A (en) 2012-08-20
RU2012150076A (en) 2014-05-27
CN102150201B (en) 2013-04-17
JP2013242599A (en) 2013-12-05
CN103000177B (en) 2015-03-25
BRPI0910790A2 (en) 2023-02-28
EP2410522A1 (en) 2012-01-25
CA2836863C (en) 2016-09-13
CA2836862C (en) 2016-09-13
US20150066488A1 (en) 2015-03-05
AR097966A2 (en) 2016-04-20
CN103077722B (en) 2015-07-22
JP5567191B2 (en) 2014-08-06
KR20130093670A (en) 2013-08-22
AR116330A2 (en) 2021-04-28
EP2410522B1 (en) 2017-10-04
KR101400588B1 (en) 2014-05-28
KR101400484B1 (en) 2014-05-28
JP2014002403A (en) 2014-01-09
US9263057B2 (en) 2016-02-16
KR20130093671A (en) 2013-08-22
WO2010003618A3 (en) 2010-03-25
CN103000177A (en) 2013-03-27
AU2009267433B2 (en) 2013-06-13
JP5591386B2 (en) 2014-09-17
RU2012150075A (en) 2014-05-27
WO2010003618A2 (en) 2010-01-14
ES2654433T3 (en) 2018-02-13
AR097970A2 (en) 2016-04-20
RU2536679C2 (en) 2014-12-27
US20150066489A1 (en) 2015-03-05
EP2410520A1 (en) 2012-01-25
RU2580096C2 (en) 2016-04-10
ATE539433T1 (en) 2012-01-15
ES2654432T3 (en) 2018-02-13
EP2410520B1 (en) 2019-06-26
US9466313B2 (en) 2016-10-11
EP2410519B1 (en) 2019-09-04
KR20110043589A (en) 2011-04-27
PL2410522T3 (en) 2018-03-30
AR097968A2 (en) 2016-04-20
CN103000186B (en) 2015-01-14
JP2011527458A (en) 2011-10-27
RU2012150074A (en) 2014-05-27
US9431026B2 (en) 2016-08-30
EP2410521A1 (en) 2012-01-25
RU2621965C2 (en) 2017-06-08
AR072740A1 (en) 2010-09-15
CA2730239A1 (en) 2010-01-14
AU2009267433A1 (en) 2010-01-14
JP2013242600A (en) 2013-12-05
HK1182213A1 (en) 2013-11-22
RU2586843C2 (en) 2016-06-10
TWI463484B (en) 2014-12-01
PT2410521T (en) 2018-01-09
EP2311033A2 (en) 2011-04-20
CN102150201A (en) 2011-08-10
JP5591385B2 (en) 2014-09-17
US9293149B2 (en) 2016-03-22
EP2410521B1 (en) 2017-10-04
CN103000178B (en) 2015-04-08
KR101400535B1 (en) 2014-05-28
KR101400513B1 (en) 2014-05-28
AR097969A2 (en) 2016-04-20
PL2311033T3 (en) 2012-05-31
US20110178795A1 (en) 2011-07-21
US20150066490A1 (en) 2015-03-05
CA2836871C (en) 2017-07-18
KR101360456B1 (en) 2014-02-07
PT2410520T (en) 2019-09-16
CA2836863A1 (en) 2010-01-14
HK1155551A1 (en) 2012-05-18
US20150066492A1 (en) 2015-03-05
CN103077722A (en) 2013-05-01
US9646632B2 (en) 2017-05-09
AR097965A2 (en) 2016-04-20
HK1184903A1 (en) 2014-01-30
PL2410521T3 (en) 2018-04-30
TW201009812A (en) 2010-03-01
CN103000178A (en) 2013-03-27
HK1182212A1 (en) 2013-11-22
MX2011000368A (en) 2011-03-02
KR20130086653A (en) 2013-08-02
CA2730239C (en) 2015-12-22
ES2379761T3 (en) 2012-05-03
CA2836871A1 (en) 2010-01-14
CA2836858C (en) 2017-09-12
EP2311033B1 (en) 2011-12-28
CA2836858A1 (en) 2010-01-14
PT2410522T (en) 2018-01-09
PL2410520T3 (en) 2019-12-31
CA2836862A1 (en) 2010-01-14
US20150066491A1 (en) 2015-03-05

Similar Documents

Publication Publication Date Title
ES2741963T3 (en) Audio signal encoders, methods for encoding an audio signal and software
ES2698023T3 (en) Audio decoder and related method that uses two-channel processing within a frame of intelligent filling of gaps
AU2013206267B2 (en) Providing a time warp activation signal and encoding an audio signal therewith