ES2983192T3 - Codificador y decodificador de audio - Google Patents

Codificador y decodificador de audio Download PDF

Info

Publication number
ES2983192T3
ES2983192T3 ES12195829T ES12195829T ES2983192T3 ES 2983192 T3 ES2983192 T3 ES 2983192T3 ES 12195829 T ES12195829 T ES 12195829T ES 12195829 T ES12195829 T ES 12195829T ES 2983192 T3 ES2983192 T3 ES 2983192T3
Authority
ES
Spain
Prior art keywords
mdct
frames
cpl
gain
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES12195829T
Other languages
English (en)
Inventor
Per Henrik Hedelin
Pontus Jan Carlsson
Jonas Leif Samuelsson
Michael Schug
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=39710955&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2983192(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Dolby International AB filed Critical Dolby International AB
Application granted granted Critical
Publication of ES2983192T3 publication Critical patent/ES2983192T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

La presente invención enseña un nuevo sistema de codificación de audio que puede codificar bien señales de audio y de voz generales a bajas tasas de bits. Un sistema de codificación de audio propuesto comprende una unidad de predicción lineal para filtrar una señal de entrada basándose en un filtro adaptativo; una unidad de transformación para transformar un cuadro de la señal de entrada filtrada en un dominio de transformación; y una unidad de cuantificación para cuantificar la señal del dominio de transformación. La unidad de cuantificación decide, basándose en las características de la señal de entrada, codificar la señal del dominio de transformación con un cuantificador basado en modelos o un cuantificador no basado en modelos. Preferiblemente, la decisión se basa en el tamaño de cuadro aplicado por la unidad de transformación. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Codificador y decodificador de audio
Campo técnico
La presente invención se refiere a la codificación de señales de audio y, en particular, a la codificación de cualquier señal de audio no limitada a la voz, música o una combinación de ellas.
Antecedentes de la invención
En la técnica anterior, existen codificadores de voz específicamente diseñados para codificar señales de voz basando la codificación en un modelo de fuente de la señal, es decir, el sistema vocal humano. Dichos codificadores no pueden manejar señales de audio arbitrarias, tales como música, o cualquier otra señal diferente de la voz. Además, existen, en la técnica anterior, codificadores de música, a los que comúnmente se hace referencia como codificadores de audio, que basan su codificación en suposiciones del sistema auditivo humano, y no en el modelo de fuente de la señal. Dichos codificadores pueden manejar señales arbitrarias muy bien, a pesar de que, a tasas de bits bajas para las señales de voz, el codificador de voz dedicado proporciona una calidad de audio superior. Por lo tanto, no existe una estructura de codificación general hasta el momento para la codificación de señales de audio arbitrarias que tenga un rendimiento tan bueno como un codificador de voz para la voz y tan bueno como un codificar de música para la música, cuando se hace funcionar a tasas de bits bajas.
Sean A Ramprashad: “The Multimode Transform Predictive Coding Paradigm”, IEEE Transactions on Speech and Audio Processing, vol. 11, n° 2, 1 de marzo de 2003, describe un esquema de codificación predictiva de transformada multimodal. Sean A Ramprashad: “High Quality Embedded Wideband Speech Coding Using an Inherently Layered Coding Paradigm”, 2000 IEEE International Conference on Acoustics, Estambul, Turquía, 5-9 de junio de 2000, páginas 1145-1148, describe una estrategia de codificación para señales de banda ancha. El documento US 6.826.526 B1 describe un método de codificación de señales de audio.
De este modo, existe la necesidad de un codificador y decodificador de audio potenciados con calidad de audio mejorada y/o tasas de bits reducidas.
Sumario de la invención
La presente invención está definida por las reivindicaciones independientes. En las reivindicaciones dependientes se describen ejemplos preferidos.
La presente invención se refiere a codificar eficientemente señales de audio arbitrarias con un nivel de calidad igual o mejor que el de un sistema específicamente individualizado para una señal específica.
La presente invención se dirige a algoritmos de códec de audio que contienen tanto una codificación de predicción lineal (CPL) como una parte de codificador de transformada.
La presente invención se refiere además a codificar eficientemente factores de escala en la parte de codificación por transformada de un codificador de audio mediante la explotación de la presencia de datos CPL.
La presente invención se refiere además a un codificador para codificar señales de audio y generar un tren de bits, y a un decodificador para decodificar el tren de bits y generar una señal de audio reconstruida que es perceptualmente indistinguible de la señal de audio de entrada.
Un primer aspecto de la presente invención se refiere a un sistema de codificación de audio de acuerdo con la reivindicación 1.
Otro aspecto de la invención se refiere a un decodificador de audio de acuerdo con la reivindicación 7.
De este modo, la solicitud divulga adicionalmente un método de codificación de audio de acuerdo con la reivindicación 8 y un método de decodificación de audio de acuerdo con la reivindicación 9.
Estos son solo ejemplos de métodos de codificación/decodificación de audio y programas de ordenador preferidos que se enseñan por la presente solicitud y que una persona con experiencia en la técnica puede derivar de la siguiente descripción de realizaciones a modo de ejemplo.
Breve descripción de los dibujos
La presente invención se describirá ahora mediante ejemplos ilustrativos, sin limitar el alcance o espíritu de la invención, con referencia a los dibujos que se acompañan, en los cuales:
la figura 1 ilustra una realización preferida de un codificador y un decodificador de acuerdo con la presente invención;
la figura 2 ilustra una vista más detallada del codificador y decodificador no de acuerdo con la invención reivindicada;
la figura 3 ilustra otra realización del codificador no de acuerdo con la invención reivindicada;
la figura 4 ilustra una realización preferida del codificador no de acuerdo con la invención reivindicada;
la figura 5 ilustra una realización preferida del decodificador no de acuerdo con la invención reivindicada;
la figura 6 ilustra una realización preferida de la codificación y decodificación de líneas MDCT no de acuerdo con la invención reivindicada;
la figura 7 ilustra una realización preferida del codificador y decodificador, y ejemplos de datos de control relevantes transmitidos entre sí, no de acuerdo con la invención reivindicada;
la figura 7a es otra ilustración de aspectos del codificador no de acuerdo con la invención reivindicada;
la figura 8 ilustra un ejemplo de una secuencia de ventana y la relación entre datos CPL y datos MDCT de acuerdo con una realización de la presente invención;
la figura 9 ilustra una combinación de datos de factor de escala y datos CPL de acuerdo con la presente invención;
la figura 9a ilustra otra realización de la combinación de datos de factor de escala y datos CPL no de acuerdo con la invención reivindicada;
la figura 9b ilustra otro diagrama de bloques simplificado de un codificador y un decodificador no de acuerdo con la invención reivindicada;
la figura 10 ilustra una realización preferida de traslación de polinomios CPL a una curva de ganancia MDCT de acuerdo con la presente invención;
la figura 11 ilustra una realización preferida de mapeo de los parámetros CPL de tasa de actualización constante a los datos de secuencia de ventana MDCT adaptativos, de acuerdo con la presente invención;
la figura 12 ilustra una realización preferida para adaptar el cálculo de filtro de ponderación perceptual de acuerdo con el tamaño de transformada y tipo de cuantificador, de acuerdo con la presente invención;
la figura 13 ilustra una realización preferida de adaptación del cuantificador que depende del tamaño de trama, no de acuerdo con la invención reivindicada;
la figura 14 ilustra una realización preferida de adaptación del cuantificador que depende del tamaño de trama, no de acuerdo con la invención reivindicada;
la figura 15 ilustra una realización preferida de adaptación del tamaño de escalón de cuantificación como una función de datos CPL y PLP, no de acuerdo con la invención reivindicada;
la figura 15a ilustra cómo una curva delta se deriva de parámetros CPL y PLP mediante un módulo de adaptación delta;
la figura 16 ilustra una realización preferida de un cuantificador basado en modelo que utiliza desplazamientos aleatorios, no de acuerdo con la invención reivindicada;
la figura 17 ilustra una realización preferida de un cuantificador basado en modelo no de acuerdo con la invención reivindicada;
la figura 17a ilustra otra realización preferida de un cuantificador basado en modelo no de acuerdo con la invención reivindicada;
la figura 17b ilustra, de forma esquemática, un decodificador 2150 de líneas MDCT basado en modelo no de acuerdo con la invención reivindicada;
la figura 17c ilustra, de forma esquemática, aspectos del preprocesamiento de cuantificador no de acuerdo con la invención reivindicada;
la figura 17d ilustra, de forma esquemática, aspectos del cómputo de tamaño de escalón no de acuerdo con la invención reivindicada;
la figura 17e ilustra, de forma esquemática, un codificador de entropía restringida basado en modelo no de acuerdo con la invención reivindicada;
la figura 17f ilustra, de forma esquemática, el funcionamiento de un cuantificador escalar uniforme (USQ, por sus siglas en inglés) no de acuerdo con la invención reivindicada;
la figura 17g ilustra, de forma esquemática, cómputos de probabilidad no de acuerdo con la invención reivindicada;
la figura 17h ilustra, de forma esquemática, un proceso de descuantificación no de acuerdo con la invención reivindicada;
la figura 18 ilustra una realización preferida de un control de depósito de bits, no de acuerdo con la invención reivindicada;
la figura 18a ilustra el concepto básico de un control de depósito de bits;
la figura 18b ilustra el concepto de un control de depósito de bits para tamaños de trama variables, no de acuerdo con la invención reivindicada;
la figura 18c muestra una curva de control a modo de ejemplo para el control de depósito de bits no de acuerdo con la invención reivindicada;
la figura 19 ilustra una realización preferida del cuantificador inverso mediante el uso de diferentes puntos de reconstrucción, no de acuerdo con la invención reivindicada.
Descripción de realizaciones preferidas
Las realizaciones descritas más abajo son meramente ilustrativas de los principios de la presente invención para el codificador y decodificador de audio. Se comprende que las modificaciones y variaciones de las disposiciones y los detalles descritos en la presente memoria serán aparentes para otras personas con experiencia en la técnica. Se pretende, por lo tanto, que se limite solamente por el alcance de las reivindicaciones de patente anexas y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones en la presente memoria. Los componentes similares de las realizaciones se numeran mediante números de referencia similares.
En la figura 1 se visualizan un codificador 101 y un decodificador 102. El codificador 101 toma la señal de entrada de dominio tiempo y produce un tren de bits 103 posteriormente enviado al decodificador 102. El decodificador 102 produce una forma de onda de salida basada en el tren de bits 103 recibido. La señal de salida parece, psicoacústicamente, la señal de entrada original.
En la figura 2 se ilustra una realización preferida no de acuerdo con la invención reivindicada del codificador 200 y decodificador 210. La señal de entrada en el codificador 200 atraviesa un módulo CPL (Codificación de Predicción Lineal) 201 que genera una señal residual blanqueada para una trama CPL que tiene una primera longitud de trama, y los parámetros de predicción lineal correspondientes. Además, la normalización de la ganancia puede incluirse en el módulo CPL 201. La señal residual de la CPL se transforma en el dominio frecuencia por un módulo MDCT (Transformada Discreta del Coseno Modificada) 202 que funciona en una segunda longitud de trama variable. En el codificador 200 ilustrado en la figura 2, se incluye un módulo PLP (Predicción a Largo Plazo) 205. PLP se elaborará en un ejemplo adicional. Las líneas MDCT se cuantifican 203 y también descuantifican 204 con el fin de alimentar a una memoria intermedia PLP con una copia de la salida decodificada que estará disponible para el decodificador 210. Debido a la distorsión de cuantificación, dicha copia se llama reconstrucción de la respectiva señal de entrada. En la parte inferior de la figura 2 se ilustra el decodificador 210. El decodificador 210 toma las líneas MDCT cuantificadas, las descuantifica 211, añade la contribución del módulo PLP 214, y realiza una transformada MDCT inversa 212, seguida de un filtro de síntesis CPL 213.
Un aspecto importante de la realización de más arriba es que la trama MDCT es la única unidad básica para la codificación, aunque la CPL tiene su propio tamaño de trama (y en una realización, constante) y parámetros CPL también se codifican. La realización comienza desde un codificador de transformada e introduce módulos de predicción y forma fundamentales de un codificador de voz. Como se discutirá más adelante, el tamaño de trama MDCT es variable y se adapta a un bloque de la señal de entrada mediante la determinación de la secuencia de ventana MDCT óptima para todo el bloque mediante la minimización de una función de coste de entropía perceptual simplista. Ello permite el escalamiento para mantener un control tiempo/frecuencia óptimo. Además, la estructura unificada propuesta evita combinaciones conmutadas o en capas de diferentes paradigmas de codificación.
En la figura 3, partes del codificador 300 se describen, de forma esquemática, en mayor detalle. La señal blanqueada como salida del módulo CPL 201 en el codificador de la figura 2 se ingresa en el banco de filtros MDCT 302. El análisis MDCT puede ser, de manera opcional, un análisis MDCT de tiempo deformado que asegura que la altura de tono de la señal (si la señal es periódica con una altura de tono bien definida) sea constante en la ventana de transformada MDCT.
En la figura 3, el módulo PLP 310 se esboza en mayor detalle. Este comprende una memoria intermedia PLP 311 que tiene muestras de dominio tiempo reconstruidas de los segmentos de señal de salida previos. Un extractor PLP 312 encuentra el segmento que mejor concuerda en la memoria intermedia PLP 311 dado el segmento de entrada actual. Un valor de ganancia apropiado se aplica a dicho segmento por la unidad de ganancia 313 antes de restarlo del segmento que actualmente se ingresa en el cuantificador 303. De manera evidente, con el fin de llevar a cabo la resta antes de la cuantificación, el extractor PLP 312 también transforma el segmento de señal elegido en el dominio MDCT. El extractor PLP 312 busca la mejor ganancia y valores de retardo que minimizan una función de error en el dominio perceptual cuando se combina el segmento de señal de salida previo reconstruido con la trama de entrada de dominio MDCT transformada. Por ejemplo, una función de error cuadrático medio (MSE, por sus siglas en inglés) entre el segmento reconstruido transformado del módulo PLP 310 y la trama de entrada transformada (es decir, la señal residual después de la resta) se optimiza. Dicha optimización puede llevarse a cabo en un dominio perceptual donde los componentes de frecuencia (es decir, líneas MDCT) se ponderan de acuerdo con su importancia perceptual. El módulo PLP 310 funciona en unidades de trama MDCT y el codificador 300 considera una trama MDCT residual por vez, por ejemplo para la cuantificación en el módulo de cuantificación 303. La búsqueda de retardo y ganancia puede llevarse a cabo en un dominio perceptual. De manera opcional, la PLP puede ser selectiva de frecuencia, es decir, adaptar la ganancia y/o el retardo en la frecuencia. Se ilustran una unidad de cuantificación inversa 304 y una unidad MDCT inversa 306. La MDCT puede ser de tiempo deformado como se explica más adelante.
En la figura 4 se ilustra otra realización del codificador 400. Además de la figura 3, el análisis CPL 401 se incluye en aras de la clarificación. Se muestra una transformada DCT-IV 414 usada para transformar un segmento de señal seleccionado en el dominio MDCT. Además, se ilustran varias maneras de calcular el error mínimo para la selección de segmento PLP. Además de la minimización de la señal residual como se muestra en la figura 4 (identificada como PLP2 en la figura 4), se ilustra la minimización de la diferencia entre la señal de entrada transformada y la señal de dominio MDCT descuantificada antes de transformarse inversamente en una señal de dominio tiempo reconstruida para el almacenamiento en la memoria intermedia PLP 411 (indicada como PLP3). La minimización de dicha función MSE dirigirá la contribución PLP hacia una similitud óptima (como sea posible) de la señal de entrada transformada y señal de entrada reconstruida para el almacenamiento en la memoria intermedia PLP 411. Otra función de error alternativa (indicada como PLP1) se basa en la diferencia de dichas señales en el dominio tiempo. En el presente caso, el MSE entre la trama de entrada filtrada CPL y la correspondiente reconstrucción de dominio tiempo en la memoria intermedia PLP 411 se minimiza. El MSE se calcula, de forma ventajosa, en base al tamaño de trama MDCT, que puede ser diferente del tamaño de trama CPL. Además, los bloques de cuantificador y descuantificador se reemplazan por el bloque de codificación de espectro 403 y los bloques de decodificación de espectro 404 (“Cod espec” y “Decod espec”) que pueden contener módulos adicionales aparte de la cuantificación como se esbozará en la figura 6. Nuevamente, la MDCT y MDCT inversa pueden ser de tiempo deformado (WMDCT, IWMDCT, por sus siglas en inglés).
En la figura 5 se ilustra un decodificador 500 propuesto. Los datos de espectro del tren de bits recibido se cuantifican inversamente 511 y se añaden con una contribución PLP provista por un extractor PLP de una memoria intermedia PLP 515. El extractor PLP 516 y la unidad de ganancia PLP 517 en el decodificador 500 también se ilustran. Las líneas MDCT sumadas se sintetizan en el dominio tiempo por un bloque de síntesis MDCT, y se da forma espectralmente a la señal de dominio tiempo por un filtro de síntesis CPL 513.
En la figura 6, los bloques “Cod espec” y “Decod espec” 403, 404 de la figura 4 se describen en mayor detalle. El bloque “Cod espec” 603 ilustrado a la derecha en la figura comprende en una realización un módulo de análisis de Predicción Armónica 610, un módulo de análisis TNS (Forma de Ruido Temporal) 611, seguido de un módulo de escalamiento de factor de escala 612 de las líneas MDCT, y finalmente la cuantificación y codificación de las líneas en un módulo de líneas Cod 613. El bloque “Decod espec” 604 de decodificador ilustrado a la izquierda en la figura lleva a cabo el proceso inverso, es decir, las líneas MDCT recibidas se descuantifican en un módulo de líneas Decod 620 y el escalamiento se deshace por un módulo de escalamiento de factor de escala (SCF) 621. La síntesis TNS 622 y síntesis de predicción Armónica 623 se aplican.
En la figura 7 se esboza una ilustración muy general del sistema de codificación. El codificador a modo de ejemplo toma la señal de entrada y produce un tren de bits que contiene, entre otros datos:
• líneas MDCT cuantificadas;
• factores de escala;
• representación polinomial CPL;
• energía de segmento de señal (p.ej., varianza de señal);
• secuencia de ventana;
• datos PLP.
El decodificador de acuerdo con la realización lee el tren de bits provisto y produce una señal de salida de audio que parece, psicoacústicamente, la señal original.
La figura 7a es otra ilustración de aspectos de un codificador 700 de acuerdo con una realización no de acuerdo con la invención reivindicada.
El codificador 700 comprende un módulo CPL 701, un módulo MDCT 704, un módulo PLP 705 (se muestra solo simplificado), un módulo de cuantificación 703 y un módulo de cuantificación inversa 704 para realimentar señales reconstruidas al módulo PLP 705. Además se proporcionan un módulo de estimación de altura de tono 750, para estimar la altura de tono de la señal de entrada, y un módulo de determinación de secuencia de ventana 751, para determinar la secuencia de ventana MDCT óptima para un bloque más grande de la señal de entrada (p.ej., 1 segundo). En la presente realización, la secuencia de ventana MDCT se determina en base a un enfoque de bucle abierto donde se determina la secuencia de candidatos de tamaño de ventana MDCT que minimiza una función de coste de codificación, p.ej., una entropía perceptual simplista. La contribución del módulo PLP 705 a la función de coste de codificación que se minimiza por el módulo de determinación de secuencia de ventana 751 puede considerarse, de forma opcional, cuando se busca la secuencia de ventana MDCT óptima. Preferiblemente, para cada candidato de tamaño de ventana evaluado, se determina la mejor contribución de predicción a largo plazo a la trama MDCT correspondiente al candidato de tamaño de ventana, y se estima el respectivo coste de codificación. En general, los tamaños de trama MDCT cortos son más apropiados para la entrada de voz mientras que las ventanas de transformada largas que tienen una buena resolución espectral se prefieren para las señales de audio.
Las ponderaciones perceptuales o una función de ponderación perceptual se determinan en base a los parámetros CPL como se calculan por el módulo CPL 701, que se explicará en mayor detalle más abajo. Las ponderaciones perceptuales se suministran al módulo PLP 705 y al módulo de cuantificación 703, ambos funcionando en el dominio MDCT, para la ponderación de errores o contribuciones de distorsión de componentes de frecuencia de acuerdo con su respectiva importancia perceptual. La figura 7a además ilustra qué parámetros de codificación se transmiten al decodificador, preferiblemente por un esquema de codificación apropiado como se discutirá más adelante. Seguidamente, se discutirán la coexistencia de datos CPL y MDCT y la emulación del efecto de la CPL en la MDCT, tanto para la acción contraria y omisión de filtrado real.
De acuerdo con una realización, el módulo PL filtra la señal de entrada de modo que la forma espectral de la señal se elimina, y la salida posterior del módulo PL es una señal espectralmente plana. Ello es ventajoso para el funcionamiento de, p.ej., la PLP. Sin embargo, otras partes del códec que funciona en la señal espectralmente plana pueden beneficiarse de saber qué forma espectral tenía la señal original antes del filtrado PL. Dado que los módulos de codificador, después del filtrado, funcionan en la transformada MDCT de la señal espectralmente plana, la forma espectral de la señal original antes del filtrado PL puede, si fuera necesario, volver a imponerse a la representación MDCT de la señal espectralmente plana mediante el mapeo de la función de transferencia del filtro PL usado (es decir, la envolvente espectral de la señal original) a una curva de ganancia, o curva de ecualización, que se aplica en los comportamientos de frecuencia de la representación MDCT de la señal espectralmente plana. En el sentido opuesto, de acuerdo con la invención reivindicada, el módulo PL omite el filtrado real, y solo estima una función de transferencia que se mapea posteriormente a una curva de ganancia que se impone a la representación MDCT de la señal, eliminando de este modo la necesidad de filtrado de dominio tiempo de la señal de entrada.
Un aspecto prominente de las realizaciones de la presente invención es que un codificador de transformada basado en MDCT se hace funcionar mediante el uso de una segmentación de ventana flexible, en una señal blanqueada CPL. Esto se esboza en la figura 8, donde se proporciona una secuencia de ventana MDCT a modo de ejemplo, junto con la ventana de la CPL. Por lo tanto, como es claro a partir de la figura, la CPL funciona en un tamaño de trama constante (p.ej., 20 ms), mientras la MDCT funciona en una secuencia de ventana variable (p.ej., 4 a 128 ms). Ello permite elegir la longitud de ventana óptima para la CPL y la secuencia de ventana óptima para la MDCT de forma independiente. La figura 8 además ilustra la relación entre datos CPL, en particular los parámetros CPL, generados a una primera tasa de tramas y datos MDCT, en particular las líneas MDCT, generados a una segunda tasa variable. Las flechas hacia abajo en la figura simbolizan datos CPL que se interpolan entre las tramas CPL (círculos) para coincidir con las tramas MDCT correspondientes. Por ejemplo, una función de ponderación perceptual generada por CPL se interpola para instancias de tiempo como se determina por la secuencia de ventana MDCT.
Las flechas hacia arriba simbolizan datos de refinamiento (es decir, datos de control) usados para la codificación de líneas MDCT. Para las tramas AAC, dichos datos son, normalmente, factores de escala, y para las tramas ECQ los datos son, normalmente, datos de corrección de varianza, etc. Las líneas continuas vs. punteadas representan qué datos son los datos más “importantes” para la codificación de líneas MDCT dado cierto cuantificador. Las flechas dobles hacia abajo simbolizan las líneas espectrales de códec.
La coexistencia de datos CPL y MDCT en el codificador puede explotarse, por ejemplo, para reducir los requisitos de bits de codificación de factores de escala MDCT teniendo en cuenta una curva de enmascaramiento perceptual estimada a partir de los parámetros CPL. Además, la ponderación perceptual derivada de CPL puede usarse cuando se determina la distorsión de cuantificación. Como se ilustra y como se discutirá más abajo, el cuantificador funciona en dos modos y genera dos tipos de tramas (tramas ECQ y tramas AAC) dependiendo del tamaño de trama de los datos recibidos, es decir, correspondiente a la trama MDCT o tamaño de ventana.
La figura 11 ilustra una realización preferida de mapeo de los parámetros CPL de tasa constante a los datos de secuencia de ventana MDCT adaptativos. Un módulo de mapeo CPL 1100 recibe los parámetros CPL de acuerdo con la tasa de actualización CPL. Además, el módulo de mapeo CPL 1100 recibe información sobre la secuencia de ventana MDCT Este entonces genera un mapeo CPL a MDCT, p.ej., para mapear datos psicoacústicos basados en CPL a las respectivas tramas MDCT generadas a la tasa de tramas MDCT variable. Por ejemplo, el módulo de mapeo CPL interpola los polinomios CPL o datos relacionados para instancias de tiempo correspondientes a tramas MDCT para el uso, p.ej., como ponderaciones perceptuales en el módulo PLP o cuantificador. Ahora, detalles específicos del modelo perceptual basado en CPL se discuten mediante referencia a la figura 9. El módulo CPL 901 se adapta en una realización no de acuerdo con la invención reivindicada para producir una señal de salida blanca, mediante el uso de una predicción lineal de, p.ej., orden 16 para una señal de tasa de muestreo de 16 kHz. Por ejemplo, la salida del módulo CPL 201 en la figura 2 es la residual después de la estimación y el filtrado de parámetro CPL. El polinomio CPL estimado A(z), como se visualiza esquemáticamente en la parte inferior izquierda de la figura 9, puede fluctuar por un factor de expansión de ancho de banda, y también inclinarse mediante la modificación del primer coeficiente de reflexión del polinomio CPL correspondiente. La fluctuación expande el ancho de banda de picos en la función de transferencia CPL mediante el movimiento de los polos del polinomio hacia dentro adentro del círculo de la unidad, dando como resultado de este modo picos más suaves. La inclinación permite hacer la función de transferencia CPL más plana con el fin de equilibrar la influencia de frecuencias inferiores y superiores. Dichas modificaciones luchan por generar una curva de enmascaramiento perceptual A'(z) a partir de los parámetros CPL estimados que estarán disponibles en el lado de codificador y decodificador del sistema. Los detalles de la manipulación del polinomio CPL se presentan en la figura 12 más abajo.
La codificación MDCT que funciona en la residual de la CPL tiene, en una implementación de la invención, factores de escala para controlar la resolución del cuantificador o los tamaños de escalón de cuantificación (y, de este modo, el ruido introducido por cuantificación). Dichos factores de escala son estimados por un módulo de estimación de factor de escala 960 en la señal de entrada original. Por ejemplo, los factores de escala se derivan de una curva umbral de enmascaramiento perceptual estimada a partir de la señal original. En una realización, una transformada de frecuencia separada (que tiene, posiblemente, una resolución de frecuencia diferente) puede usarse para determinar la curva umbral de enmascaramiento, pero ello no siempre es necesario. De manera alternativa, la curva umbral de enmascaramiento se estima a partir de las líneas MDCT generadas por el módulo de transformación. La parte inferior derecha de la figura 9 ilustra, de modo esquemático, factores de escala generados por el módulo de estimación de factor de escala 960 para controlar la cuantificación de modo que el ruido de cuantificación introducido se limita a distorsiones inaudibles.
Si un filtro CPL se conecta aguas arriba del módulo de transformación MDCT, una señal blanqueada se transforma en el dominio MDCT. Dado que dicha señal tiene un espectro blanco, no es muy apropiada para derivar una curva de enmascaramiento perceptual de ella. De este modo, una curva de ganancia de ecualización de dominio MDCT generada para compensar el blanqueamiento del espectro puede usarse cuando se estima la curva umbral de enmascaramiento y/o los factores de escala. Esto se debe a que los factores de escala necesitan estimarse en una señal que tenga propiedades de espectro absolutas de la señal original, con el fin de estimar perceptualmente, de forma correcta, el enmascaramiento. El cálculo de la curva de ganancia de ecualización de dominio MDCT a partir del polinomio CPL se discutirá en mayor detalle con referencia a la figura 10 más abajo.
Una realización del esquema de estimación de factor de escala esbozado más arriba se esboza en la figura 9a. En la presente realización, la señal de entrada se ingresa en el módulo PL 901 que estima la envolvente espectral de la señal de entrada descrita por A(z), y produce dicho polinomio así como una versión filtrada de la señal de entrada. La señal de entrada se filtra con la inversa de A(z) con el fin de obtener una señal espectralmente blanca como se usa posteriormente por otras partes del codificador. La señal filtrada x(n) se ingresa en una unidad de transformación MDCT 902, mientras que el polinomio A(z) se ingresa en una unidad de cálculo de curva de ganancia MDCT 970 (como se esboza en la figura 14). La curva de ganancia estimada a partir del polinomio PL se aplica a los coeficientes o líneas MDCT con el fin de retener la envolvente espectral de la señal de entrada original antes de la estimación de factor de escala. Las líneas MDCT ajustadas por ganancia se ingresan en el módulo de estimación de factor de escala 960 que estima los factores de escala para la señal de entrada.
Mediante el uso del enfoque esbozado más arriba, los datos transmitidos entre el codificador y decodificador contienen tanto el polinomio PL del cual la información perceptual relevante y un modelo de señal pueden derivarse cuando se usa un cuantificador basado en modelo, como los factores de escala comúnmente usados en un códec de transformada.
En mayor detalle, volviendo a la figura 9, el módulo CPL 901 en la figura estima a partir de la señal de entrada una envolvente espectral A(z) de la señal y deriva de ella una representación perceptual A'(z). Además, los factores de escala como se usan normalmente en códecs de audio perceptuales basados en transformada se estiman en la señal de entrada, o pueden estimarse en la señal blanca producida por un filtro PL, si la función de transferencia del filtro PL se tiene en cuenta en la estimación de factor de escala (como se describe en el contexto de la figura 10 más abajo). Los factores de escala pueden entonces adaptarse en el módulo de adaptación de factor de escala 961 dado el polinomio PL, como se esbozará más abajo, con el fin de reducir la tasa de bits requerida para transmitir factores de escala.
Normalmente, los factores de escala se transmiten al decodificador, y lo mismo ocurre con el polinomio PL. Ahora, dado que ambos se estiman a partir de la señal de entrada original y que se correlacionan, de alguna manera, con las propiedades de espectro absolutas de la señal de entrada original, se propone codificar una representación delta entre los dos, con el fin de eliminar cualquier redundancia que pueda ocurrir si ambos se transmiten de forma separada. De acuerdo con una realización, dicha correlación se explota de la siguiente manera. Dado que el polinomio CPL, cuando fluctúa y se inclina correctamente, lucha por representar una curva umbral de enmascaramiento, las dos representaciones pueden combinarse de modo que los factores de escala transmitidos del codificador de transformada representan la diferencia entre los factores de escala deseados y aquellos que pueden derivarse del polinomio c Pl transmitido. El módulo de adaptación de factor de escala 961 que se muestra en la figura 9 calcula, por lo tanto, la diferencia entre los factores de escala deseados generados a partir de la señal de entrada original y los factores de escala derivados de CPL. El presente aspecto retiene la capacidad de tener un cuantificador basado en MDCT que tiene la noción de factores de escala como se usa comúnmente en codificadores de transformada, dentro de una estructura CPL, que funciona en una residual de la CPL, y aún tiene la posibilidad de conmutar a un cuantificador basado en modelo que deriva los tamaños de escalón de cuantificación solamente de los datos de predicción lineal.
En la figura 9b, se da un diagrama de bloques simplificado de codificador y decodificador de acuerdo con una realización. La señal de entrada en el codificador atraviesa el módulo CPL 901 que genera una señal residual blanqueada y los correspondientes parámetros de predicción lineal. Además, la normalización de la ganancia puede incluirse en el módulo CPL 901. La señal residual de la CPL se transforma en el dominio frecuencia por una transformada MDCT 902. En la parte derecha de la figura 9b se representa el decodificador. El decodificador toma las líneas MDCT cuantificadas, las descuantifica 911 y aplica una transformada MDCT inversa 912, seguida de un filtro de síntesis CPL 913.
La señal blanqueada como salida del módulo CPL 901 en el codificador de la figura 9b se ingresa en el banco de filtros MDCT 902. Las líneas MDCT como resultado del análisis MDCT se codifican mediante transformada con un algoritmo de codificación por transformada que consiste en un modelo perceptual que guía el tamaño de escalón de cuantificación deseado para diferentes partes del espectro MDC<t>. Los valores que determinan el tamaño de escalón de cuantificación se llaman factores de escala y hay un valor de factor de escala que se necesita para cada partición, llamada banda de factor de escala, del espectro MDCT. En los algoritmos de codificación por transformada de la técnica anterior, los factores de escala se transmiten mediante el tren de bits al decodificador.
De acuerdo con un aspecto de la invención, la curva de enmascaramiento perceptual estimada a partir de los parámetros CPL, como se explica con referencia a la figura 9, se usa cuando se codifican los factores de escala usados en la cuantificación. Otra posibilidad para estimar una curva de enmascaramiento perceptual es usar los coeficientes de filtro CPL no modificados para una estimación de la distribución de la energía en las líneas MDCT. Con esta estimación de energía, un modelo psicoacústico, como se usa en esquemas de codificación por transformada, puede aplicarse tanto en el codificador como en el decodificador para obtener una estimación de una curva de enmascaramiento.
Las dos representaciones de una curva de enmascaramiento se combinan entonces de modo que los factores de escala que se transmitirán del codificador de transformada representan la diferencia entre los factores de escala deseados y aquellos que pueden derivarse del polinomio CPL transmitido o del modelo psicoacústico basado en CPL. La presente característica retiene la capacidad de tener un cuantificador basado en MDCT que tiene la noción de factores de escala como se usa comúnmente en codificadores de transformada, dentro de una estructura CPL, que funciona en una residual de la CPL, y aún tiene la posibilidad de controlar el ruido de cuantificación por cada banda de factor de escala, de acuerdo con el modelo psicoacústico del codificador de transformada. La ventaja es que la transmisión de la diferencia de los factores de escala costará menos bits en comparación con la transmisión de los valores de factores de escala absolutos sin tener en cuenta los datos CPL ya presentes. Dependiendo de la tasa de bits, el tamaño de trama u otros parámetros, la cantidad de residual de factor de escala que se transmitirá puede seleccionarse. Para tener control total de cada banda de factor de escala, un delta de factor de escala puede transmitirse con un esquema de codificación sin ruido apropiado. En otros casos, el coste de transmisión de factores de escala puede reducirse más por una representación más tosca de las diferencias de factores de escala. El caso especial con la sobrecarga más baja ocurre cuando la diferencia de factor de escala se establece en 0 para todas las bandas y no se transmite ninguna información adicional.
La figura 10 ilustra una realización preferida de traslación de polinomios CPL hacia una curva de ganancia MDCT. Como se esboza en la figura 2, la MDCT funciona en una señal blanqueada, blanqueada por el filtro CPL 1001. Con el fin de retener la envolvente espectral de la señal de entrada original, una curva de ganancia MDCT se calcula por el módulo de curva de ganancia MDCT 1070. La curva de ganancia de ecualización de dominio MDCT puede obtenerse mediante la estimación de la respuesta de magnitud de la envolvente espectral descrita por el filtro CPL, para las frecuencias representadas por los comportamientos en la transformada MDCT. La curva de ganancia puede entonces aplicarse en los datos MDCT, p.ej., cuando se calcula la señal de error cuadrático medio mínimo como se esboza en la figura 3, o cuando se estima una curva de enmascaramiento perceptual para la determinación de factor de escala como se esboza con referencia a la figura 9 más arriba.
La figura 12 ilustra una realización preferida de adaptación del cálculo de filtro de ponderación perceptual basándose en tipo y/o tamaño de transformada de cuantificador. El polinomio PL A(z) es estimado por el módulo CPL 1201 en la figura 16. Un módulo de modificación de parámetro CPL 1271 recibe parámetros c Pl tales como el polinomio CPL A(z), y genera un filtro de ponderación perceptual A'(z) mediante la modificación de los parámetros CPL. Por ejemplo, el ancho de banda del polinomio CPL A(z) se expande y/o el polinomio se inclina. Los parámetros de entrada para el módulo de fluctuación e inclinación 1272 adaptado son los valores de fluctuación e inclinación por defecto p y y. Estos se modifican dadas las normas predeterminadas, basándose en el tamaño de transformada usado y/o la estrategia de cuantificación Q usada. Los parámetros de fluctuación e inclinación modificados p' y y' se ingresan en el módulo de modificación de parámetros CPL 1271 mediante la traslación de la envolvente espectral de la señal de entrada, representada por A(z), a una curva de enmascaramiento perceptual representada por A'(z).
A continuación, se explicarán la estrategia de cuantificación condicionada al tamaño de trama, y la cuantificación basada en modelo condicionada a parámetros variados no de acuerdo con la invención reivindicada. Un aspecto no de acuerdo con la invención reivindicada es que utiliza diferentes estrategias de cuantificación para diferentes tamaños de transformada o tamaños de trama. Esto se ilustra en la figura 13, donde el tamaño de trama se usa como un parámetro de selección para usar un cuantificador basado en modelo o un cuantificador no basado en modelo. Se debe apreciar que este aspecto de cuantificación es independiente de otros aspectos del codificador/decodificador descrito y también puede aplicarse en otros códecs. Un ejemplo de un cuantificador no basado en modelo es el cuantificador basado en la tabla de Huffman usado en el estándar de codificación de audio AAC. El cuantificador basado en modelo puede ser un Cuantificador de Restricción de Entropía (ECQ) que emplea la codificación aritmética. Sin embargo, otros cuantificadores también pueden usarse en realizaciones de la presente invención.
De acuerdo con un aspecto independiente, se sugiere conmutar entre diferentes estrategias de cuantificación como función de tamaño de trama con el fin de poder usar la estrategia de cuantificación óptima dado un tamaño de trama particular. A modo de ejemplo, la secuencia de ventana puede dictar el uso de una transformada larga para un segmento de música tonal estacionario de la señal. Para dicho tipo de señal particular, mediante el uso de una transformada larga, es altamente beneficioso emplear una estrategia de cuantificación que pueda aprovechar el carácter “disperso” (es decir, tonos discretos bien definidos) en el espectro de la señal. Un método de cuantificación como se usa en AAC en combinación con tablas de Huffman y el agrupamiento de líneas espectrales, también como se usa en AAC, es muy beneficioso. Sin embargo, y por el contrario, para segmentos de voz, la secuencia de ventana puede, dada la ganancia de codificación de la PLP, ordenar el uso de transformadas cortas. Para dicho tipo de señal y tamaño de transformada, es beneficioso emplear una estrategia de cuantificación que no intente descubrir o introducir dispersión en el espectro, pero que, en cambio, mantenga una energía de banda ancha que, dada la PLP, retenga el carácter tipo pulso de la señal de entrada original.
Una visualización más general del presente concepto se da en la figura 14, donde la señal de entrada se transforma en el dominio MDCT, y posteriormente se cuantifica por un cuantificador controlado por el tamaño de transformada o tamaño de trama usado para la transformada MDCT.
De acuerdo con otro aspecto, el tamaño de escalón de cuantificador se adapta como función de datos CPL y/o PLP Ello permite una determinación del tamaño de escalón dependiendo de la dificultad de una trama y controla el número de bits que se asignan para codificar la trama. En la figura 15, se proporciona una ilustración sobre cómo la cuantificación basada en modelo puede controlarse por datos CPL y PLP En la parte superior de la figura 15, se proporciona una visualización esquemática de líneas MDCT. Más abajo, se representa la delta de tamaño de escalón de cuantificación A como una función de frecuencia. Está claro a partir del presente ejemplo particular que el tamaño de escalón de cuantificación aumenta con la frecuencia, es decir, se incurre en una mayor distorsión de cuantificación para frecuencias más altas. La curva delta se deriva de los parámetros CPL y PLP por medio de un módulo de adaptación de delta representado en la figura 15a. La curva delta puede además derivarse del polinomio de predicción A(z) mediante la fluctuación y/o inclinación como se explica con referencia a la figura l3.
Una función de ponderación perceptual preferida derivada de los datos CPL se proporciona en la siguiente ecuación:
donde A(z) es el polinomio CPL,<t>es un parámetro de inclinación, p controla la fluctuación y ri es el primer coeficiente de reflexión calculado a partir del polinomio A(z). Se ha de apreciar que el polinomio A(z) puede volver a calcularse para una diversidad de representaciones diferentes con el fin de extraer información relevante del polinomio. Si uno está interesado en la pendiente espectral con el fin de aplicar una “inclinación” para contrarrestar la pendiente del espectro, se prefiere el recálculo del polinomio para los coeficientes de reflexión, dado que el primer coeficiente de reflexión representa la pendiente del espectro.
Además, los valores delta A pueden adaptarse como una función de la varianza de señal de entrada a , la ganancia PLP g, y el primer coeficiente de reflexión ri derivado del polinomio de predicción. Por ejemplo, la adaptación puede basarse en la siguiente ecuación:
A continuación, se esbozan aspectos de un cuantificador basado en modelo no de acuerdo con la invención reivindicada. En la figura 16, se visualiza uno de los aspectos del cuantificador basado en modelo. Las líneas MDCT se ingresan en un cuantificador que emplea cuantificadores escalares uniformes. Además, los desplazamientos aleatorios se ingresan en el cuantificador, y se usan como valores de desplazamiento para los intervalos de cuantificación que trasladan los límites del intervalo. El cuantificador propuesto proporciona ventajas de cuantificación de vector mientras mantiene la capacidad de búsqueda de cuantificadores escalares. El cuantificador se repite en un conjunto de diferentes valores de desplazamiento, y calcula el error de cuantificación para estos. El valor de desplazamiento (o vector de valor de desplazamiento) que minimiza la distorsión de cuantificación para las líneas MDCT particulares que se cuantifican se usa para la cuantificación. El valor de desplazamiento se transmite entonces al decodificador junto con las líneas MDCT cuantificadas. El uso de desplazamientos aleatorios introduce un relleno de ruido en la señal decodificada descuantificada y, mediante ello, evita los agujeros espectrales en el espectro cuantificado. Esto es particularmente importante para tasas de bits bajas donde muchas líneas MDCT se cuantifican, de otra forma, en un valor cero que llevará a agujeros audibles en el espectro de la señal reconstruida.
La figura 17 ilustra, de forma esquemática, un Cuantificador de Líneas MDCT basado en Modelo (MBMLQ, por sus siglas en inglés) no de acuerdo con la invención reivindicada. La parte superior de la figura 17 ilustra un codificador MBMLQ 1700. El codificador MBMLQ 1700 toma como entrada las líneas MDCT en una trama MDCT o las líneas MDCT de la residual de la PLP si una PLP está presente en el sistema. El MBMLQ emplea modelos estadísticos de las líneas MDCT, y códigos de fuente se adaptan a las propiedades de señal trama por trama de la MDCT y producen una compresión eficaz para un tren de bits.
Una ganancia local de las líneas MDCT puede estimarse como el valor RMS de las líneas MDCT, y las líneas MDCT pueden normalizarse en el módulo de normalización de ganancia 1720 antes de la entrada en el codificador MBMLQ 1700. La ganancia local normaliza las líneas MDCT y es un complemento para la normalización de ganancia PL. Mientras la ganancia PL se adapta a variaciones en el nivel de señal en una escala de tiempo mayor, la ganancia local se adapta a variaciones en una escala de tiempo menor, y produce una calidad mejorada de sonidos transitorios e inicios en la voz. La ganancia local se codifica mediante codificación de tasa fija o de tasa variable y se transmite al decodificador.
Un módulo de control de tasa 1710 puede emplearse para controlar el número de bits usados para codificar una trama MDCT. Un índice de control de tasa controla el número de bits usados. El índice de control de tasa señala una lista de tamaños de escalón de cuantificador nominales. La tabla puede ordenarse con tamaños de escalón en orden descendente (véase la figura 17g).
El codificador MBMLQ se ejecuta con un conjunto de diferentes índices de control de tasa, y el índice de control de tasa que produce un recuento de bits que es menor que el número de bits otorgados provistos por el control de depósito de bits, se usa para la trama. El índice de control de tasa varía lentamente y ello puede explotarse para reducir la complejidad de búsqueda y para codificar el índice de forma eficaz. El conjunto de índices que se prueban puede reducirse si la prueba se inicia alrededor del índice de la trama MDCT previa. Asimismo, la codificación de entropía eficaz del índice se obtiene si las probabilidades alcanzan un pico de alrededor del valor previo del índice. Por ejemplo, para una lista de 32 tamaños de escalón, el índice de control de tasa puede codificarse mediante el uso de 2 bits por trama MDCT en promedio.
La figura 17 además ilustra, de forma esquemática, el decodificador MBMLQ 1750 donde la trama MDCT tiene la ganancia renormalizada si en el codificador 1700 se estimó una ganancia local.
La figura 17a ilustra, de forma esquemática, el codificador de líneas MDCT basado en modelo 1700 de acuerdo con una realización en mayor detalle. La figura comprende un módulo de preprocesamiento de cuantificador 1730 (véase la figura 17c), un codificador de entropía restringida basado en modelo 1740 (véase la figura 17e), y un codificador aritmético 1720 que puede ser un codificador aritmético de la técnica anterior. La tarea del módulo de preprocesamiento de cuantificador 1730 es adaptar el codificador MBMLQ a las estadísticas de señal, trama a trama de MDCT. Este toma como entrada otros parámetros de códec y deriva de ellos estadísticas útiles sobre la señal que pueden usarse para modificar el comportamiento del codificador de entropía restringida basado en modelo 1740. El codificador de entropía restringida basado en modelo 1740 se controla, p.ej., por un conjunto de parámetros de control: un tamaño de escalón de cuantificador A (delta, longitud de intervalo), un conjunto de estimaciones de varianza de las líneas MDCT V (un vector; un valor estimado por línea MDCT), una curva de enmascaramiento perceptual Pmod, una matriz o tabla de desplazamientos (aleatorios), y un modelo estadístico de las líneas MDCT que describen la forma de la distribución de las líneas MDCT y sus interdependencias. Todos los parámetros de control mencionados más arriba pueden variar entre las tramas MDCT.
La figura 17b ilustra, de forma esquemática, un decodificador de líneas MDCT basado en modelo 1750 no de acuerdo con la invención reivindicada. Este toma como entrada bits de información conexa del tren de bits y los decodifica en parámetros que se ingresan en el módulo de preprocesamiento de cuantificador 1760 (véase la figura 17c). El módulo de preprocesamiento de cuantificador 1760 tiene, preferiblemente, exactamente la misma funcionalidad en el codificador 1700 que en el decodificador 1750. Los parámetros que se ingresan en el módulo de preprocesamiento de cuantificador 1760 son exactamente iguales en el codificador que en el decodificador. El módulo de preprocesamiento de cuantificador 1760 produce un conjunto de parámetros de control (igual que en el codificador 1700) y estos se ingresan en el módulo de cómputos de probabilidad 1770 (véase la figura 17g; igual que en el codificador, véase la figura 17e) y en el módulo de descuantificación 1780 (véase la figura 17h; igual que en el codificador, véase la figura 17e). Las tablas cdf del módulo de cómputos de probabilidad 1770 que representan las funciones de densidad de probabilidad para todas las líneas MDCT dada la delta usada para la cuantificación y la varianza de la señal, se ingresan en el decodificador aritmético (que puede ser cualquier codificador aritmético conocido por las personas con experiencia en la técnica) que luego decodifica los bits de líneas MDCT en índices de líneas MDCT. Los índices de líneas MDCT se descuantifican entonces en líneas MDCT por el módulo de descuantificación 1780.
La figura 17c ilustra, de manera esquemática, aspectos del preprocesamiento de cuantificador no de acuerdo con la invención reivindicada que consiste en i) cómputo de tamaño de escalón, ii) modificación de curva de enmascaramiento perceptual, iii) estimación de varianza de líneas MDCT, iv) construcción de tabla de desplazamiento.
El cómputo de tamaño de escalón se explica en mayor detalle en la figura 17d. Esta comprende i) una tabla de consulta donde los puntos de índice de control de tasa en una tabla de tamaños de escalón producen un tamaño de escalón nominal Anom (delta_nom), ii) adaptación de energía baja, y iii) adaptación de paso alto.
La normalización de la ganancia normalmente resulta en que los sonidos de energía alta y los sonidos de energía baja se codifican con la misma SNR segmental. Ello puede llevar a un número excesivo de bits usados en los sonidos de energía baja. La adaptación de energía baja propuesta permite la buena sintonización de un compromiso entre sonidos de energía baja y sonidos de energía alta. El tamaño de escalón puede aumentarse cuando la energía de señal se convierte en baja como se representa en la figura 17d-ii) donde se muestra una curva a modo de ejemplo para la relación entre la energía de señal (ganancia g) y un factor de control qLe. La ganancia de señal g puede computarse como el valor RMS de la propia señal de entrada o de la residual de la PL. La curva de control en la figura 17d-ii) solo es un ejemplo y pueden emplearse otras funciones de control para aumentar el tamaño de escalón para señales de energía baja. En el ejemplo ilustrado, la función de control se determina por secciones lineales escalonadas que se definen por umbrales T1 y T2 y el factor de tamaño de escalón L.
Los sonidos paso alto son perceptualmente menos importantes que los sonidos paso bajo. La función de adaptación de paso alto aumenta el tamaño de escalón cuando la trama MDCT es de paso alto, es decir, cuando la energía de la señal en la presente trama MDCT se concentra en las frecuencias más altas, lo cual resulta en menos bits empleados en dichas tramas. Si PLP está presente y si la ganancia PLP gPLP es cercana a 1, la residual de la PLP puede convertirse en un paso alto; en dicho caso, es ventajoso no aumentar el tamaño de escalón. El presente mecanismo se representa en la figura 17d-iii) donde r es el 1er coeficiente de reflexión de CPL. La adaptación de paso alto propuesta puede usar la siguiente ecuación:
La figura 17c-ii) ilustra, de manera esquemática, la modificación de curva de enmascaramiento perceptual que emplea un aumento de frecuencia baja (LF, por sus siglas en inglés) para eliminar artefactos de codificación “tipo ronroneo”. El aumento LF puede fijarse o ser adaptativo de modo que solo se aumenta una parte por debajo del primer pico espectral. El aumento Lf puede adaptarse mediante el uso de los datos de envolvente CPL.
La figura 17c-iii) ilustra, de manera esquemática, la estimación de varianza de líneas MDCT. Con un filtro de blanqueamiento CPL activo, las líneas MDCT tienen, todas, varianza de unidad (de acuerdo con la envolvente CPL). Después de la ponderación perceptual en el codificador de entropía restringida basado en modelo 1740 (véase la figura 17e), las líneas MDCT tiene varianzas que son la inversa de la curva de enmascaramiento perceptual cuadrática, o la curva de enmascaramiento modificada cuadrática Pmod. Si una PLP está presente, esta puede reducir la varianza de las líneas MDCT. En la figura 17c-iii) se representa un mecanismo que adapta las varianzas estimadas a la PLP. La figura muestra una función de modificación qPLP en la frecuencia f. Las varianzas modificadas pueden determinarse por VPLPmod = V ■ qPLP. El valor Lplp puede ser una función de la ganancia PLP de modo que LPLP es más cercana a 0 si la ganancia PLP es de alrededor de 1 (lo cual indica que la PLP ha encontrado una buena concordancia), y Lplp es más cercana a 1 si la ganancia PLP es de alrededor de 0. La adaptación PLP propuesta de las varianzas V = {v1, v2, ..., vj, ..., vn} solo afecta a las líneas MDCT por debajo de cierta frecuencia (fpLPcorte). Como resultado, las varianzas de líneas MDCT por debajo de la frecuencia de corte fpLPcorte se reducen, la reducción dependiendo de la ganancia PLP.
La figura 17c-iv) ilustra, de manera esquemática, la construcción de la tabla de desplazamiento. La tabla de desplazamiento nominal es una matriz rellena de números seudoaleatorios distribuidos entre -0,5 y 0,5. El número de columnas en la matriz es igual al número de líneas MDCT que se codifican por el MBMLQ. El número de filas es ajustable y es igual al número de vectores de desplazamiento que se prueban en la optimización RD en el codificador de entropía restringida basado en modelo 1740 (véase la figura 17e). La función de construcción de tabla de desplazamiento escala la tabla de desplazamiento nominal con el tamaño de escalón de cuantificador de modo que los desplazamientos se distribuyen entre -A/2 y A/2.
La figura 17g ilustra, de manera esquemática, una realización para una tabla de desplazamiento. El índice de desplazamiento es un puntero en la tabla y selecciona un vector de desplazamiento elegido O = {01, o2, ..., on, ...,<on>}, donde N es el número de líneas MDCT en la trama MDCT.
Como se describirá más abajo, los desplazamientos proporcionan un medio para el llenado de ruido. Una mejor calidad perceptual y objetiva se obtiene si la dispersión de los desplazamientos se limita para las líneas MDCT que tienen baja varianza vj en comparación con el tamaño de escalón de cuantificador A. Un ejemplo de dicha limitación se describe en la figura 17c-iv) donde k y k2 son parámetros de sintonización. La distribución de los desplazamientos puede ser uniforme y distribuirse entre -s y s. Los límites s pueden determinarse de acuerdo con
Para líneas MDCT de varianza baja (donde vj es pequeño en comparación con A) puede ser ventajoso hacer que la distribución de desplazamiento no sea uniforme y sea dependiente de la señal.
La figura 17e ilustra, de manera esquemática, el codificador de entropía restringida basado en modelo 1740 en mayor detalle. Las líneas MDCT de entrada se ponderan perceptualmente dividiéndolas con los valores de la curva de enmascaramiento perceptual, preferiblemente derivados del polinomio CPL, lo cual resulta en el vector de líneas MDCT ponderadas y = (y1, ..., yN). El objetivo de la siguiente codificación es introducir ruido de cuantificación blanco a las líneas MDCT en el dominio perceptual. En el decodificador, se aplica la inversa de la ponderación perceptual, lo cual resulta en ruido de cuantificación que sigue a la curva de enmascaramiento perceptual.
Primero, se esboza la iteración en los desplazamientos aleatorios. Las siguientes operaciones se llevan a cabo para cada fila j en la matriz de desplazamiento: Cada línea MDCT se cuantifica por un cuantificador escalar uniforme (USQ) de desplazamiento, en donde cada cuantificador se desplaza por su propio valor de desplazamiento único tomado del vector de fila de desplazamiento.
La probabilidad de intervalo de distorsión mínima de cada USQ se computa en el módulo de cómputos de probabilidad 1770 (véase la figura 17g). Los índices USQ se codifican por entropía. El coste en términos del número de bits requeridos para codificar los índices se computa como se muestra en la figura 17e y produce una longitud de palabra de código teórica Rj. El borde de sobrecarga del USQ de la línea MDCT j puede computarse comokl - tF ídonde k3 puede elegirse para que sea cualquier número apropiado, p.ej., 20. El borde de sobrecarga es el límite para el cual el error de cuantificación es mayor que la mitad del tamaño de escalón de cuantificación en magnitud.
Un valor de reconstrucción escalar para cada línea MDCT se computa por el módulo de descuantificación 1780 (véase la figura 17h) que produce el vector MDCT cuantificado y. En el módulo de optimización RD 1790 se computa una distorsión Dj = d(y, y). d(y, y) puede ser el error cuadrático medio (MSE), u otra medida de distorsión perceptualmente más relevante, p.ej., basándose en una función de ponderación perceptual. En particular, una medida de distorsión que pondera juntos MSE y la discordancia en energía entre y e y puede ser útil.
En el módulo de optimización RD 1790, se computa un coste C, preferiblemente basándose en la distorsión Dj y/o la longitud de palabra de código teórica Rj para cada fila j en la matriz de desplazamiento. Un ejemplo de una función de coste es C = 10*log10 (Dj) X*Rj/N. El desplazamiento que minimiza C se elige y los índices USQ correspondientes y las probabilidades se producen desde el codificador de entropía restringida basado en modelo 1780.
La optimización RD puede mejorarse más, de forma opcional, mediante la variación de otras propiedades del cuantificador junto con el desplazamiento. Por ejemplo, en lugar de usar la misma estimación de varianza fija V para cada vector de desplazamiento que se prueba en la optimización RD, el vector de estimación de varianza V se puede variar. Para el vector de fila de desplazamiento m, puede entonces usarse una estimación de varianza kmV donde km puede abarcar, por ejemplo, el rango de 0,5 a 1,5 mientras m varía desde m=1 a m=(número de filas en la matriz de desplazamiento). Ello hace a la codificación de entropía y al cómputo de MMSE menos sensibles a las variaciones en las estadísticas de señal de entrada que el modelo estadístico no puede capturar. Ello resulta en un coste C más bajo en general.
Las líneas MDCT descuantificadas pueden refinarse más mediante el uso de un cuantificador residual como se representa en la figura 17e. El cuantificador residual puede ser, p.ej., un cuantificador de vector aleatorio de tasa fija.
El funcionamiento del Cuantificador Escalar Uniforme (USQ) para la cuantificación de línea MDCT n se ilustra, de manera esquemática, en la figura 17f que muestra el valor de línea MDCT n en el intervalo de distorsión mínima que tiene el índice in. Las marcas 'x' indican el centro (punto medio) de los intervalos de cuantificación con tamaño de escalón A. El origen del cuantificador escalar es trasladado el desplazamiento on del vector de desplazamiento O = {o1, o2, ..., on, ..., on}. De este modo, los límites de intervalo y los puntos medios son trasladados por el desplazamiento.
El uso de desplazamientos introduce un relleno de ruido controlado por el codificador en la señal cuantificada y, mediante ello, evita los agujeros espectrales en el espectro cuantificado. Además, los desplazamientos aumentan la eficacia de codificación mediante la provisión de un conjunto de alternativas de codificación que llenan el espacio de manera más eficaz que una retícula cúbica. Asimismo, los desplazamientos proporcionan variación en las tablas de probabilidad que se computan por el módulo de cómputos de probabilidad 1770, lo cual lleva a una codificación de entropía más eficaz de los índices de líneas MDCT (es decir, se requieren menos bits).
El uso de un tamaño de escalón variable A (delta) permite la exactitud variable en la cuantificación de modo que más exactitud puede usarse para sonidos perceptualmente importantes, y menos exactitud puede usarse para sonidos perceptualmente menos importantes.
La figura 17g ilustra, de manera esquemática, los cómputos de probabilidad en el módulo de cómputos de probabilidad 1770. Las entradas en dicho módulo son el modelo estadístico aplicado para las líneas MDCT, el tamaño de escalón de cuantificador A, el vector de varianza V, el índice de desplazamientos, y la tabla de desplazamientos. La salida del módulo de cómputos de probabilidad 1770 son las tablas cdf. Para cada línea MDCT xj se evalúa el modelo estadístico (es decir, una función de densidad de probabilidad, pdf, por sus siglas en inglés). El área debajo de la función pdf para un intervalo i es la probabilidad py del intervalo. Dicha probabilidad se usa para la codificación aritmética de las líneas MDCT.
La figura 17h ilustra, de manera esquemática, el proceso de descuantificación como se realiza, p.ej., en el módulo de descuantificación 1780. El centro de la masa (valor MMSE) xmmse para el intervalo de distorsión mínima de cada línea MDCT se computa junto con el punto medio<xpm>del intervalo. Teniendo en cuenta que un vector N-dimensional de las líneas MDCT se cuantifica, el valor MMSE escalar es subóptimo y, en general, demasiado bajo. Ello resulta en una pérdida de varianza y desequilibrio espectral en la salida decodificada. Este problema puede mitigarse mediante decodificación de preservación de varianza como se describe en la figura 17h donde el valor de reconstrucción se computa como una suma ponderada del valor MMSE y el valor de punto medio. Una mejora opcional adicional es adaptar la ponderación de modo que el valor MMSE domina la voz y el punto medio domina los sonidos diferentes de la voz. Ello produce voz más limpia mientras el equilibrio espectral y la energía se preservan para sonidos diferentes de la voz.
La decodificación de preservación de varianza no de acuerdo con la invención reivindicada se consigue mediante la determinación del punto de reconstrucción de acuerdo con la siguiente ecuación:
La decodificación adaptativa para preservar la varianza puede basarse en la siguiente regla para determinar el factor de interpolación:
s i s o n s o n id o s d e v o z
s i s o n s o n id o s d ife re n te s d e la v o z
La ponderación adaptativa puede además ser una función de, por ejemplo, la ganancia de predicción PLP gpLp: x = f(gpLp). La ponderación adaptativa varía lentamente y puede codificarse de manera eficaz por un código de entropía recursivo.
El modelo estadístico de las líneas MDCT que se usa en los cómputos de probabilidad (figura 17g) y en la descuantificación (figura 17h) debe reflejar las estadísticas de la señal real. En una versión, el modelo estadístico supone que las líneas MDCT son independientes y distribuidas de manera Laplaciana. Otra versión modela las líneas MDCT como Gaussianas independientes. Una versión modela las líneas MDCT como modelos de mezcla Gaussianos, incluidas las interdependencias entre líneas MDCT dentro y entre tramas MDCT. Otra versión adapta el modelo estadístico a estadísticas de señal en línea. Los modelos estadísticos adaptativos pueden adaptarse hacia delante y/o hacia atrás.
Otro aspecto relacionado con los puntos de reconstrucción modificados del cuantificador se ilustra, de manera esquemática, en la figura 19 donde se representa un cuantificador inverso como se usa en el decodificador de una realización. El módulo tiene, aparte de las entradas normales de un cuantificador inverso, es decir, las líneas cuantificadas e información sobre el tamaño de escalón de cuantificación (tipo de cuantificación), también información sobre el punto de reconstrucción del cuantificador. El cuantificador inverso de esta realización puede usar múltiples tipos de puntos de reconstrucción cuando determina un valor reconstruido yn del correspondiente índice de cuantificación in. Como se menciona más arriba, valores de reconstrucción y se usan además, p.ej., en el codificador de líneas MDCT (véase la figura 17) para determinar la residual de cuantificación para la entrada en el cuantificador residual. Además, la reconstrucción de cuantificación se lleva a cabo en el cuantificador inverso 304 para reconstruir una trama MDCT codificada para su uso en la memoria intermedia PLP (véase la figura 3) y, naturalmente, en el decodificador.
El cuantificador inverso puede, p.ej., elegir el punto medio de un intervalo de cuantificación como el punto de reconstrucción, o el punto de reconstrucción MMSE. En una realización no de acuerdo con la invención reivindicada, el punto de reconstrucción del cuantificador se elige para que sea el valor medio entre el punto central y el punto de reconstrucción MMSE. En general, el punto de reconstrucción puede interpolarse entre el punto medio y el punto de reconstrucción MMSE, p.ej., dependiendo de propiedades de la señal tales como la periodicidad de la señal. Información sobre la periodicidad de la señal puede derivarse del módulo PLP, por ejemplo. La presente característica permite al sistema controlar la distorsión y preservación de energía. El punto de reconstrucción central asegurará la preservación de energía, mientras que el punto de reconstrucción MMSE asegurará una distorsión mínima. Dada la señal, el sistema puede entonces adaptar el punto de reconstrucción a donde se proporciona el mejor compromiso.
La presente invención además incorpora un nuevo formato de codificación de secuencia de ventana. De acuerdo con una realización de la invención, las ventanas usadas para la transformación MDCT son de tamaños diádicos, y solo pueden variar un factor dos en tamaño de ventana a ventana. Los tamaños de transformada diádicos son, p.ej., 64, 128, ..., 2048 muestras correspondientes a 4, 8, ..., 128 ms a 16 kHz de tasa de muestreo. En general, se proponen ventanas de tamaño variable que pueden tomar múltiples tamaños de ventana entre un tamaño de ventana mínimo y un tamaño máximo. En una secuencia, los tamaños de ventana consecutivos pueden variar solamente por un factor de dos de modo que se desarrollan secuencias suaves de tamaños de ventana sin cambios abruptos. Las secuencias de ventana como se definen por una realización, es decir, limitadas a tamaños diádicos y que solamente se permite que varíen un factor dos en tamaño de ventana a ventana, tienen varias ventajas. En primer lugar, no se necesitan ventanas específicas de inicio o fin, es decir, ventanas con bordes afilados. Ello mantiene una buena resolución tiempo/frecuencia. En segundo lugar, la secuencia de ventana se convierte en muy eficaz para codificar, es decir, para señalizar a un decodificador qué secuencia de ventana particular se usa. Finalmente, la secuencia de ventana siempre encajará bien en una estructura de hipertrama.
La estructura de hipertrama es útil cuando se hace funcionar un codificador en un sistema del mundo real, donde ciertos parámetros de configuración de decodificador necesitan transmitirse con el fin de poder iniciar el decodificador. Dichos datos se almacenan comúnmente en un campo de encabezamiento en el tren de bits y describen la señal de audio codificada. Con el fin de minimizar la velocidad binaria, el encabezamiento no se transmite para cada trama de datos codificados, en particular en un sistema como el propuesto por la presente invención, donde los tamaños de trama MDCT pueden variar de muy corto a muy largo. Por lo tanto, se propone por la presente invención agrupar cierta cantidad de tramas MDCT juntas en una hipertrama, donde los datos de encabezamiento se transmiten en el inicio de la hipertrama. La hipertrama se define, normalmente, como una longitud específica en el tiempo. Por lo tanto, es preciso tener cuidado de modo que las variaciones de los tamaños de trama MDCT encajen en una longitud constante, longitud de hipertrama predefinida. La secuencia de ventana inventiva esbozada más arriba asegura que la secuencia de ventana seleccionada siempre encaje en una estructura de hipertrama.
De acuerdo con una realización no de acuerdo con la invención reivindicada, el retardo PLP y la ganancia PLP se codifican de manera que la tasa sea variable. Ello es ventajoso dado que, debido a la eficacia PLP para señales periódicas estacionarias, el retardo PLP tiende a ser el mismo en segmentos de alguna forma largos. Por lo tanto, ello puede explotarse por medio de la codificación aritmética, lo cual resulta en una codificación de ganancia PLP y retardo PLP de tasa variable.
De manera similar, una realización no de acuerdo con la invención reivindicada se aprovecha de un depósito de bits y codificación de tasa variable también para la codificación de los parámetros PL. Además, la codificación PL recursiva se enseña por la presente invención.
Otro aspecto es el manejo de un depósito de bits para tamaños de trama variables en el codificador. En la figura 18 se esboza una unidad de control de depósito de bits 1800. Además de una medida de dificultad provista como entrada, la unidad de control de depósito de bits también recibe información sobre la longitud de trama de la trama actual. Un ejemplo de medida de dificultad para su uso en la unidad de control de depósito de bits es la entropía perceptual, o el logaritmo del espectro de energía. El control de depósito de bits es importante en un sistema donde las longitudes de trama pueden variar en un conjunto de longitudes de trama diferentes. La unidad de control de depósito de bits 1800 sugerida toma en cuenta la longitud de trama cuando calcula el número de bits otorgados para que la trama se codificará como se esbozará más abajo.
El depósito de bits se define aquí como cierta cantidad fija de bits en una memoria intermedia que tiene que ser más grande que el número promedio de bits que una trama puede usar para una tasa de bits dada. Si es del mismo tamaño, ninguna variación en el número de bits para una trama es posible. El control de depósito de bits siempre observa el nivel del depósito de bits antes de extraer bits que se otorgarán al algoritmo de codificación como número permitido de bits para la trama real. De este modo, un depósito de bits completo significa que el número de bits disponible en el depósito de bits es igual al tamaño del depósito de bits. Después de codificar la trama, el número de bits usados se restará de la memoria intermedia y el depósito de bits se actualiza mediante la adición del número de bits que representan la tasa de bits constante. Por lo tanto, el depósito de bits está vacío, si el número de bits en el depósito de bits antes de codificar una trama es igual al número promedio de bits por trama.
En la figura 18a se representa el concepto básico del control de depósito de bits. El codificador proporciona medios para calcular lo difícil que es codificar la trama real en comparación con la trama previa. Para una dificultad promedio de 1,0, el número de bits otorgados depende del número de bits disponible en el depósito de bits. De acuerdo con una línea de control dada, más bits que los correspondientes a una tasa de bits promedio se extraerán del depósito de bits si el depósito de bits está bastante lleno. En el caso de un depósito de bits vacío, menos bits en comparación con los bits promedio se usarán para codificar la trama. Dicho comportamiento produce un nivel de depósito de bits promedio para una secuencia más larga de tramas con dificultad promedio. Para tramas con una dificultad más alta, la línea de control puede ser trasladada hacia arriba, teniendo el efecto de que las tramas difíciles de codificar pueden usar más bits en el mismo nivel de depósito de bits. De acuerdo con ello, por facilidad para la codificación de tramas, el número de bits permitido para una trama será más bajo simplemente por trasladar hacia abajo la línea de control en la figura 18a desde el caso de dificultad promedio al caso de dificultad fácil. También son posibles otras modificaciones aparte de un simple traslado de la línea de control. Por ejemplo, como se muestra en la figura 18a, la pendiente de la curva de control puede cambiarse dependiendo de la dificultad de la trama.
Cuando se calcula el número de bits otorgados, los límites del extremo inferior del depósito de bits tienen que obedecerse con el fin de no extraer más bits de la memoria intermedia que los permitidos. Un esquema de control de depósito de bits que incluye el cálculo de los bits otorgados por una línea de control como se muestra en la figura 18a es solo un ejemplo de las posibles relaciones del nivel de depósito de bits y medida de dificultad con los bits otorgados. Asimismo, otros algoritmos de control tendrán en común los límites duros en el extremo inferior del nivel de depósito de bits que previenen que un depósito de bits viole la restricción del depósito de bits vacío, así como los límites en el extremo superior, donde se forzará al codificador que escriba bits llenos, si un número de bits demasiado bajo se consumirá por el codificador.
Para que dicho mecanismo de control pueda manejar un conjunto de tamaños de trama variables, el presente algoritmo de control simple tiene que adaptarse. La medida de dificultad que se usará tiene que normalizarse de modo que los valores de dificultad de diferentes tamaños de trama sean comparables. Para cada tamaño de trama, habrá un rango diferente permitido para los bits otorgados, y dado que el número promedio de bits por trama es diferente para un tamaño de trama variable, como resultado, cada tamaño de trama tiene su propia ecuación de control con sus propias limitaciones. Un ejemplo se muestra en la figura 18b. Una modificación importante al caso de tamaño de trama fijo es el borde inferior permitido del algoritmo de control. En lugar del número promedio de bits para el tamaño de trama real, que corresponde al caso de tasa de bits fija, ahora el número promedio de bits para el tamaño de trama más grande permitido es el valor más bajo permitido para el nivel de depósito de bits antes de extraer los bits para la trama real. Esta es una de las principales diferencias con el control de depósito de bits para tamaños de trama fijos. Esta restricción garantiza que una trama siguiente con el tamaño de trama más grande posible pueda utilizar al menos el número promedio de bits para dicho tamaño de trama.
La medida de dificultad puede basarse, p.ej., en un cálculo de entropía perceptual (EP) que se deriva de umbrales de enmascaramiento de un modelo psicoacústico como se realiza en AAC, o como una alternativa del recuento de bits de una cuantificación con tamaño de escalón fijo como se realiza en la parte ECQ de un codificador no de acuerdo con la invención reivindicada. Estos valores pueden normalizarse con respecto a los tamaños de trama variables, lo cual se puede lograr por una simple división por la longitud de trama, y el resultado será una EP respectivamente, un recuento de bits por muestra. Puede tener lugar otro paso de normalización con respecto a la dificultad promedio. A tales fines, un promedio móvil de las tramas pasadas puede usarse, lo cual resulta en un valor de dificultad mayor que 1,0 para tramas difíciles o menor que 1,0 para tramas fáciles. En el caso de un codificador de dos pasadas o de un registro de anticipación grande, también los valores de dificultad de tramas futuras pueden tenerse en cuenta para dicha normalización de la medida de dificultad.
Otro aspecto se refiere a detalles específicos del manejo del depósito de bits para ECQ. La gestión del depósito de bits para ECQ trabaja suponiendo que ECQ produce una calidad aproximadamente constante cuando usa un tamaño de escalón de cuantificador constante para la codificación. El tamaño de escalón de cuantificador constante produce una tasa variable y el objetivo del depósito de bits es mantener la variación en el tamaño de escalón de cuantificador entre diferentes tramas lo más pequeño posible, mientras no se violan las restricciones de la memoria intermedia del depósito de bits. Además de la tasa producida por el ECQ, la información adicional (p.ej., ganancia y retardo PLP) se transmite trama a trama MDCT. La información adicional, en general, también se codifica con entropía y de este modo consume una tasa diferente de trama a trama.
En una realización no de acuerdo con la invención reivindicada, un control de depósito de bits propuesto intenta minimizar la variación del tamaño de escalón ECQ introduciendo tres variables (véase la figura18c):
- R<ecq_avg>: tasa media de ECQ por muestra usada previamente;
- A<ecq_avg>: tamaño medio de escalón de cuantificador usado previamente.
Estas variables se actualizan ambas dinámicamente para reflejar las últimas estadísticas de codificación.
- R<ecq_avg_des>: La tasa de ECQ correspondiente a la velocidad binaria total media.
Este valor se diferenciará de R<ecq_avg>en caso de que el nivel de depósito de bits haya cambiado durante la trama de tiempo de la ventana de promediación, por ejemplo se ha usado durante esta trama de tiempo una velocidad binaria mayor o inferior que la velocidad binaria media especificada. También se actualiza a medida que la tasa de la información conexa cambia, de modo que la tasa total se iguala a la velocidad binaria especificada.
El control de depósito de bits usa estos tres valores para determinar una suposición inicial sobre la delta a usar para la trama actual. Lo hace hallando A<ecq_avg_des>en la curva R<ecq>-A mostrada en la figura 18c que corresponde a R<ecq_avg_des>. En una segunda etapa, este valor se modifica posiblemente si la tasa no está acorde con las restricciones de depósito de bits. La curva de ejemplo R<ecq>-A en la figura 18c se basa en la siguiente ecuación:
r ,<_>1<,>a
R ECQ ~ J- Í E ^ 2
Por supuesto, también se pueden usar otras relaciones matemáticas entre R<ecq>y A.
En el caso estacionario, R<ecq_avg>será cercano a R<ecq_avg_des>y la variación en A será muy pequeña. En el caso no estacionario, la operación de promediación asegurará una variación suave de A.
Aunque lo que antecede se ha divulgado con referencia a realizaciones particulares de la presente invención, se ha de entender que el concepto inventivo no está limitado a las realizaciones descritas. Por otro lado, la divulgación presentada en esta solicitud posibilitará que un experto en la técnica entienda y lleve a cabo la invención. Se entenderá por parte de los expertos en la técnica que se pueden hacer diversas modificaciones sin salir del alcance de la invención como se establece exclusivamente mediante las reivindicaciones que se acompañan.

Claims (10)

REIVINDICACIONES
1. Sistema de codificación de audio que comprende:
una unidad de predicción lineal (PL) (201) para analizar tramas de una primera longitud fija de una señal de audio para determinar una secuencia de polinomios CPL;
una unidad de transformación de longitud adaptativa (202) para transformar tramas de una segunda longitud variable de la señal de audio en tramas con coeficientes de Transformada Discreta del Coseno Modificada (MDCT);
una unidad de generación de curva de ganancia (970, 1070) para generar curvas de ganancia de dominio MDCT para las tramas de coeficientes MDCT basándose en respuestas de magnitud determinadas a partir de la secuencia de polinomios CPL, en la que la generación de curvas de ganancia de dominio MDCT comprende el mapeo, por una unidad de mapeo (1100), de los polinomios CPL a correspondientes tramas de coeficientes MDCT;
una unidad de aplicación de curva de ganancia para aplicar las curvas de ganancia de dominio MDCT a las tramas de coeficientes MDCT para generar tramas de coeficientes MDCT ajustados por ganancia; y una unidad de cuantificación (203) para cuantificar las tramas de coeficientes MDCT ajustados por ganancia.
2. Sistema de codificación de audio de la reivindicación 1, que comprende:
una unidad de control de secuencia de ventana para determinar, para un bloque de la señal de audio, las segundas longitudes de trama para ventanas MDC<t>solapadas, mediante la minimización de una función de coste de codificación para un bloque completo de la señal de audio que incluye varias tramas.
3. Sistema de codificación de audio de acuerdo con cualquier reivindicación anterior, que comprende una unidad de modelado perceptual que modifica una característica de un filtro PL mediante fluctuación y/o inclinación del polinomio CPL generado por la unidad de predicción lineal para una trama CPL.
4. Sistema de codificación de audio de acuerdo con cualquier reivindicación anterior, que comprende:
una unidad de estimación de factor de escala (1360) para estimar factores de escala para controlar el ruido de cuantificación de la unidad de cuantificación (203), de modo que el ruido de cuantificación introducido está limitado a distorsiones inaudibles.
5. Sistema de codificación de audio de la reivindicación 4, en el que los factores de escala se determinan basándose en las curvas de ganancia de dominio MDCT.
6. Sistema de codificación de audio de acuerdo con cualquier reivindicación anterior, en el que la unidad de mapeo (1500) interpola polinomios PL generados a una tasa correspondiente a la primera longitud de trama como para coincidir con tramas de la señal de dominio MDCT generada a una tasa correspondiente a la segunda longitud de trama.
7. Decodificador de audio que comprende:
una unidad de descuantificación (211) para descuantificar tramas cuantificadas de coeficientes MDCT decodificados a partir de un tren de bits de entrada, en la que las tramas de coeficientes MDCT representan una señal de audio;
una unidad de generación de curva de ganancia (970, 1070) para generar curvas de ganancia de dominio MDCT para las tramas de coeficientes MDCT basándose en respuestas de magnitud determinadas a partir de polinomios CPL, en la que los polinomios CPL se derivan del tren de bits de entrada, y en el que
los polinomios CPL se han determinado mediante análisis de tramas de una primera longitud fija de la señal de audio, y en el que la generación de las curvas de ganancia de dominio MDCT comprende el mapeo, por una unidad de mapeo (1100), de los polinomios CPL a correspondientes tramas de coeficientes MDCT;
una unidad de aplicación de curva de ganancia para aplicar las curvas de ganancia de dominio MDCT a las tramas de coeficientes MDCT para generar tramas de coeficientes MDCT ajustados por ganancia; y una unidad de transformación MDCT inversa de longitud adaptativa (212) para transformar inversamente las tramas de coeficientes MDCT ajustados por ganancia en una señal de audio de dominio tiempo, funcionando la unidad de transformación MDCT inversa en una segunda longitud de trama variable.
8. Método de codificación de audio que comprende los pasos:
realizar un análisis de predicción lineal (PL) en tramas de una primera longitud fija de una señal de audio para determinar una secuencia de polinomios CPL;
transformar tramas de una segunda longitud variable de la señal de audio en tramas de coeficientes de Transformada Discreta del Coseno Modificada (MDCT);
generar curvas de ganancia de dominio MDCT para las tramas de coeficientes MDCT basándose en respuestas de magnitud determinadas a partir de la secuencia de polinomios CPL, en el que la generación de curvas de ganancia de dominio MDCT comprende el mapeo de los polinomios CPL a correspondientes tramas de coeficientes MDCT;
aplicar las curvas de ganancia de dominio MDCT a las tramas de coeficientes MDCT para obtener tramas de coeficientes MDCT ajustados por ganancia; y
cuantificar las tramas de coeficientes MDCT ajustados por ganancia usando una unidad de cuantificación (203).
9. Método de decodificación de audio que comprende los pasos:
descuantificar tramas cuantificadas de coeficientes MDCT decodificados a partir de un tren de bits de entrada, en el que las tramas de coeficientes MDCT representan una señal de audio;
generar curvas de ganancia de dominio MDCT para las tramas de coeficientes MDCT basándose en respuestas de magnitud determinadas a partir de polinomios CPL, en las que los polinomios CPL se derivan del tren de bits de entrada, y en las que los polinomios CPL se han determinado analizando tramas de una primera longitud fija de la señal de audio, y en las que la generación de las curvas de ganancia de dominio MDCT comprende el mapeo de los polinomios CPL a correspondientes tramas de coeficientes MDCT;
aplicar las curvas de ganancia de dominio MDCT a las tramas de coeficientes MDCT para generar tramas de coeficientes MDCT ajustados por ganancia;
transformar inversamente las tramas de coeficientes MDCT ajustados por ganancia en una señal de audio de dominio tiempo usando una MDCT inversa que funciona en una segunda longitud de trama variable.
10. Programa de ordenador que comprende instrucciones que, cuando el programa es ejecutado por un dispositivo programable, hace que el dispositivo programable realice un método de codificación o decodificación de audio de acuerdo con la reivindicación 8 o 9.
ES12195829T 2008-01-04 2008-12-30 Codificador y decodificador de audio Active ES2983192T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SE0800032 2008-01-04
US5597808P 2008-05-24 2008-05-24
EP08009530A EP2077550B8 (en) 2008-01-04 2008-05-24 Audio encoder and decoder

Publications (1)

Publication Number Publication Date
ES2983192T3 true ES2983192T3 (es) 2024-10-22

Family

ID=39710955

Family Applications (2)

Application Number Title Priority Date Filing Date
ES08870326.9T Active ES2677900T3 (es) 2008-01-04 2008-12-30 Codificador y decodificador de audio
ES12195829T Active ES2983192T3 (es) 2008-01-04 2008-12-30 Codificador y decodificador de audio

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES08870326.9T Active ES2677900T3 (es) 2008-01-04 2008-12-30 Codificador y decodificador de audio

Country Status (14)

Country Link
US (4) US8494863B2 (es)
EP (6) EP2077550B8 (es)
JP (3) JP5350393B2 (es)
KR (2) KR101202163B1 (es)
CN (3) CN103065637B (es)
AT (2) ATE518224T1 (es)
AU (1) AU2008346515B2 (es)
BR (1) BRPI0822236B1 (es)
CA (4) CA3190951A1 (es)
DE (1) DE602008005250D1 (es)
ES (2) ES2677900T3 (es)
MX (1) MX2010007326A (es)
RU (3) RU2456682C2 (es)
WO (2) WO2009086919A1 (es)

Families Citing this family (180)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6934677B2 (en) * 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US8326614B2 (en) * 2005-09-02 2012-12-04 Qnx Software Systems Limited Speech enhancement system
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
ATE518224T1 (de) * 2008-01-04 2011-08-15 Dolby Int Ab Audiokodierer und -dekodierer
WO2010005224A2 (en) * 2008-07-07 2010-01-14 Lg Electronics Inc. A method and an apparatus for processing an audio signal
BRPI0915450B1 (pt) * 2008-07-10 2020-03-10 Voiceage Corporation Dispositivo e método para quantizar e quantizar inversamente filtros de lpc em um superquadro
CN102089814B (zh) * 2008-07-11 2012-11-21 弗劳恩霍夫应用研究促进协会 对编码的音频信号进行解码的设备和方法
AU2009267530A1 (en) 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. An apparatus and a method for generating bandwidth extension output data
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
CA3057366C (en) 2009-03-17 2020-10-27 Dolby International Ab Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding
EP2394268B1 (en) * 2009-04-08 2014-01-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing
CO6440537A2 (es) * 2009-04-09 2012-05-15 Fraunhofer Ges Forschung Aparato y metodo para generar una señal de audio de sintesis y para codificar una señal de audio
KR20100115215A (ko) * 2009-04-17 2010-10-27 삼성전자주식회사 가변 비트율 오디오 부호화 및 복호화 장치 및 방법
US8700410B2 (en) * 2009-06-18 2014-04-15 Texas Instruments Incorporated Method and system for lossless value-location encoding
JP5365363B2 (ja) * 2009-06-23 2013-12-11 ソニー株式会社 音響信号処理システム、音響信号復号装置、これらにおける処理方法およびプログラム
KR20110001130A (ko) * 2009-06-29 2011-01-06 삼성전자주식회사 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
BR112012007803B1 (pt) * 2009-10-08 2022-03-15 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Decodificador de sinal de áudio multimodal, codificador de sinal de áudio multimodal e métodos usando uma configuração de ruído com base em codificação de previsão linear
EP2315358A1 (en) 2009-10-09 2011-04-27 Thomson Licensing Method and device for arithmetic encoding or arithmetic decoding
PT2491553T (pt) 2009-10-20 2017-01-20 Fraunhofer Ges Forschung Codificador de áudio, descodificador de áudio, método para codificar uma informação de áudio, método para descodificar uma informação de áudio e programa de computador que utiliza uma redução iterativa de tamanho de intervalo
US9117458B2 (en) * 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
CN102081622B (zh) * 2009-11-30 2013-01-02 中国移动通信集团贵州有限公司 评估系统健康度的方法及系统健康度评估装置
JP5298245B2 (ja) * 2009-12-16 2013-09-25 ドルビー インターナショナル アーベー Sbrビットストリームパラメータダウンミックス
PL2524372T3 (pl) 2010-01-12 2015-08-31 Fraunhofer Ges Forschung Koder audio. dekoder audio, sposób kodowania i dekodowania informacji audio i program komputerowy uzyskujący wartość podobszaru kontekstu w oparciu o normę uprzednio zdekodowanych wartości widmowych
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US8886523B2 (en) * 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
US9508356B2 (en) * 2010-04-19 2016-11-29 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device, encoding method and decoding method
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
EP3291230B1 (en) 2010-07-19 2019-04-17 Dolby International AB Processing of audio signals during high frequency reconstruction
US12002476B2 (en) 2010-07-19 2024-06-04 Dolby International Ab Processing of audio signals during high frequency reconstruction
EP3751564B1 (en) * 2010-07-20 2022-10-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio decoding method and computer program
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
US8762158B2 (en) * 2010-08-06 2014-06-24 Samsung Electronics Co., Ltd. Decoding method and decoding apparatus therefor
ES2526320T3 (es) * 2010-08-24 2015-01-09 Dolby International Ab Ocultamiento de la recepción mono intermitente de receptores de radio estéreo de FM
US9008811B2 (en) 2010-09-17 2015-04-14 Xiph.org Foundation Methods and systems for adaptive time-frequency resolution in digital data coding
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP5978218B2 (ja) * 2010-10-25 2016-08-24 ヴォイスエイジ・コーポレーション 低ビットレート低遅延の一般オーディオ信号の符号化
CN102479514B (zh) * 2010-11-29 2014-02-19 华为终端有限公司 一种编码方法、解码方法、装置和系统
US8325073B2 (en) * 2010-11-30 2012-12-04 Qualcomm Incorporated Performing enhanced sigma-delta modulation
FR2969804A1 (fr) * 2010-12-23 2012-06-29 France Telecom Filtrage perfectionne dans le domaine transforme.
US8849053B2 (en) * 2011-01-14 2014-09-30 Sony Corporation Parametric loop filter
BR112013016350A2 (pt) * 2011-02-09 2018-06-19 Ericsson Telefon Ab L M codificação/decodificação eficaz de sinais de áudio
US9009036B2 (en) 2011-03-07 2015-04-14 Xiph.org Foundation Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding
WO2012122297A1 (en) * 2011-03-07 2012-09-13 Xiph. Org. Methods and systems for avoiding partial collapse in multi-block audio coding
US8838442B2 (en) 2011-03-07 2014-09-16 Xiph.org Foundation Method and system for two-step spreading for tonal artifact avoidance in audio coding
US9536534B2 (en) * 2011-04-20 2017-01-03 Panasonic Intellectual Property Corporation Of America Speech/audio encoding apparatus, speech/audio decoding apparatus, and methods thereof
CN102186083A (zh) * 2011-05-12 2011-09-14 北京数码视讯科技股份有限公司 量化处理方法及装置
EP3346465A1 (en) 2011-05-13 2018-07-11 Samsung Electronics Co., Ltd. Audio decoding with noise filling
CN103548077B (zh) * 2011-05-19 2016-02-10 杜比实验室特许公司 参数化音频编译码方案的取证检测
RU2464649C1 (ru) * 2011-06-01 2012-10-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ обработки звукового сигнала
EP2721819B1 (en) * 2011-06-16 2023-08-16 GE Video Compression, LLC Entropy coding supporting mode switching
WO2013002696A1 (en) 2011-06-30 2013-01-03 Telefonaktiebolaget Lm Ericsson (Publ) Transform audio codec and methods for encoding and decoding a time segment of an audio signal
CN102436819B (zh) * 2011-10-25 2013-02-13 杭州微纳科技有限公司 无线音频压缩、解压缩方法及音频编码器和音频解码器
WO2013129439A1 (ja) * 2012-02-28 2013-09-06 日本電信電話株式会社 符号化装置、この方法、プログラム及び記録媒体
JP5714172B2 (ja) * 2012-02-28 2015-05-07 日本電信電話株式会社 符号化装置、この方法、プログラムおよび記録媒体
KR101311527B1 (ko) * 2012-02-28 2013-09-25 전자부품연구원 영상처리장치 및 영상처리방법
US9905236B2 (en) 2012-03-23 2018-02-27 Dolby Laboratories Licensing Corporation Enabling sampling rate diversity in a voice communication system
RU2637994C1 (ru) * 2012-03-29 2017-12-08 Телефонактиеболагет Л М Эрикссон (Пабл) Преобразующее кодирование/декодирование гармонических звуковых сигналов
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
CN104509130B (zh) * 2012-05-29 2017-03-29 诺基亚技术有限公司 立体声音频信号编码器
KR20150032614A (ko) * 2012-06-04 2015-03-27 삼성전자주식회사 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기
SG11201408677YA (en) * 2012-06-28 2015-01-29 Fraunhofer Ges Forschung Linear prediction based audio coding using improved probability distribution estimation
WO2014007095A1 (ja) * 2012-07-02 2014-01-09 ソニー株式会社 復号装置および方法、符号化装置および方法、並びにプログラム
BR112014004128A2 (pt) 2012-07-02 2017-03-21 Sony Corp dispositivo e método de decodificação, dispositivo e método de codificação, e, programa
TWI517141B (zh) * 2012-08-10 2016-01-11 弗勞恩霍夫爾協會 編碼器、解碼器、殘差信號產生器、編碼系統、解碼方法、產生殘差信號之方法、以及相關電腦可讀媒體與電腦程式
US9830920B2 (en) 2012-08-19 2017-11-28 The Regents Of The University Of California Method and apparatus for polyphonic audio signal prediction in coding and networking systems
US9406307B2 (en) * 2012-08-19 2016-08-02 The Regents Of The University Of California Method and apparatus for polyphonic audio signal prediction in coding and networking systems
WO2014068817A1 (ja) * 2012-10-31 2014-05-08 パナソニック株式会社 オーディオ信号符号化装置及びオーディオ信号復号装置
JP6173484B2 (ja) 2013-01-08 2017-08-02 ドルビー・インターナショナル・アーベー 臨界サンプリングされたフィルタバンクにおけるモデル・ベースの予測
US9336791B2 (en) * 2013-01-24 2016-05-10 Google Inc. Rearrangement and rate allocation for compressing multichannel audio
JP6158352B2 (ja) 2013-01-29 2017-07-05 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 知覚的な変換オーディオ符号化におけるノイズフィリング
WO2014118171A1 (en) 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low-complexity tonality-adaptive audio signal quantization
RU2648953C2 (ru) * 2013-01-29 2018-03-28 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Наполнение шумом без побочной информации для celp-подобных кодеров
CN110047500B (zh) * 2013-01-29 2023-09-05 弗劳恩霍夫应用研究促进协会 音频编码器、音频译码器及其方法
JP6096934B2 (ja) * 2013-01-29 2017-03-15 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 周波数拡張されたオーディオ信号を生成するためのデコーダ、復号化方法、符号化された信号を生成するためのエンコーダ、およびコンパクトな選択サイド情報を使用する符号化方法
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
JP6073456B2 (ja) * 2013-02-22 2017-02-01 三菱電機株式会社 音声強調装置
JP6089878B2 (ja) 2013-03-28 2017-03-08 富士通株式会社 直交変換装置、直交変換方法及び直交変換用コンピュータプログラムならびにオーディオ復号装置
CN108269586B (zh) 2013-04-05 2022-04-05 杜比实验室特许公司 使用高级频谱延拓降低量化噪声的压扩装置和方法
EP2981958B1 (en) 2013-04-05 2018-03-07 Dolby International AB Audio encoder and decoder
TWI557727B (zh) 2013-04-05 2016-11-11 杜比國際公司 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品
CN116741188A (zh) * 2013-04-05 2023-09-12 杜比国际公司 立体声音频编码器和解码器
ES2628127T3 (es) 2013-04-05 2017-08-01 Dolby International Ab Cuantificador avanzado
RU2625444C2 (ru) 2013-04-05 2017-07-13 Долби Интернэшнл Аб Система обработки аудио
CN104103276B (zh) * 2013-04-12 2017-04-12 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
US20140328406A1 (en) 2013-05-01 2014-11-06 Raymond John Westwater Method and Apparatus to Perform Optimal Visually-Weighed Quantization of Time-Varying Visual Sequences in Transform Space
EP2830058A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
EP2830054A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework
BR112016004299B1 (pt) 2013-08-28 2022-05-17 Dolby Laboratories Licensing Corporation Método, aparelho e meio de armazenamento legível por computador para melhora de fala codificada paramétrica e codificada com forma de onda híbrida
US10332527B2 (en) 2013-09-05 2019-06-25 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding audio signal
TWI579831B (zh) * 2013-09-12 2017-04-21 杜比國際公司 用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統
US9875746B2 (en) 2013-09-19 2018-01-23 Sony Corporation Encoding device and method, decoding device and method, and program
FR3011408A1 (fr) * 2013-09-30 2015-04-03 Orange Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard
RU2750644C2 (ru) * 2013-10-18 2021-06-30 Телефонактиеболагет Л М Эрикссон (Пабл) Кодирование и декодирование положений спектральных пиков
CA2928882C (en) * 2013-11-13 2018-08-14 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Encoder for encoding an audio signal, audio transmission system and method for determining correction values
FR3013496A1 (fr) * 2013-11-15 2015-05-22 Orange Transition d'un codage/decodage par transformee vers un codage/decodage predictif
KR102251833B1 (ko) 2013-12-16 2021-05-13 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
CA3162763C (en) 2013-12-27 2025-07-08 Sony Corporation DECODING APPARATUS, METHOD AND PROGRAM
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
KR102386738B1 (ko) * 2014-02-17 2022-04-14 삼성전자주식회사 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
CN103761969B (zh) * 2014-02-20 2016-09-14 武汉大学 基于高斯混合模型的感知域音频编码方法及系统
JP6289936B2 (ja) * 2014-02-26 2018-03-07 株式会社東芝 音源方向推定装置、音源方向推定方法およびプログラム
EP4325488A3 (en) * 2014-02-28 2024-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoding device, encoding device, decoding method, encoding method, terminal device, and base station device
EP2916319A1 (en) 2014-03-07 2015-09-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding of information
KR101826237B1 (ko) * 2014-03-24 2018-02-13 니폰 덴신 덴와 가부시끼가이샤 부호화 방법, 부호화 장치, 프로그램 및 기록 매체
ES2901749T3 (es) * 2014-04-24 2022-03-23 Nippon Telegraph & Telephone Método de descodificación, aparato de descodificación, programa y soporte de registro correspondientes
KR101837153B1 (ko) * 2014-05-01 2018-03-09 니폰 덴신 덴와 가부시끼가이샤 주기성 통합 포락 계열 생성 장치, 주기성 통합 포락 계열 생성 방법, 주기성 통합 포락 계열 생성 프로그램, 기록매체
GB2526128A (en) * 2014-05-15 2015-11-18 Nokia Technologies Oy Audio codec mode selector
CN105225671B (zh) 2014-06-26 2016-10-26 华为技术有限公司 编解码方法、装置及系统
CN110556120B (zh) * 2014-06-27 2023-02-28 杜比国际公司 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
CN104077505A (zh) * 2014-07-16 2014-10-01 苏州博联科技有限公司 一种提高16Kbps码率音频数据压缩编码音质方法
RU2669706C2 (ru) 2014-07-25 2018-10-15 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство кодирования аудиосигнала, устройство декодирования аудиосигнала, способ кодирования аудиосигнала и способ декодирования аудиосигнала
EP2980798A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
EP2980801A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
EP2980799A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal using a harmonic post-filter
JP6411509B2 (ja) * 2014-07-28 2018-10-24 日本電信電話株式会社 符号化方法、装置、プログラム及び記録媒体
PL3000110T3 (pl) * 2014-07-28 2017-05-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Wybór jednego spośród pierwszego algorytmu kodowania i drugiego algorytmu kodowania z zastosowaniem redukcji harmonicznych
FR3024581A1 (fr) * 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
CN104269173B (zh) * 2014-09-30 2018-03-13 武汉大学深圳研究院 切换模式的音频带宽扩展装置与方法
KR102128330B1 (ko) 2014-11-24 2020-06-30 삼성전자주식회사 신호 처리 장치, 신호 복원 장치, 신호 처리 방법, 및 신호 복원 방법
US9659578B2 (en) * 2014-11-27 2017-05-23 Tata Consultancy Services Ltd. Computer implemented system and method for identifying significant speech frames within speech signals
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
EP3067887A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
TWI758146B (zh) 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
US10553228B2 (en) * 2015-04-07 2020-02-04 Dolby International Ab Audio coding with range extension
EP3079151A1 (en) * 2015-04-09 2016-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and method for encoding an audio signal
KR102061300B1 (ko) * 2015-04-13 2020-02-11 니폰 덴신 덴와 가부시끼가이샤 선형 예측 부호화 장치, 선형 예측 복호 장치, 이들의 방법, 프로그램 및 기록 매체
EP3107096A1 (en) 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downscaled decoding
US10134412B2 (en) * 2015-09-03 2018-11-20 Shure Acquisition Holdings, Inc. Multiresolution coding and modulation system
US10573324B2 (en) 2016-02-24 2020-02-25 Dolby International Ab Method and system for bit reservoir control in case of varying metadata
FR3049084B1 (fr) * 2016-03-15 2022-11-11 Fraunhofer Ges Forschung Dispositif de codage pour le traitement d'un signal d'entree et dispositif de decodage pour le traitement d'un signal code
US20200411021A1 (en) * 2016-03-31 2020-12-31 Sony Corporation Information processing apparatus and information processing method
CN109416913B (zh) * 2016-05-10 2024-03-15 易默森服务有限责任公司 自适应音频编解码系统、方法、装置及介质
US10742231B2 (en) * 2016-05-24 2020-08-11 Sony Corporation Compression/encoding apparatus and method, decoding apparatus and method, and program
CN109328382B (zh) * 2016-06-22 2023-06-16 杜比国际公司 用于将数字音频信号从第一频域变换到第二频域的音频解码器及方法
JP7123911B2 (ja) * 2016-09-09 2022-08-23 ディーティーエス・インコーポレイテッド オーディオコーデックにおける長期予測のためのシステム及び方法
US10217468B2 (en) 2017-01-19 2019-02-26 Qualcomm Incorporated Coding of multiple audio signals
US10573326B2 (en) * 2017-04-05 2020-02-25 Qualcomm Incorporated Inter-channel bandwidth extension
US10734001B2 (en) * 2017-10-05 2020-08-04 Qualcomm Incorporated Encoding or decoding of audio signals
WO2019091573A1 (en) * 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
SG11202004389VA (en) 2017-11-17 2020-06-29 Fraunhofer Ges Forschung Apparatus and method for encoding or decoding directional audio coding parameters using quantization and entropy coding
FR3075540A1 (fr) * 2017-12-15 2019-06-21 Orange Procedes et dispositifs de codage et de decodage d'une sequence video multi-vues representative d'une video omnidirectionnelle.
KR102697685B1 (ko) * 2017-12-19 2024-08-23 돌비 인터네셔널 에이비 통합 음성 및 오디오 디코딩 및 인코딩 qmf 기반 고조파 트랜스포저 개선을 위한 방법, 장치 및 시스템
WO2019145955A1 (en) 2018-01-26 2019-08-01 Hadasit Medical Research Services & Development Limited Non-metallic magnetic resonance contrast agent
CN118782077A (zh) 2018-04-25 2024-10-15 杜比国际公司 高频音频重建技术的集成
IL313348B2 (en) 2018-04-25 2025-08-01 Dolby Int Ab Integration of high frequency reconstruction techniques with reduced post-processing delay
US10565973B2 (en) * 2018-06-06 2020-02-18 Home Box Office, Inc. Audio waveform display using mapping function
EP3813064B1 (en) * 2018-06-21 2025-04-09 Sony Group Corporation Audio encoder, audio encoding method, and computer program
MY206514A (en) 2018-07-04 2024-12-19 Fraunhofer Ges Zur Frderung Der Angewandten Forschung E V Multisignal audio coding using signal whitening as preprocessing
CN109215670B (zh) * 2018-09-21 2021-01-29 西安蜂语信息科技有限公司 音频数据的传输方法、装置、计算机设备和存储介质
JP7167335B2 (ja) * 2018-10-29 2022-11-08 ドルビー・インターナショナル・アーベー 生成モデルを用いたレート品質スケーラブル符号化のための方法及び装置
CN111383646B (zh) 2018-12-28 2020-12-08 广州市百果园信息技术有限公司 一种语音信号变换方法、装置、设备和存储介质
US10645386B1 (en) 2019-01-03 2020-05-05 Sony Corporation Embedded codec circuitry for multiple reconstruction points based quantization
KR102664768B1 (ko) * 2019-01-13 2024-05-17 후아웨이 테크놀러지 컴퍼니 리미티드 고해상도 오디오 코딩
EP3929918A4 (en) * 2019-02-19 2023-05-10 Akita Prefectural University METHOD OF CODING ACOUSTIC SIGNALS, METHOD OF DECODING ACOUSTIC SIGNALS, PROGRAM, CODING DEVICE, ACOUSTIC SYSTEM AND COMPLEXION DEVICE
JP7307805B2 (ja) * 2019-02-21 2023-07-12 テレフオンアクチーボラゲット エルエム エリクソン(パブル) 周波数領域パケットロス補償のための方法、および関連デコーダ
WO2020253941A1 (en) 2019-06-17 2020-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs
CN110428841B (zh) * 2019-07-16 2021-09-28 河海大学 一种基于不定长均值的声纹动态特征提取方法
US11380343B2 (en) * 2019-09-12 2022-07-05 Immersion Networks, Inc. Systems and methods for processing high frequency audio signal
JP7638990B2 (ja) * 2019-11-27 2025-03-04 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 音声符号化のための周波数領域における階調信号の長期予測のための符号化器、復号化器、符号化方法及び復号化方法
CN113129910B (zh) 2019-12-31 2024-07-30 华为技术有限公司 音频信号的编解码方法和编解码装置
CN113129913B (zh) * 2019-12-31 2024-05-03 华为技术有限公司 音频信号的编解码方法和编解码装置
CN112002338B (zh) * 2020-09-01 2024-06-21 北京百瑞互联技术股份有限公司 一种优化音频编码量化次数的方法及系统
ES3025975T3 (en) * 2020-10-15 2025-06-10 Dolby Laboratories Licensing Corp Method and apparatus for processing of audio using a neural network
CN112289327B (zh) * 2020-10-29 2024-06-14 北京百瑞互联技术股份有限公司 一种lc3音频编码器后置残差优化方法、装置和介质
US12424227B2 (en) * 2020-11-05 2025-09-23 Nippon Telegraph And Telephone Corporation Sound signal refinement method, sound signal decode method, apparatus thereof, program, and storage medium
CN112599139B (zh) * 2020-12-24 2023-11-24 维沃移动通信有限公司 编码方法、装置、电子设备及存储介质
CN115472171B (zh) * 2021-06-11 2024-11-22 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序
CN113436607B (zh) * 2021-06-12 2024-04-09 西安工业大学 一种快速语音克隆方法
BE1029638B1 (nl) * 2021-07-30 2023-02-27 Areal Werkwijze voor het verwerken van een audiosignaal
CN114189410B (zh) * 2021-12-13 2024-05-17 深圳市日声数码科技有限公司 一种车载数码广播音频接收系统
KR20240068719A (ko) * 2021-12-21 2024-05-17 후아웨이 테크놀러지 컴퍼니 리미티드 가우시안 혼합 모델 엔트로피 코딩
CN115604614B (zh) * 2022-12-15 2023-03-31 成都海普迪科技有限公司 采用吊装麦克风进行本地扩声和远程互动的系统和方法
US12469506B2 (en) * 2023-06-13 2025-11-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for audio decoding supporting two spectral band replication modes
CN119360868B (zh) * 2024-09-11 2025-12-09 北京达佳互联信息技术有限公司 语音信号处理方法、装置、电子设备及存储介质
CN120236600B (zh) * 2025-05-29 2025-08-08 大连海事大学 一种基于模型与数据混合驱动的毫米波语音信号处理方法及系统
CN120783775B (zh) * 2025-09-08 2025-12-09 科大讯飞股份有限公司 音频编解码方法、电子设备及程序产品

Family Cites Families (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5936280B2 (ja) * 1982-11-22 1984-09-03 日本電信電話株式会社 音声の適応変換符号化方式
JP2523286B2 (ja) * 1986-08-01 1996-08-07 日本電信電話株式会社 音声符号化及び復号化方法
SE469764B (sv) * 1992-01-27 1993-09-06 Ericsson Telefon Ab L M Saett att koda en samplad talsignalvektor
BE1007617A3 (nl) 1993-10-11 1995-08-22 Philips Electronics Nv Transmissiesysteem met gebruik van verschillende codeerprincipes.
US5684920A (en) * 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
CA2121667A1 (en) * 1994-04-19 1995-10-20 Jean-Pierre Adoul Differential-transform-coded excitation for speech and audio coding
FR2729245B1 (fr) * 1995-01-06 1997-04-11 Lamblin Claude Procede de codage de parole a prediction lineaire et excitation par codes algebriques
US5754733A (en) * 1995-08-01 1998-05-19 Qualcomm Incorporated Method and apparatus for generating and encoding line spectral square roots
EP0764939B1 (en) * 1995-09-19 2002-05-02 AT&T Corp. Synthesis of speech signals in the absence of coded parameters
US5790759A (en) * 1995-09-19 1998-08-04 Lucent Technologies Inc. Perceptual noise masking measure based on synthesis filter frequency response
TW321810B (es) 1995-10-26 1997-12-01 Sony Co Ltd
JPH09127998A (ja) * 1995-10-26 1997-05-16 Sony Corp 信号量子化方法及び信号符号化装置
JP3246715B2 (ja) * 1996-07-01 2002-01-15 松下電器産業株式会社 オーディオ信号圧縮方法,およびオーディオ信号圧縮装置
JP3707153B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
FI114248B (fi) * 1997-03-14 2004-09-15 Nokia Corp Menetelmä ja laite audiokoodaukseen ja audiodekoodaukseen
JP3684751B2 (ja) * 1997-03-28 2005-08-17 ソニー株式会社 信号符号化方法及び装置
IL120788A (en) * 1997-05-06 2000-07-16 Audiocodes Ltd Systems and methods for encoding and decoding speech for lossy transmission networks
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
JP3263347B2 (ja) * 1997-09-20 2002-03-04 松下電送システム株式会社 音声符号化装置及び音声符号化におけるピッチ予測方法
US6012025A (en) * 1998-01-28 2000-01-04 Nokia Mobile Phones Limited Audio coding method and apparatus using backward adaptive prediction
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
JP4281131B2 (ja) * 1998-10-22 2009-06-17 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
FI116992B (fi) * 1999-07-05 2006-04-28 Nokia Corp Menetelmät, järjestelmä ja laitteet audiosignaalin koodauksen ja siirron tehostamiseksi
JP2001142499A (ja) * 1999-11-10 2001-05-25 Nec Corp 音声符号化装置ならびに音声復号化装置
US7058570B1 (en) * 2000-02-10 2006-06-06 Matsushita Electric Industrial Co., Ltd. Computer-implemented method and apparatus for audio data hiding
TW496010B (en) * 2000-03-23 2002-07-21 Sanyo Electric Co Solid high molcular type fuel battery
US20020040299A1 (en) * 2000-07-31 2002-04-04 Kenichi Makino Apparatus and method for performing orthogonal transform, apparatus and method for performing inverse orthogonal transform, apparatus and method for performing transform encoding, and apparatus and method for encoding data
SE0004163D0 (sv) * 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
KR100378796B1 (ko) * 2001-04-03 2003-04-03 엘지전자 주식회사 디지탈 오디오 부호화기 및 복호화 방법
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6879955B2 (en) * 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
DE60202881T2 (de) * 2001-11-29 2006-01-19 Coding Technologies Ab Wiederherstellung von hochfrequenzkomponenten
US7460993B2 (en) * 2001-12-14 2008-12-02 Microsoft Corporation Adaptive window-size selection in transform coding
US20030215013A1 (en) * 2002-04-10 2003-11-20 Budnikov Dmitry N. Audio encoder with adaptive short window grouping
JP4649208B2 (ja) * 2002-07-16 2011-03-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオコーディング
US7536305B2 (en) * 2002-09-04 2009-05-19 Microsoft Corporation Mixed lossless audio compression
JP4191503B2 (ja) 2003-02-13 2008-12-03 日本電信電話株式会社 音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム
CN1458646A (zh) * 2003-04-21 2003-11-26 北京阜国数字技术有限公司 一种滤波参数矢量量化和结合量化模型预测的音频编码方法
DE602004004950T2 (de) * 2003-07-09 2007-10-31 Samsung Electronics Co., Ltd., Suwon Vorrichtung und Verfahren zum bitraten-skalierbaren Sprachkodieren und -dekodieren
WO2005043511A1 (en) * 2003-10-30 2005-05-12 Koninklijke Philips Electronics N.V. Audio signal encoding or decoding
DE102004009955B3 (de) 2004-03-01 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln einer Quantisierer-Schrittweite
CN1677491A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
DE602004025517D1 (de) * 2004-05-17 2010-03-25 Nokia Corp Audiocodierung mit verschiedenen codierungsrahmenlängen
WO2006008817A1 (ja) 2004-07-22 2006-01-26 Fujitsu Limited オーディオ符号化装置及びオーディオ符号化方法
DE102005032724B4 (de) * 2005-07-13 2009-10-08 Siemens Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US8326638B2 (en) * 2005-11-04 2012-12-04 Nokia Corporation Audio compression
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
JP4658853B2 (ja) 2006-04-13 2011-03-23 日本電信電話株式会社 適応ブロック長符号化装置、その方法、プログラム及び記録媒体
US7610195B2 (en) * 2006-06-01 2009-10-27 Nokia Corporation Decoding of predictively coded data using buffer adaptation
KR20070115637A (ko) * 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
BRPI0709310B1 (pt) * 2006-10-25 2019-11-05 Fraunhofer Ges Zur Foeerderung Der Angewandten Forschung E V equipamento e método para a geração de valores de sub-banda de áudio e equipamento e método para a geração de amostras de áudio no domínio do tempo
KR101565919B1 (ko) * 2006-11-17 2015-11-05 삼성전자주식회사 고주파수 신호 부호화 및 복호화 방법 및 장치
MX2009006201A (es) * 2006-12-12 2009-06-22 Fraunhofer Ges Forschung Codificador, decodificador y metodos para codificar y decodificar segmentos de datos que representan una corriente de datos del dominio temporal.
US8630863B2 (en) * 2007-04-24 2014-01-14 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding audio/speech signal
KR101411901B1 (ko) * 2007-06-12 2014-06-26 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
ATE518224T1 (de) * 2008-01-04 2011-08-15 Dolby Int Ab Audiokodierer und -dekodierer
BRPI0915450B1 (pt) * 2008-07-10 2020-03-10 Voiceage Corporation Dispositivo e método para quantizar e quantizar inversamente filtros de lpc em um superquadro
CN102089814B (zh) * 2008-07-11 2012-11-21 弗劳恩霍夫应用研究促进协会 对编码的音频信号进行解码的设备和方法
EP2146344B1 (en) * 2008-07-17 2016-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding/decoding scheme having a switchable bypass

Also Published As

Publication number Publication date
US8924201B2 (en) 2014-12-30
EP2573765A3 (en) 2017-05-31
CA2960862C (en) 2020-05-05
EP4414982A2 (en) 2024-08-14
ATE518224T1 (de) 2011-08-15
EP2077550B1 (en) 2011-07-27
BRPI0822236B1 (pt) 2020-02-04
EP2235719B1 (en) 2018-05-30
CA2709974A1 (en) 2009-07-16
CN103065637B (zh) 2015-02-04
US8484019B2 (en) 2013-07-09
US20100286990A1 (en) 2010-11-11
BRPI0822236A2 (pt) 2015-06-30
DE602008005250D1 (de) 2011-04-14
CA3076068A1 (en) 2009-07-16
WO2009086919A1 (en) 2009-07-16
EP2077551B1 (en) 2011-03-02
RU2012120850A (ru) 2013-12-10
CN103065637A (zh) 2013-04-24
JP2011509426A (ja) 2011-03-24
EP2077550B8 (en) 2012-03-14
KR101202163B1 (ko) 2012-11-15
JP2011510335A (ja) 2011-03-31
EP2235719A1 (en) 2010-10-06
CA2960862A1 (en) 2009-07-16
RU2562375C2 (ru) 2015-09-10
CA2709974C (en) 2017-04-11
RU2010132643A (ru) 2012-02-10
CN101925950A (zh) 2010-12-22
US20130282383A1 (en) 2013-10-24
EP2077551A1 (en) 2009-07-08
AU2008346515B2 (en) 2012-04-12
JP5350393B2 (ja) 2013-11-27
KR20100106564A (ko) 2010-10-01
EP4414982A3 (en) 2024-10-02
KR101196620B1 (ko) 2012-11-02
CN101939781A (zh) 2011-01-05
AU2008346515A1 (en) 2009-07-16
RU2456682C2 (ru) 2012-07-20
RU2696292C2 (ru) 2019-08-01
EP4414981A2 (en) 2024-08-14
RU2015118725A (ru) 2016-12-10
JP5624192B2 (ja) 2014-11-12
EP2077550A1 (en) 2009-07-08
JP5356406B2 (ja) 2013-12-04
ATE500588T1 (de) 2011-03-15
EP2573765A2 (en) 2013-03-27
CN101939781B (zh) 2013-01-23
EP4414981A3 (en) 2024-10-02
MX2010007326A (es) 2010-08-13
US8938387B2 (en) 2015-01-20
RU2015118725A3 (es) 2019-02-07
US8494863B2 (en) 2013-07-23
CN101925950B (zh) 2013-10-02
US20130282382A1 (en) 2013-10-24
US20100286991A1 (en) 2010-11-11
EP2573765B1 (en) 2024-06-26
KR20100105745A (ko) 2010-09-29
CA3076068C (en) 2023-04-04
JP2014016625A (ja) 2014-01-30
ES2677900T3 (es) 2018-08-07
CA3190951A1 (en) 2009-07-16
WO2009086918A1 (en) 2009-07-16

Similar Documents

Publication Publication Date Title
ES2983192T3 (es) Codificador y decodificador de audio
ES2665599T3 (es) Codificador y descodificador de audio
ES2959240T3 (es) Codificador de audio, decodificador de audio, método para proporcionar una información de audio codificada, método para proporcionar una información de audio decodificada, programa informático y representación codificada utilizando una ampliación de ancho de banda adaptada a la señal
ES2628127T3 (es) Cuantificador avanzado
ES3044658T3 (en) Device for quantization of linear prediction coefficient
AU2012201692B2 (en) Audio Encoder and Decoder
RU2793725C2 (ru) Аудиокодер и декодер
HK40113560A (en) Audio encoder and decoder
HK40114881A (en) Audio encoder and decoder
HK1177316B (en) Audio encoder and decoder
HK1177316A (en) Audio encoder and decoder
HK1147592A (en) Audio encoder and decoder
HK1147592B (en) Audio encoder and decoder
HK1240699A1 (en) Advanced quantizer