ES2432625T3 - Cálculo de máscara de escalamiento selectiva basado en detección de picos - Google Patents

Cálculo de máscara de escalamiento selectiva basado en detección de picos Download PDF

Info

Publication number
ES2432625T3
ES2432625T3 ES09799786T ES09799786T ES2432625T3 ES 2432625 T3 ES2432625 T3 ES 2432625T3 ES 09799786 T ES09799786 T ES 09799786T ES 09799786 T ES09799786 T ES 09799786T ES 2432625 T3 ES2432625 T3 ES 2432625T3
Authority
ES
Spain
Prior art keywords
audio signal
gain
vector
signal
series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES09799786T
Other languages
English (en)
Inventor
James P. Ashley
Udar Mittal
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Mobility LLC
Original Assignee
Motorola Mobility LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Mobility LLC filed Critical Motorola Mobility LLC
Application granted granted Critical
Publication of ES2432625T3 publication Critical patent/ES2432625T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Un aparato operativo para codificar una señal de audio, comprendiendo el aparato: un selector de ganancia de un generador de vectores de ganancia de un codificador de la capa de mejora que detecta un conjunto de picos en un vector de audio reconstruido S de una señal de audio recibida, genera una máscara de escalamiento ψ (S) basada en el conjunto de picos detectados. una unidad de escalamiento del generador del vector de ganancia, que genera un vector de ganancia g* en base a por lo menos la máscara de escamiento y el indice j representativo del vector de ganancia, escala el vector de audio reconstruido S con el vector de ganancia para producir una señal de audio reconstruida escalada; un generador de señal de error del generador de vectores de ganancia que genera una distorsión en base a la señal de audio y a la señal de audio reconstruida escalada; y un transmisor del codificador de la capa de mejora que emite el indice del vector de ganacia basado en la distorsión generada.

Description

Cálculo de máscara de escalamiento selectiva basado en detección de picos.
Referencia a solicitudes relacionadas
La presente invención está relacionada con las siguientes solicitudes de patente europea, que junto con esta solicitud son propiedad de Motorola Mobility, Inc.:
Solicitud EP 2 382 621 A0, titulada "METHOD AND APPARATUS FOR GENERATING AN ENHANCEMENT LAYER WITHIN A MULTIPLE-CHANNEL AUDIO CODING SYSTEM";
Solicitud EP 2 382 622 A0, titulada "METHOD AND APPARATUS FOR GENERATING AN ENHANCEMENT LAYER WITHIN A MULTIPLE-CHANNEL AUDIO CODING SYSTEM"; y
Solicitud EP 2 382 626 A0, titulada "SELECTIVE SCALING MASK COMPUTATION BASED ON PEAK DETECTION".
Campo de la descripción
La presente descripción se refiere en general a sistemas de comunicación y, más en particular, a codificación de voz y señales de audio en dichos sistemas de comunicación.
Antecedentes
La compresión de señales de audio y de voz digital es bien conocida. Generalmente, se requiere compresión para transmitir eficientemente señales sobre un canal de comunicaciones, o para almacenar señales comprimidas en un dispositivo multimedia digital, tal como un dispositivo de memoria de estado sólido o un disco duro de ordenador. Si bien existen muchas técnicas de compresión (o "codificación"), un método que ha seguido siendo muy popular para la codificación digital de la voz se conoce como predicción lineal con excitación por código (CELP, Code Excited Linear Prediction), que es uno de la familia de algoritmos de codificación de "análisis por síntesis". Análisis por síntesis se refiere, en general, a un proceso de codificación mediante el que se utilizan múltiples parámetros de un modelo digital para sintetizar un conjunto de señales candidatas que se comparan con una señal de entrada y cuya distorsión se analiza. A continuación, un conjunto de parámetros que proporciona la mínima distorsión es transmitido
o bien almacenado, y eventualmente utilizado para reconstruir una estimación de la señal de entrada original. CELP es un método particular de análisis por síntesis que utiliza uno o varios libros de códigos, cada uno de los cuales comprende esencialmente conjuntos de vectores de código que se recuperan del libro de códigos en respuesta a un índice del libro de códigos.
En los codificadores CELP actuales, existe un problema para mantener la reproducción de voz y audio de alta calidad a velocidades de datos razonablemente bajas. Esto es especialmente cierto para música u otras señales de audio genéricas que no encajan demasiado bien en el modelo de voz CELP. En este caso, el desajuste del modelo puede causar una calidad de audio severamente degradada que puede ser inaceptable para un usuario final del equipo que utiliza dichos métodos. Por lo tanto, sigue existiendo la necesidad de mejorar el comportamiento de los codificadores de voz de tipo CELP a bajas velocidades binarias, especialmente para música y otras entradas no de tipo voz.
Un documento de la técnica anterior en el campo de la codificación de voz/audio es el de Ramprashad S A: "A two stage hybrid embedded speech/ audio coding structure" ACOUSTICS, SPEECH AND SIGNAL PROCESSING, 1998. PROCEEDINGS OF THE 1998 IEEE INTERNATIONAL CONFERENCE ON SEATTLE, WA, USA, 12 a 15 de mayo de 1998, Nueva York, NY, USA, IEEE, US, volumen 1, 12 de mayo de 1998 (), páginas 337 a 340, XP010279163 ISBN: 978-0-7803-4428-0.
Los objetivos anteriores se resuelven mediante las reivindicaciones de la presente invención.
Breve descripción de los dibujos
Las figuras adjuntas, en las que los números de referencia iguales se refieren a elementos idéntica o funcionalmente similares en la totalidad de las diferentes vistas, junto con la siguiente descripción detallada se incorporan a la especificación y forman parte de la misma, y sirven para mostrar diversas realizaciones de conceptos que incluyen la invención reivindicada, y para explicar diversos principios y ventajas de estas realizaciones.
La figura 1 es un diagrama de bloques de un sistema de compresión de voz/audio integrado de la técnica anterior.
La figura 2 es un ejemplo más detallado del codificador de la capa de mejora de la figura 1.
La figura 3 es un ejemplo más detallado del codificador de la capa de mejora de la figura 1.
La figura 4 es un diagrama de bloques de un codificador y un descodificador de la capa de mejora.
La figura 5 es un diagrama de bloques de un sistema de codificación integrado multicapa.
La figura 6 es un diagrama de bloques del codificador y el descodificador de la capa 4.
La figura 7 es un diagrama de flujo que muestra el funcionamiento de los codificadores de la figura 4 y la figura 6.
La figura 8 es un diagrama de bloques de un sistema de compresión de voz/audio integrado de la técnica anterior.
La figura 9 es un ejemplo más detallado del codificador de la capa de mejora de la figura 8.
La figura 10 es un diagrama de bloques de un codificador y un descodificador de la capa de mejora, de acuerdo con diversas realizaciones.
La figura 11 es un diagrama de bloques de un codificador y un descodificador de la capa de mejora, de acuerdo con diversas realizaciones.
La figura 12 es un diagrama de flujo de la codificación de la señal de audio de múltiples canales, de acuerdo con diversas realizaciones.
La figura 13 es un diagrama de flujo de la codificación de la señal de audio de múltiples canales, de acuerdo con diversas realizaciones.
La figura 14 es un diagrama de flujo de la descodificación de una señal de audio de múltiples canales, de acuerdo con diversas realizaciones.
La figura 15 es un gráfico de frecuencias de detección de pico basada en generación de máscaras, de acuerdo con diversas realizaciones.
La figura 16 es un gráfico de frecuencias del escalamiento de la capa central utilizando generación de máscaras de pico, de acuerdo con diversas realizaciones.
Las figuras 17 a 19 son diagramas de flujo que muestran metodología para codificación y descodificación utilizando generación de máscaras basada en detección de picos, de acuerdo con diversas realizaciones.
Los técnicos cualificados apreciarán que los elementos de las figuras se muestran por simplicidad y claridad y no necesariamente han sido dibujados a escala. Por ejemplo, las dimensiones de algunos de los elementos de las figuras pueden estar exageradas con respecto a otros elementos para ayudar a mejorar la comprensión de diversas realizaciones. Además, la descripción y los dibujos no necesariamente requieren el orden mostrado. Se apreciará además que ciertas acciones y/o etapas pueden estar descritas o representadas en un orden de ocurrencia específico, si bien los expertos en la materia comprenderán que dicha especificidad con respecto a la secuencia no es realmente necesaria. Los componentes de aparatos y métodos han sido representados en su caso mediante símbolos convencionales en los dibujos, mostrando solamente aquellos detalles específicos que son pertinentes para la comprensión de las diversas realizaciones, de manera que no se oscurezca la descripción con detalles que resultarán evidentes para los expertos en la materia en beneficio de la descripción del presente documento. Por lo tanto, se apreciará que para mayor simplicidad y claridad de la ilustración, los elementos comunes y bien conocidos que son útiles o necesarios en una realización comercialmente factible pueden no estar representados a efectos de facilitar una visión más clara de estas diversas realizaciones.
Descripción detallada
Para solucionar la necesidad mencionada anteriormente, se describen en la presente memoria un método y un aparato para generar una capa de mejora del sistema de codificación de audio. En funcionamiento, una señal de entrada a codificar es recibida y codificada para producir una señal de audio codificada. A continuación, la señal de audio codificada es escalada con una serie de valores de ganancia para producir una serie de señales de audio codificadas escaladas, que tienen cada una un valor de ganancia asociado y se determinan una serie de valores de error existentes entre la señal de entrada y cada una de dicha serie de señales de audio codificadas escaladas. A continuación, se escoge un valor de ganancia que está asociado con una señal de audio codificada escalada dando como resultado un valor de error bajo, existente entre la señal de entrada y la señal de audio codificada escalada. Finalmente, el valor de error bajo es transmitido junto con el valor de ganancia como parte de una capa de mejora, a la señal de audio codificada.
En la figura 1 se muestra un sistema de compresión de voz/audio integrado de la técnica anterior. El audio de entrada s(n) es procesado en primer lugar mediante un codificador 120 de la capa central, que para esta finalidad puede ser un algoritmo de codificación de voz de tipo CELP. El flujo de bits codificado es transmitido al canal 125, siendo asimismo introducido a un descodificador 115 de la capa central, en el que se genera la señal de audio central sc(n) reconstruida. A continuación, se utiliza el codificador 120 de la capa de mejora para codificar información adicional en base a cierta comparación de las señales s(n) y sc(n), y pueden utilizarse opcionalmente parámetros procedentes del descodificador 115 de la capa central. Tal como en el descodificador 115 de la capa central, el descodificador 130 de la capa central transforma parámetros del flujo de bits de la capa central en una
señal de audio de la capa central ŝc(n). El descodificador 135 de la capa de mejora utiliza a continuación el flujo de bits de la capa de mejora procedente del canal 125 y la señal ŝc(n) para producir la señal de salida de audio mejorada ŝ(n).
La ventaja principal de dicho sistema de codificación integrado es que un canal particular 125 puede no ser capaz de
5 soportar sistemáticamente el requisito de ancho de banda asociado con algoritmos de codificación de audio de alta calidad. Sin embargo, un codificador integrado permite que se reciba un flujo de bits parcial (por ejemplo, solamente el flujo de bits de la capa central) desde el canal 125 para producir, por ejemplo, solamente el audio de salida central cuando el flujo de bits de la capa de mejora se ha perdido o está corrupto. Sin embargo, existen compromisos en la calidad entre codificadores integrados frente a no integrados, y asimismo entre diferentes objetivos de optimización de codificación integrada. Es decir, la codificación de la capa de mejora de alta calidad puede ayudar a conseguir un mejor equilibrio entre las capas central y de mejora, y asimismo a reducir la velocidad de datos global para unas mejores características de transmisión (por ejemplo, congestión reducida), lo que puede tener como resultado menores tasas de error de paquete para las capas de mejora.
En la figura 2 se proporciona un ejemplo más detallado de un codificador 120 de la capa de mejora de la técnica
15 anterior. En este caso, el generador 210 de la señal de error se compone de una señal diferencial ponderada que se transforma al dominio de la transformada de coseno discreta modificada (MDCT, Modified Discrete Cosine Transform) para su procesamiento por el codificador 220 de señal de error. La señal de error E está dada como:
donde W es una matriz de ponderación perceptual basada en coeficientes de filtrado de predicción lineal (LP, Linear Prediction) procedentes del descodificador 115 de la capa central, s es un vector (es decir, una trama) de muestras de la señal de audio de entrada s(n), y sc es el correspondiente vector de muestras del descodificador 115 de la capa central. En la Recomendación G.729.1 de ITU-T se describe un proceso MDCT a modo de ejemplo. A continuación, la señal de error E es procesada mediante el codificador 220 de la señal de error para producir la palabra de código iE, que a continuación es transmitida al canal 125. Para este ejemplo, es importante observar que
25 el codificador 120 de la señal de error recibe solamente una señal de error E y emite una palabra de código asociada iE. El motivo para esto resultará evidente más adelante.
A continuación, el descodificador 135 de la capa de mejora recibe el flujo de bits codificado procedente del canal 125 y desmultiplexa adecuadamente el flujo de bits para producir la palabra de código iE. El descodificador 230 de la señal de error utiliza la palabra de código iE para reconstruir la señal de error de la capa de mejora Ê, que a continuación se combina como sigue mediante el combinador 240 de señales con la señal de audio de salida de la capa central ŝc(n), para producir la señal de salida de audio mejorada ŝ(n):
donde MDCT-1 es la MDCT inversa (incluyendo solapamiento y suma), y W-1 es la matriz de ponderación perceptual inversa.
35 En la figura 3 se muestra otro ejemplo de un codificador de la capa de mejora. En este caso, la generación de la señal de error E mediante el generador 315 de la señal de error involucra pre-escalamiento adaptativo, en el que se lleva a cabo alguna modificación sobre la salida de audio de la capa central sc(n). Este proceso tiene como resultado cierto número de bits a generar, que se muestran en el codificador 120 de la capa de mejora como palabra de código is.
Adicionalmente, el codificador 120 de la capa de mejora muestra la señal de audio de entrada s(n) y el audio de salida de la capa central transformado Sc siendo introducidos en el codificador 320 de la señal de error. Estas señales se utilizan para construir un modelo psicoacústico para la codificación mejorada de la señal de error de la capa de mejora E. A continuación, las palabras de código is e iE son multiplexadas mediante el MUX 325, y después enviadas al canal 125 para su posterior descodificación mediante el descodificador 135 de la capa de mejora. El flujo
45 de bits codificado es recibido por el demux 335, que separa el flujo de bits en las componentes is e iE. A continuación, la palabra de código iE es utilizada por el descodificador 340 de la señal de error para reconstruir laseñal de error de la capa de mejora Ê. El combinador 345 de señales escala de alguna manera la señal ŝc(n) utilizando bits de escalamiento is, y a continuación combina el resultado con la señal de error de la capa de mejora Ê para producir la señal de salida de audio mejorada ŝ(n).
En la figura 4 se proporciona una primera realización de la presente invención. Esta figura muestra el codificador 410 de la capa de mejora que recibe la señal de salida de la capa central sc(n) mediante la unidad de escalamiento 415. Se utiliza un conjunto predeterminado de ganancias {g} para producir una serie de señales de salida de la capa central escaladas {S}, donde gj y Sj son los candidatos t-ésimos de los respectivos conjuntos. Dentro de la unidad de escalamiento 415, la primera realización procesa la señal sc(n) en el dominio (MDCT), como:
donde W puede ser alguna matriz de ponderación perceptual, sc es un vector de muestras procedentes del descodificador 115 de la capa central, la MDCT es una operación bien conocida en la técnica, y Gj puede ser una matriz de ganancia formada mediante utilizar un vector de ganancia candidato gj, y donde M es el número de 5 vectores de ganancia candidatos. En la primera realización, Gj utiliza el vector gj como la diagonal y ceros en todas las demás posiciones (es decir, una matriz diagonal), aunque existen muchas posibilidades. Por ejemplo, Gj puede ser una matriz banda, o puede ser incluso una simple cantidad escalar multiplicada por la matriz identidad I. Alternativamente, puede haber cierta ventaja dejando la señal Sj en el dominio temporal o pueden existir casos en los que sea ventajoso transformar el audio a un dominio diferente, tal como el dominio de la transformada de Fourier
10 discreta (DFT, Discrete Fourier Transform). En la técnica se conocen muchas transformaciones de este tipo. En estos casos, la unidad de escalamiento puede emitir la Sj adecuada en base al dominio vectorial respectivo.
Pero en cualquier caso, la razón principal para escalar el audio de salida de la capa central es compensar el desajuste del modelo (o alguna otra deficiencia de codificación) que puede provocar diferencias significativas entre la señal de entrada y el códec de la capa central. Por ejemplo, si la señal de audio de entrada es principalmente una
15 señal musical y el códec de la capa central se basa en un modelo de voz, entonces la salida de la capa central puede contener características de señal severamente distorsionadas, en cuyo caso, desde el punto de vista de la calidad del sonido es beneficioso reducir selectivamente la energía de esta componente de la señal antes de aplicar una codificación complementaria de la señal mediante una o varias capas de mejora.
El vector candidato Sj del audio de la capa central escalado en ganancia y el audio de entrada s(n) pueden utilizarse
20 a continuación como entrada para el generador 420 de la señal de error. En una realización a modo de ejemplo, la señal de audio de entrada s(n) es transformada en el vector S, de manera que S y Sj están correspondientemente alineados. Es decir, el vector s que representa la s(n) está alineado en tiempo (fase) con sc, y pueden aplicarse las operaciones correspondientes de manera que, en esta realización:
25 Esta expresión produce una serie de vectores de señal de error Ej que representan la diferencia ponderada entre el audio de entrada y el audio de salida de la capa central escalado en ganancia en el dominio espectral MDCT. En otras realizaciones en las que se consideran dominios diferentes, la expresión anterior puede modificarse en base al dominio de procesamiento respectivo.
A continuación, se utiliza el selector de ganancia 425 para evaluar dicha serie de vectores de señal de error Ej, de
30 acuerdo con la primera realización de la presente invención, a efectos de producir un vector de error óptimo E*, un parámetro de ganancia óptimo g*, y posteriormente, un correspondiente índice de ganancia ig. El selector de ganancia 425 puede utilizar diversos métodos para determinar los parámetros óptimos, E* y g*, que pueden implicar métodos de bucle cerrado (por ejemplo, minimización de una métrica de distorsión), métodos de bucle abierto (por ejemplo, clasificación heurística, estimación del comportamiento de modelos, etc.), o una combinación de ambos
35 métodos. En la realización a modo de ejemplo, puede utilizarse una métrica de distorsión sesgada, que está dada por la diferencia de energía sesgada entre el vector de la señal de audio original S y el vector de señal reconstruido compuesto:
donde Êj puede ser la estimación cuantificada del vector de la señal de error Ej, y βj puede ser un término de sesgo
40 que se utiliza para complementar la decisión de elegir el índice de error de ganancia óptimo perceptualmente j*. Se proporciona un método a modo de ejemplo para la cuantificación vectorial de un vector de señal en la solicitud de patente de EE.UU. de número de serie 11/531122, titulada "APPARATUS AND METHOD FOR LOW COMPLEXITY COMBINATORIAL CODING OF SIGNALS", si bien son posibles muchos otros métodos. Reconociendo que Ej = S -Sj, la ecuación (5) puede reescribirse como:
En esta expresión, el término εj = ҋEj - Êjҋ2 representa la energía de la diferencia entre las señales de error no cuantificada y cuantificada. Para mayor claridad, esta cantidad puede denominarse la "energía residual", y puede utilizarse posteriormente para evaluar un "criterio de selección de ganancia", en el que se selecciona el parámetro de ganancia óptimo g*. Se proporciona uno de dichos criterios de selección de ganancia en la ecuación (6), aunque son posibles muchos otros.
La necesidad de un término de sesgo βj puede surgir del caso en que la función de ponderación de error W en lasecuaciones (3) y (4) puede no producir adecuadamente distorsiones igualmente perceptibles a través del vector Êj. 5 Por ejemplo, aunque puede utilizarse la función de ponderación de error W para intentar "sanear" en cierta medida el espectro de errores, puede haber ciertas ventajas ponderando más las frecuencias bajas, debido a la percepción de la distorsión por el oído humano. Como resultado de una ponderación del error aumentada en las frecuencias bajas, las señales de alta frecuencia pueden estar infra-modeladas mediante la capa de mejora. En estos casos, puede existir un beneficio directo en sesgar la métrica de distorsión hacia valores de gj que no atenúan los componentes de 10 alta frecuencia de Sj, de manera que la infra-modelación de las altas frecuencias no tenga como resultado artefactos sonoros desagradables o poco naturales en la señal de audio final reconstruida. Un ejemplo de este tipo sería el caso de una señal de voz sorda. En este caso, el audio de entrada se compone generalmente de señales de tipo ruido, de frecuencias media a alta, producidas por el flujo turbulento de aire procedente de la boca humana. Puede ocurrir que el codificador de la capa central no codifique directamente este tipo de forma de onda, pero puede utilizar 15 un modelo de ruido para generar una señal de audio de sonido similar. Esto puede tener como resultado una correlación baja, en términos generales, entre las señales de audio de entrada y de audio salida de la capa central. Sin embargo, en esta realización, el vector de señal de error Ej se basa en la diferencia entre el audio de entrada y las señales de salida de audio de la capa central. Dado que estas señales pueden no estar muy bien correlacionadas, la energía de la señal de error Ej puede no ser necesariamente menor que el audio de entrada y/o
20 el audio de salida de la capa central. En este caso, la minimización del error en la ecuación (6) puede tener como resultado que el escalamiento de la ganancia sea demasiado agresivo, lo que puede tener como resultado potenciales artefactos audibles.
En otro caso, los factores de sesgo βj pueden basarse en otras características de señal de las señales de audio de entrada y/o de audio de salida de la capa central. Por ejemplo, la relación pico/promedio del espectro de una señal 25 puede proporcionar una indicación del contenido armónico de dicha señal. Las señales tales como la voz y ciertos tipos de música pueden tener un alto contenido armónico y por lo tanto una elevada relación pico/promedio. Sin embargo, una señal de música procesada a través de un códec de voz puede tener como resultado una mala calidad debido al desajuste del modelo de codificación, y como resultado, el espectro de la señal de salida de la capa central puede tener una relación pico/promedio reducida en comparación con el espectro de la señal de 30 entrada. En este caso, puede ser beneficioso reducir la cantidad de sesgo en el proceso de minimización a efectos de permitir que el audio de salida de la capa central sea escalado en ganancia a una energía menor, permitiendo de ese modo que la codificación de la capa de mejora tenga un efecto más pronunciado sobre el audio de salida compuesto. A la inversa, ciertos tipos de señales de entrada de voz o de música pueden presentar relaciones menores pico/promedio, en cuyo caso las señales pueden percibirse siendo más ruidosas, y por lo tanto pueden
35 beneficiarse de un escalamiento menor del audio de salida de la capa central mediante aumentar el sesgo del error. Un ejemplo de una función para generar los factores de sesgo para βj, está dado por:
donde λ Puede ser algún umbral, y la relación pico/promedio para el vector ϕy de puede estar dada como:
40 y donde yk1k2 es un subconjunto vectorial de y(k), de manera que yk1k2 = y(k); k1 ≤ k ≤ k2.
Una vez que se ha determinado el índice de ganancia óptimo j* a partir de la ecuación (6), se genera la palabra de código asociada ig y se envía el vector de error óptimo E* al codificador 430 de la señal de error, donde E* se codifica de forma adecuada para su multiplexación con otras palabras de código (mediante el MUX 440), y se transmite para su utilización por un correspondiente descodificador. En la realización a modo de ejemplo, el
45 codificador 408 de la señal de error utiliza codificación de impulso factorial (FPC, Factorial Pulse Coding). Este método es ventajoso desde el punto de vista de la complejidad del procesamiento, dado que el proceso de enumeración asociado con la codificación del vector E* es independiente del proceso de generación vectorial que seutiliza para generar Êj.
El descodificador 450 de la capa de mejora invierte estos procesos para producir la salida de audio mejorada ŝ(n). 50 Más específicamente, ig y iE son recibidos por el descodificador 450, siendo iE enviado por el demux 455 al
descodificador 460 de la señal de error, donde el vector de error óptimo E* se obtiene a partir de la palabra de código. El vector de error óptimo E* se pasa al combinador de señal 465, donde el ŝc(n) recibido se modifica tal como en la ecuación (2) para producir ŝ(n).
Una segunda realización de la presente invención involucra un sistema de codificación integrado multicapa, tal como
5 el mostrado en la figura 5. En este caso, se puede ver que existen cinco capas integradas proporcionadas para este ejemplo. Las capas 1 y 2 pueden estar ambas basadas en códec de voz, y las capas 3, 4 y 5 pueden ser capas de mejora MDCT. Por lo tanto, los codificadores 502 y 503 pueden utilizar códecs de voz para producir y emitir la señal de entrada codificada s(n). Los codificadores 510, 610 y 514 comprenden codificadores de la capa de mejora, que emiten cada uno una mejora diferente para la señal codificada. De manera similar a la realización anterior, el vector
10 de la señal de error para la capa 3 (codificador 510) puede estar dado como:
donde s = MDCT{Ws} es la señal de entrada transformada ponderada, y S2 = MDCT{Ws2} es la señal transformada
ponderada generada a partir del descodificador 506 de la capa 1/2. En esta realización, la capa 3 puede ser una
capa de cuantificación de baja velocidad y, como tal, puede haber relativamente pocos bits para codificar la15 correspondiente señal de error cuantificada Ê3 = Q{E3}. Para proporcionar una buena calidad bajo estas limitaciones,
solamente puede cuantificarse una fracción de los coeficientes dentro de E3. Las posiciones de los coeficientes para
codificar pueden estar fijas o ser variables, pero si se permite que varíen, puede ser necesario enviar información
adicional al descodificador para identificar estas posiciones. Por ejemplo, si el intervalo de posiciones codificadas
comienza en ks y finaliza en ke, donde 0 ≤ ks < ke < N, entonces el vector Ê3 de la señal de error cuantificada puede 20 contener valores distintos de cero solamente dentro de dicho intervalo, y ceros para las posiciones exteriores a dicho
intervalo. La información de la posición y del intervalo puede asimismo ser implícita, dependiendo del método de
codificación utilizado. Por ejemplo, en la codificación de audio se sabe bien que una banda de frecuencias puede
considerarse perceptualmente importante, y que la codificación de un vector de señal puede focalizarse en dichas
frecuencias. En estas circunstancias, el intervalo codificado puede ser variable, y puede no abarcar un conjunto 25 contiguo de frecuencias. Pero en todo caso, una vez que la señal está cuantificada, el espectro de salida codificado
compuesto puede construirse como:
que a continuación se utiliza como entrada para el codificador 610 de la capa 4.
El codificador 610 de la capa 4 es similar al codificador 410 de la capa de mejora de la realización anterior. 30 Utilizando el candidato a vector de ganancia gj, el correspondiente vector de error puede escribirse como:
donde Gj puede ser una matriz de ganancia con el vector gj como componente diagonal. Sin embargo, en la realización actual, el vector de ganancia gj puede estar relacionado del siguiente modo con el vector Ê3 de la señal de error cuantificada. Dado que el vector Ê3 de la señal de error cuantificada puede estar limitado en un intervalo de 35 frecuencias, por ejemplo, comenzando en la posición del vector ks y finalizando en la posición del vector ke, se supone que la señal de salida S3 de la capa 3 se codifica de manera muy precisa dentro de dicho intervalo. Por lo tanto, de acuerdo con la presente invención, el vector de ganancia gj se regula en base a las posiciones codificadas del vector de señal de error de la capa 3, ks y ke. Más específicamente, para conservar la integridad de la señal en estas posiciones, los correspondientes elementos de ganancia individuales pueden fijarse a un valor constante α. Es
40 decir:
donde generalmente 0 ≤ γj(k) ≤ 1, y gj(k) es la ganancia de la posición de k-ésima del vector candidato j-ésimo. En una realización a modo de ejemplo, el valor de la constante es uno (α = 1), si bien son posibles muchos valores. Además, el intervalo de frecuencias puede abarcar múltiples posiciones de comienzo y terminación. Es decir, la
45 ecuación (12) puede segmentarse en intervalos no contiguos de ganancias variables que se basan en alguna función de la señal de error Ê3, y puede escribirse de manera más general como:
Para este ejemplo, se utiliza una ganancia fija α para generar gj(k) cuando las correspondientes posiciones en la señal de error Ê3 cuantificada previamente son distintas de cero, y se utiliza la función de ganancia γj(k) cuando las posiciones correspondientes en Ê3 son cero. Una posible función de ganancia puede definirse como:
donde Δ es un tamaño de paso (por ejemplo, Δ ≈ 2,2 dB), α es una constante, M es el número de candidatos (por
ejemplo, M = 4, que puede representarse utilizando solamente 2 bits), y kl y kh son límites de baja y alta frecuencia, respectivamente, sobre los cuales puede tener lugar la reducción de ganancia. La introducción de los parámetros kl y kh es útil en los sistemas en los que se desea el escalamiento solamente en cierto intervalo de frecuencias. Por
10 ejemplo, en cierta realización, las altas frecuencias pueden no modelarse adecuadamente mediante la capa central, de manera que la energía dentro de la banda de alta frecuencia puede ser inherentemente menor que en la señal de audio de entrada. En tal caso, puede existir poco o ningún beneficio del escalamiento de la salida de la capa 3 en dicha zona de la señal, dado que como resultado puede aumentar la energía de error global.
Resumiendo, la pluralidad de vectores de ganancia candidatos gj se basa en alguna función de los elementos
15 codificados del vector de señal codificado previamente, en este caso Ê3. Esto puede expresarse en términos generales como:
Las correspondientes operaciones del descodificador se muestran en el lado derecho de la figura 5. A medida que se reciben las diversas capas de los flujos de bits codificados (i1 a i5), las señales de salida de mayor calidad se
20 basan en la jerarquía de las capas de mejora sobre el descodificador de la capa central (capa 1). Es decir, para esta realización específica, dado que las primeras dos capas se componen de codificación del modelo de voz en el dominio de tiempo (por ejemplo, CELP) y las tres capas restantes se componen de codificación en el dominio de la transformada (por ejemplo, MDCT), la salida final para el sistema ŝ(n) se genera según lo siguiente:
25 donde ê2(n) es la señal de la capa de mejora en el dominio temporal de la capa 2, y ŝ2 = MDCT{Ws2} es el vector MDCT ponderado correspondiente a la salida de audio ŝ2(n) de la capa 2. En esta expresión, la señal de salida global ŝ(n) puede determinarse a partir del máximo nivel de capas consecutivas de flujo de bits que se reciben. En esta realización, se supone que las capas de nivel inferior tienen una mayor probabilidad de ser recibidas adecuadamente desde el canal, y por lo tanto, los conjuntos de palabras de código {i1}, {i1 i2}, {i1 i2 i3}, etc.,
30 determinan el nivel adecuado de descodificación de la capa de mejora en la ecuación (16).
La figura 6 es un diagrama de bloques que muestra el codificador 610 y el descodificador 650 de la capa 4. El codificador y el descodificador mostrados en la figura 6 son similares a los mostrados en la figura 4, excepto porque el valor de ganancia utilizado por las unidades de escalamiento 615 y 670 se obtiene a través de generadores 630 y 660 de ganancia selectiva en frecuencias, respectivamente. En funcionamiento, la salida de audio S3 de la capa 3 es 35 emitida desde el codificador de la capa 3 y recibida por la unidad de escalamiento 615. Adicionalmente, el vector de error Ê3 de la capa 3 es emitido desde el codificador 510 de la capa 3 y recibido por el generador 630 de ganancia
selectiva en frecuencias. Tal como se ha descrito, dado que el vector Ê3 de la señal de error cuantificada puede estar limitado en el intervalo de frecuencias, el vector de ganancia gj se regula, por ejemplo, en base a las posiciones ks y ke tal como se muestra en la ecuación 12, o en la expresión más general de la ecuación 13.
El audio escalado Sj es emitido desde la unidad de escalamiento 615 y recibido por el generador 620 de la señal de error. Tal como se ha descrito anteriormente, el generador 620 de la señal de error recibe la señal de audio de entrada S y determina un valor de error Ej para cada vector de escalamiento utilizado por la unidad de escalamiento
615. Estos vectores de error se pasan a los circuitos 635 del selector de ganancia junto con los valores de ganancia utilizados en la determinación de los vectores de error y un error específico E* basado en el valor de ganancia óptimo g*. Una palabra de código (ig) que representa la ganancia óptima g* se emite desde el selector de ganancia 635, junto con el vector de error óptimo E*, que se pasa al codificador 640 de la señal de error, en el que es determinada y emitida la palabra de código iE. ig e iE son entregadas al multiplexor 645 y transmitidas a través del canal 125 al descodificador 650 de la capa 4.
Durante el funcionamiento del descodificador 650 de la capa 4, ig y iE son recibidos desde el canal 125 y desmultiplexados mediante el demux 655. La palabra de código de ganancia ig y el vector de error Ê3 de la capa 3 se utilizan como entrada para el generador 660 de ganancia selectiva en frecuencias, a efectos de producir el vector de ganancia g*, de acuerdo con el correspondiente método del codificador 610. A continuación, se aplica el vector de ganancia g* al vector de audio reconstruido Ŝ3 de la capa 3 dentro de la unidad de escalamiento 670, cuya salida se combina a continuación en el combinador de señal 675 con el vector de error de la capa de mejora E* de la capa 4, que se obtuvo en el descodificador 655 de la señal de error mediante la descodificación de la palabra de código iE, para producir la salida de audio reconstruida Ŝ4 de la capa 4, tal como se muestra.
La figura 7 es un diagrama de flujo 700 que muestra el funcionamiento de un codificador, de acuerdo con la primera y la segunda realizaciones de la presente invención. Tal como se ha descrito anteriormente, ambas realizaciones utilizan una capa de mejora que escala el audio codificado con una serie de valores de escalamiento y a continuación escoge el valor de escalamiento que tiene como resultado un error menor. Sin embargo, en la segunda realización de la presente invención, se utiliza el generador 630 de ganancia selectiva en frecuencias para generar los valores de ganancia.
El flujo lógico comienza en el bloque 710, en el que un codificador de la capa central recibe una señal de entrada a codificar, y codifica la señal de entrada para producir una señal de audio codificada. El codificador 410 de la capa de mejora recibe la señal de audio codificada (sc(n)) y la unidad de escalamiento 415 escala la señal de audio codificada con una serie de valores de ganancia, para producir una serie de señales de audio codificadas escaladas, que tienen cada una un valor de ganancia asociado. (Bloque 720). En el bloque 730, el generador 420 de la señal de error determina una serie de valores de error existentes entre la señal de entrada y cada una de dicha serie de señales de audio codificadas escaladas. A continuación, el selector de ganancia 425 escoge un valor de ganancia entre dicha serie de valores de ganancia (bloque 740). Tal como se ha descrito anteriormente, el valor de ganancia (g*) está asociado con una señal de audio codificada escalada dando como resultado un valor de error bajo (E*) existente entre la señal de entrada y la señal de audio codificada escalada. Finalmente, en el bloque 750, el transmisor 440 transmite a la señal de audio codificada el valor de error bajo (E*) junto con el valor de ganancia (g*), como parte de una capa de mejora. Tal como reconocerá un experto en la materia, E* y g* son codificados adecuadamente antes de la transmisión.
Tal como se ha descrito anteriormente, en el lado del receptor, la señal de audio codificada se recibirá junto con la capa de mejora. La capa de mejora es una mejora a la señal de audio codificada, que comprende el valor de ganancia (g*) y la señal de error (E*) asociada al valor de ganancia.
Escalamiento de la capa central para estéreo
En la descripción anterior, se ha descrito un sistema de codificación integrado en el que cada una de las capas codificaba una señal mono. A continuación, se describe un sistema de codificación integrado para la codificación de estéreo u otras señales de múltiples canales. Para mayor brevedad, se describe la tecnología en el contexto de una señal estéreo que consiste en dos entradas (fuentes) de audio; sin embargo, las realizaciones a modo de ejemplo descritas en la presente memoria pueden extenderse fácilmente a los casos en que la señal estéreo tiene más de dos entradas de audio, tal como en el caso de entradas de audio de múltiples canales. Con propósitos ilustrativos y no limitativos, las dos entradas de audio son señales estéreo que consisten en la señal izquierda (sL) y la señal derecha (sR), donde sL y sR son vectores columna n-dimensionales que representan una trama de datos de audio. De nuevo para mayor brevedad, se describe en detalle un sistema de codificación integrado que consiste en dos capas, a saber una capa central y una capa de mejora. La idea propuesta puede extenderse fácilmente a sistemas de codificación integrados de múltiples capas. Asimismo, el códec puede no estar integrado por sí mismo, es decir, puede tener solamente una capa, estando parte de los bits de dicho códec dedicados a estéreo y el resto de los bits a la señal mono.
Se conoce un códec estéreo integrado que consiste en una capa central que codifica simplemente una señal mono y capas de mejora que codifican las señales ya sea de alta frecuencia o estéreo. En dicho escenario limitado, la capa central codifica una señal mono (s), obtenida de la combinación de sL y sR, para producir una señal mono codificada ŝ. Sea H una matriz de combinación 2×1 utilizada para generar una señal mono, es decir,
Debe observarse que en la ecuación (17), sR puede ser una versión retardada de la señal de audio derecha en lugar de ser exactamente la señal del canal derecho. Por ejemplo, el retardo puede calcularse para maximizar la correlación de sL y la versión retardada de sR. Si la matriz H es [0,5 0,5]T, entonces la ecuación 17 tiene como 5 resultado una ponderación igual de los respectivos canales derecho e izquierdo, es decir, s = 0,5sL + 0,5sR. Las realizaciones presentadas en la presente memoria no se limitan a una capa central que codifica la señal mono y una capa de mejora que codifica la señal estéreo. Tanto la capa central del códec integrado como la capa de mejora pueden codificar señales de audio multicanal. El número de canales en la señal de audio multicanal que son codificados mediante el multicanal de la capa central puede ser menor que el número de canales en la señal de
10 audio multicanal que pueden ser codificados mediante la capa de mejora. Sean (m, n) los números de canales a codificar mediante la capa central y la capa de mejora, respectivamente. Sea s1, s2, s3, ..., sn una representación de n canales de audio a codificar mediante el sistema integrado. Los m canales a codificar mediante la capa central se derivan de estos, y se obtienen como
15 donde H es una matriz n×m.
Tal como se ha mencionado anteriormente, la capa central codifica una señal mono para producir una señal codificada ŝ de la capa central. Para generar estimaciones de los componentes estéreo a partir de ŝ, se calcula un factor de equilibrio. Este factor de equilibrio se calcula como:
20 Puede demostrarse que si la matriz de combinación H es [0,5 0,5]T, entonces
Debe observarse que la relación permite la cuantificación de solamente un parámetro, y del primero puede extraerse fácilmente otro. Las salidas estéreo se calculan a continuación como
25 En la sección siguiente, trabajaremos en el dominio de frecuencias en lugar de hacerlo en el dominio de tiempo. De este modo, una señal correspondiente en el dominio de frecuencias se representa en letras mayúsculas, es decir, S, Ŝ, SL, SR, ŜL, y ŜR son la representación en el dominio de frecuencias de s, ŝ, sL, sR, ŝL, y ŝR, respectivamente. El factor de equilibrio en el dominio de frecuencias se calcula utilizando términos en el dominio de frecuencias y está dado por
y En el dominio de frecuencias, los vectores pueden dividirse adicionalmente en sub-vectores sin solapamiento, es decir, un vector S de dimensión n puede dividirse en t sub-vectores S1, S, ..., St de dimensiones m1, m2,...mt, de modo que
En este caso, puede calcularse un factor de equilibrio diferente para sub-vectores diferentes, es decir,
En este caso, el factor de equilibrio es independiente de la consideración de la ganancia.
Haciendo referencia a continuación a las figuras 8 y 9, se muestran dibujos de la técnica anterior relevantes para
10 señales estéreo y otras señales de múltiples canales. El sistema 800 de compresión de voz/audio integrado de la técnica anterior de la figura 8 es similar al de la figura 1 pero tiene múltiples señales de entrada de audio, en este ejemplo mostradas como señales de entrada estéreo izquierda y derecha S(n). Estas señales de audio de entrada son alimentadas al combinador 810, que produce audio de entrada s(n), tal como se muestra. Las múltiples señales de entrada se proporcionan asimismo al codificador 820 de la capa de mejora, tal como se muestra. En el lado de el
15 descodificador, el descodificador 830 de la capa de mejora produce señales de audio de salida mejoradas ŝL ŝR, tal como se muestra.
La figura 9 muestra un codificador de la capa de mejora anterior 900, que puede utilizarse en la figura 8. Las múltiples entradas de audio se proporcionan a un generador del factor de equilibrio, junto con la señal de audio de salida de la capa central, tal como se muestra. El generador 920 del factor de equilibrio del codificador 910 de la
20 capa de mejora recibe las múltiples entradas de audio para producir la señal iB, que se pasa al MUX 325, tal como se muestra. La señal iB es una representación del factor de equilibrio. En la realización preferida, is es una secuencia de bits que representa los factores de equilibrio. En el lado del descodificador, esta señal iB es recibida por el descodificador 940 del factor de equilibrio, que produce elementos de factor de equilibrio WL(n) yWR(n), tal como se muestra, que son recibidos por el combinador de señal 950, tal como se muestra.
25 Cálculo del factor de equilibrio con múltiples canales
Tal como se ha mencionado anteriormente, en muchas situaciones el códec utilizado para codificar la señal mono está diseñado para voz de un solo canal y tiene como resultado ruido del modelo de codificación siempre que se utiliza para codificar señales que no están soportadas completamente por el modelo de códec. Las señales musicales y otras señales de tipo no de voz son algunas de las señales que no se modelan adecuadamente 30 mediante un códec de la capa central que está basado en un modelo de voz. La descripción anterior, en relación con las figuras 1 a 7, proponía aplicar una ganancia selectiva en frecuencias a la señal codificada mediante la capa central. El escalamiento se optimizaba para minimizar una distorsión particular (valor de error) entre la entrada de audio y la señal codificada escalada. El enfoque descrito anteriormente funciona bien para señales de un solo canal pero puede no ser óptimo para aplicar el escalamiento de la capa central cuando la capa de mejora está codificando
35 estéreo u otras señales de múltiples canales.
Dado que la componente mono de la señal de múltiples canales, tal como una señal estéreo, se obtiene de la combinación de dichas dos o más entradas de audio estéreo, la señal combinada s puede no conformarse tampoco al modelo de voz de un solo canal; por lo tanto, el códec de la capa central puede producir ruido cuando codifica la señal combinada. De este modo, existe la necesidad de un enfoque que permita el escalamiento de la señal 40 codificada de la capa central en un sistema de codificación integrado, reduciendo de ese modo el ruido generado mediante la capa central. En el enfoque de señal mono descrito anteriormente, una medición de la distorsión específica, sobre la cual se obtenía el escalamiento selectivo en frecuencias, está basada en el error en la señal mono. Este error E4(j) se muestra en la ecuación (11) anterior. Sin embargo, la distorsión de solamente la señal
mono no es suficiente para mejorar la calidad del sistema de comunicación estéreo. El escalamiento contenido en la ecuación (11) puede ser mediante un factor de escalamiento de la unidad (1) o cualquier otra función identificada.
Para una señal estéreo, una medida de la distorsión debería capturar la distorsión del canal derecho y el izquierdo. Sean EL y ER el vector de error para los canales izquierdo y derecho, respectivamente, y están dados por
En la técnica anterior, tal como se describe en el estándar AMR-WB+, por ejemplo, estos vectores de error se calculan como
A continuación, consideramos el caso en que se aplican a S vectores de ganancia selectivos en frecuencia gj (0 ≤ j< 10 M). Estos vectores de ganancia selectiva en frecuencias se representan en forma matricial como Gj, donde Gj es una matriz diagonal con elementos diagonales gj. Para cada vector Gj, los vectores de error se calculan como:
con las estimaciones de las señales estéreo proporcionadas por los términos W · Gj · Ŝ. Puede verse que la matriz de ganancia G puede ser la matriz unitaria (1) o puede ser cualquier otra matriz diagonal; se reconoce que no todas 15 las estimaciones posibles pueden funcionar para todas las señales escaladas.
La medida ε de la distorsión, que se minimiza para mejorar la calidad del estéreo, es función de los dos vectores de error, es decir,
Puede verse que el valor de la distorsión puede estar compuesto de múltiples medidas de la distorsión. 20 El índice j del vector de ganancia selectiva en frecuencias que se selecciona, está dado por:
En la realización a modo de ejemplo, la medida de la distorsión es una distorsión cuadrática media dada por:
O puede ser una distorsión ponderada o sesgada dada por:
El sesgo BL y BR puede ser función de las energías de los canales izquierdo y derecho.
Tal como se ha mencionado anteriormente, en el dominio de frecuencias, los vectores pueden dividirse adicionalmente en sub-vectores no solapados. Con el fin de extender la técnica propuesta para incluir la división de vectores en el dominio de frecuencias en sub-vectores, se calcula el factor de equilibrio utilizado en (27) para cada sub-vector. Por lo tanto, los vectores de error EL y ER para cada ganancia selectiva en frecuencias están formados mediante una concatenación de los sub-vectores de error, dada por
La medida ε de la distorsión en (28) es en este caso una función de los vectores de error formados mediante la
5 concatenación de los sub-vectores de error anteriores.
Cálculo del factor de equilibrio
El factor de equilibrio generado utilizando la técnica anterior (ecuación 21) es independiente de la salida de la capa central. Sin embargo, para minimizar una medida de la distorsión dada en (30) y en (31), puede ser beneficioso calcular asimismo el factor de equilibrio para minimizar la distorsión correspondiente. En este caso, WL y WR del
10 factor de equilibrio pueden calcularse como
donde puede verse que el factor de equilibrio es independiente de la ganancia, tal como se muestra en el dibujo de la figura 11, por ejemplo. Esta ecuación minimiza las distorsiones en las ecuaciones (30) y (31). El problema de utilizar dicho factor de equilibrio es que, en este caso:
de manera que pueden requerirse campos de bit independientes para cuantificar WL y WR. Esto puede evitarse imponiendo la restricción WL (j) = 2 - WR(j) sobre la optimización. Con esta restricción, la solución óptima para la ecuación (30) está dada por:
20 en la que el factor de equilibrio depende de un término de ganancia, tal como se muestra; la figura 10 de los dibujos muestra un factor de equilibrio dependiente. Si los factores de sesgo BL y BR son la unidad, entonces
Los términos STGjŜ en las ecuaciones (33) y (36) son representativos de valores de correlación entre la señal de audio codificada escalada y por lo menos una de las señales de audio de una señal de audio de múltiples canales.
25 En la codificación estéreo, la dirección y la posición del origen del sonido pueden ser más importantes que la distorsión cuadrática media. Por lo tanto, la relación entre la energía del canal izquierdo y la energía del canal derecho puede ser un indicador mejor de la dirección (o de la posición del origen del sonido), que minimizar una medida de la distorsión ponderada. En dichos escenarios, el factor de equilibrio calculado en las ecuaciones (35) y
(36) puede no ser un buen enfoque para calcular el factor de equilibrio. El requisito es mantener igual la relación de la energía de los canales izquierdo y derecho antes y después de la codificación. La relación de la energía del canal antes de la codificación y después de la codificación está dada por:
respectivamente. Igualando estas dos relaciones de energía y utilizando la hipótesis (j) = 2 - WR(j), obtenemos
que proporcionan los componentes de factor de equilibrio, del factor de equilibrio generado. Debe observarse que el factor de equilibrio calculado en (38) es en este caso independiente de Gj, y por lo tanto ya no es función de j, proporcionando un factor de equilibrio autocorrelacionado que es independiente de la consideración de la ganancia; se muestra adicionalmente un factor de equilibrio dependiente en la figura 10 de los dibujos. Utilizando este
10 resultado con las ecuaciones 29 y 32, podemos extender la selección del índice j de escalamiento de la capa central óptimo, para incluir los segmentos de vector concatenados k, de manera que:
una representación del valor de ganancia óptimo. Este índice del valor de ganancia j* es transmitido como una señal de salida del codificador de la capa de mejora.
15 Haciendo referencia a continuación a la figura 10, se muestra un diagrama de bloques 1000 de un codificador de la capa de mejora y un descodificador de la capa de mejora, de acuerdo con diversas realizaciones. Las señales de audio de entrada s(n) son recibidas por el generador 1050 del factor de equilibrio del codificador 1010 de la capa de mejora y el generador 1030 de la señal de error (señal de distorsión) del generador 1020 del vector de ganancia. La señal de audio codificada S(n) procedente de la capa central es recibida por la unidad de escalamiento 1025 del
20 generador 1020 del vector de ganancia, tal como se muestra. La unidad de escalamiento 1025 funciona para escalar la señal de audio codificada S (n) con una serie de valores de ganancia, a efectos de generar una serie de señales de audio codificadas candidatas, donde por lo menos una de las señales de audio codificadas candidatas está escalada. Tal como se ha mencionado previamente, puede utilizarse el escalamiento mediante la unidad o mediante cualquier función identidad deseada. La unidad de escalamiento 1025 emite el audio escalado Sj, que es recibido por
25 el generador 1030 del factor de equilibrio. Generar el factor de equilibrio con una serie de componentes de factor de equilibrio, asociados cada uno con una señal de audio de las señales de audio de múltiples canales recibidas mediante el codificador 1010 de la capa de mejora, se ha discutido anteriormente en relación con las ecuaciones (18), (21), (24) y (33). Esto se consigue mediante el generador 1050 del factor de equilibrio, tal como se muestra, para producir componentes de factor de equilibrio ŜL(n), ŜR(n), tal como se muestra. Tal como se ha comentado en
30 relación con la ecuación (38) anterior, el generador 1030 del factor de equilibrio muestra un factor de equilibrio independiente de la ganancia.
El generador 1020 del vector de ganancia es responsable de determinar un valor de ganancia a aplicar a la señal de audio codificada a efectos de generar una estimación de la señal de audio de múltiples canales, tal como se ha descrito en las ecuaciones (27), (28) y (29). Esto se consigue mediante la unidad de escalamiento 1025 y el 35 generador 1050 del factor de equilibrio, que funcionan conjuntamente para generar la estimación en base al factor de equilibrio y por lo menos a una señal de audio codificada escalada. El valor de ganancia está basado en el factor de equilibrio y en la señal de audio de múltiples canales, donde el valor de ganancia está configurado para minimizar un valor de distorsión entre la señal de audio de múltiples canales y la estimación de la señal de audio de múltiples canales. La ecuación (30) describe la generación de un valor de distorsión en función de la estimación de la señal de 40 entrada de múltiples canales y la propia señal de entrada real. Por lo tanto, los componentes del factor de equilibrio son recibidos por el generador 1030 de la señal de error, junto con las señales de audio de entrada s(n), para determinar un valor de error Ej para cada vector de escalamiento utilizado por la unidad de escalamiento 1025. Estos vectores de error se pasan a los circuitos 1035 del selector de ganancia junto con los valores de ganancia utilizados en la determinación de los vectores de error y un error específico E* basado en el valor de ganancia óptimo g*. A 45 continuación, el selector de ganancia 1035 está operativo para evaluar el valor de la distorsión en base a la
estimación de la señal de entrada de múltiples canales y a la propia señal real, a efectos de determinar una representación de un valor de ganancia óptimo g* de los valores de ganancia posibles. Una palabra de código (ig) que representa la ganancia óptima g* es emitida desde el selector de ganancia 1035 y recibida por el multiplexor MUX 1040, tal como se muestra.
ig e iB son emitidos ambos al multiplexor 1040 y transmitidos mediante el transmisor 1045 al descodificador 1060 de la capa de mejora a través del canal 125. La representación del valor de ganancia ig es entregada para su transmisión al canal 125, tal como se muestra, pero puede asimismo ser almacenada si se desea.
En el lado del descodificador, durante el funcionamiento del descodificador 1060 de la capa de mejora, ig e iE son recibidos desde el canal 125 y desmultiplexados mediante el demux 1065. De este modo, el descodificador de la capa de mejora recibe una señal de audio codificada Ŝ(n), un factor de equilibrio codificado iB y un valor de ganancia codificado ig. El descodificador 1070 del vector de ganancia comprende un generador 1075 de ganancia selectiva en frecuencias y una unidad de escalamiento 1080, tal como se muestra. El descodificador 1070 del vector de ganancia genera un valor de ganancia descodificador a partir del valor de ganancia codificado. El valor de ganancia codificado ig es introducido al generador 1075 de ganancia selectiva en frecuencias para producir el vector de ganancia g*, de acuerdo con el correspondiente método del codificador 1010. A continuación, el vector de ganancia g* es aplicado a la unidad de escalamiento 1080, que escala la señal de audio codificada S (n) con el valor de ganancia descodificador g* para generar la señal de audio escalada. El combinador de señal 1095 recibe las señales emitidas del factor de equilibrio codificado desde el descodificador 1090 del factor de equilibrio a la señal de audio escalada GjŜ (n), a efectos de generar y entregar una señal de audio de múltiples canales descodificada, mostrada como las señales de audio de salida mejoradas.
El diagrama de bloques 1100 muestra un codificador de la capa de mejora y un descodificador de la capa de mejora a modo de ejemplo en los que, tal como se ha descrito en relación con la ecuación (33) anterior, el generador 1030 del factor de equilibrio genera un factor de equilibrio que es dependiente de la ganancia. Esto se muestra mediante el generador de señal de error, que genera la señal Gj 1110.
Haciendo referencia a continuación a las figuras 12 a 14, se muestran flujos que abarcan la metodología de las diversas realizaciones presentadas en este documento. En el flujo 1200 de la figura 12, se presenta un método para codificar una señal de audio de múltiples canales. En el bloque 1210, se recibe una señal de audio de múltiples canales que tiene una serie de señales de audio. En el bloque 1220, la señal de audio de múltiples canales se codifica para generar una señal de audio codificada. La señal de audio codificada puede ser una señal mono o de múltiples canales, tal como una señal estéreo que se muestra a modo de ejemplo en los dibujos. Además, la señal de audio codificada puede comprender una serie de canales. Por lo tanto, puede haber más de un canal en la capa central, y el número de canales en la capa de mejora puede ser mayor que el número de canales en la capa central. A continuación, en el bloque 1230, se genera un factor de equilibrio que tiene componentes de factor de equilibrio asociados cada uno con una señal de audio de la señal de audio de múltiples canales. Las ecuaciones (18), (21),
(24) y (33) describen la generación del factor de equilibrio. Cada componente del factor de equilibrio puede depender de otros componentes del factor de equilibrio generados, tal como es el caso en la ecuación (38). La generación del factor de equilibrio puede comprender generar un valor de correlación entre la señal de audio codificada escalada y por lo menos una de las señales de audio de la señal de audio de múltiples canales, tal como en las ecuaciones (33) y (36). Puede generarse una autocorrelación entre por lo menos una de las señales de audio, tal como en la ecuación (38), a partir de la cual puede generarse una raíz cuadrada. En el bloque 1240, se determina un valor de ganancia a aplicar a la señal de audio codificada, a efectos de generar una estimación de la señal de audio de múltiples canales en base al factor de equilibrio y a la señal de audio de múltiples canales. El valor de ganancia está configurado para minimizar un valor de distorsión entre la señal de audio de múltiples canales y la estimación de la señal de audio de múltiples canales. Las ecuaciones (27), (28), (29) y (30) describen la determinación del valor de ganancia. Puede escogerse un valor de ganancia entre una serie de valores de ganancia para escalar la señal de audio codificada y para generar las señales de audio codificadas escaladas. El valor de distorsión puede generarse en base a esta estimación; el valor de ganancia puede basarse en el valor de distorsión. En el bloque 1250, se emite una representación del valor de ganancia para transmisión y/o almacenamiento.
El flujo 1300 de la figura 13 describe otra metodología para codificar la señal de audio de múltiples canales, de acuerdo con varias realizaciones. En el bloque 1310, se recibe una señal de audio de múltiples canales que tiene una serie de señales de audio. En el bloque 1320, la señal de audio de múltiples canales se codifica para generar una señal de audio codificada. Los procesos de los bloques 1310 y 1320 se llevan a cabo mediante un codificador de la capa central, tal como se ha descrito anteriormente. Tal como se ha indicado previamente, la señal de audio codificada puede ser una señal mono o de múltiples canales, tal como una señal estéreo que se muestra a modo de ejemplo en los dibujos. Además, la señal de audio codificada puede comprender una serie de canales. Por lo tanto, puede haber más de un canal en la capa central, y el número de canales en la capa de mejora puede ser mayor que el número de canales en la capa central.
En el bloque 1330, la señal de audio codificada es escalada con una serie de valores de ganancia para generar una serie de señales de audio codificadas candidatas, siendo escalada por lo menos una de las señales de audio codificadas candidatas. El escalamiento se consigue mediante la unidad de escalamiento del generador del vector de ganancia. Tal como se ha descrito, escalar la señal de audio codificada puede incluir el escalamiento con un valor
de ganancia de la unidad. El valor de ganancia de dicha serie de valores de ganancia puede ser una matriz de ganancia con el vector gj como componente diagonal, tal como se ha descrito anteriormente. La matriz de gananciapuede ser selectiva en frecuencias. Ésta puede ser dependiente de la salida de la capa central, la señal de audio codificada mostrada en los dibujos. Puede escogerse un valor de ganancia entre una serie de valores de ganancia 5 para escalar la señal de audio codificada y para generar las señales de audio codificadas escaladas. En el bloque 1340, se genera un factor de equilibrio que tiene componentes de factor de equilibrio asociados cada uno con una señal de audio de la señal de audio de múltiples canales. La generación del factor de equilibrio se lleva a cabo mediante el generador del factor de equilibrio. Cada componente del factor de equilibrio puede depender de otros componentes del factor de equilibrio generados, tal como es el caso en la ecuación (38). La generación del factor de
10 equilibrio puede comprender generar un valor de correlación entre la señal de audio codificada escalada y por lo menos una de las señales de audio de la señal de audio de múltiples canales, tal como en las ecuaciones (33) y (36). Puede generarse una autocorrelación entre por lo menos una de las señales de audio, tal como en la ecuación (38), a partir de la cual puede generarse una raíz cuadrada.
En el bloque 1350, se genera una estimación de la señal de audio de múltiples canales en base al factor de
15 equilibrio y a por lo menos una señal de audio codificada escalada. La estimación se genera en base a la señal o señales de audio codificadas escaladas y al factor de equilibrio generado. La estimación puede comprender una serie de estimaciones correspondientes a dicha serie de señales de audio codificadas candidatas. Un valor de distorsión es evaluado y/o puede ser generado en base a la estimación de la señal de audio de múltiples canales y a la señal de audio de múltiples canales, para determinar una representación de un valor de ganancia óptimo de los
20 valores de ganancia, en el bloque 1360. El valor de distorsión puede comprender una serie de valores de distorsión correspondientes a dicha serie de estimaciones. La evaluación del valor de distorsión se lleva a cabo mediante los circuitos del selector de ganancia. La presentación del valor de ganancia óptimo está dada por la ecuación (39). En el bloque 1370, puede entregarse una representación del valor de ganancia para transmisión y/o almacenamiento. El transmisor del codificador de la capa de mejora puede transmitir la representación del valor de ganancia, tal como se
25 ha descrito anteriormente.
El proceso realizado en el diagrama de flujo 1400 de la figura 14 muestra la descodificación de una señal de audio de múltiples canales. En el bloque 1410, se reciben una señal de audio codificada, un factor de equilibrio codificado y un valor de ganancia codificado. Se genera un valor de ganancia descodificado a partir del valor de ganancia codificado, en el bloque 1420. El valor de ganancia puede ser una matriz de ganancia, descrita previamente, y la 30 matriz de ganancia puede ser selectiva en frecuencias. La matriz de ganancia puede depender asimismo del audio codificado recibido como una salida de la capa central. Además, la señal de audio codificada puede ser una señal mono o de múltiples canales, tal como una señal estéreo que se muestra a modo de ejemplo en los dibujos. Adicionalmente, la señal de audio codificada puede comprender una serie de canales. Por ejemplo, puede haber más de un canal en la capa central y el número de canales en la capa de mejora puede ser mayor que el número de
35 canales en la capa central.
En el bloque 1430, la señal de audio codificada es escalada con el valor de ganancia descodificado, para generar una señal de audio escalada. El factor de equilibrio codificado es aplicado a la señal de audio escalada para generar una señal de audio de múltiples canales descodificada, en el bloque 1440. La señal de audio de múltiples canales descodificada es entregada en el bloque 1450.
40 Cálculo de máscara de escalamiento selectiva basado en detección de picos
La matriz de ganancia Gj selectiva en frecuencias, que es una matriz diagonal con elementos que forman un vector de ganancia gj, puede definirse tal como en (14) más arriba:
donde Δ es un tamaño del paso (por ejemplo, Δ ≈ 2,0 dB), α es una constante, M es el número de candidatos (por
45 ejemplo, M = 8, que puede representarse utilizando solamente 3 bits), y kl y kh son límites de baja y alta frecuencia, respectivamente, sobre los cuales puede tener lugar la reducción de ganancia. En este caso, k representa el k-ésimo MDCT o coeficiente de transformada de Fourier. Debe observarse que gj es selectivo en frecuencias pero es independiente de la salida de la capa anterior. Los vectores de ganancia gj pueden basarse en alguna función de los elementos codificados de un vector de señal codificado anteriormente, en este caso S. Esto puede expresarse
50 como:
En un sistema de codificación integrado de múltiples capas (con más de 2 capas), la salida Ŝ que ha de ser
escalada mediante el vector de ganancia gj, se obtiene a partir de la contribución de por lo menos dos capas anteriores. Es decir
donde Ŝl es la salida de la primera capa (capa central) y Ê2 es la contribución de la segunda capa o de la primera capa de mejora. En este caso, los vectores de ganancia gj pueden ser alguna función de los elementos codificados de un vector de señal Ŝ codificado anteriormente y de la contribución de la primera capa de mejora.
10 Se ha observado que la mayor parte del ruido audible debido al modelo de codificación de la capa inferior está en los valles y no en los picos. En otras palabras, existe una mejor adaptación entre el original y el espectro codificado en los picos espectrales. Por lo tanto, los picos no deberían ser modificados, es decir el escalamiento debería limitarse a los valles. Para utilizar ventajosamente esta observación, en una de las realizaciones la función de la ecuación
(41) se basa en picos y valles de S. Sea Ψ(Ŝ) una máscara de escalamiento basada en las magnitudes de los picos
15 de S detectados. La máscara de escalamiento puede ser una función vectorial con valores distintos de cero en los picos detectados, es decir
donde ŝi es el i-ésimo elemento de S. La ecuación (41) puede modificarse a continuación como:
20 Pueden utilizarse diversos enfoques para la detección de picos. En la realización preferida, los picos se detectan pasando el espectro absoluto | Ŝ | a través de dos filtros de promediado ponderados independientes y comparando a continuación las salidas filtradas. Sean A1 y A2 la representación matricial de dos filtros de promediado. Sean l1 y l2 (h > l2) las longitudes de los dos filtros. La función de detección de picos está dada por:
25 donde β es un valor umbral empírico.
A modo de ejemplo ilustrativo, se hace referencia a la figura 15 y la figura 16. En este caso, el valor absoluto de la señal codificada | Ŝ | en el dominio MDCT está dado en ambas representaciones como 1510. La señal es representativa de un sonido procedente de un diapasón, que crea una secuencia armónica separada regularmente, tal como se muestra. La señal es difícil de codificar utilizando un codificador de la capa central en base a un modelo de voz, debido a que la frecuencia fundamental de esta señal está más allá del intervalo de lo que se considera razonable para una señal de voz. Esto tiene como resultado un nivel de ruido bastante alto producido por la capa central, lo que puede observarse comparando la señal codificada 1510 con la versión mono de la señal original |S| (1610).
A partir de la señal codificada (1510), se utiliza un generador de umbral para producir el umbral 1520, que corresponde a la expresión βA1 |Ŝ| de la ecuación 45. En este caso, A1 es una matriz de convolución que, en la realización preferida, implementa una convolución de la señal | S | con una ventana coseno de longitud 45. Son posibles muchas formas de ventana y éstas pueden comprender diferentes longitudes. Asimismo, en la realización preferida, A2 es una matriz identidad. El detector de picos compara a continuación la señal 1510 con el umbral 1520 para producir la máscara de escalamiento ψ(Ŝ), mostrada como 1530.
A continuación, pueden utilizarse los candidatos a vector de escalamiento de la capa central (proporcionados en la ecuación 45) para escalar el ruido entre picos de la señal codificada |Ŝ| a efectos de reproducir una señal reconstruida escalada 1620. El candidato óptimo puede elegirse de acuerdo con el proceso descrito en la ecuación 39 anterior o de otro modo.
Haciendo referencia a continuación a las figuras 17 a 19, se presentan diagramas de flujo que muestran metodología asociada con el cálculo de la máscara de escalamiento selectiva basado en detección de picos, descrito anteriormente en relación con diversas realizaciones. En el diagrama de flujo 1700 del centro de la figura 17, en el bloque 1710 se detecta un conjunto de picos en un vector de audio reconstruido S de una señal de audio recibida. La señal de audio puede estar integrada en múltiples capas. El vector de audio reconstruido S puede estar en el dominio de frecuencias y el conjunto de picos pueden ser picos en el dominio de frecuencias. Detectar el conjunto de picos se lleva a cabo de acuerdo con una función de detección de picos proporcionada por la ecuación (46), por ejemplo. Debe observarse que el conjunto puede estar vacío, tal como es el caso cuando todo está atenuado y no hay picos. En el bloque 1720, se genera una máscara de escalamiento ψ(Ŝ) en base al conjunto de picos detectado. A continuación, en el bloque 1730, se genera un vector de ganancia g* en base a por lo menos la máscara de escalamiento y un índice de j representativo del vector de ganancia. En el bloque 1740, se escala la señal de audio reconstruida con el vector de ganancia para producir una señal de audio reconstruida escalada. En el bloque 1750, se genera una distorsión en base a la señal de audio y a la señal de audio reconstruida escalada. En el bloque 1760, se entrega el índice del vector de ganancia basado en la distorsión generada.
Haciendo referencia continuación a la figura 18, el diagrama de flujo 1800 muestra una realización alternativa de codificación de una señal de audio, de acuerdo con ciertas realizaciones. En el bloque 1810, se recibe una señal de audio. La señal de audio puede estar integrada en múltiples capas. A continuación, la señal de audio es codificada en el bloque 1820 para generar un vector de audio reconstruido Ŝ. El vector de audio reconstruido S puede estar en el dominio de frecuencias y el conjunto de picos pueden ser picos en el dominio de frecuencias. En el bloque 1830, se detecta un conjunto de picos en el vector de audio reconstruido S de una señal de audio recibida. Detectar el conjunto de picos se lleva a cabo de acuerdo con una función de detección de picos proporcionada por la ecuación (46), por ejemplo. De nuevo, debe observarse que el conjunto puede estar vacío, tal como es el caso cuando todo está atenuado y no hay picos. En el bloque 1840, se genera una máscara de escalamiento ψ(Ŝ) basada en el conjunto de picos detectado. En el bloque 1850, se generan una serie de vectores de ganancia gj basados en la máscara de escalamiento. La señal de audio reconstruida es escalada con dicha serie de vectores de ganancia para producir una serie de señales de audio reconstruidas escaladas, en el bloque 1860. A continuación, en el bloque 1870 se generan una serie de distorsiones en base a la señal de audio y la serie de señales de audio reconstruidas escaladas. En el bloque 1880 se elige un vector de ganancia entre dicha serie de vectores de ganancia en base a dicha serie de distorsiones. El vector de ganancia puede elegirse para corresponder a una distorsión mínima de la serie de distorsiones. El índice representativo del vector de ganancia es entregado para ser transmitido y/o almacenado, en el bloque 1890.
Los flujos de codificador mostrados en las figuras 17 y 18 anteriores pueden implementarse mediante la estructura de aparato descrita previamente. Haciendo referencia al flujo 1700, en un aparato operativo para codificar una señal de audio, un selector de ganancia, tal como el selector de ganancia 1035 del generador en 1020 de vectores de ganancia del codificador 1010 de la capa de mejora, detecta un conjunto de picos en un vector de audio reconstruido S de una señal de audio recibida y genera una máscara de escalamiento ψ(Ŝ) basada en el conjunto de picos detectado. De nuevo, la señal de audio puede estar integrada en múltiples capas. El vector de audio reconstruido S puede estar en el dominio de frecuencias y el conjunto de picos pueden ser picos en el dominio de frecuencias. Detectar el conjunto de picos se lleva a cabo de acuerdo con una función de detección de picos proporcionada por la ecuación (46), por ejemplo. Debe observarse que el conjunto de picos puede ser nulo si la totalidad de la señal ha sido atenuada. Una unidad de escalamiento, tal como la unidad de escalamiento 1025 del generador 1020 del vector de ganancia genera un vector de ganancia g* basado, por lo menos, en la máscara de escalamiento y un índice j representativo del vector de ganancia, y escala la señal de audio reconstruida con el vector de ganancia para producir una señal de audio reconstruida escalada. El generador 1030 de la señal de error del generador 1025 del vector de ganancia genera una distorsión en base a la señal de audio y a la señal de audio reconstruida escalada. Un transmisor, tal como el transmisor 1045 del descodificador 1010 de la capa de mejora es operativo para entregar el índice del vector de ganancia en base a la distorsión generada.
Haciendo referencia al flujo 1800 de la figura 18, en un aparato operativo para codificar una señal de audio, un codificador recibe la señal de audio y codifica la señal de audio para generar un vector de audio reconstruido Ŝ. Una unidad de escalamiento, tal como la unidad de escalamiento 1025 del generador 1020 del vector de ganancia detecta un conjunto de picos en el vector de audio reconstruido S de una señal de audio recibida, genera una máscara de escalamiento ψ(Ŝ) en base al conjunto de picos detectado, genera una serie de vectores de ganancia gj en base a la máscara de escalamiento, y escala la señal de audio reconstruida con dicha serie de vectores de ganancia para producir la serie de señales de audio reconstruidas escaladas. El generador 1030 de la señal de error genera una serie de distorsiones en base a la señal de audio y a la serie de señales de audio reconstruidas escaladas. Un selector de ganancia, tal como el selector de ganancia 1035, escoge un vector de ganancia entre dicha serie de vectores de ganancia en base a la serie de distorsiones. El transmisor 1045, por ejemplo, entrega para su posterior transmisión y y/o almacenamiento, el índice representativo del vector de ganancia.
En el diagrama de flujo 1900 de la figura 19, se muestra un método de descodificación de una señal de audio. En el bloque 1910 se recibe un vector de audio reconstruido S y un índice representativo de un vector de ganancia. En el bloque 1920, se detecta un conjunto de picos en el vector de audio reconstruido. Detectar el conjunto de picos se lleva a cabo de acuerdo con una función de detección de picos proporcionada por la ecuación (46), por ejemplo. De nuevo, debe observarse que el conjunto puede estar vacío, tal como es el caso cuando todo está atenuado y no hay picos. En el bloque 1930 se genera una máscara de escalamiento ψ(Ŝ) basada en el conjunto de picos detectado. En el bloque 1940 se genera el vector de ganancia g* basado en por lo menos la máscara de escalamiento y el índice representativo del vector de ganancia. En el bloque 1950, el vector de audio reconstruido es escalado con el vector de ganancia para producir la señal de audio reconstruida escalada. El método puede incluir además generar una mejora para el vector de audio reconstruido y combinar a continuación la señal de audio reconstruida escalada y la mejora para el vector de audio reconstruido, a efectos de generar una señal descodificada mejorada.
El flujo de descodificador mostrado en la figura 19 puede ser implementado por la estructura del aparato descrita anteriormente. En un aparato operativo para descodificar una señal de audio, un descodificador 1070 del vector de ganancia de un descodificador 1060 de la capa de mejora, por ejemplo, recibe un vector de audio reconstruido S y un índice representativo de un vector de ganancia ig. Tal como se muestra en la figura 10, ig es recibido por el selector de ganancia 1075 mientras que el vector de audio reconstruido S es recibido por la unidad de escalamiento 1080 del descodificador 1070 del vector de ganancia. Un selector de ganancia, tal como el selector de ganancia 1075 del descodificador 1070 del vector de ganancia, detecta un conjunto de picos en el vector de audio reconstruido, genera una máscara de escalamiento ψ(Ŝ) en base al conjunto de picos detectado, y genera el vector de ganancia g* en base a por lo menos la máscara de escalamiento y el índice representativo del vector de ganancia. De nuevo, el conjunto puede estar vacío si la señal está principalmente atenuada. El selector de ganancia detecta el conjunto de picos de acuerdo con una función de detección de picos, tal como la proporcionada en la ecuación (46), por ejemplo. Una unidad de escalamiento 1080, por ejemplo, escala el vector de audio reconstruido con el vector de ganancia para producir una señal de audio reconstruida escalada.
Además, un descodificador de la señal de error, tal como el descodificador 665 de la señal de error del descodificador de la capa de mejora de la figura 6, puede generar una mejora para el vector de audio reconstruido. Un combinador de señal, tal como el combinador de señal 675 de la figura 6, combina la señal de audio reconstruida escalada y la mejora para el vector de audio reconstruido a efectos de generar una señal descodificada mejorada.
Debe observarse además que los flujos dirigidos por factor de equilibrio de las figuras 12 a 14, y los flujos dirigidos por máscara de escalamiento selectiva con detección de picos de las figuras 17 a 19 pueden ambos llevarse a cabo en diversas combinaciones y éstas están soportadas por el aparato y la estructura descritos en la presente memoria.
Si bien la invención ha sido mostrada y descrita en particular haciendo referencia a una realización específica, los expertos en la materia comprenderán que pueden realizarse en la misma diversos cambios en la forma y los detalles sin apartarse del alcance de la invención. Por ejemplo, si bien las técnicas anteriores se han descrito en términos de transmisión y recepción sobre un canal en un sistema de telecomunicaciones, estas técnicas pueden aplicar igualmente a un sistema que utilice el sistema de compresión de señal con el propósito de reducir los requisitos de almacenamiento en un dispositivo multimedia digital, tal como un dispositivo de memoria de estado sólido o un disco duro de ordenador. El alcance de la invención está definido en las reivindicaciones adjuntas.

Claims (14)

  1. REIVINDICACIONES
    1. Un aparato operativo para codificar una señal de audio, comprendiendo el aparato:
    un selector de ganancia de un generador de vectores de ganancia de un codificador de la capa de mejora que detecta un conjunto de picos en un vector de audio reconstruido S de una señal de audio recibida, genera una máscara de escalamiento ψ(Ŝ) basada en el conjunto de picos detectados;
    una unidad de escalamiento del generador del vector de ganancia, que genera un vector de ganancia g* en base a por lo menos la máscara de escalamiento y el índice j representativo del vector de ganancia, escala el vector de audio reconstruido Ŝ con el vector de ganancia para producir una señal de audio reconstruida escalada;
    un generador de señal de error del generador de vectores de ganancia que genera una distorsión en base a la señal de audio y a la señal de audio reconstruida escalada; y
    un transmisor del codificador de la capa de mejora que emite el índice del vector de ganancia basado en la distorsión generada.
  2. 2. El aparato según la reivindicación 1, en el que el selector de ganancia detecta el conjunto de picos además de acuerdo con una función de detección de picos dada por:
    donde β es un valor umbral.
  3. 3. El aparato según la reivindicación 1, que comprende
    un codificador que recibe una señal de audio de múltiples canales que comprende una serie de señales de audio y codifica la señal de audio de múltiples canales para generar una señal de audio codificada;
    un generador de factor de equilibrio del codificador de la capa de mejora que recibe una señal de audio codificada y genera un factor de equilibrio que tiene una serie de componentes del factor de equilibrio asociados cada uno con una señal de audio de dicha serie de señales de audio de la señal de audio de múltiples canales;
    en el que el generador del vector de ganancia del codificador de la capa de mejora determina un valor de ganancia a aplicar a la señal de audio codificada para generar una estimación de la señal de audio de múltiples canales en base al factor de equilibrio y a la señal de audio de múltiples canales, en el que el valor de ganancia está configurado para minimizar un valor de distorsión entre la señal de audio de múltiples canales y la estimación de la señal de audio de múltiples canales,
    en el que el transmisor transmite además una representación del valor de ganancia para por lo menos uno de transmisión y almacenamiento.
  4. 4. El aparato según la reivindicación 3, en el que la unidad de escalamiento del codificador de la capa de mejora que escala la señal de audio codificada con una serie de valores de ganancia para generar una serie de señales de audio codificadas candidatas, en el que por lo menos una de las señales de audio codificadas candidatas es escalada;
    en el que la unidad de escalamiento y el generador del factor de equilibrio generan la estimación de la señal de audio de múltiples canales en base al factor de equilibrio y a dicha por lo menos una señal de audio codificada escalada de dicha serie de señales de audio codificadas candidatas; y
    en el que el selector de ganancia del codificador de la capa de mejora evalúa el valor de distorsión en base a la estimación de la señal de audio de múltiples canales y a la señal de audio de múltiples canales para determinar una representación de un valor de ganancia óptimo de dicha serie de valores de ganancia.
  5. 5. Un aparato operativo para codificar una señal de audio, comprendiendo el aparato:
    un codificador que recibe la señal de audio y codifica la señal de audio para generar un vector de audio reconstruido Ŝ;
    una unidad de escalamiento de un generador de vectores de ganancia de un codificador de la capa de mejora que detecta un conjunto de picos en el vector de audio reconstruido Ŝ de una señal de audio recibida, genera una máscara de escalamiento ψ(Ŝ) en base al conjunto de picos detectado, genera una serie de vectores de ganancia gj en base a la máscara de escalamiento, y escala el vector de audio reconstruido Ŝ con dicha serie de vectores de ganancia para producir una serie de señales de audio reconstruidas escaladas;
    un generador de señal de error del generador de vectores de ganancia, que genera una serie de distorsiones en base a la señal de audio y a la serie de señales de audio reconstruidas escaladas;
    un selector de ganancia del generador de vectores de ganancia que elige un vector de ganancia entre la serie de vectores de ganancia en base a la serie de distorsiones; y
    5 un transmisor del codificador de la capa de mejora que entrega, para por lo menos uno de transmisión y almacenamiento, el índice representativo del vector de ganancia.
  6. 6. El aparato según la reivindicación 5, en el que se elige el vector de ganancia que corresponde a una distorsión mínima de la serie de distorsiones.
  7. 7. El aparato según la reivindicación 5, en el que la unidad de escalamiento detecta el conjunto de picos de acuerdo 10 con una función de detección de picos dada por:
    donde β es un valor umbral.
  8. 8.
    El aparato según la reivindicación 1 o la reivindicación 5, en el que la señal de audio está integrada en múltiples 15 capas.
  9. 9. El aparato según la reivindicación 1 o la reivindicación 5, en el que el vector de audio reconstruido S está en el dominio de frecuencias y el conjunto de picos son picos en el dominio de frecuencias.
  10. 10.
    Un método para codificar una señal de audio, comprendiendo el método: detectar un conjunto de picos en un vector de audio reconstruido Ŝ de una señal de audio recibida; 20 generar una máscara de escalamiento ψ(Ŝ) basada en el conjunto de picos detectado;
    generar un vector de ganancia g* basado en por lo menos la máscara de escalamiento y un índice j representativo del vector de ganancia;
    escalar el vector de audio reconstruido Ŝ con el vector de ganancia para producir una señal de audio reconstruida
    escalada;
    25 generar una distorsión en base a la señal de audio y a la señal de audio reconstruida escalada; y entregar el índice del vector de ganancia en base a la distorsión generada.
  11. 11. El método según la reivindicación 10, en el que la detección del conjunto de picos comprende además una función de detección de picos dada por:
    donde β es un valor umbral.
  12. 12. El método según la reivindicación 10, en el que la señal de audio está integrada en múltiples capas.
  13. 13. El método según la reivindicación 10, en el que el vector de audio reconstruido S está en el dominio de frecuencias y el conjunto de picos son picos del dominio de frecuencias. 35 14. El método según la reivindicación 10, que comprende además: recibir una señal de audio de múltiples canales que comprende una serie de señales de audio;
    codificar la señal de audio de múltiples canales para generar una señal de audio codificada; generar un factor de equilibrio que tiene una serie de componentes del factor de equilibrio asociados cada uno con una señal de audio de dicha serie de señales de audio de la señal de audio de múltiples canales;
    40 determinar un valor de ganancia a aplicar a la señal de audio codificada para generar una estimación de la señal de audio de múltiples canales en base al factor de equilibrio y a la señal de audio de múltiples canales, en el que el valor de ganancia está configurado para minimizar un valor de distorsión entre la señal de audio de múltiples canales y la estimación de la señal de audio de múltiples canales; y
    entregar una representación del valor de ganancia para por lo menos uno de transmisión y almacenamiento.
  14. 15. El método según la reivindicación 10, que comprende además: recibir una señal de audio de múltiples canales que comprende una serie de señales de audio; codificar la señal de audio de múltiples canales para generar una señal de audio codificada; escalar la señal de audio codificada con una serie de valores de ganancia para generar una serie de señales de
    5 audio codificadas candidatas, en el que por lo menos una de las señales de audio codificadas candidatas es
    escalada; generar un factor de equilibrio que tiene una serie de componentes del factor de equilibrio asociados cada uno con una señal de audio de dicha serie de señales de audio de la señal de audio de múltiples canales;
    generar una estimación de la señal de audio de múltiples canales en base al factor de equilibrio y a dicha por lo
    10 menos una señal de audio codificada escalada de la serie de señales de audio codificadas candidatas; evaluar un valor de distorsión en base a la estimación de la señal de audio de múltiples canales y a la señal de audio de múltiples canales para determinar una representación de un valor de ganancia óptimo de dicha serie de valores de ganancia;
    entregar, para por lo menos uno de transmisión y almacenamiento, la representación del valor de ganancia óptimo. 15
    DETERMINAR UN VALOR DE GANANCIA A APLICAR A LA SEÑAL DE AUDIO CODIFICADA PARA GENERAR UNA ESTIMACIÓN DE LA SEÑAL DE AUDIO DE MÚLTIPLES CANALES EN BASE AL FACTOR DE EQUILIBRIO Y A LA SEÑAL DE AUDIO DE MÚLTIPLES CANALES, CON EL VALOR DE GANANCIA CONFIGURADO PARA MINIMIZAR UN VALOR DE DISTORSIÓN ENTRE LA SEÑAL DE AUDIO DE MÚLTIPLES CANALES Y LA ESTIMACIÓN DE LA SEÑAL DE AUDIO DE MÑULTIPLES CANALES
ES09799786T 2008-12-29 2009-12-07 Cálculo de máscara de escalamiento selectiva basado en detección de picos Active ES2432625T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/345,141 US8140342B2 (en) 2008-12-29 2008-12-29 Selective scaling mask computation based on peak detection
US345141 2008-12-29
PCT/US2009/066927 WO2010077587A1 (en) 2008-12-29 2009-12-07 Selective scaling mask computation based on peak detection

Publications (1)

Publication Number Publication Date
ES2432625T3 true ES2432625T3 (es) 2013-12-04

Family

ID=41694779

Family Applications (1)

Application Number Title Priority Date Filing Date
ES09799786T Active ES2432625T3 (es) 2008-12-29 2009-12-07 Cálculo de máscara de escalamiento selectiva basado en detección de picos

Country Status (8)

Country Link
US (1) US8140342B2 (es)
EP (1) EP2382627B1 (es)
JP (1) JP5285162B2 (es)
KR (1) KR101274802B1 (es)
CN (1) CN102272832B (es)
BR (1) BRPI0923750A2 (es)
ES (1) ES2432625T3 (es)
WO (1) WO2010077587A1 (es)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461106B2 (en) * 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
US8576096B2 (en) * 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
US20090234642A1 (en) * 2008-03-13 2009-09-17 Motorola, Inc. Method and Apparatus for Low Complexity Combinatorial Coding of Signals
US7889103B2 (en) * 2008-03-13 2011-02-15 Motorola Mobility, Inc. Method and apparatus for low complexity combinatorial coding of signals
US8639519B2 (en) 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
US8219408B2 (en) * 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8200496B2 (en) * 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8149144B2 (en) * 2009-12-31 2012-04-03 Motorola Mobility, Inc. Hybrid arithmetic-combinatorial encoder
JP5333257B2 (ja) * 2010-01-20 2013-11-06 富士通株式会社 符号化装置、符号化システムおよび符号化方法
US8428936B2 (en) * 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
AU2015258241B2 (en) * 2014-07-28 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
EP2988300A1 (en) 2014-08-18 2016-02-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Switching of sampling rates at audio processing devices
CN113783571B (zh) * 2021-08-25 2024-03-22 深圳市中科蓝讯科技股份有限公司 信号强度自动调节方法、存储介质及芯片

Family Cites Families (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4560977A (en) * 1982-06-11 1985-12-24 Mitsubishi Denki Kabushiki Kaisha Vector quantizer
US4670851A (en) * 1984-01-09 1987-06-02 Mitsubishi Denki Kabushiki Kaisha Vector quantizer
US4727354A (en) * 1987-01-07 1988-02-23 Unisys Corporation System for selecting best fit vector code in vector quantization encoding
JP2527351B2 (ja) * 1987-02-25 1996-08-21 富士写真フイルム株式会社 画像デ―タの圧縮方法
US5067152A (en) * 1989-01-30 1991-11-19 Information Technologies Research, Inc. Method and apparatus for vector quantization
EP0419752B1 (en) * 1989-09-25 1995-05-10 Rai Radiotelevisione Italiana System for encoding and transmitting video signals comprising motion vectors
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
IT1281001B1 (it) * 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US6263312B1 (en) * 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
US6233554B1 (en) * 1997-12-12 2001-05-15 Qualcomm Incorporated Audio CODEC with AGC controlled by a VOCODER
ATE302991T1 (de) * 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
US6253185B1 (en) * 1998-02-25 2001-06-26 Lucent Technologies Inc. Multiple description transform coding of audio using optimal transforms of arbitrary dimension
US6904174B1 (en) * 1998-12-11 2005-06-07 Intel Corporation Simplified predictive video encoder
US6480822B2 (en) * 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
US6704705B1 (en) * 1998-09-04 2004-03-09 Nortel Networks Limited Perceptual audio coding
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
AU4190200A (en) * 1999-04-05 2000-10-23 Hughes Electronics Corporation A frequency domain interpolative speech codec system
US6236960B1 (en) * 1999-08-06 2001-05-22 Motorola, Inc. Factorial packing method and apparatus for information coding
US6504877B1 (en) * 1999-12-14 2003-01-07 Agere Systems Inc. Successively refinable Trellis-Based Scalar Vector quantizers
JP4149637B2 (ja) * 2000-05-25 2008-09-10 株式会社東芝 半導体装置
US6304196B1 (en) * 2000-10-19 2001-10-16 Integrated Device Technology, Inc. Disparity and transition density control system and method
AUPR105000A0 (en) * 2000-10-27 2000-11-23 Canon Kabushiki Kaisha Method for generating and detecting marks
JP3404024B2 (ja) * 2001-02-27 2003-05-06 三菱電機株式会社 音声符号化方法および音声符号化装置
JP3636094B2 (ja) * 2001-05-07 2005-04-06 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
JP4506039B2 (ja) * 2001-06-15 2010-07-21 ソニー株式会社 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6662154B2 (en) * 2001-12-12 2003-12-09 Motorola, Inc. Method and system for information signal coding using combinatorial and huffman codes
AU2003213149A1 (en) 2002-02-21 2003-09-09 The Regents Of The University Of California Scalable compression of audio and other signals
EP1483759B1 (en) 2002-03-12 2006-09-06 Nokia Corporation Scalable audio coding
JP3881943B2 (ja) 2002-09-06 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
US7876966B2 (en) * 2003-03-11 2011-01-25 Spyder Navigations L.L.C. Switching between coding schemes
EP1619664B1 (en) 2003-04-30 2012-01-25 Panasonic Corporation Speech coding apparatus, speech decoding apparatus and methods thereof
JP2005005844A (ja) * 2003-06-10 2005-01-06 Hitachi Ltd 計算装置及び符号化処理プログラム
JP4123109B2 (ja) * 2003-08-29 2008-07-23 日本ビクター株式会社 変調装置及び変調方法並びに復調装置及び復調方法
SE527670C2 (sv) 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Naturtrogenhetsoptimerad kodning med variabel ramlängd
MXPA06011396A (es) * 2004-04-05 2006-12-20 Koninkl Philips Electronics Nv Metodos de codificacion y decodificacion de senales estereofonicas y aparatos que utilizan los mismos.
US20060022374A1 (en) * 2004-07-28 2006-02-02 Sun Turn Industrial Co., Ltd. Processing method for making column-shaped foam
US6975253B1 (en) * 2004-08-06 2005-12-13 Analog Devices, Inc. System and method for static Huffman decoding
US7161507B2 (en) * 2004-08-20 2007-01-09 1St Works Corporation Fast, practically optimal entropy coding
JP4771674B2 (ja) * 2004-09-02 2011-09-14 パナソニック株式会社 音声符号化装置、音声復号化装置及びこれらの方法
ATE545131T1 (de) 2004-12-27 2012-02-15 Panasonic Corp Tonkodierungsvorrichtung und tonkodierungsmethode
JP4116628B2 (ja) * 2005-02-08 2008-07-09 株式会社東芝 オーディオ符号化方法およびオーディオ符号化装置
US20060190246A1 (en) * 2005-02-23 2006-08-24 Via Telecom Co., Ltd. Transcoding method for switching between selectable mode voice encoder and an enhanced variable rate CODEC
WO2006103586A1 (en) * 2005-03-30 2006-10-05 Koninklijke Philips Electronics N.V. Audio encoding and decoding
US7885809B2 (en) * 2005-04-20 2011-02-08 Ntt Docomo, Inc. Quantization of speech and audio coding parameters using partial information on atypical subsequences
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
DE602006018618D1 (de) * 2005-07-22 2011-01-13 France Telecom Verfahren zum umschalten der raten- und bandbreitenskalierbaren audiodecodierungsrate
JP5171256B2 (ja) 2005-08-31 2013-03-27 パナソニック株式会社 ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法
US8069035B2 (en) * 2005-10-14 2011-11-29 Panasonic Corporation Scalable encoding apparatus, scalable decoding apparatus, and methods of them
EP1959431B1 (en) 2005-11-30 2010-06-23 Panasonic Corporation Scalable coding apparatus and scalable coding method
US8260620B2 (en) * 2006-02-14 2012-09-04 France Telecom Device for perceptual weighting in audio encoding/decoding
US20070239294A1 (en) * 2006-03-29 2007-10-11 Andrea Brueckner Hearing instrument having audio feedback capability
JP2007293118A (ja) * 2006-04-26 2007-11-08 Sony Corp 符号化方法および符号化装置
US7230550B1 (en) * 2006-05-16 2007-06-12 Motorola, Inc. Low-complexity bit-robust method and system for combining codewords to form a single codeword
US7414549B1 (en) * 2006-08-04 2008-08-19 The Texas A&M University System Wyner-Ziv coding based on TCQ and LDPC codes
US7461106B2 (en) * 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
WO2008062990A1 (en) * 2006-11-21 2008-05-29 Samsung Electronics Co., Ltd. Method, medium, and system scalably encoding/decoding audio/speech
US7761290B2 (en) * 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8576096B2 (en) * 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
US20090234642A1 (en) * 2008-03-13 2009-09-17 Motorola, Inc. Method and Apparatus for Low Complexity Combinatorial Coding of Signals
US7889103B2 (en) * 2008-03-13 2011-02-15 Motorola Mobility, Inc. Method and apparatus for low complexity combinatorial coding of signals
US8639519B2 (en) * 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
WO2010003663A1 (en) 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding frames of sampled audio signals
US8290782B2 (en) * 2008-07-24 2012-10-16 Dts, Inc. Compression of audio scale-factors by two-dimensional transformation
US20100088090A1 (en) * 2008-10-08 2010-04-08 Motorola, Inc. Arithmetic encoding for celp speech encoders

Also Published As

Publication number Publication date
JP5285162B2 (ja) 2013-09-11
KR101274802B1 (ko) 2013-06-13
EP2382627B1 (en) 2013-09-18
BRPI0923750A2 (pt) 2016-01-19
EP2382627A1 (en) 2011-11-02
CN102272832B (zh) 2013-06-19
KR20110110267A (ko) 2011-10-06
US8140342B2 (en) 2012-03-20
WO2010077587A1 (en) 2010-07-08
JP2012512441A (ja) 2012-05-31
CN102272832A (zh) 2011-12-07
US20100169100A1 (en) 2010-07-01

Similar Documents

Publication Publication Date Title
ES2432625T3 (es) Cálculo de máscara de escalamiento selectiva basado en detección de picos
ES2430639T3 (es) Método y aparato para generar una capa de mejora dentro de un sistema de codificación de audio de múltiples canales
ES2430414T3 (es) Cálculo de máscara de escalado selectivo basado en detección de pico
ES2434251T3 (es) Método y aparato para generar una capa de mejora dentro de un sistema de codificación de audio de múltiples canales
KR101452722B1 (ko) 신호 부호화 및 복호화 방법 및 장치
ES2661732T3 (es) Decodificador de audio y método para proporcionar una información de audio decodificada usando una ocultación de error que modifica una señal de excitación de dominio de tiempo
ES2453098T3 (es) Códec multimodo de audio
ES2380307T3 (es) Esquema de codificación/decodificación de audio de tasa de transmisión de bits baja con preprocesamiento común.
ES2473277T3 (es) Dispositivo de codificación, dispositivo de descodificaci�n y método de los mismos
KR101125429B1 (ko) 오디오 코딩 시스템내에서 향상 계층을 발생시키는 방법 및 장치
EP2209114A1 (en) Encoder and decoder
ES2965741T3 (es) Aparato para codificar o decodificar una señal multicanal codificada mediante una señal de relleno generada por un filtro de banda ancha