ES2434251T3 - Método y aparato para generar una capa de mejora dentro de un sistema de codificación de audio de múltiples canales - Google Patents

Método y aparato para generar una capa de mejora dentro de un sistema de codificación de audio de múltiples canales Download PDF

Info

Publication number
ES2434251T3
ES2434251T3 ES09799783T ES09799783T ES2434251T3 ES 2434251 T3 ES2434251 T3 ES 2434251T3 ES 09799783 T ES09799783 T ES 09799783T ES 09799783 T ES09799783 T ES 09799783T ES 2434251 T3 ES2434251 T3 ES 2434251T3
Authority
ES
Spain
Prior art keywords
audio signal
gain
signal
vector
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES09799783T
Other languages
English (en)
Inventor
James P. Ashley
Udar Mittal
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Mobility LLC
Original Assignee
Motorola Mobility LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=41716337&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2434251(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Motorola Mobility LLC filed Critical Motorola Mobility LLC
Application granted granted Critical
Publication of ES2434251T3 publication Critical patent/ES2434251T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

Un aparato que decodifica una señal de audio de múltiples canales, que comprende: un decodificador que recibe una señal de audio codificada, un factor de balance codificado y un valor deganancia codificado; un decodificador de un vector de ganancia de un decodificador de la capa de mejora que genera un valorde ganancia decodificado a partir del valor de ganancia codificado; una unidad de escala del decodificador de la capa de mejora que cambia la escala de la señal de audiocodificada con el valor de ganancia decodificado para generar una señal de audio a escala; un combinador de señales que aplica el factor de balance codificado a la señal de audio a escala paragenerar una señal decodificada de audio de múltiples canales y produce la señal decodificada de audio demúltiples canales.

Description

Método y aparato para generar una capa de mejora dentro de un sistema de codificación de audio de múltiples canales
Referencia a solicitudes relacionadas
La presente solicitud está relacionada con las siguientes solicitudes de patente europea de propiedad conjunta con esta solicitud de Motorola Mobility, Inc.:
Solicitud EP 2 382 621 A0, titulada “METHOD AND APPARATUS FOR GENERATING AN ENHANCEMENT LAYER WITHIN A MULTIPLE-CHANNEL AUDIO CODING SYSTEM”;
Solicitud EP 2 382 627 A0, titulada “SELECTIVE SCALING MASK COMPUTATION BASED ON PEAK DETECTION”; y
Solicitud EP 2 382 626 A0, titulada “SELECTIVE SCALING MASK COMPUTATION BASED ON PEAK DETECTION”.
Campo de la divulgación
La presente divulgación versa, en general, acerca de sistemas de comunicaciones y, más en particular, acerca de la codificación de señales de voz y audio en tales sistemas de comunicaciones.
Antecedentes
La compresión de señales digitales de voz y audio es bien conocida. Generalmente, se requiere la compresión para transmitir eficientemente señales por un canal de comunicaciones o para almacenar señales comprimidas en un dispositivo de medios digitales, tal como un dispositivo de memoria de estado sólido o un disco duro de ordenador. Aunque hay muchas técnicas de compresión (o “codificación”), un método que ha seguido siendo muy popular para la codificación de voz digital se denomina predicción lineal con excitación por código (CELP), que es uno de una familia de algoritmos de codificación de “análisis por síntesis”. Generalmente, análisis por síntesis se refiere a un procedimiento de codificación por medio del cual se usan múltiples parámetros de un modelo digital para sintetizar un conjunto de señales candidatas que se comparan con una señal de entrada y se analizan en busca de distorsiones. Entonces se transmite o se almacena un conjunto de parámetros que producen la menor distorsión, que acaba usándose para reconstruir una estimación de la señal original de entrada. La CELP es un método particular de análisis por síntesis que usa uno o más libros de códigos, cada uno de los cuales comprende esencialmente conjuntos de vectores de código que se recuperan del libro de códigos en respuesta a un índice del libro de códigos.
En los codificadores CELP modernos existe el problema de mantener una reproducción de voz y audio de alta calidad con velocidades de transferencia de datos razonablemente bajas. Esto se aplica en especial a la música u otras señales genéricas de audio que no encajan muy bien en el modelo de voz de CELP. En este caso, la discordancia del modelo puede causar una calidad de audio muy degradada que puede resultar inaceptable para un usuario final del equipo que emplee tales métodos. Por lo tanto, subsiste la necesidad de mejorar el rendimiento de los codificadores de voz de tipo CELP con velocidades bajas de transferencia de bits, especialmente para música y otras entradas de tipo distinto a la voz.
El documento EP 1 818 911 (A1) da a conocer un dispositivo de codificación del sonido que tiene una estructura monoaural/estereofónica de escala variable y capaz de codificar eficientemente sonido estereofónico cuando la correlación entre las señales de los canales de una señal estereofónica es pequeña.
Los objetivos anteriores son resueltos por las reivindicaciones de la presente invención.
Breve descripción de los dibujos
Las figuras adjuntas, en las que números de referencia semejantes se refieren a elementos idénticos o funcionalmente similares en todas las distintas vistas, que, junto con la descripción detallada que sigue, están incorporadas en la memoria y forman parte de la misma, sirven para ilustrar adicionalmente diversas realizaciones de conceptos que incluyen la invención reivindicada y para explicar diversos principios y ventajas de esas realizaciones.
La FIG. 1 es un diagrama de bloques de un sistema de compresión integrado de voz/audio de la técnica anterior.
La FIG. 2 es un ejemplo más detallado del codificador de la capa de mejora de la FIG. 1.
La FIG. 3 es un ejemplo más detallado del codificador de la capa de mejora de la FIG. 1.
La FIG. 4 es un diagrama de bloques de un codificador y un decodificador de la capa de mejora.
La FIG. 5 es un diagrama de bloques de un sistema integrado de codificación de múltiples capas.
La FIG. 6 es un diagrama de bloques de un codificador y un decodificador de la capa 4.
La FIG. 7 es un diagrama de flujo que muestra la operación de los codificadores de la FIG. 4 y la FIG. 6.
La FIG. 8 es un diagrama de bloques de un sistema de compresión integrado de voz/audio de la técnica anterior.
La FIG. 9 es un ejemplo más detallado del codificador de la capa de mejora de la FIG. 8.
La FIG. 10 es un diagrama de bloques de un codificador y un decodificador de la capa de mejora según diversas realizaciones.
La FIG. 11 es un diagrama de bloques de un codificador y un decodificador de la capa de mejora según diversas realizaciones.
La FIG. 12 es un diagrama de flujo de la codificación de una señal de audio de múltiples canales según diversas realizaciones.
La FIG. 13 es un diagrama de flujo de la codificación de una señal de audio de múltiples canales según diversas realizaciones.
La FIG. 14 es un diagrama de flujo de la decodificación de una señal de audio de múltiples canales según diversas realizaciones.
La FIG. 15 es un gráfico de frecuencias de generación de máscara basada en la detección de picos según diversas realizaciones.
La FIG. 16 es un gráfico de frecuencias del cambio de escala de la capa de núcleo usando una generación de máscara de picos según diversas realizaciones.
Las FIGURAS 17-19 son diagramas de flujo que ilustran la metodología para codificar y decodificar usando la generación de máscara basada en la detección de picos según diversas realizaciones.
Los expertos en la técnica apreciarán que algunos elementos de las figuras se ilustran en aras de la simplicidad y la claridad y que no han sido dibujados necesariamente a escala. Por ejemplo, las dimensiones de algunos de los elementos de las figuras pueden estar exageradas con respecto a otros elementos para contribuir a mejorar la comprensión de diversas realizaciones. Además, la descripción y los dibujos no requieren necesariamente el orden ilustrado. Se apreciará, además, que ciertas acciones y/o etapas pueden ser descritas o representadas en un orden particular de incidencia, mientras que los expertos en la técnica entenderán que, en realidad, no se requiere tal especificidad con respecto a la secuencia. Cuando ha sido apropiado, se han representado componentes de aparatos y de métodos mediante símbolos convencionales en los dibujos, mostrando únicamente aquellos detalles específicos que son pertinentes a la comprensión de las diversas realizaciones para no ofuscar la divulgación con detalles que serán inmediatamente evidentes a las personas con un dominio normal de la técnica que cuenten con el beneficio de la descripción del presente documento. Así, se apreciará que, en aras de la simplicidad y la claridad de la ilustración, pueden no estar representados elementos comunes y bien entendidos que son útiles o necesarios en realizaciones comercialmente viables para facilitar una visión menos obstaculizada de estas diversas realizaciones.
Descripción detallada
Para abordar la necesidad mencionada en lo que antecede, en el presente documento se describen un método y un aparato para generar una capa de mejora dentro de un sistema de codificación de audio. Durante la operación, se recibe y se codifica una señal de entrada que ha de ser codificada para producir una señal de audio codificada. A continuación, se cambia la escala de la señal de audio codificada con varios valores de ganancia para producir varias señales de audio codificadas a escala, cada una de las cuales tiene un valor de ganancia asociado, y se determinan varios valores de error que existen entre la señal de entrada y cada una de las varias señales de audio codificadas a escala. Acto seguido, se escoge un valor de ganancia que está asociado con una señal de audio codificada a escala que da como resultado que exista un valor bajo de error entre la señal de entrada y la señal de audio codificada a escala. Por último, se transmite el valor bajo de error junto con el valor de ganancia como parte de una capa de mejora a la señal de audio codificada.
En la FIG. 1 se muestra un sistema de compresión integrado de voz/audio de la técnica anterior. El audio s(n) de entrada es tratado en primer lugar por un codificador 110 de la capa de núcleo que, para estos fines, puede ser un algoritmo de codificación de voz de tipo CELP. La corriente codificada de bits es transmitida al canal 125, además de ser introducida en un decodificador local 115 de la capa de núcleo, en el que se genera la señal reconstruida sc(n) de audio de núcleo. A continuación, se usa el codificador 120 de la capa de mejora para codificar información adicional en función de cierta comparación de las señales s(n) y sc(n), y este puede usar opcionalmente parámetros del decodificador 115 de la capa de núcleo. Como en el decodificador 115 de la capa de núcleo, el decodificador 130 de la capa de núcleo convierte los parámetros de la corriente de bits de la capa de núcleo en una señal sc(n) de
audio de la capa de núcleo. Acto seguido, el decodificador 135 de la capa de mejora usa la corriente de bits de la capa de mejora procedente del canal 125 y la señal sc(n) para producir la señal s(n) de salida mejorada de audio.
La ventaja fundamental de tal sistema integrado de codificación es que un canal particular 125 puede no ser capaz de soportar coherentemente el requisito de ancho de banda asociado con los algoritmos de codificación de audio de alta calidad. Un codificador integrado, sin embargo, permite que se reciba una corriente parcial de bits (por ejemplo, solo la corriente de bits de la capa de núcleo) desde el canal 125 para producir, por ejemplo, solo el audio de salida de núcleo cuando se pierde o se interrumpe la corriente de bits de la capa de mejora. Sin embargo, hay compromisos en calidad entre los codificadores integrados y los no integrados, y también entre diferentes objetivos de optimización de codificación integrada. Es decir, una codificación de la capa de mejora de mayor calidad puede contribuir a lograr un mejor equilibrio entre las capas de núcleo y de mejora, y también a reducir la velocidad global de transferencia de datos para mejores características de transmisión (por ejemplo, congestión reducida), lo que puede dar como resultado menores tasas de errores de paquete para las capas de mejora.
En la FIG. 2 se da un ejemplo más detallado del codificador 120 de la capa de mejora de la técnica anterior. Aquí, el generador 210 de señales de error comprende una señal ponderada de diferencias que se transforma en el dominio de la transformada discreta del coseno modificada (TDCM) para su tratamiento por el codificador 220 de señales de error. La señal E de error está dada como:
E=TDCM{W()ss } (1)
siendo W una matriz de ponderación perceptual basada en los coeficientes A(z) de filtro de predicción lineal (PL) procedentes del decodificador 115 de la capa de núcleo, siendo s un vector (es decir, una trama) de muestras procedentes de la señal s(n) de audio de entrada y siendo sc el correspondiente vector de muestras procedentes del decodificador 115 de la capa de núcleo. En la Recomendación G.729.1 de ITU-T se describe un procedimiento ejemplar de TDCM. A continuación, el codificador 220 de señales de error procesa la señal E de error para producir la palabra de código iE, que es transmitida subsiguientemente al canal 125. Para este ejemplo, es importante hacer notar que al codificador 220 de señales de error se le presenta únicamente una señal E de error y que produce una sola palabra asociada de código iE. La razón de esto se hará evidente más tarde.
El decodificador 135 de la capa de mejora recibe entonces del canal 125 la corriente cifrada de bits y demultiplexa debidamente la corriente de bits para producir la palabra de código iE. El decodificador 230 de señales de error usa la palabra de código iE para reconstruir la señal Ê de errores de la capa de mejora, que luego es combinada como sigue por el combinador 240 de señales con la señal sc(n) de audio de salida de la capa de núcleo para producir la señal s(n) de salida mejorada de audio:
=+−TDCM−{ }(2)
ssW E
siendo TDCM-1 la TDCM inversa (incluyendo solapamiento-adición) y siendo W-1 la matriz inversa de ponderación perceptual.
En la FIG. 3 se muestra otro ejemplo de un codificador de la capa de mejora. Aquí, la generación de la señal E de error por el generador 315 de señales de error implica un cambio previo adaptativo de escala en el que se lleva a cabo cierta modificación a la salida sc(n) de audio de la capa de núcleo. Este procedimiento da como resultado que se generen algunos bits que se muestran en el codificador 120 de la capa de mejora como la palabra de código is.
Además, el codificador 120 de la capa de mejora muestra la señal s(n) de audio de entrada y el audio transformado Sc de salida de la capa de núcleo que se introduce en el codificador 320 de señales de error. Se usan estas señales para construir un modelo psicoacústico para una codificación mejorada de la señal E de error de la capa de mejora. A continuación, las palabras de código is e iE son multiplexadas por el MUX 325, y luego enviadas al canal 125 para su decodificación subsiguiente por el decodificador 135 de la capa de mejora. La corriente codificada de bits es recibida por el demultiplexor 335, que separa la corriente de bits en componentes is e iE. A continuación, el decodificador 340 de señales de error usa la palabra de código iE para reconstruir la señal Ê de errores de la capa de mejora. El combinador 345 de señales cambia la escala de la señal sc(n) de alguna manera usando los bits is de escala y luego combina el resultado con la señal Ê de errores de la capa de mejora para producir la señal s(n) de salida mejorada de audio.
La FIG. 4 da una primera realización de la presente invención. Esta figura muestra al codificador 410 de la capa de mejora que recibe la señal sc(n) de salida de la capa de núcleo por medio de la unidad 415 de escala. Se usa un conjunto predeterminado de ganancias {g} para producir varias señales {S} de salida de la capa de núcleo a escala, siendo gj y Sj las candidatas j-ésimas de los respectivos conjuntos. Dentro de la unidad 415 de escala, la primera realización procesa la señal sc(n) en el dominio (TDCM) como:
TDCM{Ws} (3)
=× ≤<
pudiendo ser W alguna matriz de ponderación perceptual, siendo sc un vector de muestras procedentes del decodificador 115 de la capa de núcleo, siendo la TDCM una operación bien conocida en la técnica y pudiendo ser Gj una matriz de ganancia formada utilizando un vector gj de ganancia candidato, y siendo M el número de vectores de ganancia candidatos. En la primera realización, Gj usa el vector gj como la diagonal y ceros en todo lo demás (es decir, una matriz diagonal), aunque existen muchas posibilidades. Por ejemplo, Gj puede ser una matriz de bandas,
o puede ser incluso una simple cantidad escalar multiplicada por la matriz de identidad I. Alternativamente, puede haber cierta ventaja en dejar a la señal Sj en el dominio temporal, o puede haber casos en los que sea ventajoso transformar el audio a un dominio diferente, tal como el dominio de una transformada de Fourier discreta (DFT). Son bien conocidas en la técnica muchas transformadas de este tipo. En estos casos, la unidad de escala puede producir la Sj apropiada en función del respectivo dominio vectorial.
Pero, en cualquier caso, la razón fundamental para cambiar la escala del audio de salida de la capa de núcleo es compensar la discordancia del modelo (o alguna otra deficiencia de codificación), que puede causar diferencias significativas entre la señal de entrada y el códec de la capa de núcleo. Por ejemplo, si la señal de audio de entrada es fundamentalmente una señal de música y el códec de la capa de núcleo se basa en un modelo de voz, entonces la salida de la capa de núcleo puede contener características de señal muy distorsionadas, en cuyo caso resulta beneficioso, desde una perspectiva de la calidad del sonido, reducir selectivamente la energía de esta componente de la señal antes de aplicar codificación suplementaria de la señal por medio de una o más capas de mejora.
El vector candidato Sj de audio de la capa de núcleo con ganancia a escala y el audio s(n) de entrada pueden ser usados entonces como entrada al generador 420 de señales de error. En una realización ejemplar, la señal s(n) de audio de entrada se convierte en el vector S, de modo que S y Sj estén correspondientemente alineados. Es decir, el vector s, que representa a s(n), está alineado en el tiempo (fase) con sc, y pueden aplicarse las operaciones correspondientes, de modo que en esta realización
Ej =TDCM Ws−Sj ≤j <M (4)
{}
Esta expresión produce varios vectores Ej de señales de error que representan la diferencia ponderada entre el audio de entrada y el audio de salida de la capa de núcleo con ganancia a escala en el dominio espectral de la TDCM. En otras realizaciones en las que se consideran dominios diferentes, la anterior expresión puede ser modificada en función del respectivo dominio de procesamiento.
A continuación, se usa el selector 425 de ganancia para evaluar los varios vectores Ej de señales de error según la primera realización de la presente invención para producir un vector óptimo E* de errores, un parámetro óptimo g* de ganancia y, subsiguientemente, un correspondiente índice ig de ganancia. El selector 425 de ganancia puede usar varios métodos para determinar los parámetros óptimos, E* y g*, lo que puede implicar métodos de bucle cerrado (por ejemplo, minimización de una métrica de distorsión), métodos de bucle abierto (por ejemplo, clasificación heurística, estimación de rendimiento del modelo, etc.) o una combinación de ambos métodos. En la realización ejemplar puede usarse una métrica sesgada de distorsión, que se da como la diferencia sesgada de energía entre el vector original S de señales de audio y el vector de la señal reconstruida compuesta:
= {β⋅
−( +E )
(5)
}
≤<
en donde Êj puede ser la estimación cuantificada del vector Ej de señales de error y fj puede ser un término de sesgo que se usa para complementar la decisión de escoger el índice j* de error de ganancia perceptualmente óptimo. La solicitud de patente estadounidense, con nº de serie 11/531122, titulada APPARATUS AND METHOD FOR LOW COMPLEXITY COMBINATORIAL CODING OF SIGNALS, da un método ejemplar para la cuantificación vectorial de un vector de señales, aunque son posibles muchos otros métodos. Reconociendo que Ej = S -Sj , la Ecuación (5) puede reescribirse como:
= {β⋅
E −E
(6)
}
≤<
En esta expresión, el término Ej = 0 Ej -Êj 02 representa la energía de la diferencia entre las señales de error no cuantificadas y las cuantificadas. En aras de la claridad, esta cantidad puede ser denominada “energía residual” y puede usarse, además, para evaluar un “criterio de selección de la ganancia”, en el que se selecciona el parámetro g* de ganancia óptima. En la Ecuación (6) se da tal criterio de selección de ganancia, aunque muchos son posibles.
La necesidad de un término fj de sesgo puede surgir del caso en el que la función W de ponderación de errores en las Ecuaciones (3) y (4) pueda no producir de forma adecuada distorsiones igualmente perceptibles en el vector Êj. Por ejemplo, aunque puede usarse la función W de ponderación de errores para intentar “blanquear” en cierto grado el espectro de errores, puede haber ciertas ventajas en ponderar más las frecuencias bajas, debido a la percepción de distorsión por parte del oído humano. Como consecuencia de la mayor ponderación de los errores en las
frecuencias bajas, las señales de frecuencia elevada pueden ser inframodeladas por la capa de mejora. En estos casos, puede haber un beneficio directo en sesgar la métrica de distorsión hacia valores de gj que no atenúen los componentes de alta frecuencia de Sj, de modo que el inframodelado de las altas frecuencias no dé como resultado aberraciones de sonido objetable o poco natural en la señal final de audio reconstruida. Un ejemplo de esto sería el 5 caso de una señal de voz sorda. En este caso, el audio de entrada está compuesto generalmente de señales de tipo ruido de frecuencias medias a elevadas producidas por un flujo turbulento de aire procedente de la boca humana. Puede ser que el codificador de la capa de núcleo no codifique directamente este tipo de forma de onda, pero que pueda usar un modelo de ruido para generar una señal de audio de sonido similar. Esto puede dar como resultado una correlación generalmente baja entre el audio de entrada y las señales de audio de salida de la capa de núcleo. 10 Sin embargo, en esta realización, el vector Ej de señales de error está basado en una diferencia entre el audio de entrada y las señales de salida de audio de la capa de núcleo. Dado que estas señales pueden no correlacionarse muy bien, la energía de la señal Ej de error puede no ser necesariamente inferior al audio de entrada o al audio de salida de la capa de núcleo. En ese caso, la minimización del error en la Ecuación (6) puede dar como resultado que el cambio de escala de la ganancia sea demasiado agresivo, lo que puede dar como resultado aberraciones
15 audibles potenciales.
En otro caso, los factores fj de sesgo pueden basarse en otras características de la señal del audio de entrada y/o de las señales de audio de salida de la capa de núcleo. Por ejemplo, la relación pico a media del espectro de una señal puede dar una indicación del contenido armónico de esa señal. Señales tales como la voz y ciertos tipos de música pueden tener un contenido armónico elevado y, así, una relación pico a media elevada. Sin embargo, una 20 señal de música procesada a través de un códec de voz puede dar como resultado una calidad deficiente debido a la discordancia del modelo de codificación y, en consecuencia, el espectro de la señal de salida de la capa de núcleo puede tener una relación pico a media reducida cuando se lo compara con el espectro de la señal de entrada. En este caso, puede resultar beneficioso reducir la cantidad de sesgo en el procedimiento de minimización para permitir que el audio de salida de la capa de núcleo experimente un cambio de escala en ganancia hasta una energía menor,
25 permitiendo con ello que la codificación de la capa de mejora tenga un efecto más pronunciado en el audio compuesto de salida. En cambio, ciertos tipos de señales de entrada de voz o música pueden presentar menores relaciones pico a media, en cuyo caso puede percibirse que las señales son más ruidosas y, por lo tanto, pueden beneficiarse de un cambio de escala menor del audio de salida de la capa de núcleo aumentando el sesgo de error. Un ejemplo de una función para generar los factores de sesgo para fj está dado como:
β j
=
+ 6 ⋅ j VozSorda ==VERDADERO oφ s < λφ
(− j⋅Δ
)
e los de asc sos
s
c
≤ j < M
(7)
30 pudiendo ser A cierto umbral, y pudiendo darse la relación pico a media para el vector 4y como:
φ=
−+
(8)
()
=
y siendo yk1k2 un subconjunto vectorial de y(k), de modo que yk1k2 = y(k); k1 : k : k2.
Una vez se determina el índice j* de ganancia óptima a partir de la Ecuación (6), se genera la palabra asociada de código ig y se envía el vector óptimo E* de errores al codificador 430 de señales de error, en el que E* es codificado a una forma que es adecuada para el multiplexado con otras palabras de código (por medio del MUX 440) y
35 transmitido para su uso por un correspondiente decodificador. En una realización ejemplar, el codificador 408 de señales de error usa la codificación factorial de impulsos (FPC). Este método resulta ventajoso desde un punto de vista de la complejidad de procesamiento, dado que el procedimiento de enumeración asociado con la codificación del vector E* es independiente del procedimiento de generación de vectores que se usa para generar Êj.
El decodificador 450 de la capa de mejora invierte estos procedimientos para producir la salida mejorada s(n) de
40 audio. Más específicamente, el decodificador 450 recibe ig, siendo enviada iE por el demultiplexor 455 al decodificador 460 de señales de error, en el que el vector óptimo E* de errores se deriva de la palabra de código. Se pasa el vector óptimo E* de errores al combinador 465 de señales, en el que se modifica la sc(n) recibida como en la Ecuación (2) para producir s(n).
Una segunda realización de la presente invención implica un sistema integrado de codificación de múltiples capas
45 como el mostrado en la FIG. 5. Aquí, puede verse que hay cinco capas integradas dadas para este ejemplo. Las capas 1 y 2 pueden estar basadas ambas en códecs de voz, y las capas 3, 4 y 5 pueden ser capas de mejora de TDCM. Así, los codificadores 502 y 503 pueden utilizar códecs de voz para producir y dar salida a la señal codificada s(n) de entrada. Los codificadores 510, 610 y 514 comprenden codificadores de la capa de mejora, produciendo
cada uno una mejora diferente a la señal codificada. De forma similar a la realización anterior, el vector de señales de error para la capa 3 (codificador 510) puede darse como:
E =− (9)
siendo S = TDCM{Ws} la señal de entrada transformada ponderada, y siendo S2 = TDCM{Ws2} la señal transformada ponderada generada a partir del decodificador 506 de las capas 1/2. En esta realización, la capa 3 puede ser una capa de cuantificación de baja velocidad de transferencia y, como tal, puede haber relativamente pocos bits para codificar la correspondiente señal de error cuantificada Ê3 = Q{E3}. Para proporcionar una buena calidad con estas limitaciones, puede cuantificarse únicamente una fracción de los coeficientes dentro de E3. Las posiciones de los coeficientes que han de codificarse pueden ser fijas o pueden ser variables, pero, si se permite que varíen, puede hacer falta enviar información adicional al decodificador para identificar estas posiciones. Por ejemplo, si el intervalo de posiciones codificadas empieza en ks y termina en ke, siendo 0 : ks < ke < N, entonces el vector Ê3 de señales de error cuantificadas puede contener valores distintos de cero únicamente dentro de ese intervalo, y ceros para las posiciones fuera de ese intervalo. La información de la posición y el intervalo también puede estar implícita, dependiendo del método de codificación usado. Por ejemplo, es bien sabido en la codificación de audio que una banda de frecuencias puede ser considerada perceptualmente importante y que la codificación de un vector de señales puede centrarse en esas frecuencias. En estas circunstancias, el intervalo codificado puede ser variable, y puede no abarcar un conjunto contiguo de frecuencias. Pero, en cualquier caso, una vez que se cuantifica esta señal, el espectro compuesto de salida codificado puede construirse como:
=E + (10)
el cual es usado a continuación como entrada al codificador 610 de la capa 4.
El codificador 610 de la capa 4 es similar al codificador 410 de la capa de mejora de la realización anterior. Usando el vector gj de ganancia candidato, puede describirse el correspondiente vector de errores como:
E ()=− (11)
pudiendo ser Gj una correspondiente matriz de ganancia, con el vector gj como el componente diagonal. En la realización actual, sin embargo, el vector gj de ganancia puede estar relacionado de la manera siguiente con el vector Ê3 de señales de error cuantificadas. Dado que el vector Ê3 de señales de error cuantificadas puede estar limitado en el intervalo de frecuencias, por ejemplo empezando en la posición vectorial ks y acabando en la posición vectorial ke, se supone que la señal S3 de salida de la capa 3 estará codificada con mucha precisión dentro de ese intervalo. Por lo tanto, según la presente invención, se ajusta el vector gj de ganancia en función de las posiciones codificadas, ks y ke, del vector de señales de error de la capa 3. Más específicamente, para mantener la integridad de la señal en esas ubicaciones, pueden fijarse los correspondientes elementos individuales de ganancia a un valor constante a. Es decir:
se
()=α ≤≤ (12)
γ() e los de as c sos
siendo, generalmente, 0 : yj(k) : 1 y siendo gj(k) la ganancia de la posición k-ésima del vector candidato j-ésimo. En una realización ejemplar, el valor de la constante es uno (a = 1); sin embargo, son posibles muchos valores. Además, el intervalo de frecuencias puede abarcar múltiples posiciones de comienzo y de finalización. Es decir, la Ecuación (12) puede estar segmentada en intervalos no continuos de ganancias variables que se basan en alguna función de la señal Ê3 de errores, y puede ser escrita de forma más general como:
α £ ()≠
()= (13)
γ()e los de as c sos
Para este ejemplo, se usa una ganancia fija a para generar gj(k) cuando las posiciones correspondientes en la señal Ê3 de errores cuantificada previamente son distintas de cero, y se usa una función yj(k) de ganancia cuando las posiciones correspondientes en Ê3 son cero. Una posible función de ganancia puede definirse como:
(−⋅Δ
≤≤
α⋅ [h
γ()= ) ≤< (14)
α e los de as c sos
siendo " un valor de incremento (por ejemplo, "' 2,2 dB), siendo a una constante, siendo M el número de candidatos (por ejemplo, M = 4, lo que puede representarse usando solo 2 bits), y siendo kl y kh los cortes bajo y alto de frecuencia, respectivamente, sobre los que puede tener lugar la reducción de ganancia. La introducción de los parámetros kl y kh es útil en sistemas en los que se desea un cambio de escala únicamente en cierto intervalo de frecuencias. Por ejemplo, en una realización dada, las frecuencias elevadas puede no estar debidamente modeladas por la capa de núcleo; así, la energía dentro de la banda de alta frecuencia puede ser inherentemente menor que la de la señal de audio de entrada. En ese caso, puede haber poco beneficio, o ninguno, en cambiar la escala de la salida de la capa 3 en la señal de esa región, dado que en consecuencia puede aumentar la energía total de error.
En resumidas cuentas, la pluralidad de vectores gj de ganancia candidatos se basa en alguna función de los elementos codificados de un vector de señales codificadas previamente, en este caso Ê3. Esto puede expresarse en términos generales como:
()= (E ) (15)
A la mano derecha de la FIG. 5 se muestran las operaciones de los correspondientes decodificadores. A medida que se reciben las diversas capas de corrientes de bits codificadas (i1 a i5), se construyen las señales de salida de mayor calidad en la jerarquía de las capas de mejora sobre el decodificador de la capa de núcleo (capa 1). Es decir, para esta realización particular, dado que las dos primeras capas comprenden la codificación del modelo de voz en el dominio temporal (por ejemplo, CELP) y las tres capas restantes comprenden la codificación en el dominio de la transformada (por ejemplo, TDCM), la salida final para el sistema s(n) se genera según lo siguiente:
sn
()
sn snen ()= ()+ ()
−−
()=W TDCM {
sn +E }
sn()= (16)
−−
sn()=W TDCM { ⋅(+E )+E }
−−
()=W TDCM { ⋅(+E +E +E}
sn )}
}
siendo ê2(n) la señal de la capa de mejora del dominio temporal de la capa 2, y siendo 52 = TDCM{Ws2} el vector ponderado de TDCM correspondiente a la salida s2(n) de audio de la capa 2. En esta expresión, puede determinarse la señal total s(n) de salida a partir del nivel mayor de las capas consecutivas de corrientes de bits que se reciban. En esta realización, se supone que las capas de nivel inferior tienen mayor probabilidad de ser recibidas debidamente desde el canal; por lo tanto, los conjuntos de palabras de código, {i1}, {i1 i2}, {i1 i2 i3}, etc., determinan el nivel apropiado de decodificación de la capa de mejora en la Ecuación (16).
La FIG. 6 es un diagrama de bloques que muestra el codificador 610 y el decodificador 650 de la capa 4. El codificador y el decodificador mostrados en la FIG. 6 son similares a los mostrados en la FIG. 4, salvo en que el valor de ganancia usado por las unidades 615 y 670 de escala se deriva, respectivamente, por medio de los generadores 630 y 660 de ganancia selectiva de frecuencia. Durante la operación, la salida S3 de audio de la capa 3 se produce desde el codificador de la capa 3 y es recibida por la unidad 615 de escala. Además, el vector Ê3 de errores de la capa 3 se produce desde el codificador 510 de la capa 3 y es recibido por el generador 630 de ganancia selectiva de frecuencia. Según se ha expuesto, dado que el vector Ê3 de señales de error cuantificadas puede estar limitado en el intervalo de frecuencias, se ajusta el vector gj de ganancia en función, por ejemplo, de las posiciones ks y ke, tal como se muestra en la Ecuación 12, o en la expresión más general de la Ecuación 13.
El audio Sj a escala se produce desde la unidad 615 de escala y es recibido por el generador 620 de señales de error. Según se ha expuesto en lo que antecede, el generador 620 de señales de error recibe la señal S de audio de entrada y determina un valor Ej de error para cada vector de escala utilizado por la unidad 615 de escala. Estos vectores de error se pasan a la circuitería selectora 635 de ganancia junto con los valores de ganancia usados en la determinación de los vectores de error y un error E* particular basado en el valor óptimo g* de ganancia. Una palabra de código (ig) que representa la ganancia óptima g* se produce desde el selector 635 de ganancia, junto con el vector óptimo E* de errores, y es pasada al codificador 640 de señales de error, en el que se determina y se produce la palabra de código iE. Tanto ig como iE son enviadas al multiplexor 645 y transmitidas a través del canal 125 al decodificador 650 de la capa 4.
Durante la operación del decodificador 650 de la capa 4, ig e iE se reciben del canal 125 y son demultiplexadas por el demultiplexor 655. La palabra de código ig de ganancia y el vector Ê3 de errores de la capa 3 son usados como entrada al generador 660 de ganancia selectiva de frecuencia para producir el vector g* de ganancia según el correspondiente método del codificador 610. A continuación, se aplica el vector g* de ganancia al vector 83 de audio reconstruido de la capa 3 dentro de la unidad 670 de escala, cuya salida es combinada entonces en el combinador
675 de señales con el vector E* de errores de la capa de mejora de la capa 4, que se obtuvo del decodificador 655 de señales de error a través de la decodificación de la palabra de código iE, para producir, según se muestra, la salida 84 de audio reconstruido de la capa 4.
La FIG. 7 es un diagrama 700 de flujo que muestra la operación de un codificador según las realizaciones primera y segunda de la presente invención. Según se ha expuesto en lo que antecede, ambas realizaciones utilizan una capa de mejora que cambia la escala del audio codificado con varios valores de escala y luego escoge el valor de escala que dé como resultado el menor error. Sin embargo, en la segunda realización de la presente invención, se utiliza el generador 630 de ganancia selectiva de frecuencia para generar los valores de ganancia.
El flujo lógico comienza en el bloque 710, en el que un codificador de la capa de núcleo recibe una señal de entrada que ha de codificarse y codifica la señal de entrada para producir una señal de audio codificada. El codificador 410 de la capa de mejora recibe la señal de audio codificada (sc(n)) y la unidad 415 de escala cambia la escala de la señal de audio codificada con varios valores de ganancia para producir varias señales de audio codificadas a escala, cada una de las cuales tiene un valor de ganancia asociado (bloque 720). En el bloque 730, el generador 420 de señales de error determina varios valores de error que existen entre la señal de entrada y cada una de las varias señales de audio codificadas a escala. A continuación, el selector 425 de ganancia escoge un valor de ganancia entre los varios valores de ganancia (bloque 740). Según se ha expuesto en lo que antecede, el valor de ganancia (g*) se asocia con una señal de audio codificada a escala que dé como resultado que exista un valor de error (E*) bajo entre la señal de entrada y la señal de audio codificada a escala. Por último, en el bloque 750, el transmisor 440 transmite el valor de error (E*) bajo junto con el valor de ganancia (g*) como parte de una capa de mejora a la señal de audio codificada. Tal como reconocerá una persona con un dominio normal de la técnica, tanto E* como g* son debidamente codificados antes de la transmisión.
Según se ha expuesto en lo que antecede, en el lado del receptor, se recibirá la señal de audio codificada junto con la capa de mejora. La capa de mejora es una mejora a la señal de audio codificada que comprende el valor de ganancia (g*) y la señal de error (E*) asociada con el valor de ganancia.
Cambio de escala de la capa de núcleo para la estereofonía
En la descripción anterior se ha descrito un sistema integrado de codificación en el que cada una de las capas codificaba una señal monoaural. Ahora se describirá un sistema integrado de codificación para codificar señales estereofónicas u otras de múltiples canales. En aras de la brevedad, se describe la tecnología en el contexto de una señal estereofónica que consiste en dos entradas (fuentes) de audio; sin embargo, las realizaciones ejemplares descritas en el presente documento pueden extenderse fácilmente a casos en los que la señal estereofónica tenga más de dos entradas de audio, como ocurre en las entradas de audio de múltiples canales. Con fines de ilustración y no de limitación, las dos entradas de audio son señales estereofónicas que consisten en la señal izquierda (sI) y la señal derecha (sD), siendo sI y sD vectores de columna de n dimensiones que representan una trama de datos de audio. De nuevo en aras de la brevedad, se expondrá con detalle un sistema integrado de codificación que consiste en dos capas: concretamente, una capa de núcleo y una capa de mejora. La idea propuesta puede extenderse fácilmente a un sistema integrado de codificación de múltiples capas. Además, el códec puede no estar integrado per se; es decir, puede tener solo una capa, estando dedicados algunos de los bits de ese códec para una señal estereofónica y el resto de los bits para la señal monoaural.
Se conoce un códec estereofónico integrado consistente en una capa de núcleo que simplemente codifica una señal monoaural y capas de mejora que codifican ya sea las señales de frecuencia mayor o las estereofónicas. En ese escenario limitado, la capa de núcleo codifica una señal monoaural (s), obtenida de la combinación de sI y sD, para producir una señal codificada monoaural s. Sea H una matriz de combinación 2×1 usada para generar una señal monoaural, es decir,
s =(ss) (17)
Se hace notar que, en la Ecuación (17), sD puede ser una versión retardada de la señal derecha de audio en vez de simplemente la señal del canal derecho. Por ejemplo, el retardo puede calcularse para maximizar la correlación de SI y la versión retardada de SD. Si la matriz H es [0,5 0,5]T, entonces la Ecuación 17 da como resultado una ponderación igual de los canales derecho e izquierdo respectivos; es decir, s = 0,5sI + 0,5sD. Las realizaciones presentadas en el presente documento no están limitadas a que la capa de núcleo codifique la señal monoaural y la capa de mejora codifique la señal estereofónica. Tanto la capa de núcleo del códec integrado como la capa de mejora pueden codificar señales de audio de múltiples canales. El número de canales en la señal de audio de múltiples canales que son codificados por los múltiples canales de la capa de núcleo puede ser menor que el número de canales de la señal de audio de múltiples canales que pueden ser codificados por la capa de mejora. Sean (m, n) los números de canales que han de ser codificados por la capa de núcleo y la capa de mejora, respectivamente. Sea S1, S2, S3, …, Sn una representación de n canales de audio que han de ser codificados por el sistema integrado. Los m canales que han de ser codificados por la capa de núcleo se derivan de estos y se obtienen como
ss sm =[ss s] (17a)
n
siendo H una matriz de n × m.
Según se ha mencionado antes, la capa de núcleo codifica una señal monoaural s para producir una señal codificada s de la capa de núcleo. Para generar estimaciones de los componentes estereofónicos a partir de s, se calcula un factor de balance. Este factor de balance se calcula como:
TT
ss ss
= = (18)
TT
ss ss
Puede demostrarse que si la matriz de combinación H es [0,5 0,5]T, entonces
=− (19)
Obsérvese que la relación permite la cuantificación de únicamente un parámetro y que el otro puede extraerse fácilmente del primero. La salida estereofónica se calcula ahora como
s = ss = s (20)
En la sección subsiguiente, se trabajará en el dominio frecuencial en vez de en el dominio temporal. Por ello, una señal correspondiente en el dominio frecuencial está representada por una letra mayúscula; es decir, S, 8, SI, SD, SI y SD son, respectivamente, la representación de s, s, sI, sD, sI y sD en el dominio frecuencial. El factor de balance en el dominio frecuencial se calcula usando términos en el dominio frecuencial y está dado por
TT
W = W = (21)
TT
y
=W =W (22)
En el dominio frecuencial, los vectores pueden ser divididos adicionalmente en subvectores no solapados; es decir, un vector S de dimensión n puede dividirse en t subvectores, S1, S2, …, St, de dimensiones m1, m2, …mt, de modo que
t
m =n (23)
=
En este caso puede calcularse un factor de balance diferente para cada subvector diferente; es decir,
TT
W = W = (24)
TT
En este caso, el factor de balance es independiente de la consideración de ganancia.
Con referencia ahora a las FIGURAS 8 y 9, se muestran dibujos de la técnica anterior relevantes a señales estereofónicas y otras de múltiples canales. El sistema 800 de compresión integrado de voz/audio de la técnica anterior de la FIG. 8 es similar al de la FIG. 1, pero tiene múltiples señales de entrada de audio, en este ejemplo mostradas como señales S(n) de entrada estereofónica izquierda y derecha. Estas señales de audio de entrada son suministradas al combinador 810, que produce, según se muestra, el audio s(n) de entrada. Las múltiples señales de entrada también son proporcionadas, según se muestra, al codificador 820 de la capa de mejora. En el lado de decodificación, el decodificador 830 de la capa de mejora produce, según se muestra, las señales de audio mejorado sI, sD de salida.
La FIG. 9 ilustra un codificador 900 anterior de la capa de mejora como podría usarse en la FIG. 8. Según se muestra, se proporcionan las múltiples entradas de audio a un generador del factor de balance, junto con la señal de audio de salida de la capa de núcleo. El generador 920 del factor de balance del codificador 910 de la capa de mejora recibe las múltiples entradas de audio para producir la señal iB, que pasa, según se muestra, al MUX 325. La señal iB es una representación del factor de balance. En la realización preferente, iB es una secuencia de bits que
representa los factores de balance. En el lado del decodificador, esta señal iB es recibida por el decodificador 940 del factor de balance, que produce, según se muestra, elementos WI(n) y WD(n) del factor de balance, que son recibidos, según se muestra, por el combinador 950 de señales.
Cálculo del factor de balance de múltiples canales
Según se ha mencionado antes, en muchas situaciones el códec usado para la codificación de la señal monoaural está diseñado para voz de un solo canal y da como resultado el ruido del modelo de codificación siempre que se use para codificar señales que no estén plenamente soportadas por el modelo del códec. Las señales de música y otras señales de tipo distinto de la voz son algunas de las señales que no son debidamente modeladas por un códec de la capa de núcleo que se base en un modelo de voz. La descripción que antecede, con referencia a las FIGURAS 1-7, ha propuesto aplicar una ganancia selectiva de frecuencia a la señal codificada por la capa de núcleo. El cambio de escala se ha optimizado para minimizar una distorsión particular (valor de error) entre la entrada de audio y la señal codificada a escala. El enfoque descrito en lo que antecede funciona bien para señales de un solo canal, pero puede no ser óptimo para aplicarlo al cambio de escala de la capa de núcleo cuando la capa de mejora codifica las señales estereofónicas u otras de múltiples canales.
Dado que el componente monoaural de la señal de múltiples canales, tal como la señal estereofónica, se obtiene de la combinación de las dos o más entradas estereofónicas de audio, la señal combinada s puede no conformarse al modelo de voz de un solo canal; de aquí que el códec de la capa de núcleo pueda producir ruido cuando codifica la señal combinada. Así, existe la necesidad de un enfoque que permita el cambio de escala de la señal codificada de la capa de núcleo en un sistema integrado de codificación, reduciendo con ello el ruido generado por la capa de núcleo. En el enfoque de la señal monoaural descrito en lo que antecede, una medida particular de la distorsión sobre la que se obtuvo el cambio de escala selectivo de la frecuencia se basaba en el error de la señal monoaural. Este error E4(j) está mostrado en la anterior Ecuación (11). Sin embargo, la distorsión solo de la señal monoaural no es suficiente para mejorar la calidad del sistema estereofónico de comunicaciones. El cambio de escala contenido en la Ecuación (11) puede ser por un factor de escala de unidad (1) o por cualquier otra función identificada.
Para una señal estereofónica, una medida de distorsión debería capturar la distorsión tanto del canal derecho como del izquierdo. Sean EI y ED los vectores de error para los canales izquierdo y derecho, respectivamente, y estén dados por
E =− E =− (25)
En la técnica anterior, descrita, por ejemplo, en el estándar AMR-WB+, estos vectores de error se calculan como
E =−W ⋅ E =−W ⋅ (26)
Consideremos ahora el caso en que se aplican, a S, vectores de ganancia gj (0 : j < M) selectivos de frecuencia. Este vector de ganancia selectivo de frecuencia se representa en forma matricial como Gj, siendo Gj una matriz diagonal con elementos diagonales gj. Para cada vector Gj, se calculan los vectores de error como:
EI ()j=SI −WI ⋅G j ⋅SED ()j=SD −WD ⋅G j ⋅S (27)
dándose las estimaciones de las señales estereofónicas mediante los términos W·Gj·S. Puede verse que la matriz G de ganancia puede ser una matriz unidad (1) o puede ser cualquier otra matriz diagonal; se reconoce que no toda estimación posible puede funcionar para cada señal a escala.
La medida E de distorsión, que se minimiza para mejorar la calidad de la estereofonía, es una función de los dos vectores de error, es decir,
ε= (E ()E ()) (28)
Puede verse que el valor de la distorsión puede comprender múltiples medidas de distorsión.
El índice j del vector de ganancia selectivo de frecuencia que se selecciona está dado por:
(29)
≤<
En una realización ejemplar, la medida de distorsión es una distorsión media al cuadrado dada por: (30)
ε=
+
E () E ()
O puede ser una distorsión ponderada o sesgada dada por: (31)
ε=
+
E () E ()
Los sesgos BI y BD pueden ser una función de las energías de los canales izquierdo y derecho.
Según se ha mencionado antes, en el dominio frecuencial los vectores pueden ser divididos adicionalmente en subvectores no solapados. Para ampliar la técnica propuesta para que incluya la división del vector del dominio frecuencial en subvectores, se calcula para cada subvector el factor de balance usado en (27). Así, los vectores EI y ED de error para cada ganancia selectiva de frecuencia se forman por una concatenación de subvectores de error dada por
E ()= −W ⋅⋅ E ()= −W ⋅⋅ (32)
La medida E de distorsión de (28) es ahora una función de los vectores de error formados por concatenación de los anteriores subvectores de error.
Cálculo del factor de balance
El factor de balance generado usando la técnica anterior (Ecuación 21) es independiente de la salida de la capa de núcleo. Sin embargo, para minimizar una medida de distorsión dada en (30) y (31), puede ser beneficioso calcular también el factor de balance para minimizar la distorsión correspondiente. Ahora el factor de balance WI y WD puede calcularse como
STI G jSSTDG jS
WI ()j= WD ()j=
(33)
GS GS
jj
pudiendo verse que el factor de balance es independiente de la ganancia, tal como se muestra, por ejemplo, en el dibujo de la FIG. 11. Esta ecuación minimiza las distorsiones de las Ecuaciones (30) y (31). El problema del uso de tal factor de balance es que ahora
W ()≠−W () (34)
y de ahí que puedan ser necesarios campos separados de bits para cuantificar WI y WD. Esto puede evitarse poniendo la limitación WI(j) = 2 - WD(j) en la optimización. Con esta limitación, la solución óptima de la Ecuación (30) está dada por:
T BD (BDSD −BI SI )G jS WI ()j=+ WD ()j=−WI ()j(35)
BD +BI
G jS
en donde el factor de balance, según se muestra, depende de un término de ganancia; la FIG. 10 de los dibujos ilustra un factor de balance dependiente. Si los factores BI y BD de sesgo son la unidad, entonces
(SI −SD )T G jS WI ()j=− WD ()j=−WI ()j(36)
G jS
Los términos STGj5 de las Ecuaciones (33) y (36) son representativos de valores de correlación entre la señal de audio codificada a escala y al menos una de las señales de audio de una señal de audio de múltiples canales.
En la codificación estereofónica, la dirección y la ubicación del origen del sonido pueden ser más importantes que la distorsión media al cuadrado. Por lo tanto, la relación entre la energía del canal izquierdo y la energía del canal derecho puede ser un mejor indicador de la dirección (o de la ubicación del origen del sonido) que la minimización de una medida ponderada de la distorsión. En tales escenarios, el factor de balance calculado en las Ecuaciones
(35) y (36) puede no ser un buen enfoque para el cálculo del factor de balance. Es preciso mantener la relación de la energía entre los canales izquierdo y derecho antes y después de codificarlo. La relación de energía de los canales antes de la codificación y después de la codificación está dada por:
W () =
=
(37)
W ()
5 respectivamente. Igualando estas dos relaciones de energía y usando la premisa WI(j) = 2 -WD(j), obtenemos
STI SI
WI =
WD =−WI (38)STI SI + STDSD
que dan los componentes del factor de balance generado. Obsérvese que el factor de balance calculado en (38) es ahora independiente de Gj; así, ya no es una función de j, proporcionando un factor autocorrelacionado de balance que es independiente de la consideración de ganancia; en la FIG. 10 de los dibujos se ilustra adicionalmente un factor dependiente de balance. Usando este resultado con las Ecuaciones 29 y 32, podemos extender la selección
10 del índice óptimo j de cambio de escala de la capa de núcleo para que incluya los segmentos k de vectores concatenados, de modo que
j
=
≤j<M
k
+
SIk −WIk ⋅G jk ⋅Sk
SDk −WDk ⋅G jk ⋅Sk
(39)
sea una representación del valor óptimo de ganancia. Este índice del valor j* de ganancia es transmitido como una señal de salida del codificador de la capa de mejora.
Con referencia ahora a la FIG. 10, se ilustra un diagrama 1000 de bloques de un codificador de la capa de mejora y
15 un decodificador de la capa de mejora según diversas realizaciones. Las señales s(n) de audio de entrada son recibidas por el generador 1050 del factor de balance del codificador 1010 de la capa de mejora y el generador 1030 de señales de error (señales de distorsión) del generador 1020 del vector de ganancia. La señal 8(n) de audio codificada procedente de la capa de núcleo es recibida, según se muestra, por la unidad 1025 de escala del generador 1020 del vector de ganancia. La unidad 1025 de escala opera para cambiar la escala de la señal S(n) de
20 audio codificada con varios valores de ganancia para generar varias señales de audio codificadas candidatas, cambiándose la escala de al menos una de las señales de audio codificadas candidatas. Según se ha mencionado previamente, puede emplearse un cambio de escala por la unidad o por cualquier función deseada de identificación. La unidad 1025 de escala produce el audio Sj a escala, que es recibido por el generador 1050 del factor de balance. En lo que antecede, en conexión con las Ecuaciones (18), (21), (24) y (33), se expuso la generación de un factor de
25 balance que tiene varios componentes del factor de balance, cada uno de los cuales está asociado con una señal de audio de las señales de audio de múltiples canales recibidos por el codificador 1010 de la capa de mejora. Esto se logra, según se muestra, por medio del generador 1050 del factor de balance para producir, según se muestra, componentes 8I(n), 8D(n) del factor de balance. Según se ha expuesto en lo que antecede en conexión con la Ecuación (38), el generador 1050 del factor de balance ilustra un factor de balance independiente de la ganancia.
30 El generador 1020 del vector de ganancia es responsable de determinar un valor de ganancia que ha de aplicarse a la señal de audio codificada para generar una estimación de la señal de audio de múltiples canales, según se ha expuesto en las Ecuaciones (27), (28) y (29). Esto se logra por medio de la unidad 1025 de escala y del generador 1050 del factor de balance, que trabajan conjuntamente para generar la estimación en función del factor de balance y de al menos una señal de audio codificada a escala. El valor de ganancia se basa en el factor de balance y en la
35 señal de audio de múltiples canales, configurándose el valor de ganancia para minimizar un valor de distorsión entre la señal de audio de múltiples canales y la estimación de la señal de audio de múltiples canales. La Ecuación (30) expone la generación de un valor de distorsión como una función de la estimación de la señal de entrada de múltiples canales y de la propia señal real de entrada. Así, los componentes del factor de balance son recibidos por el generador 1030 de señales de error, junto con las señales s(n) de audio de entrada, para determinar un valor Ej
40 de error para cada vector de escala utilizado por la unidad 1025 de escala. Estos vectores de error se pasan a la circuitería selectora 1035 de ganancia junto con los valores de ganancia usados en la determinación de los vectores de error y un error E* particular basado en el valor óptimo g* de ganancia. El selector 1035 de ganancia es, entonces, operativo para evaluar el valor de distorsión en función de la estimación de la señal de entrada de múltiples canales y de la propia señal real para determinar una representación de un valor óptimo g* de ganancia de
45 los valores de ganancia posibles. Una palabra de código (ig) que representa la ganancia óptima g* se produce, según se muestra, desde el selector 1035 de ganancia y es recibida por el multiplexor MUX 1040.
Tanto ig como iB son enviados al multiplexor y transmitidos por el transmisor 1045 al decodificador 1060 de la capa de mejora a través del canal 125. Según se muestra, se produce la representación del valor ig de ganancia para su transmisión al canal 125, pero también este valor puede ser almacenado si se desea.
En el lado del decodificador, durante la operación del decodificador 1060 de la capa de mejora, se reciben ig e iE desde el canal 125 y son demultiplexados por el demultiplexor 1065. Así, el decodificador de la capa de mejora recibe una señal S(n) de audio codificada, un factor iB de balance codificado y un valor ig de ganancia codificado. El decodificador 1070 del vector de ganancia comprende, según se muestra, un generador 1075 de ganancia selectiva de frecuencia y una unidad 1080 de escala. El decodificador 1070 del vector de ganancia genera un valor de ganancia decodificado a partir del valor de ganancia codificado. Se introduce el valor ig de ganancia codificado en el generador 1075 de ganancia selectiva de frecuencia para producir el vector g* de ganancia según el correspondiente método del codificador 1010. A continuación, se aplica el vector g* de ganancia a la unidad 1080 de escala, que cambia la escala de la señal S(n) de audio codificada con el valor g* de ganancia decodificado para generar la señal de audio a escala. El combinador 1095 de señales recibe las señales codificadas de salida del factor de balance del decodificador 1090 del factor de balance en la señal Gj8(n) de audio a escala para generar y producir una señal de audio de múltiples canales decodificada, mostrada como las señales de audio mejorado de salida.
El diagrama 1100 de bloques ilustra un codificador de la capa de mejora y un decodificador de la capa de mejora ejemplares en los que, según se ha expuesto en lo que antecede en conexión con la Ecuación (33), el generador 1050 del factor de balance genera un factor de balance que depende de la ganancia. Esto se ilustra por medio de un generador de señales de error que genera la señal Gj 1110.
Con referencia ahora a las FIGURAS 12-14, se presentan flujos que cubren la metodología de las diversas realizaciones presentadas en el presente documento. En el flujo 1200 de la FIG. 12, se presenta un método para codificar una señal de audio de múltiples canales. En el bloque 1210, se recibe una señal de audio de múltiples canales que tiene varias señales de audio. En el bloque 1220, se codifica la señal de audio de múltiples canales para generar una señal de audio codificada. La señal de audio codificada puede ser una señal o bien monoaural o de múltiples canales, tal como una señal estereofónica, según se ilustra a título de ejemplo en los dibujos. Además, la señal de audio codificada puede comprender varios canales. Puede haber más de un canal en la capa de núcleo y el número de canales de la capa de mejora puede ser mayor que el número de canales de la capa de núcleo. A continuación, en el bloque 1230, se genera un factor de balance que tiene componentes del factor de balance, cada uno asociado con una señal de audio de la señal de audio de múltiples canales. Las Ecuaciones (18), (21), (24) y
(33) describen la generación del factor de balance. Cada componente del factor de balance puede depender de otros componentes del factor de balance generados, como ocurre en la Ecuación (38). La generación del factor de balance puede comprender generar un valor de correlación entre la señal de audio codificada a escala y al menos una de las señales de audio de la señal de audio de múltiples canales, como en las Ecuaciones (33) y (36). Puede generarse una autocorrelación entre al menos una de las señales de audio, como en la Ecuación (38), a partir de la cual puede generarse una raíz cuadrada. En el bloque 1240, se determina un valor de ganancia que ha de aplicarse a la señal de audio codificada para generar una estimación de la señal de audio de múltiples canales en función del factor de balance y de la señal de audio de múltiples canales. Se configura el valor de ganancia para minimizar un valor de distorsión entre la señal de audio de múltiples canales y la estimación de la señal de audio de múltiples canales. Las Ecuaciones (27), (28), (29) y (30) describen la determinación del valor de ganancia. Puede escogerse un valor de ganancia de los varios valores de ganancia para cambiar la escala de la señal de audio codificada y para generar las señales de audio codificadas a escala. Puede generarse el valor de distorsión en función de esta estimación; el valor de ganancia puede basarse en el valor de distorsión. En el bloque 1250, se produce una representación del valor de ganancia para su transmisión y/o su almacenamiento.
El flujo 1300 de la FIG. 13 describe otra metodología para codificar una señal de audio de múltiples canales según diversas realizaciones. En el bloque 1310 se recibe una señal de audio de múltiples canales que tiene varias señales de audio. En el bloque 1320, se codifica la señal de audio de múltiples canales para generar una señal de audio codificada. Los procedimientos de los bloques 1310 y 1320 los lleva a cabo un codificador de la capa de núcleo, según se ha descrito previamente. Tal como se ha especificado previamente, la señal de audio codificada puede ser una señal o bien monoaural o de múltiples canales, tal como una señal estereofónica, según se ilustra a título de ejemplo en los dibujos. Además, la señal de audio codificada puede comprender varios canales. Puede haber más de un canal en la capa de núcleo y el número de canales de la capa de mejora puede ser mayor que el número de canales de la capa de núcleo.
En el bloque 1330, se cambia la escala de la señal de audio codificada con varios valores de ganancia para generar varias señales de audio codificadas candidatas, cambiándose la escala de al menos una de las señales de audio codificadas candidatas. El cambio de escala lo logra la unidad de escala del generador del vector de ganancia. Según se ha expuesto, el cambio de escala de la señal de audio codificada puede incluir un cambio de escala con un valor de ganancia unidad. El valor de ganancia de los varios valores de ganancia puede ser, según se ha descrito previamente, una matriz de ganancia con el vector gj como componente diagonal. La matriz de ganancia puede ser selectiva de la frecuencia. La señal de audio codificada ilustrada en los dibujos puede depender de la salida de la capa de núcleo. Puede escogerse un valor de ganancia de los varios valores de ganancia para cambiar la escala de la señal de audio codificada y generar las señales de audio codificadas a escala. En el bloque 1340, se genera un factor de balance que tiene componentes del factor de balance, cada uno asociado con una señal de audio de la
señal de audio de múltiples canales. La generación del factor de balance la lleva a cabo el generador del factor de balance. Cada componente del factor de balance puede depender de otros componentes del factor de balance generados, como ocurre en la Ecuación (38). La generación del factor de balance puede comprender generar un valor de correlación entre la señal de audio codificada a escala y al menos una de las señales de audio de la señal de audio de múltiples canales, como en las Ecuaciones (33) y (36). Puede generarse una autocorrelación entre al menos una de las señales de audio, como en la Ecuación (38), a partir de la cual puede generarse una raíz cuadrada.
En el bloque 1350, se genera una estimación de la señal de audio de múltiples canales en función del factor de balance y de la al menos una señal de audio codificada a escala. Se genera la estimación en función de la señal (s) de audio codificada a escala y del factor de balance generado. La estimación puede comprender varias estimaciones correspondientes a las varias señales de audio codificadas candidatas. En el bloque 1360 se evalúa y/o puede generarse un valor de distorsión en función de la estimación de la señal de audio de múltiples canales y la señal de audio de múltiples canales para determinar una representación de un valor óptimo de ganancia de los valores de ganancia. El valor de distorsión puede comprender varios valores de distorsión correspondientes a las varias estimaciones. La evaluación del valor de distorsión la logra la circuitería selectora de ganancia. La Ecuación (39) da la presentación de un valor óptimo de ganancia. En el bloque 1370, puede producirse una representación del valor de ganancia para su transmisión y/o su almacenamiento. El transmisor del codificador de la capa de mejora puede transmitir la representación del valor de ganancia según se ha descrito previamente.
El procedimiento implementado en el diagrama 1400 de flujo de la FIG. 14 ilustra la decodificación de una señal de audio de múltiples canales. En el bloque 1410, se reciben una señal de audio codificada, un factor de balance codificado y un valor de ganancia codificado. En el bloque 1420 se genera un valor de ganancia decodificado a partir del valor de ganancia codificado. El valor de ganancia puede ser una matriz de ganancia, descrita previamente, y la matriz de ganancia puede ser selectiva de la frecuencia. La matriz de ganancia también puede depender del audio codificado recibido como una salida de la capa de núcleo. Además, la señal de audio codificada puede ser una señal
o bien monoaural o de múltiples canales, tal como una señal estereofónica, según se ilustra a título de ejemplo en los dibujos. Además, la señal de audio codificada puede comprender varios canales. Por ejemplo, puede haber más de un canal en la capa de núcleo y el número de canales de la capa de mejora puede ser mayor que el número de canales de la capa de núcleo.
En el bloque 1430, se cambia la escala de la señal codificada de audio con el valor de ganancia decodificado para generar una señal de audio a escala. En el bloque 1440 se aplica el factor de balance codificado a la señal de audio a escala para generar una señal de audio de múltiples canales decodificada. En el bloque 1450 se produce la señal de audio de múltiples canales decodificada.
Cálculo de la máscara selectiva de escala basado en la detección de picos
La matriz Gj de ganancia selectiva de la frecuencia, que es una matriz diagonal con elementos diagonales que forman un vector gj de ganancia, puede definirse, como más arriba en (14):
(−⋅Δ
()=α⋅ ) [ ≤≤ h ≤< (40)
α e los de as c sos
siendo " un valor de incremento (por ejemplo, "' 2,0 dB), siendo a una constante, siendo M el número de candidatos (por ejemplo, M = 8, lo que puede representarse usando solo 3 bits), y siendo kl y kh los cortes bajo y alto de frecuencia, respectivamente, sobre los que puede tener lugar la reducción de ganancia. Aquí k representa el késimo coeficiente de la TDCM o la transformada de Fourier. Obsérvese que gj es selectiva de la frecuencia, pero es independiente de la salida de la capa anterior. Los vectores gj de ganancia pueden basarse en alguna función de los elementos codificados de un vector de señales codificadas previamente, en este caso 8. Esto puede expresarse como:
()=( ) (41)
En un sistema integrado de codificación de múltiples capas (con más de dos capas), la salida 8 cuya escala ha de cambiar por el vector gj de ganancia se obtiene por la aportación de al menos dos capas anteriores. Es decir,
=E + (42)
siendo 51 la salida de la primera capa (capa de núcleo) y siendo Ê2 la aportación de la segunda capa o la primera capa de mejora. En este caso, los vectores gj de ganancia pueden ser alguna función de los elementos codificados de un vector 8 de señales codificadas previamente y la aportación de la primera capa de mejora:
gk=fkSE (43)
j()( )
Se ha observado que la mayor parte del ruido audible debido al modelo de codificación de la capa inferior está en los valles y no en los picos. En otras palabras, en los picos espectrales hay mayor coincidencia entre el espectro original y el codificado. Así, los picos no debieran alterarse; es decir, el cambio de escala debería estar limitado a los valles. Para usar ventajosamente esta observación, en una de las realizaciones la función de la Ecuación (41) se basa en picos y valles de 8. Sea l(8) una máscara de escala basada en las magnitudes de los picos detectados de 8. La máscara de escala puede ser una función de valores vectoriales con valores distintos de cero en los picos detectados, es decir,
si p co p ese te
ψ()= (44)
e los de as c sos
siendo siel i-ésimo elemento de S. La Ecuación (41) puede modificarse ahora como:
(−⋅Δ
)
≤≤ ψ()=
α⋅ [h
()=( )= ≤< (45)
α
e los de as c sos
Para la detección de picos pueden usarse diversos enfoques. En la realización preferente, los picos se detectan haciendo pasar el espectro absoluto |8| a través de dos filtros integradores ponderados y comparando luego las salidas filtradas. Sean A1 y A2 la representación matricial de dos filtros integradores. Sean l1 e l2 (l1 > l2) las longitudes de los dos filtros. La función de detección de picos está dada como:
β A
>⋅
ψ()= si A
(46)
e los de as c sos
siendo f un valor umbral empírico.
Como un ejemplo ilustrativo, remítase el lector a la FIG. 15 y la FIG. 16. Aquí, se da como 1510 el valor absoluto de la señal codificada |5| en el dominio de la TDCM en ambos gráficos. Esta señal es representativa de un sonido de un “diapasón” que crea, según se muestra, una secuencia de armónicos regularmente separados. Esta señal es difícil de codificar usando un codificador de la capa de núcleo basado en un modelo de voz, porque la frecuencia fundamental de esta señal está más allá del intervalo de lo que se considera razonable para una señal de voz. Esto da como resultado un nivel bastante alto de ruido producido por la capa de núcleo, que puede ser observado comparando la señal codificada 1510 con la versión monoaural de la señal original |S| (1610).
A partir de la señal codificada (1510), se usa un generador de umbral para producir el umbral 1520, que corresponde a la expresión fA1 |5| de la Ecuación 45. Aquí, A1 es una matriz de convolución que, en la realización preferente, implementa una convolución de la señal |8| con una ventana de coseno de longitud 45. Son posibles muchas formas de ventana y estas pueden comprender longitudes diferentes. También en la realización preferente, A2 es una matriz de identidad. El detector de picos compara entonces la señal 1510 con el umbral 1520 para producir la máscara /(5) de escala, mostrada como 1530.
Los vectores candidatos de cambio de escala de la capa de núcleo (dados en la Ecuación 45) pueden ser usados entonces para cambiar la escala del ruido entre picos de la señal codificada |8| para producir una señal reconstruida 1620 a escala. Puede escogerse el candidato óptimo según el procedimiento descrito en lo que antecede en la Ecuación 39 o de otro modo.
Con referencia ahora a las FIGURAS 17-19, se presentan diagramas de flujo que ilustran una metodología asociada con el cálculo de la máscara selectiva de escala basado en la detección de picos expuesta en lo que antecede según diversas realizaciones. En el diagrama 1700 de flujo de la FIG. 17, en el bloque 1710 se detecta un conjunto de picos en un vector 5 de audio reconstruido de una señal de audio recibida. La señal de audio puede estar embebida en múltiples capas. El vector S de audio reconstruido puede estar en el dominio frecuencial y el conjunto de picos pueden ser picos en el dominio frecuencial. La detección del conjunto de picos se lleva a cabo según una función de detección de picos dada, por ejemplo, por la Ecuación (46). Se hace notar que el conjunto puede estar vacío, como sucede cuando todo está atenuado y no hay ningún pico. En el bloque 1720 se genera una máscara /(8) de escala en función del conjunto de picos detectado. A continuación, en el bloque 1730, se genera un vector g* de ganancia en función de al menos la máscara de escala y un índice jrepresentativo del vector de ganancia. En el bloque 1740, con el vector de ganancia, se cambia la escala de la señal de audio reconstruida para producir una señal de audio reconstruida a escala. En el bloque 1750 se genera una distorsión basada en la señal de audio y la
señal de audio reconstruida a escala. En el bloque 1760 se produce el índice del vector de ganancia en función de la distorsión generada.
Con referencia ahora a la FIG. 18, el diagrama 1800 de flujo ilustra una realización alternativa de codificación de una señal de audio según ciertas realizaciones. En el bloque 1810 se recibe una señal de audio. La señal de audio puede estar embebida en múltiples capas. A continuación, en el bloque 1820 se codifica la señal de audio para generar un vector 8 de audio reconstruido. El vector 8 de audio reconstruido puede estar en el dominio frecuencial y el conjunto de picos pueden ser picos en el dominio frecuencial. En el bloque 1830, se detecta un conjunto de picos en el vector 8 de audio reconstruido de una señal de audio recibida. La detección del conjunto de picos se lleva a cabo según una función de detección de picos dada, por ejemplo, por la Ecuación (46). De nuevo, se hace notar que el conjunto puede estar vacío, como sucede cuando todo está atenuado y no hay ningún pico. En el bloque 1840 se genera una máscara /(5) de escala basada en el conjunto de picos detectado. En el bloque 1850, se generan varios vectores gj de ganancia en función de la máscara de escala. En el bloque 1860, con los varios vectores de ganancia se cambia la escala de la señal de audio reconstruida para producir varias señales de audio reconstruidas a escala. A continuación, en el bloque 1870, se generan varias distorsiones en función de la señal de audio y de las varias señales de audio reconstruidas a escala. En el bloque 1880 se escoge un vector de ganancia de los varios vectores de ganancia en función de las varias distorsiones. Puede escogerse el vector de ganancia para que se corresponda con una distorsión mínima de las varias distorsiones. En el bloque 1890 se produce el índice representativo del vector de ganancia para ser transmitido y/o almacenado.
Los flujos de codificador ilustrados en lo que antecede en las FIGURAS 17-18 pueden ser implementados por la estructura del aparato descrita previamente. Con referencia al flujo 1700, en un aparato operable para codificar una señal de audio, un selector de ganancia, tal como el selector 1035 de ganancia del generador 1020 del vector de ganancia del codificador 1010 de la capa de mejora, detecta un conjunto de picos en un vector S de audio reconstruido de una señal de audio recibida y genera una máscara /(8) de escala basada en el conjunto de picos detectado. De nuevo, la señal de audio puede estar embebida en múltiples capas. El vector S de audio reconstruido puede estar en el dominio frecuencial y el conjunto de picos pueden ser picos en el dominio frecuencial. La detección del conjunto de picos se lleva a cabo según una función de detección de picos dada, por ejemplo, por la Ecuación (46). Se hace notar que el conjunto de picos puede ser nulo si se ha atenuado todo en la señal. Una unidad de escala, tal como la unidad 1025 de escala del generador 1020 del vector de ganancia, genera un vector g* de ganancia en función de al menos la máscara de escala y un índice j representativo del vector de ganancia, cambia, con el vector de ganancia, la escala de la señal de audio reconstruida para producir una señal de audio reconstruida a escala. El generador 1030 de señales de error del generador 1025 del vector de ganancia genera una distorsión basada en la señal de audio y en la señal de audio reconstruida a escala. Un transmisor, tal como el transmisor 1045 del decodificador 1010 de la capa de mejora, es operable para producir el índice del vector de ganancia en función de la distorsión generada.
Con referencia al flujo 1800 de la FIG. 18, en un aparato operable para codificar una señal de audio, un codificador recibe una señal de audio y codifica la señal de audio para generar un vector 8 de audio reconstruido. Una unidad de escala, tal como la unidad 1025 de escala del generador 1020 del vector de ganancia, detecta un conjunto de picos en el vector S de audio reconstruido de una señal de audio recibida, genera una máscara /(8) de escala basada en el conjunto de picos detectado, genera varios vectores gj de ganancia en función de la máscara de escala, y, con los varios vectores de ganancia, cambia la escala de la señal de audio reconstruida para producir las varias señales de audio reconstruidas a escala. El generador 1030 de señales de error genera varias distorsiones en función de la señal de audio y las varias señales de audio reconstruidas a escala. Un selector de ganancia, tal como el selector 1035 de ganancia, escoge un vector de ganancia de los varios vectores de ganancia en función de las varias distorsiones. El transmisor 1045, por ejemplo, produce, para su transmisión posterior y/o su almacenamiento, el índice representativo del vector de ganancia.
En el diagrama 1900 de flujo de la FIG. 19 se ilustra un método de decodificación de una señal de audio. En el bloque 1910 se reciben un vector 5 de audio reconstruido y un índice representativo de un vector de ganancia. En el bloque 1920, se detecta un conjunto de picos en el vector de audio reconstruido. La detección del conjunto de picos se lleva a cabo según una función de detección de picos dada, por ejemplo, por la Ecuación (46). De nuevo, se hace notar que el conjunto puede estar vacío, como sucede cuando todo está atenuado y no hay ningún pico. En el bloque 1930 se genera una máscara /(8) de escala basada en el conjunto de picos detectado. En el bloque 1940 se genera el vector g* de ganancia en función de al menos la máscara de escala y del índice representativo del vector de ganancia. En el bloque 1950, con el vector de ganancia se cambia la escala del vector de audio reconstruido para producir una señal de audio reconstruida a escala. El método puede incluir, además, la generación de una mejora al vector de audio reconstruido y luego la combinación de la señal de audio reconstruida a escala y la mejora al vector de audio reconstruido para generar una señal decodificada mejorada.
El flujo de decodificador ilustrado en la FIG. 19 puede ser implementado por la estructura del aparato descrita previamente. En un aparato operable para decodificar una señal de audio, un decodificador 1070 del vector de ganancia de un decodificador 1060 de la capa de mejora, por ejemplo, recibe un vector S de audio reconstruido y un índice representativo de un vector ig de ganancia. Según se muestra en la FIG. 10, el selector 1075 de ganancia recibe ig mientras la unidad 1080 de escala del decodificador 1070 del vector de ganancia recibe el vector S de audio reconstruido. Un selector de ganancia, tal como el selector 1075 de ganancia del decodificador 1070 del vector de ganancia, detecta un conjunto de picos en el vector de audio reconstruido, genera una máscara /(8) de escala en función del conjunto de picos detectado, y genera el vector g* de ganancia en función de al menos la máscara de escala y del índice representativo del vector de ganancia. De nuevo, el conjunto puede estar vacío de contenido si la señal está atenuada en su mayor parte. El selector de ganancia detecta el conjunto de picos según una función de
5 detección de picos, tal como la dada, por ejemplo, por la Ecuación (46). Una unidad 1080 de escala, por ejemplo, con el vector de ganancia, cambia la escala del vector de audio reconstruido para producir una señal de audio reconstruida a escala.
Además, un decodificador de señales de error, tal como el decodificador 665 de señales de error del decodificador de la capa de mejora de la FIG. 6, puede generar una mejora al vector de audio reconstruido. Un combinador de
10 señales, como el combinador 675 de señales de la FIG. 6, combina la señal de audio reconstruida a escala y la mejora al vector de audio reconstruido para generar una señal decodificada mejorada.
Se hace notar, además, que los flujos dirigidos del factor de balance de las FIGURAS 12-14 y los flujos dirigidos de máscara de escala selectiva con detección de picos de las FIGURAS 17-19 pueden llevarse a cabo ambos en combinaciones diversas, y ello está soportado por el aparato y la estructura descritos en el presente documento.
15 Aunque la invención ha sido mostrada y descrita en particular con referencia a una realización particular, los expertos en la técnica entenderán que pueden realizarse en la misma diversos cambios en forma y detalles sin apartarse del alcance de la invención. Por ejemplo, aunque las técnicas anteriores están descritas en términos de transmitir y recibir por un canal en el sistema de telecomunicaciones, las técnicas pueden ser aplicadas igualmente a un sistema que use el sistema de compresión de señales con fines de reducir los requisitos de almacenamiento en
20 un dispositivo de medios digitales, tal como un dispositivo de memoria de estado sólido o un disco duro de ordenador. El alcance de protección se define en las reivindicaciones adjuntas.

Claims (12)

  1. REIVINDICACIONES
    1. Un aparato que decodifica una señal de audio de múltiples canales, que comprende:
    un decodificador que recibe una señal de audio codificada, un factor de balance codificado y un valor de ganancia codificado;
    5 un decodificador de un vector de ganancia de un decodificador de la capa de mejora que genera un valor de ganancia decodificado a partir del valor de ganancia codificado;
    una unidad de escala del decodificador de la capa de mejora que cambia la escala de la señal de audio codificada con el valor de ganancia decodificado para generar una señal de audio a escala;
    un combinador de señales que aplica el factor de balance codificado a la señal de audio a escala para 10 generar una señal decodificada de audio de múltiples canales y produce la señal decodificada de audio de múltiples canales.
  2. 2.
    El aparato de la reivindicación 1 en el que el valor de ganancia es una matriz de ganancia.
  3. 3.
    El aparato de la reivindicación 1 en el que la señal de audio codificada es una de entre una señal monoaural y una señal de múltiples canales.
    15 4. El aparato de la reivindicación 1 en el que el decodificador del vector de ganancia recibe un vector 8 de audio reconstruido y un índice representativo de un vector de ganancia y en el que el decodificador del vector de ganancia, además, comprende:
    un selector de ganancia del decodificador del vector de ganancia que detecta un conjunto de picos en el vector de audio reconstruido, genera una máscara /(5) de escala en función del conjunto detectado de 20 picos y genera el vector g* de ganancia en función de al menos la máscara de escala y del índice representativo del vector de ganancia; y
    una unidad de escala del decodificador del vector de ganancia que cambia la escala del vector de audio reconstruido con el vector de ganancia para producir una señal de audio reconstruida a escala.
  4. 5. Un método para decodificar una señal de audio de múltiples canales, que comprende:
    25 recibir una señal de audio codificada, un factor de balance codificado y un valor de ganancia codificado; generar un valor de ganancia decodificado a partir del valor de ganancia codificado; cambiar la escala de la señal de audio codificada con el valor de ganancia decodificado para generar una
    señal de audio a escala; aplicar el factor de balance codificado a la señal de audio a escala para generar una señal de audio de 30 múltiples canales decodificada; y producir la señal de audio de múltiples canales decodificada.
  5. 6. El método de la reivindicación 5, comprendiendo el método: recibir un vector 8 de audio reconstruido y un índice representativo de un vector de ganancia; detectar un conjunto de picos en el vector de audio reconstruido;
    35 generar una máscara /(5) de escala en función del conjunto de picos detectado;
    generar el vector g* de ganancia en función de al menos la máscara de escala y el índice representativo del vector de ganancia; y cambiar la escala el vector de audio reconstruido con el vector de ganancia para producir una señal de
    audio reconstruida a escala.
    40 7. Un método para codificar una señal de audio de múltiples canales, que comprende: recibir una señal de audio de múltiples canales que comprende varias señales de audio; codificar la señal de audio de múltiples canales para generar una señal de audio codificada; cambiar la escala de la señal de audio codificada con varios valores de ganancia para generar varias
    señales de audio codificadas candidatas, estando a escala al menos una de las señales de audio 45 codificadas candidatas; generar un factor de balance que tiene varios componentes del factor de balance, estando asociado cada uno con una señal de audio de las varias señales de audio de la señal de audio de múltiples canales;
    generar una estimación de la señal de audio de múltiples canales en función del factor de balance y la al menos una señal de audio codificada a escala de las varias señales de audio codificadas candidatas;
    5 evaluar un valor de distorsión en función de la estimación de la señal de audio de múltiples canales y de la señal de audio de múltiples canales para determinar una representación de un valor óptimo de ganancia de los varios valores de ganancia;
    producir para al menos uno de una transmisión y un almacenamiento la representación del valor óptimo de ganancia.
    10 8. El método de la reivindicación 7 en el que un valor de ganancia de los varios valores de ganancia es una matriz de ganancia con el vector gj como componente diagonal.
  6. 9. El método de la reivindicación 7 en el que la representación del valor óptimo de ganancia está dada por:
    j =
    +
    SIk −WIk ⋅G jk ⋅Sk
    SDk −WDk ⋅G jk ⋅Sk
    ≤ j<M
    k
  7. 10. El método de la reivindicación 7 en el que cada componente del factor de balance está dado por:
    STI SI
    WI =
    WD =−WISTI SI + STDSD
  8. 11. El método de la reivindicación 7 en el que la generación del factor de balance comprende generar un valor de
    15 correlación entre la señal de audio codificada a escala y al menos una de las señales de audio de la señal de audio de múltiples canales.
  9. 12. El método de la reivindicación 7 en el que la generación del factor de balance comprende: generar una autocorrelación entre al menos una de las señales de audio de la señal de audio de múltiples
    canales; y 20 generar una raíz cuadrada de la autocorrelación.
  10. 13.
    El método de la reivindicación 7 que, además, comprende la generación de un valor de distorsión en función de la estimación de la señal de audio de múltiples canales y de la señal de audio de múltiples canales.
  11. 14.
    El método de la reivindicación 13 en el que el valor de ganancia está basado en el valor de distorsión.
  12. 15. El método de la reivindicación 14 en el que el valor de distorsión comprende varios valores de distorsión 25 correspondientes a las varias estimaciones.
ES09799783T 2008-12-29 2009-12-03 Método y aparato para generar una capa de mejora dentro de un sistema de codificación de audio de múltiples canales Active ES2434251T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/345,117 US8219408B2 (en) 2008-12-29 2008-12-29 Audio signal decoder and method for producing a scaled reconstructed audio signal
US345117 2008-12-29
PCT/US2009/066616 WO2010077556A1 (en) 2008-12-29 2009-12-03 Method and apparatus for generating an enhancement layer within a multiple-channel audio coding system

Publications (1)

Publication Number Publication Date
ES2434251T3 true ES2434251T3 (es) 2013-12-16

Family

ID=41716337

Family Applications (1)

Application Number Title Priority Date Filing Date
ES09799783T Active ES2434251T3 (es) 2008-12-29 2009-12-03 Método y aparato para generar una capa de mejora dentro de un sistema de codificación de audio de múltiples canales

Country Status (7)

Country Link
US (1) US8219408B2 (es)
EP (1) EP2382622B1 (es)
KR (1) KR101274827B1 (es)
CN (1) CN102272829B (es)
BR (1) BRPI0923850B1 (es)
ES (1) ES2434251T3 (es)
WO (1) WO2010077556A1 (es)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461106B2 (en) * 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
JPWO2008084688A1 (ja) * 2006-12-27 2010-04-30 パナソニック株式会社 符号化装置、復号装置及びこれらの方法
US8576096B2 (en) * 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
US7889103B2 (en) * 2008-03-13 2011-02-15 Motorola Mobility, Inc. Method and apparatus for low complexity combinatorial coding of signals
US20090234642A1 (en) * 2008-03-13 2009-09-17 Motorola, Inc. Method and Apparatus for Low Complexity Combinatorial Coding of Signals
US8639519B2 (en) 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
US8175888B2 (en) 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
CN101771417B (zh) * 2008-12-30 2012-04-18 华为技术有限公司 信号编码、解码方法及装置、系统
FR2947944A1 (fr) * 2009-07-07 2011-01-14 France Telecom Codage/decodage perfectionne de signaux audionumeriques
US8149144B2 (en) * 2009-12-31 2012-04-03 Motorola Mobility, Inc. Hybrid arithmetic-combinatorial encoder
JP5333257B2 (ja) * 2010-01-20 2013-11-06 富士通株式会社 符号化装置、符号化システムおよび符号化方法
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
US8428936B2 (en) * 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
CN103650036B (zh) * 2012-07-06 2016-05-11 深圳广晟信源技术有限公司 对多声道数字音频编码的方法
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
US9978381B2 (en) * 2016-02-12 2018-05-22 Qualcomm Incorporated Encoding of multiple audio signals
CN106067819B (zh) * 2016-06-23 2021-11-26 广州市迪声音响有限公司 一种基于分量式矩阵算法的信号处理系统
US10217468B2 (en) 2017-01-19 2019-02-26 Qualcomm Incorporated Coding of multiple audio signals
CN108665902B (zh) 2017-03-31 2020-12-01 华为技术有限公司 多声道信号的编解码方法和编解码器

Family Cites Families (95)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4560977A (en) 1982-06-11 1985-12-24 Mitsubishi Denki Kabushiki Kaisha Vector quantizer
US4670851A (en) 1984-01-09 1987-06-02 Mitsubishi Denki Kabushiki Kaisha Vector quantizer
US4727354A (en) 1987-01-07 1988-02-23 Unisys Corporation System for selecting best fit vector code in vector quantization encoding
JP2527351B2 (ja) 1987-02-25 1996-08-21 富士写真フイルム株式会社 画像デ―タの圧縮方法
JP2742057B2 (ja) * 1988-07-14 1998-04-22 シャープ株式会社 薄膜elパネル
US5189405A (en) * 1989-01-26 1993-02-23 Sharp Kabushiki Kaisha Thin film electroluminescent panel
US5067152A (en) 1989-01-30 1991-11-19 Information Technologies Research, Inc. Method and apparatus for vector quantization
JPH0329291A (ja) * 1989-06-27 1991-02-07 Sumitomo Bakelite Co Ltd 有機分散型elランプ用捕水フィルム
EP0419752B1 (en) 1989-09-25 1995-05-10 Rai Radiotelevisione Italiana System for encoding and transmitting video signals comprising motion vectors
CN1062963C (zh) 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
US5147826A (en) * 1990-08-06 1992-09-15 The Pennsylvania Research Corporation Low temperature crystallization and pattering of amorphous silicon films
JPH04133313A (ja) * 1990-09-25 1992-05-07 Semiconductor Energy Lab Co Ltd 半導体作製方法
WO1993018505A1 (en) 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
TW264575B (es) * 1993-10-29 1995-12-01 Handotai Energy Kenkyusho Kk
US5923962A (en) * 1993-10-29 1999-07-13 Semiconductor Energy Laboratory Co., Ltd. Method for manufacturing a semiconductor device
US5771562A (en) * 1995-05-02 1998-06-30 Motorola, Inc. Passivation of organic devices
IT1281001B1 (it) 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
TW384412B (en) * 1995-11-17 2000-03-11 Semiconductor Energy Lab Display device
US5686360A (en) * 1995-11-30 1997-11-11 Motorola Passivation of organic devices
US5811177A (en) * 1995-11-30 1998-09-22 Motorola, Inc. Passivation of electroluminescent organic devices
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
TW309633B (es) * 1995-12-14 1997-07-01 Handotai Energy Kenkyusho Kk
US5693956A (en) * 1996-07-29 1997-12-02 Motorola Inverted oleds on hard plastic substrate
US5952778A (en) * 1997-03-18 1999-09-14 International Business Machines Corporation Encapsulated organic light emitting device
JP3290375B2 (ja) * 1997-05-12 2002-06-10 松下電器産業株式会社 有機電界発光素子
US6198220B1 (en) * 1997-07-11 2001-03-06 Emagin Corporation Sealing structure for organic light emitting devices
US6263312B1 (en) 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
KR100249784B1 (ko) * 1997-11-20 2000-04-01 정선종 고분자복합막을이용한유기물혹은고분자전기발광소자의패키징방법
EP0932141B1 (en) 1998-01-22 2005-08-24 Deutsche Telekom AG Method for signal controlled switching between different audio coding schemes
US6253185B1 (en) 1998-02-25 2001-06-26 Lucent Technologies Inc. Multiple description transform coding of audio using optimal transforms of arbitrary dimension
US6904174B1 (en) 1998-12-11 2005-06-07 Intel Corporation Simplified predictive video encoder
US7282398B2 (en) * 1998-07-17 2007-10-16 Semiconductor Energy Laboratory Co., Ltd. Crystalline semiconductor thin film, method of fabricating the same, semiconductor device and method of fabricating the same
US6146225A (en) * 1998-07-30 2000-11-14 Agilent Technologies, Inc. Transparent, flexible permeability barrier for organic electroluminescent devices
US6480822B2 (en) 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
US6704705B1 (en) 1998-09-04 2004-03-09 Nortel Networks Limited Perceptual audio coding
US6453287B1 (en) 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
EP1095370A1 (en) * 1999-04-05 2001-05-02 Hughes Electronics Corporation Spectral phase modeling of the prototype waveform components for a frequency domain interpolative speech codec system
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
US6236960B1 (en) 1999-08-06 2001-05-22 Motorola, Inc. Factorial packing method and apparatus for information coding
JP3942770B2 (ja) * 1999-09-22 2007-07-11 株式会社半導体エネルギー研究所 El表示装置及び電子装置
US6413645B1 (en) * 2000-04-20 2002-07-02 Battelle Memorial Institute Ultrabarrier substrates
US6504877B1 (en) 1999-12-14 2003-01-07 Agere Systems Inc. Successively refinable Trellis-Based Scalar Vector quantizers
JP4149637B2 (ja) * 2000-05-25 2008-09-10 株式会社東芝 半導体装置
US6304196B1 (en) 2000-10-19 2001-10-16 Integrated Device Technology, Inc. Disparity and transition density control system and method
AUPR105000A0 (en) 2000-10-27 2000-11-23 Canon Kabushiki Kaisha Method for generating and detecting marks
JP3404024B2 (ja) 2001-02-27 2003-05-06 三菱電機株式会社 音声符号化方法および音声符号化装置
JP3636094B2 (ja) 2001-05-07 2005-04-06 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
JP4506039B2 (ja) 2001-06-15 2010-07-21 ソニー株式会社 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
US6658383B2 (en) 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6662154B2 (en) 2001-12-12 2003-12-09 Motorola, Inc. Method and system for information signal coding using combinatorial and huffman codes
US6947886B2 (en) 2002-02-21 2005-09-20 The Regents Of The University Of California Scalable compression of audio and other signals
DE60214599T2 (de) 2002-03-12 2007-09-13 Nokia Corp. Skalierbare audiokodierung
JP3881943B2 (ja) 2002-09-06 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
US7876966B2 (en) 2003-03-11 2011-01-25 Spyder Navigations L.L.C. Switching between coding schemes
EP1619664B1 (en) 2003-04-30 2012-01-25 Panasonic Corporation Speech coding apparatus, speech decoding apparatus and methods thereof
JP2005005844A (ja) 2003-06-10 2005-01-06 Hitachi Ltd 計算装置及び符号化処理プログラム
JP4123109B2 (ja) 2003-08-29 2008-07-23 日本ビクター株式会社 変調装置及び変調方法並びに復調装置及び復調方法
SE527670C2 (sv) 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Naturtrogenhetsoptimerad kodning med variabel ramlängd
PL3561810T3 (pl) 2004-04-05 2023-09-04 Koninklijke Philips N.V. Sposób kodowania lewego i prawego sygnału wejściowego audio, odpowiedni koder, dekoder i produkt w postaci programu komputerowego
US20060022374A1 (en) 2004-07-28 2006-02-02 Sun Turn Industrial Co., Ltd. Processing method for making column-shaped foam
US6975253B1 (en) 2004-08-06 2005-12-13 Analog Devices, Inc. System and method for static Huffman decoding
US7161507B2 (en) 2004-08-20 2007-01-09 1St Works Corporation Fast, practically optimal entropy coding
US20060047522A1 (en) 2004-08-26 2006-03-02 Nokia Corporation Method, apparatus and computer program to provide predictor adaptation for advanced audio coding (AAC) system
JP4771674B2 (ja) 2004-09-02 2011-09-14 パナソニック株式会社 音声符号化装置、音声復号化装置及びこれらの方法
US7945447B2 (en) 2004-12-27 2011-05-17 Panasonic Corporation Sound coding device and sound coding method
US20060190246A1 (en) 2005-02-23 2006-08-24 Via Telecom Co., Ltd. Transcoding method for switching between selectable mode voice encoder and an enhanced variable rate CODEC
CN101151660B (zh) 2005-03-30 2011-10-19 皇家飞利浦电子股份有限公司 多通道音频编码器、解码器以及相应方法
US7885809B2 (en) 2005-04-20 2011-02-08 Ntt Docomo, Inc. Quantization of speech and audio coding parameters using partial information on atypical subsequences
KR20070003593A (ko) * 2005-06-30 2007-01-05 엘지전자 주식회사 멀티채널 오디오 신호의 인코딩 및 디코딩 방법
FR2888699A1 (fr) 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
DE602006018618D1 (de) 2005-07-22 2011-01-13 France Telecom Verfahren zum umschalten der raten- und bandbreitenskalierbaren audiodecodierungsrate
JP5171256B2 (ja) 2005-08-31 2013-03-27 パナソニック株式会社 ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法
JP5142723B2 (ja) 2005-10-14 2013-02-13 パナソニック株式会社 スケーラブル符号化装置、スケーラブル復号装置、およびこれらの方法
WO2007063910A1 (ja) 2005-11-30 2007-06-07 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置およびスケーラブル符号化方法
KR101366124B1 (ko) 2006-02-14 2014-02-21 오렌지 오디오 인코딩/디코딩에서의 인지 가중 장치
US20070239294A1 (en) 2006-03-29 2007-10-11 Andrea Brueckner Hearing instrument having audio feedback capability
US7230550B1 (en) 2006-05-16 2007-06-12 Motorola, Inc. Low-complexity bit-robust method and system for combining codewords to form a single codeword
US7414549B1 (en) 2006-08-04 2008-08-19 The Texas A&M University System Wyner-Ziv coding based on TCQ and LDPC codes
US7461106B2 (en) 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
KR101100221B1 (ko) * 2006-11-15 2011-12-28 엘지전자 주식회사 오디오 신호의 디코딩 방법 및 그 장치
US8285555B2 (en) 2006-11-21 2012-10-09 Samsung Electronics Co., Ltd. Method, medium, and system scalably encoding/decoding audio/speech
BRPI0711094A2 (pt) * 2006-11-24 2011-08-23 Lg Eletronics Inc método para codificação e decodificação de sinal de áudio baseado em objeto e aparelho deste
US7761290B2 (en) * 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8576096B2 (en) 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
US20090234642A1 (en) 2008-03-13 2009-09-17 Motorola, Inc. Method and Apparatus for Low Complexity Combinatorial Coding of Signals
US7889103B2 (en) 2008-03-13 2011-02-15 Motorola Mobility, Inc. Method and apparatus for low complexity combinatorial coding of signals
US8639519B2 (en) 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
KR101227729B1 (ko) 2008-07-11 2013-01-29 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 샘플 오디오 신호의 프레임을 인코딩하기 위한 오디오 인코더 및 디코더
US20100088090A1 (en) 2008-10-08 2010-04-08 Motorola, Inc. Arithmetic encoding for celp speech encoders
US8175888B2 (en) 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
US8200496B2 (en) 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8140342B2 (en) 2008-12-29 2012-03-20 Motorola Mobility, Inc. Selective scaling mask computation based on peak detection
US8442837B2 (en) 2009-12-31 2013-05-14 Motorola Mobility Llc Embedded speech and audio coding using a switchable model core

Also Published As

Publication number Publication date
US20100169099A1 (en) 2010-07-01
KR101274827B1 (ko) 2013-06-13
CN102272829B (zh) 2013-07-31
WO2010077556A1 (en) 2010-07-08
BRPI0923850A8 (pt) 2017-07-11
US8219408B2 (en) 2012-07-10
EP2382622A1 (en) 2011-11-02
KR20110111443A (ko) 2011-10-11
BRPI0923850A2 (pt) 2015-07-28
BRPI0923850B1 (pt) 2020-03-24
CN102272829A (zh) 2011-12-07
EP2382622B1 (en) 2013-09-25

Similar Documents

Publication Publication Date Title
ES2434251T3 (es) Método y aparato para generar una capa de mejora dentro de un sistema de codificación de audio de múltiples canales
ES2430639T3 (es) Método y aparato para generar una capa de mejora dentro de un sistema de codificación de audio de múltiples canales
ES2430414T3 (es) Cálculo de máscara de escalado selectivo basado en detección de pico
ES2432625T3 (es) Cálculo de máscara de escalamiento selectiva basado en detección de picos
ES2266003T3 (es) Suavizador de la ganancia en un descodificador de señal de habla y audio de banda ancha.
KR101452722B1 (ko) 신호 부호화 및 복호화 방법 및 장치
KR101125429B1 (ko) 오디오 코딩 시스템내에서 향상 계층을 발생시키는 방법 및 장치
ES2259158T3 (es) Metodo y aparato decodificador audio.
ES2323294T3 (es) Dispositivo de decodificacion con una unidad de decorrelacion.
ES2316679T3 (es) Cuantificacion y cuantificacion inversa para señales audio.
EP2402940B9 (en) Encoder, decoder, and method therefor
ES2302754T3 (es) Procedimiento y aparato para codificacion de habla sorda.
JP2011509428A (ja) オーディオ信号処理方法及び装置