ES2533098T3 - Codificador de señal de audio, decodificador de señal de audio, método para proveer una representación codificada de un contenido de audio, método para proveer una representación decodificada de un contenido de audio y programa de computación para su uso en aplicaciones de bajo retardo - Google Patents

Codificador de señal de audio, decodificador de señal de audio, método para proveer una representación codificada de un contenido de audio, método para proveer una representación decodificada de un contenido de audio y programa de computación para su uso en aplicaciones de bajo retardo Download PDF

Info

Publication number
ES2533098T3
ES2533098T3 ES10768928.3T ES10768928T ES2533098T3 ES 2533098 T3 ES2533098 T3 ES 2533098T3 ES 10768928 T ES10768928 T ES 10768928T ES 2533098 T3 ES2533098 T3 ES 2533098T3
Authority
ES
Spain
Prior art keywords
audio content
encoded
domain
window
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES10768928.3T
Other languages
English (en)
Inventor
Ralf Geiger
Markus Schnell
Jérémie Lecomte
Konstantin Schmidt
Guillaume Fuchs
Nikolaus Rettelbach
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2533098T3 publication Critical patent/ES2533098T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Abstract

Codificador de señal de audio (100) para proveer una representación codificada (112) de un contenido de audio sobre la base de una representación de entrada (110) del contenido de audio, la señal de audio comprende: una ruta de dominio de transformada (120) configurada para obtener un conjunto de coeficientes espectrales (124) e información de moldeado de ruido (126) sobre la base de una representación de dominio de tiempo (122) de una porción del contenido de audio a ser codificado en un modo de dominio de transformada, de modo que los coeficientes espectrales (124) describen un espectro de una versión de moldeado de ruido (223a; 262a; 285a) del contenido de audio; en donde la ruta de dominio de transformada (120; 200; 230; 260) comprende un convertidor de dominio de tiempo a dominio de frecuencia (130;222;264;284) configurado para enventanar una representación de dominio de tiempo (220a; 280a) del contenido de audio, o una versión pre-procesada (262a) del mismo, para obtener una representación enventanada (221a;263;283a) del contenido de audio, y para aplicar una conversión dominio de tiempo a dominio de frecuencia, para derivar un conjunto de coeficientes espectrales (222a; 264a;284a) a partir de la representación de dominio de tiempo del contenido de audio enventanada; y una ruta de dominio de predicción lineal excitada por código (ruta CELP) (140) configurada para obtener una información de excitación por código (144) y una información de parámetro de dominio de predicción lineal (146) sobre la base de una porción del contenido de audio a ser codificado en un modo de dominio de predicción lineal excitado por código (modo CELP); en donde el convertidor de dominio de tiempo a dominio de frecuencia (130; 221,222; 263,264; 283,284) está configurado para aplicar una ventana de análisis asimétrico predeterminada (520;1130;1330) para un enventanado de una porción actual (1132; 1332) del contenido de audio a ser codificado en el modo de dominio de transformada tanto si la porción actual del contenido de audio es seguida por una porción subsiguiente (1142; 1342) del contenido de audio a ser codificado en el modo de dominio de transformada como si la porción actual del contenido de audio es seguida por una porción subsiguiente del contenido de audio a ser codificado en el modo CELP; y en donde el codificador de la señal de audio está configurado para proveer selectivamente una información de cancelación de solapamiento (164), que representa componentes de la señal de cancelación de solapamiento que estarían representados por una representación en el modo de dominio de transformada de la porción subsiguiente (1142; 1342) del contenido de audio, si la porción actual (1132; 1332) del contenido de audio es seguida por una porción subsiguiente (1142; 1342) del contenido de audio a ser codificado en el modo CELP.

Description

E10768928
17-03-2015
DESCRIPCIÓN
Codificador de señal de audio, decodificador de señal de audio, método para proveer una representación codificada de un contenido de audio, método para proveer una representación decodificada de un contenido de audio y 5 programa de computación para su uso en aplicaciones de bajo retardo
Campo de la técnica
[0001] Las formas de realización de acuerdo con la invención se relacionan con un codificador de señal de
10 audio para proveer una representación codificada de un contenido de audio con base en una representación de ingreso de datos del contenido de audio.
[0002] Las formas de realización de acuerdo con la invención se relacionan con un decodificador de señal de audio para proveer una representación decodificada de un contenido de audio con base en una representación
15 codificada del contenido de audio.
[0003] Las formas de realización de acuerdo con la invención se relacionan con un método para proveer una representación codificada de un contenido de audio con base en una representación de ingreso de datos del contenido de audio.
20 [0004] Las formas de realización de acuerdo con la invención se relacionan con un método para proveer una representación decodificada de un contenido de audio con base en una representación codificada del contenido de audio.
25 [0005] Las formas de realización de acuerdo con la invención se relacionan con programas de computación para aplicar tales métodos.
[0006] Las formas de realización de acuerdo con la invención se relacionan con un nuevo plan de codificación para una codificación unificada de habla y audio con bajo retardo.
30 Antecedentes de la invención
[0007] A continuación se explicarán brevemente los antecedentes de la invención a efectos de facilitar la comprensión de la invención y sus ventajas.
35 [0008] Durante la década pasada, se hicieron grandes esfuerzos para crear la posibilidad de almacenar digitalmente y distribuir contenidos de audio con buena eficiencia bitrate. Un logro importante en este sentido es la definición de la Norma Internacional ISO/IEC 14496-3. La Parte 3 de la Norma se relaciona con la codificación y decodificación de contenidos de audio, y la subparte 4 de la parte 3 se relaciona con la codificación de audio en
40 general. La parte 3, subparte 4 de la norma ISO/IEC 14496 define un concepto para la codificación y decodificación de contenido de audio en general. Además, se han propuesto ulteriores mejoras a fin de mejorar la calidad y/o reducir el requerido bitrate.
[0009] Asimismo, se han desarrollado codificadores de audio y decodificadores de audio que están
45 adaptados específicamente para la codificación y decodificación de señales de audio. Tales codificadores de audio optimizados para el habla aparecen descriptos, por ejemplo, en las especificaciones técnicas “3GPP TS 26.090”, “3GPP TS 26.190” y “3GPP TS 26.290” del Proyecto de Sociedad de Tercera Generación.
[0010] Se ha hallado que existe una cantidad de aplicaciones en las que resulta deseable un bajo retardo en
50 la codificación y decodificación. Por ejemplo, se procura bajo retardo en las aplicaciones multimedia en tiempo real, porque los retardos que se pueden advertir producen en el usuario en tales aplicaciones una impresión desagradable.
[0011] No obstante, también se ha hallado que una combinación equilibrada entre la calidad y el bitrate a
55 veces requiere una alternancia entre modos diferentes de codificación, según el contenido de audio. Se ha hallado que variaciones del contenido de audio traen aparejado el deseo de cambio entre los modos de codificación, como por ejemplo, entre un modo de dominio de predicción lineal de excitación codificada transformada y un modo de dominio de predicción lineal de excitación del código (como por ejemplo un modo de dominio de predicción lineal de excitación del código algebraico), o entre un modo dominio de frecuencia y un modo de dominio de predicción lineal
E10768928
17-03-2015
de excitación codificada. Esto se debe al hecho de que algunos contenidos de audio (o algunas porciones de un contenido contiguo de audio) puedan ser codificados con una mayor eficiencia de codificación en uno de los modos, mientras que otros contenidos de audio (u otras porciones del mismo contenido contiguo de audio) puedan ser codificados con mejor eficiencia de codificación en modos diferentes.
5 [0012] En vista de esta situación, se ha hallado que resulta deseable alternar entre modos diferentes sin requerir un gran overhead del bitrate para el cambio y también sin comprometer en forma significativa la calidad de audio (por ejemplo, en la forma de un “clic” de cambio). Además, se ha hallado que la alternancia entre modos diferentes deberá ser compatible con el objetivo para tener un bajo retardo de codificación y decodificación.
10 [0013] En vista de esta situación, un objetivo de la invención es crear un concepto para una codificación multimodo de audio que traiga aparejada una combinación equilibrada entre eficiencia bitrate, calidad de audio y retardo cuando se alterne entre modos de codificación diferentes.
15 Descripción de la invención
[0014] Una forma de realización de acuerdo con la invención crea un codificador de señal de audio para proveer una representación codificada de un contenido de audio con base en una representación de ingreso de datos del contenido de audio. El codificador de señal de audio comprende una ruta dominio de la transformada 20 configurada para obtener un conjunto de coeficientes espectrales y una información para dar forma al sonido (por ejemplo, una información de factor de escala o una información de parámetro dominio de predicción lineal) con base en una representación dominio de tiempo de una porción del contenido de audio a codificar en un modo dominio de la transformada, de modo que los coeficientes espectrales describan un espectro de una versión con moldeado de ruido (por ejemplo, con moldeado de ruido de dominio de predicción lineal o procesada por factor de escala. La ruta 25 dominio de la transformada comprende un convertidor dominio de tiempo a dominio de frecuencia configurado para una función de ventana de representación de dominio de tiempo del contenido de audio, o su versión preprocesada, para obtener una representación del contenido de audio en una función de ventana, y aplicar una conversión de a dominio de tiempo dominio de frecuencia, para derivar un conjunto de coeficientes espectrales a partir de la representación de dominio de tiempo del contenido de audio en una función de ventana. El codificador de señal de 30 audio también comprende una ruta de dominio de predicción lineal excitada por código algebraico (abreviada como ruta ACELP) configurada para obtener una información de excitación de código (como por ejemplo, una información de excitación de código algebraico) y una información de dominio de predicción lineal con base en una porción del contenido de audio a codificar en un modo de dominio de predicción lineal de excitación del código (también abreviado como modo CELP) (como por ejemplo, un modo de dominio de predicción lineal excitada por código 35 algebraico). El convertidor dominio de tiempo a dominio de frecuencia está configurado para aplicar una ventana de análisis asimétrico predeterminada para una función de ventana de una porción actual del contenido de audio a codificar en el modo dominio de la transformada tanto si la porción actual del contenido de audio es sucedida por una porción subsiguiente del contenido de audio a codificar en el modo dominio de la transformada como si la porción actual del contenido de audio es sucedida por una porción subsiguiente del contenido de audio a codificar en
40 el modo CELP. El codificador de la señal de audio está configurado para proveer en forma selectiva una información de cancelación de solapamiento si la porción actual del contenido de audio (que está codificado en el modo dominio de la transformada) es sucedida por una porción subsiguiente del contenido de audio a codificar en el modo CELP.
[0015] Esta realización de acuerdo con la invención se basa en el hallazgo de que una combinación
45 equilibrada entre la eficiencia de la codificación (por ejemplo, en términos de bitrate promedio), calidad de audio y retardo de la codificación puede obtenerse mediante la alternancia entre un modo dominio de la transformada y un modo CELP, donde una función de ventana de una porción del contenido de audio a codificar en el modo dominio de la transformada es independiente de un modo en el cual una porción subsiguiente del contenido de audio está codificado, y donde una reducción o cancelación de artefactos de solapamiento, que resulta del uso de una función
50 de ventana que no está adaptada específicamente a una transición hacia una porción del contenido de audio codificado en el modo CELP, es posible por la provisión selectiva de la información de cancelación de solapamiento. De esta manera, por medio de la provisión selectiva de la información de cancelación de solapamiento, es posible utilizar una ventana para la función de ventana de porciones (por ejemplo, tramas o subtramas) del contenido de audio codificado en el modo dominio de la transformada cuya ventana comprende una superposición temporal (o
55 aun una superposición de cancelación de solapamiento) con porciones subsiguientes del contenido de audio. Esto permite una buena eficiencia de codificación para una secuencia de porciones subsiguientes del contenido de audio codificado en el modo dominio de la transformada, porque el uso de tales ventanas, que traen aparejadas una superposición temporal entre las porciones subsiguientes del contenido de audio, crea la posibilidad de tener una superposición y agregado particularmente eficiente del lado del decodificador. Además, los retardos se mantienen
E10768928
17-03-2015
bajos al utilizar la misma ventana para mostrar una porción del contenido de audio codificado en el modo dominio de la transformada y continuar con una porción del contenido de audio codificado en el modo dominio de la transformada tanto si la porción actual del contenido de audio es seguida por una porción subsiguiente del contenido de audio a codificar en el modo dominio de la transformada como si la porción actual del contenido de audio es 5 seguida por una porción subsiguiente del contenido de audio a codificar en el modo CELP. En otras palabras, un conocimiento sobre el modo en el cual la porción subsiguiente del contenido de audio está codificado, no se requiere para la selección de una ventana para la función de ventana de la porción actual del contenido de audio. De esta manera el retardo de la codificación se mantiene bajo, porque la función de ventana de la porción actual del contenido de audio se puede realizar antes de conocerse un modo de codificación para la codificación de la porción
10 subsiguiente del contenido de audio. No obstante, los artefactos que se introducirían por el uso de una ventana, que no es perfectamente adecuada para una transición de una porción del contenido de audio codificado en el modo dominio de la transformada a una porción del contenido de audio codificado en el modo CELP, pueden ser cancelados del lado del decodificador mediante el uso de información de cancelación de solapamiento.
15 [0016] Así, se obtiene una buena eficiencia de codificación promedio, aun cuando se requiera información de cancelación de solapamiento en la transición de una porción del contenido de audio codificado en el modo dominio de la transformada a una porción del contenido de audio codificado en el modo CELP. La calidad de audio se mantiene en un nivel elevado mediante la provisión de información de cancelación de solapamiento, y los retardos se mantienen bajos al hacer que la selección de una ventana sea independiente del modo en el cual se codifica la
20 porción subsiguiente del contenido de audio.
[0017] Para sintetizar, un codificador de audio como el que se trata aquí combina una buena eficiencia de bitrate con un bajo retardo de codificación y aún permite una buena calidad de audio.
25 [0018] En una forma de realización preferida, el convertidor dominio de tiempo a dominio de frecuencia se configura para aplicar la misma ventana para una función de ventana de una porción actual del contenido de audio a codificar en el modo dominio de la transformada y continuar con una porción del contenido de audio codificado en el modo dominio de la transformada tanto si la porción actual del contenido de audio es seguida por una porción subsiguiente del contenido de audio a codificar en el modo dominio de la transformada como si la porción actual del
30 contenido de audio es seguida por una porción subsiguiente del contenido de audio a codificar en el modo CELP.
[0019] En una forma de realización preferida, la ventana asimétrica predeterminada comprende media ventana izquierda y media ventana derecha, donde la media ventana izquierda comprende una curva de transición del lado izquierdo, en la cual los valores de la ventana aumentan en forma monotónica desde cero a un valor central 35 de la ventana (un valor en el centro de la ventana), y una porción excedida (overshoot) donde los valores de la ventana son mayores que el valor central de la ventana en la cual la ventana comprende un máximo. La media ventana derecha comprende una curva de transición del lado derecho, en la cual los valores de la ventana disminuyen en forma monotónica desde el valor central de la ventana a cero, y una porción cero del lado derecho. Al utilizar una ventana así de asimétrica, puede mantenerse particularmente bajo el retardo en la codificación.
40 Asimismo, al enfatizar la media ventana izquierda mediante el uso de una porción excedida, se mantienen comparativamente bajos los artefactos de solapamiento en una transición hacia una porción del contenido de audio codificado en el modo CELP. Igualmente, la información de cancelación de solapamiento puede ser codificada en forma eficiente de bitrate.
45 [0020] En una forma de realización preferida, la media ventana izquierda comprende no más del 1% de valores ventana cero, y la porción cero del lado derecho comprende una extensión a lo largo de por lo menos 20% de los valores ventana de la media ventana derecha. Se ha hallado que tal ventana es particularmente adecuada para la aplicación en un codificador de audio que alterne entre un modo dominio de la transformada y un modo CELP.
50 [0021] En una forma de realización preferida, los valores ventana de la media ventana derecha de la ventana de análisis asimétrico predeterminada son menores que el valor central de la ventana, de manera tal que no existe porción excedida en la media ventana derecha de la ventana de análisis asimétrico predeterminada. Se ha hallado que tal forma de ventana trae aparejados artefactos de solapamiento comparativamente pequeños en una transición
55 hacia una porción del contenido de audio codificado en el modo CELP.
[0022] En una forma de realización preferida, una porción diferente a cero del análisis asimétrico predeterminada es menor, por lo menos en un 10%, que la longitud de la trama. Del mismo modo, el retardo se mantiene particularmente bajo.
E10768928
17-03-2015
[0023] En una forma de realización preferida, el codificador de señal de audio está configurado de forma tal que las porciones subsiguientes del contenido de audio a codificar en el modo dominio de la transformada comprenden una superposición temporal de por lo menos 40%. En este caso el codificador de señal también está 5 preferentemente configurado de forma tal que una porción actual del contenido de audio a codificar en el modo dominio de la transformada y una porción subsiguiente del contenido de audio a codificar en el modo de dominio de predicción lineal excitada por código comprende una superposición temporal. La señal de codificador de audio está configurada para proveer en forma selectiva la información de cancelación de solapamiento, de forma tal que la información de cancelación de solapamiento permita una provisión e una señal de cancelación de solapamiento para 10 cancelar artefactos de solapamiento a una transición desde una porción del contenido de audio codificado en el modo dominio de la transformada a una porción del contenido de audio codificado en el modo CELP en un decodificador de señal de audio. Al proveer una significativa superposición entre porciones subsiguientes (por ejemplo, tramas o subtramas) del contenido de audio a codificar en el modo dominio de la transformada, es posible usar una transformación encimada, como por ejemplo, una transformación de coseno discreta modificada, para la 15 conversión dominio de tiempo a dominio de frecuencia, donde un solapamiento de dominio de tiempo de tal transformación encimada es reducida o aun cancelada enteramente por la superposición entre tramas subsiguientes codificados en el modo dominio de la transformada. No obstante, en la transición desde una porción del contenido de audio codificado en el modo dominio de la transformada a una porción del contenido de audio codificado en el modo CELP, también hay una cierta superposición temporal que, sin embargo, no resulta en una perfecta 20 cancelación de solapamiento (o no resulta siquiera en una cancelación de solapamiento). La superposición temporal se usa para evitar una excesiva modificación de tramas en una transición entre porciones del contenido de audio codificado en modos diferentes. Sin embargo, para reducir o cancelar artefactos de solapamiento que surgen de la superposición en una transición entre porciones del contenido de audio codificado en modos diferentes, se provee la información de cancelación de solapamiento. Asimismo, el solapamiento se mantiene comparativamente bajo debido
25 a la asimetría de la ventana de análisis asimétrico predeterminada, de forma tal que la información de cancelación de solapamiento pueda ser codificada de manera eficiente de bitrate.
[0024] En una forma de realización preferida, el codificador de señal de audio se configura para seleccionar una ventana para una función de ventana de una porción actual del contenido de audio (que está preferentemente 30 codificado en el modo dominio de la transformada) independiente de un modo usado para codificar una porción subsiguiente del contenido de audio que se superpone temporalmente con una porción actual del contenido de audio, de forma tal que la representación de la función de ventana de la porción actual del contenido de audio (que está preferentemente codificado en el modo dominio de la transformada) se superpone con una porción subsiguiente del contenido de audio aún si la porción subsiguiente del contenido de audio está codificado en el modo CELP. El 35 codificador de la señal de audio está configurado para proveer, en respuesta a una detección que la próxima porción del contenido de audio será codificado en un modo CELP, una información de cancelación de solapamiento, donde la información de cancelación de solapamiento representa componentes de señal de cancelación de solapamiento que serían representados por (o incluidos en) una representación del modo dominio de la transformada de la porción subsiguiente del contenido de audio. De igual forma, la cancelación de solapamiento, lograda (alternativamente, es 40 decir en presencia de porciones subsiguientes del contenido de audio codificado en el modo dominio de la transformada) mediante la superposición y agregado de representaciones de dominio en tiempo de dos porciones del contenido de audio codificado en el modo dominio de la transformada, se logra sobre la base de la información de cancelación de solapamiento en una transición desde una porción del contenido de audio codificado en el modo dominio de la transformada a una porción del contenido de audio codificado en el modo dominio de la transformada
45 a una porción del contenido de audio codificado en el modo CELP. Así, al usar una información de cancelación de solapamiento dedicada, la función de ventana de la porción del contenido de audio que precede al cambio de modo puede no ser afectada, lo que ayuda a reducir el retardo.
[0025] En una forma de realización preferida, el convertidor dominio de tiempo a dominio de frecuencia está
50 configurado para aplicar la ventana asimétrica predeterminada para una función de ventana de una porción actual del contenido de audio a codificar en el modo dominio de la transformada y siguiendo una porción del contenido de audio codificado en el modo CELP, de forma tal que las porciones del contenido de audio a codificar en el modo dominio de la transformada sean una función de ventana que emplee la misma ventana de análisis asimétrico predeterminada independiente de un modo en el cual una porción anterior del contenido de audio esté codificado e
55 independiente de un modo en el cual una porción subsiguiente del contenido de audio esté codificado. La función de ventana también se aplica de forma tal que una representación de función de ventana de una porción actual del contenido de audio a codificar en el modo dominio de la transformada se superpone temporalmente con la porción anterior del contenido de audio codificado en el modo CELP. En el mismo sentido, se puede obtener un plan de función de ventana particularmente simple, donde porciones del contenido de audio codificado en el modo dominio
E10768928
17-03-2015
de la transformada estén siempre (por ejemplo, a través de una porción de contenido de audio) codificadas mediante el uso de una misma ventana de análisis asimétrico predeterminada. Así, no es necesario señalar qué tipo de ventana de análisis se usa, lo que aumenta la eficiencia de bitrate. Asimismo, se puede mantener muy baja la complejidad de codificador (y la complejidad del decodificador). Se ha hallado que una ventana de análisis
5 asimétrico, como se ha indicado más arriba, es adecuada tanto para las transiciones desde el modo dominio de la transformada al modo CELP y en sentido inverso, desde el modo CELP al modo dominio de la transformada.
[0026] En una forma de realización preferida, el codificador de señal de audio se configura para proveer en forma selectiva una información de cancelación de solapamiento si la porción actual del contenido de audio sigue a
10 una porción anterior del contenido de audio codificado en el modo CELP. Se ha hallado que la provisión de una información de cancelación de solapamiento también es útil en tal transición y permite asegurar una buena calidad de audio.
[0027] En una combinación preferida, el convertidor dominio de tiempo a dominio de frecuencia está
15 configurado para aplicar una ventana de análisis de transición asimétrica, que es diferente de la ventana de análisis asimétrico predeterminada, para una función de ventana de una porción actual del contenido de audio a codificar en el modo dominio de la transformada y después de una porción del contenido de audio codificado en el modo CELP. Se ha hallado que el uso de una ventana dedicada después de la transición puede contribuir a reducir el overhead de bitrate en una transición. Asimismo, se ha hallado que el uso de una ventana de análisis de transición asimétrica
20 después de la transición no trae aparejado un retardo adicional significativo, porque la decisión de que debe usarse que la ventana de análisis de transición asimétrica dedicada puede tomarse con base en la información que ya se encuentra disponible al momento en que se requiere la decisión. De igual forma puede reducirse la cantidad de información de cancelación de solapamiento, o en algunos casos se puede incluso eliminar la necesidad de alguna información de cancelación de solapamiento.
25 [0028] En una forma de realización preferida, la ruta de dominio de predicción lineal excitada por código (ruta CELP) es una ruta de dominio de predicción lineal excitada por código algebraico (ruta ACELP) configurada para obtener una información algebraica de excitación de código y una información de parámetro de dominio de predicción lineal con base en una porción del contenido de audio a codificar en un modo de dominio de predicción
30 lineal excitada por código algebraico (modo ACELP) (que se usa como modo de dominio de predicción lineal excitada por código). Al emplear una ruta de dominio de predicción lineal excitada por código algebraico como la ruta de dominio de predicción lineal excitada por código, se puede lograr en muchos casos una eficiencia de codificación particularmente elevada.
35 [0029] Una forma de realización de acuerdo con la invención crea un decodificador de señal de audio para proveer una representación decodificada de un contenido de audio con base en una representación codificada del contenido de audio. El decodificador de señal de audio comprende un a ruta dominio de la transformada configurada para obtener una representación de dominio de tiempo de una porción del contenido de audio codificado en el modo dominio de la transformada con base en un conjunto de coeficientes espectrales e información de moldeado de
40 ruido. La ruta dominio de la transformada comprende un convertidor dominio de frecuencia a dominio de tiempo configurado para aplicar una conversión de dominio de frecuencia a dominio de tiempo y una función de ventana, para derivar una representación de función de ventana de dominio de tiempo del contenido de audio a partir del conjunto de coeficientes espectrales o a partir de una versión preprocesada. El decodificador de la señal de audio también comprende una ruta de dominio de predicción lineal excitada por código configurada para obtener una
45 representación de dominio de tiempo de una porción del contenido de audio codificado en un modo de dominio de predicción lineal excitada por código con base en una información de excitación de código y una información de parámetro de dominio de predicción lineal. El convertidor dominio de frecuencia a dominio de tiempo está configurado para aplicar una ventana de síntesis asimétrica para una función de ventana de una porción actual del contenido de audio codificado en el modo dominio de la transformada y siguiendo una porción anterior del contenido
50 de audio codificado en el modo dominio de la transformada tanto si la porción actual del contenido de audio es seguida por una porción subsiguiente del contenido de audio codificado en el modo dominio de la transformada como si la porción actual del contenido de audio es seguida por una porción subsiguiente del contenido de audio codificado en el modo CELP. El decodificador de la señal de audio está configurado para proveer en forma selectiva una señal de cancelación de solapamiento con base en una información de cancelación de solapamiento si la
55 porción actual del contenido de audio es seguida por una porción subsiguiente del contenido de audio codificado en el modo CELP.
[0030] El decodificador de señal de audio se basa en el hallazgo de que puede obtenerse una combinación equilibrada entre eficiencia de codificación, calidad de audio y retardo de codificación mediante el uso de la misma
E10768928
17-03-2015
ventana de síntesis asimétrica predeterminada para una función de ventana de una porción del contenido de audio codificado en el modo dominio de la transformada más allá de si la porción subsiguiente del contenido de audio está
o no codificado en el modo dominio de la transformada o en el modo CELP. Al emplear una ventana de síntesis asimétrica, se pueden mejorar las características de bajo retardo del decodificador de señal de audio. La eficiencia 5 de codificación se puede mantener elevada por medio de una superposición entre las ventanas aplicadas a las porciones subsiguientes del contenido de audio codificado en el modo dominio de la transformada. No obstante, los artefactos de solapamiento que resultan de una superposición en el caso de transiciones entre porción del contenido de audio codificado en diferentes modos son cancelados por la señal de cancelación de solapamiento, que es provista en forma selectiva en una transición desde una porción (por ejemplo, trama o subtrama) del contenido de
10 audio codificado en el modo dominio de la transformada a una porción del contenido de audio codificado en el modo CELP. Además, debe señalarse que el decodificador de señal de audio aquí descripto comprende las mismas ventajas que el codificador de señal de audio descripto más arriba y que el decodificador de señal de audio aquí descripto es adecuado para cooperar con el codificador de señal de audio comentado arriba.
15 [0031] En una forma de realización preferida, el convertidor dominio de frecuencia a dominio de tiempo está configurado para aplicar la misma ventana para una función de ventana de una porción del contenido de audio codificado en el modo dominio de la transformada y siguiendo una porción anterior del contenido de audio codificado en el modo dominio de la transformada si la porción actual del contenido de audio es seguida por una porción subsiguiente del contenido de audio codificado en el modo dominio de la transformada y si la porción actual del
20 contenido de audio es seguida por una porción subsiguiente del contenido de audio codificado en el modo CELP.
[0032] En una forma de realización preferida, la ventana asimétrica predeterminada comprende una media ventana izquierda y una media ventana derecha. La media ventana izquierda comprende una porción cero del lado izquierdo y una curva de transición del lado izquierdo en la cual los valores ventana aumentan monotónicamente 25 desde cero a un valor ventana central. La media ventana derecha comprende una porción excedida en la cual los valores ventana son mayores que el valor ventana central y en la cual la ventana comprende un máximo. La media ventana derecha también comprende una curva de transición del lado derecho en la que los valores ventana disminuyen en forma monotónica desde el valor ventana central a cero. Se ha hallado que tal alternativa de la ventana de síntesis asimétrica predeterminada resulta en un retardo particularmente bajo porque la presencia de la
30 porción cero del lado izquierdo permite una reconstrucción de una señal de audio (de una porción previa del contenido de audio) hasta el extremo (del lado derecho) de tal porción cero independiente de la señal de audio de dominio de tiempo de la porción actual del contenido de audio. De esta forma, un contenido de audio puede presentarse con un retardo comparativamente pequeño.
35 [0033] En una forma de realización preferida, la porción cero del lado izquierdo comprende una longitud de por lo menos 20% de los valores ventana de la media ventana izquierda, y la media ventana derecha comprende no más del 1% de los valores ventana cero. Se ha hallado que una ventana así asimétrica es adecuada para aplicaciones de bajo retardo, y que tal ventana de síntesis asimétrica predeterminada también es adecuada para cooperar con la ventajosa ventana de análisis asimétrico predeterminada mencionada más arriba.
40 [0034] En una forma de realización preferida, los valores ventana de la media ventana izquierda de la ventana asimétrica predeterminada son menores que el valor ventana central, de forma tal que no existe porción excedida en la media ventana izquierda de la ventana de síntesis asimétrica predeterminada. De la misma manera, puede lograrse una buena reconstrucción de bajo retardo del contenido de audio en combinación con la ventana de
45 análisis asimétrico mencionada más arriba. Además, la ventana comprende una buena respuesta de frecuencia.
[0035] En una forma de realización preferida, una porción diferente de cero de la ventana asimétrica predeterminada es más corta, por lo menos en un 10%, que un largo de trama.
50 [0036] En una forma de realización preferida, el decodificador de la señal de audio está configurado de forma tal que las porciones subsiguientes del contenido de audio codificado en el modo dominio de la transformada comprenden una superposición temporal de por lo menos 40%. El decodificador de la señal de audio también está configurado de forma tal que una porción actual del contenido de audio codificado en el modo dominio de la transformada y una porción subsiguiente del contenido de audio codificado en el modo CELP comprende una
55 superposición temporal. El decodificador de la señal de audio está configurado para proveer en forma selectiva la señal de cancelación de solapamiento sobre la base de la información de cancelación de solapamiento, de forma tal que la señal de cancelación de solapamiento reduce o cancela los artefactos de solapamiento en una transición desde la porción actual del contenido de audio (codificado en el modo dominio de la transformada) a una porción subsiguiente del contenido de audio codificado en el modo CELP. Al tener una superposición significativa entre las
E10768928
17-03-2015
porciones subsiguientes del contenido de audio codificado en el modo dominio de la transformada, se pueden obtener transiciones paulatinas y los artefactos de solapamiento, que pueden provenir del uso de una transformación encimada (como por ejemplo, una transformación de coseno discreta modificada inversa) se cancelan. Así, al utilizar una superposición significativa, es posible mejorar la eficiencia de codificación y hacer más paulatinas las 5 transiciones entre las porciones subsiguientes (por ejemplo, tramas o subtramas) para una secuencia de porciones del contenido de audio codificado en el modo dominio de la transformada. A los efectos de evitar falta de constancia en el encuadrado y a fin de permitir el uso de la ventana de síntesis asimétrica predeterminada independiente del modo de codificación de la porción subsiguiente del contenido de audio, la presencia de una superposición temporal entre la porción actual del contenido de audio codificado en el modo dominio de la transformada y se acepta la
10 porción subsiguiente del contenido de audio codificado en el modo CELP. No obstante, los artefactos que surgen de tal transición son cancelados por la señal de cancelación de solapamiento. Así, se puede obtener una buena calidad de audio en las transiciones al tiempo que se mantiene un bajo retardo de codificación y se asegura una elevada eficiencia de codificación.
15 [0037] En una forma de realización preferida, el decodificador de señal de audio es configurado para seleccionar una ventana para aplicar una función de ventana de una porción actual del contenido de audio independiente de un modo que se usa para una codificación de una porción subsiguiente del contenido de audio que se superpone temporalmente con la porción actual del contenido de audio, de forma tal que la representación de función de ventana de la porción actual del contenido de audio se superpone con (una representación de) una
20 porción subsiguiente del contenido de audio aun si la porción subsiguiente del contenido de audio está codificado en el modo CELP. El decodificador de la señal de audio también está configurado para proveer, en respuesta a una detección de que la próxima porción del contenido de audio está codificado en el modo CELP, una señal de cancelación de solapamiento para reducir o cancelar artefactos de solapamiento en una transición desde la porción actual del contenido de audio codificado en el modo dominio de la transformada a la próxima (subsiguiente) porción
25 del contenido de audio codificado en el modo CELP. De igual forma, tales artefactos de solapamiento, que podrían ser cancelados por una representación de dominio de tiempo de una trama de audio subsiguiente codificado en el modo dominio de la transformada si la porción actual del contenido de audio fuese seguido por una porción del contenido de audio codificado en el modo dominio de la transformada, se cancelan usando una señal de cancelación de solapamiento si la porción actual del contenido de audio estuviese seguida de hecho por una porción del
30 contenido de audio codificado en el modo CELP. Debido a este mecanismo, se evita una degradación de la calidad de la transición si la porción subsiguiente del contenido de audio está codificado en el modo CELP.
[0038] En una forma de realización preferida, el convertidor dominio de frecuencia a dominio de tiempo está configurado para aplicar la ventana de síntesis asimétrica predeterminada para una función de ventana de una 35 porción actual del contenido de audio codificado en el modo de transformación y siguiendo una porción del contenido de audio codificado en el modo CELP, de manera que tales porciones del contenido de audio codificado en el modo dominio de la transformada se ven como función de ventana usando la misma ventana de síntesis asimétrica predeterminada independiente de un modo en el cual una porción anterior del contenido de audio está codificado y también es independiente de un modo a partir del cual se codifica una porción subsiguiente del contenido de audio. 40 La ventana de síntesis asimétrica predeterminada se aplica de forma tal que una representación de dominio de tiempo en una función de ventana de la porción actual del contenido de audio codificado en el modo dominio de la transformada se superpone temporalmente con una representación de dominio de tiempo de la porción anterior del contenido de audio codificado en el modo CELP. De esta manera, la misma ventana de síntesis asimétrica predeterminada se usa para una porción del contenido de audio codificado en el modo dominio de la transformada
45 independiente de los modos en los cuales se codificaron las porciones adyacentes anterior y subsiguiente del contenido de audio. De igual manera, es posible la implementación de un decodificador de señal de audio particularmente simple. Asimismo, es innecesario usar alguna señalización del tipo de ventana de síntesis, lo que reduce la demanda de bitrate.
50 [0039] En una forma de realización preferida, el decodificador de señal de audio está configurado para proveer selectivamente una señal de cancelación de solapamiento sobre la base de una información de cancelación de solapamiento si la porción actual del contenido de audio sigue a una porción anterior del contenido de audio codificado en el modo CELP. Se ha hallado que a veces es preferible además manejar un solapamiento en una transición desde una porción del contenido de audio codificado en el modo CELP a una porción del contenido de
55 audio codificado en el modo dominio de la transformada con el uso de una información de cancelación de solapamiento. Se ha hallado que este concepto trae aparejado una combinación equilibrada entre eficiencia de bitrate y características de retardo.
[0040] En otra realización preferida, el convertidor dominio de frecuencia a dominio de tiempo está
E10768928
17-03-2015
configurado para aplicar una ventana de síntesis de transición asimétrica dedicada, que es diferente de la ventana de síntesis asimétrica predeterminada, para una función de ventana de una porción actual del contenido de audio codificado en el modo dominio de la transformada y siguiendo una porción del contenido de audio codificado en el modo CELP. Se ha hallado que con tal concepto se puede evitar la presencia de artefactos de solapamiento.
5 Además, se ha hallado que el uso de una ventana dedicada después de una transición no compromete severamente las características de bajo retardo, porque la información requerida para la selección de tal ventana dedicada ya está disponible en el momento en que se aplica dicha ventana de síntesis dedicada.
[0041] En una forma de realización preferida, la ruta de dominio de predicción lineal excitada por código (ruta
10 CELP) es una ruta de dominio de predicción lineal excitada por código algebraico (ruta ACELP) configurada para obtener una representación de dominio de tiempo del contenido de audio codificado en un modo de dominio de predicción lineal excitada por código algebraico (modo ACELP) (que se usa como el modo de dominio de predicción lineal excitada por código) sobre la base de una información de excitación por código algebraico y una información de parámetro de dominio de predicción lineal. Mediante el uso de una ruta de dominio de predicción lineal excitad
15 por código algebraico como ruta de dominio de predicción lineal excitada por código, se puede lograr en muchos casos una eficiencia de codificación particularmente elevada.
[0042] Ulteriores formas de realización de acuerdo con la invención crean un método para proveer una representación codificada de un contenido de audio sobre la base de una representación de ingreso de datos del
20 contenido de audio y un método para proveer una representación decodificada de un contenido de audio sobre la base de una representación codificada del contenido de audio. Ulteriores formas de realización de acuerdo con la invención crean un programa de computación para ejecutar por lo menos uno de dichos métodos.
[0043] Dichos métodos y dichos programas de computación se basan en los mismos hallazgos que el
25 codificador de señal de audio descripto más arriba y que el decodificador de señal de audio descripto más arriba y puede ser complementado por una de las características y funciones expuestas con respecto al codificador de señal de audio y al decodificador de señal de audio.
Breve Descripción de las Figuras
30 [0044] A continuación se describen las formas de realización de acuerdo con la presente invención con referencia a las figuras incluidas en las que:
La Fig. 1 muestra un diagrama esquemático de bloque de un codificador de una señal de audio, de acuerdo con una 35 forma de realización de la invención;
Las Figs. 2a-2c muestran diagramas esquemáticos de bloque de rutas de dominio de la transformada para uso en el codificador de señal de audio de acuerdo con la Fig. 1;
40 La Fig. 3 muestra un diagrama esquemático de bloque de un decodificador de señal de audio, de acuerdo con una forma de realización de la invención;
Las Figs. 4a-4c muestran diagramas esquemáticos de bloque de rutas de dominio de la transformada para uso en decodificador de señal de audio de acuerdo con la Fig. 3;
45 La Fig. 5 muestra una comparación de una ventana en seno (línea de puntos) y una ventana de análisis G.718 (línea entera), que se usa en algunas formas de realización de acuerdo con la invención;
La Fig. 6 muestra una comparación de una ventana en seno (línea de puntos) y una ventana de síntesis G.718 (línea 50 entera), que se usa en algunas formas de realización de acuerdo con la invención;
La Fig. 7 muestra una representación gráfica de una secuencia de ventanas en seno;
La Fig. 8 muestra una representación gráfica de una secuencia de ventanas de análisis G.718; 55 La Fig. 9 muestra una representación gráfica de una secuencia de ventanas de síntesis G.718;
La Fig. 10 muestra una representación gráfica de una secuencia de ventanas en seno (línea entera) y ACELP (línea marcada con cuadrados);
E10768928
17-03-2015
La Fig. 11 muestra una representación gráfica de una primera opción para un bajo retardo de codificación unificada de audio y habla unificada (USAC) que comprende una secuencia de ventanas de análisis G.718 (línea entera) ACELP (línea marcada con cuadrados) y cancelación de solapamiento hacia adelante (“FAC”) (línea de puntos);
5 La Fig. 12 muestra una representación gráfica de una secuencia de la síntesis correspondiente a la primera opción de codificación unificada de audio y habla de acuerdo con la Fig. 11;
La Fig. 13 muestra una representación gráfica de una segunda opción para una codificación unificada de audio y 10 habla que emplea una secuencia de ventanas de análisis G.718 (línea entera), ACELP (línea marcada con cuadrados) y FAC (línea de puntos);
La Fig. 14 muestra una representación gráfica de una secuencia de la síntesis correspondiente a la segunda opción para una codificación unificada de audio y habla de acuerdo con la Fig. 13;
15 La Fig. 15 muestra una representación gráfica de una transición desde la codificación avanzada de audio (AAC) a la codificación de ancho de banda plus con compresión de valor múltiple adaptativo (AMR-WB+);
La Fig. 16 muestra una representación gráfica de una transición desde la codificación de ancho de banda plus con 20 compresión de valor múltiple adaptativo (AMR-WB+) a la codificación avanzada de audio (AAC);
La Fig. 17 muestra una representación gráfica de una ventana de análisis de una transformada de coseno discreta modificada de bajo retardo (LD–MDCT) en codificación de audio avanzado con bajo retardo mejorado (AAC –ELD);
25 La Fig. 18 muestra una representación gráfica de una ventana de síntesis de una transformada de coseno discreta modificada de bajo retardo (LD–MDCT) en codificación de audio avanzado con bajo retardo mejorado (AAC–ELD);
La Fig. 19 muestra una representación gráfica de una secuencia de ventana de ejemplo para alternar entre una codificación de audio avanzado de bajo retardo mejorado (AAC–ELD) y un códec de dominio de tiempo;
30 La Fig. 20 muestra una representación gráfica de una secuencia de ventana de análisis de ejemplo para alternar entre una codificación de audio avanzado de bajo retardo mejorado (AAC–ELD) y un códec de dominio de tiempo;
La Fig. 21a muestra una representación gráfica de una ventana de análisis para una transición desde un códec de 35 dominio de tiempo a una codificación de audio avanzado de bajo retardo mejorado (AAC–ELD);
La Fig. 21b muestra una representación gráfica de una ventana de análisis para una transición desde un códec de dominio de tiempo a una codificación de audio avanzado de bajo retardo mejorado (AAC–ELD) comparada con una ventana de análisis de una codificación de audio avanzado de bajo retardo mejorado (AAC–ELD) normal;
40 La Fig. 22 muestra una representación gráfica de una secuencia de ventana de síntesis de ejemplo para alternar entre una codificación de audio avanzado de bajo retardo mejorado (AAC–ELD) y un códec de dominio de tiempo;
La Fig. 23a muestra una representación gráfica de una ventana de síntesis para una transición desde una 45 codificación de audio avanzado de bajo retardo mejorado (AAC–ELD) a un códec de dominio de tiempo;
La Fig. 23b muestra una representación gráfica de una ventana de síntesis para una transición desde una codificación de audio avanzado de bajo retardo mejorado (AAC–ELD) a un códec de dominio de tiempo comparado con una ventana de síntesis de una codificación de audio avanzado de bajo retardo mejorado (AAC–ELD);
50 La Fig. 24 muestra una representación gráfica de opciones alternativas de ventanas de transición para una secuencia de ventanas que alterna entre una codificación de audio avanzado de bajo retardo mejorado (AAC–ELD) y un códec de dominio de tiempo;
55 La Fig. 25 muestra una representación gráfica de una función alternativa de ventana de una señal de dominio de tiempo y encuadre alternativo; y
La Fig. 26 muestra una representación gráfica de una alternativa para alimentar el códec de dominio de tiempo con señales TDA y así lograr muestreo crítico.
E10768928
17-03-2015
Descripción Detallada de las Formas de Realización
[0045] A continuación se describen varias formas de realización de acuerdo con la invención.
5 [0046] Debe advertirse aquí que en las formas de realización que se describen a continuación, se describirá una ruta de dominio de predicción lineal excitada por código algebraico (ruta ACELP) como ejemplo de ruta de dominio de predicción lineal excitada por código (ruta CELP), y que se describirá un modo de dominio de predicción lineal excitada por código algebraico (modo ACELP) como ejemplo de modo de dominio de predicción lineal excitada
10 por código (modo CELP). Además, se describirá información de excitación de un código algebraico como ejemplo de información de excitación de código.
[0047] No obstante, se pueden emplear diferentes tipos de rutas de dominio de predicción lineal excitada por código en lugar de las rutas ACELP aquí descriptas. Por ejemplo, en lugar de una ruta ACELP, se puede emplear
15 toda otra variante de ruta de dominio de predicción lineal excitada por código, como por ejemplo, una ruta RCELP, una ruta LD–CELP o una ruta VSELP.
[0048] Para sintetizar, se pueden emplear diferentes conceptos para implementar la ruta dominio de predicción lineal excitada por código, que tienen en común que se emplea un modelo filtro de fuente de producción 20 de habla a través de predicción lineal tanto del lado del codificador de audio como del lado del codificador por codificación directa, sin realizar una transformación en el dominio de frecuencia, una señal de excitación (también designada como señal de estímulo) adaptada para excitar (o estimular) un modelo de predicción lineal (por ejemplo, un filtro de síntesis de predicción lineal) para una reconstrucción del contenido de audio a codificar en el modo CELP, y que la señal de excitación es derivada directamente, sin realizar una conversión de dominio de frecuencia a
25 dominio de tiempo, desde la información de excitación de código del lado del decodificador de audio a reconstruir la señal de excitación (también designada como señal de estímulo) adaptada para excitar (o estimular) un modelo de predicción lineal (por ejemplo, un filtro de síntesis de predicción lineal) para una reconstrucción del contenido de audio codificado en el modo CELP.
30 [0049] En otras palabras, las rutas CELP en el codificador de señal de audio y en el decodificador de señal de audio combinan por lo general el empleo de un modelo de dominio de predicción lineal (o filtro) (cuyo modelo o filtro podrá preferentemente ser configurado para modelar un tracto vocal) con un “dominio de tiempo” que codifique
o decodifique una señal de excitación (o señal de estímulo, o señal residual). En dicha codificación o decodificación de “dominio de tiempo”, la señal de excitación (o señal de estímulo, o señal residual) puede ser codificada o 35 decodificada directamente (sin permitir una conversión dominio de tiempo a dominio de frecuencia de la señal de excitación, o sin realizar un conversión de la señal de excitación de dominio de frecuencia a dominio de tiempo) usando palabras en código apropiada. Para la codificación y decodificación de la señal de excitación, se pueden emplear diferentes tipos de palabras en código. Por ejemplo, pueden emplearse las palabras en código Huffman (o un plan de codificación Huffman), o un plan de decodificación Huffman) para codificar o decodificar las muestras de 40 la señal de excitación (de manera tal que las palabras en código Huffman puedan formar la información de la excitación del código). Alternativamente, sin embargo, se pueden emplear libros de códigos adaptativos y/o fijos para la codificación y decodificación de la señal de excitación, en forma opcional en combinación con una cuantificación de vector o codificación/ decodificación de vector (de manera tal que estas palabras en código formen la información de la excitación del código). En algunas formas de realización, se pueden emplear libros de códigos
45 algebraicos para la codificación y decodificación de la señal de excitación (ACELP), pero también se pueden aplicar diferentes tipos de libros de código.
[0050] Para sintetizar, existen muchos conceptos diferentes para la codificación “directa” de la señal de excitación, que pueden emplearse en su totalidad en la ruta CELP. La codificación y la decodificación que emplean
50 el concepto ACELP, que se describirá a continuación, deberá ser considerada solamente como ejemplo dentro de una amplia variedad de posibilidades para la implementación de la ruta CELP.
1. Codificador de la señal de audio de acuerdo con la Fig. 1
55 [0051] A continuación se describirá un codificador de señal de audio 100 de acuerdo con una forma de realización de la invención tomando como referencia la Fig. 1, que muestra un diagrama esquemático de bloque de dicho codificador de señal de audio 100. El codificador de señal de audio 100 está configurado para recibir una representación de ingreso de datos 110 de un contenido de audio y para proveer, sobre la base de la misma, una representación codificada 112 del contenido de audio. El codificador de señal de audio 100 comprende una ruta de
E10768928
17-03-2015
dominio de transformada 120 que está configurada para recibir una representación de dominio de tiempo 122 de una porción (por ejemplo, trama o subtrama) del contenido de audio a codificar en el modo dominio de transformada y para obtener un conjunto de coeficientes espectrales 124 (que puede ser provisto en forma codificada) y una información acerca del moldeado de ruido 126 sobre la base de la representación de dominio de tiempo 122 de la
5 porción del contenido de audio a ser codificado en un modo de dominio de transformada. La ruta de transformación 120 está configurada para proveer los coeficientes espectrales 124 de manera tal que los coeficientes espectrales describan un espectro de una versión con moldeado de ruido del contenido de audio.
[0052] El codificador de señal de audio 100 también comprende una ruta de dominio de predicción lineal
10 excitada por código algebraico (abreviada como ruta ACELP) que está configurada para recibir una representación de dominio de tiempo 142 de una porción del contenido de audio a ser codificado en el modo ACELP y para obtener una información de excitación del código algebraico 144 y un dominio de predicción lineal 146 sobre la base de una porción del contenido de audio a se codificado en un modo de dominio de predicción lineal excitado por código algebraico (también abreviado como modo ACELP). El codificador de señal de audio 100 también comprende una
15 provisión de información de cancelación de solapamiento 160, que está configurado para proveer una información de cancelación de solapamiento 164.
[0053] La ruta de dominio de transformada comprende un convertidor dominio de tiempo a dominio de frecuencia 130, que está configurado para una función de ventana de representación de dominio de tiempo 122 del 20 contenido de audio (o, más precisamente una representación de dominio de tiempo de una porción del contenido de audio a ser codificado en el modo dominio de transformada), o una versión preprocesada del mismo, para obtener una función de ventana de representación del contenido de audio (o, más precisamente, una versión de función de ventana de una porción del contenido de audio a ser codificado en el modo de dominio de transformada), y para aplicar una conversión de dominio de tiempo a dominio de frecuencia para derivar un conjunto 124 de coeficientes 25 espectrales a partir de la representación de función de ventana (dominio de tiempo) del contenido de audio. El convertidor dominio de tiempo a dominio de frecuencia 130 está configurado para aplicar una ventana de análisis asimétrico predeterminada para la función de ventana de una porción actual del contenido de audio a ser codificado en el modo de dominio de transformada y siguiendo un a porción anterior del contenido de audio codificado en el modo de dominio de transformación tanto si la porción actual del contenido de audio es seguida por una porción
30 subsiguiente del contenido de audio a ser codificado en el modo de dominio de transformada como si la porción actual del contenido de audio es seguida por una porción subsiguiente del contenido de audio a ser codificado en el modo ACELP.
[0054] El codificador de señal de audio, o, más precisamente la provisión de información de cancelación de
35 solapamiento 160, está configurado para proveer en forma selectiva una información de cancelación de solapamiento si la porción actual del contenido de audio (que se supone va a ser codificado en el modo de dominio de transformada) es seguido por una porción subsiguiente del contenido de audio a ser codificado en el modo ACELP. En contraposición, no se puede proveer información de cancelación de solapamiento si la porción actual del contenido de audio (que está codificado en el modo de dominio de transformada) es seguido por otra porción del
40 contenido de audio a ser codificado en el modo de dominio de transformada.
[0055] De igual manera, la misma ventana de análisis asimétrico predeterminada se usa para la función de ventana de una porción del contenido de audio a ser codificado en el modo de dominio transformada más allá de si la porción subsiguiente del contenido de audio vaya a ser codificado en el modo de dominio transformada o en el 45 modo ACELP. La ventana de análisis asimétrico predeterminada provee por lo general una superposición entre porciones subsiguientes (por ejemplo, tramas o subtramas) del contenido de audio, que resulta por lo general en una buena eficiencia de codificación y en la posibilidad de realizar una operación eficiente de superposición y agregado en el decodificador de la señal de audio para de esa forma evitar los artefactos de bloqueo. Sin embargo, también es posible por lo general cancelar artefactos de solapamiento del lado del codificador por una operación de 50 superposición y agregado si dos porciones subsiguientes (y parcialmente superpuestas) del contenido de audio está codificado en el modo de dominio de transformada. Por contraposición, el uso de la ventana de análisis asimétrico predeterminada aun en una transición entre una porción del contenido de audio codificado en el modo de dominio de transformada y una porción subsiguiente del contenido de audio a codificar en el modo ACELP trae aparejado el desafío que la cancelación de solapamiento de superposición y agregado, que trabaja bien para las transiciones
55 entre porciones subsiguientes del contenido de audio codificado en el modo de dominio de transformada, ya no es efectiva porque, por lo general los bloques de muestras sólo temporalmente y precisamente limitados sin una superposición (y, en particular, sin una función de ventana con fundido entrante o sin una función de ventana con fundido saliente) son codificados en el modo ACELP.
E10768928
17-03-2015
[0056] No obstante, se ha hallado que es posible usar la misma ventana de análisis asimétrico que se usa en transiciones entre porciones subsiguientes del contenido de audio codificado en el modo de dominio de transformada, aun en una transición entre una porción del contenido de audio codificado en el modo de dominio de transformada y una porción subsiguiente del contenido de audio codificado en el modo ACELP si una información de
5 cancelación de solapamiento es provista en forma selectiva en dicha transición.
[0057] De igual manera, el convertidor dominio de tiempo a dominio de frecuencia 130 no requiere conocimiento alguno del modo en que una porción subsiguiente del contenido de audio está codificado a efectos de decidir cuál ventana de análisis debe emplearse para el análisis de la porción de tiempo actual del contenido de 10 audio. Consecuentemente, se puede mantener muy bajo un retardo mientras se siguen usando ventanas de análisis asimétricos que proveen una superposición suficiente para permitir una operación eficiente de superposición y agregado a un lado del decodificador. Además, es posible alternar desde un modo de dominio de transformada a un modo ACELP sin comprometer en forma significativa la calidad de audio, porque la información de cancelación de solapamiento 164 se provee en dicha transición para justificar el hecho de que la ventana de análisis asimétrico
15 predeterminada no está perfectamente adaptada para tal transición.
[0058] A continuación, se explican algunos detalles más del codificador de señal de audio 100.
1.1. Detalles sobre la Ruta de Dominio de Transformada 20
1.1.1. Ruta de Dominio de Transformada de acuerdo con la Fig. 2a
[0059] La Fig. 2a muestra un diagrama esquemático de bloque de una ruta de dominio de transformada 200, que puede ocupar el lugar de la ruta de dominio de transformada 120, y que puede ser considerada una ruta de
25 dominio de frecuencia.
[0060] La ruta de dominio de transformada 200 recibe una representación de dominio de tiempo 210 de una trama de audio a ser codificado en un modo de dominio de frecuencia, donde un modo de dominio de frecuencia es un ejemplo de un modo de dominio de transformada. La ruta de dominio de transformada 200 está configurada para 30 proveer un conjunto codificado de coeficientes espectrales 214 y una información de factor de escala codificado 216 sobre la base de la representación de dominio en tiempo 210. La ruta de dominio de transformada 200 comprende un pre-procesamiento opcional 220 de la representación de dominio de tiempo 210, para obtener una versión preprocesada 220a de la representación de dominio de tiempo 210. La ruta de dominio de transformada 200 también comprende una función de ventana 221, en la que la ventana de análisis asimétrico predeterminada (como se ha 35 descripto arriba) se aplica a la representación de dominio de tiempo 210 o a su versión preprocesada 220a, para obtener una función de ventana de una representación de dominio de tiempo 221a de una porción del contenido de audio a codificar en el modo de dominio de frecuencia. La ruta de dominio de transformada 200 también comprende una conversión de dominio de tiempo a dominio de frecuencia 222, en la que una representación de dominio de frecuencia 222a es derivada de una función de ventana de una representación de dominio de tiempo de una porción 40 del contenido de audio a ser codificado en el modo de dominio de frecuencia. La ruta de dominio de transformada 200 también comprende un procesamiento espectral 223 en el que una forma espectral se aplica a los coeficientes de dominio de frecuencia o coeficientes espectrales que forman la representación de dominio de frecuencia 222a. De la misma manera, una representación de dominio de frecuencia en escala espectral 223a se obtiene, por ejemplo, en la forma de un conjunto de coeficientes de dominio de frecuencia o coeficientes espectrales. Se aplica
45 una cuantificación y una codificación 224 a la representación de dominio de frecuencia en escala espectral (es decir espectralmente escalada) 223a, para obtener el conjunto de coeficientes espectrales 240.
[0061] La ruta de dominio de transformada 200 también comprende un análisis psicoacústico 225, que es configurado para analizar el contenido de audio, por ejemplo, una transformación de coseno discreta modificada 50 (MDCT). De igual manera, solamente aproximadamente N/2 coeficientes espectrales 222a se proveen para una trama de audio que tiene N muestras de dominio de tiempo. Asimismo, un conjunto codificado de, por ejemplo, N/2 coeficientes espectrales 214 no es suficiente para la reconstrucción perfecta (o aproximadamente perfecta) de una trama de N muestras de dominio de tiempo. En su lugar, una superposición de dos tramas subsiguientes se requiere por lo general a efecto de reconstruir perfectamente (o por lo menos aproximadamente perfectamente) una
55 representación de dominio de tiempo del contenido de audio. En otras palabras, se requieren por lo general conjuntos codificados de coeficientes espectrales 214 de dos tramas de audio subsiguientes, del lado del decodificador, a efectos de cancelar un solapamiento en una región de superposición temporal de dos tramas subsiguientes codificadas en el modo de dominio de frecuencia.
E10768928
17-03-2015
[0062] Sin embargo, a continuación de describen ulteriores detalles sobre cómo se cancela el solapamiento en una transición desde una trama codificado en el modo de dominio de frecuencia a una trama codificado en el modo ACELP.
5 1.1.2. Ruta de Dominio de Tiempo de Transformada a la Fig. 2b
[0063] La Fig. 2b muestra un diagrama esquemático de bloque de una ruta de dominio de transformada 230, que puede ocupar el lugar de la ruta de dominio de transformada 120.
10 [0064] La ruta de dominio de transformada 230, que puede ser considerada una ruta de dominio de predicción lineal con excitación codificada de transformada, recibe una representación de dominio de tiempo 240 de una trama de audio a ser codificado en un modo de dominio de predicción lineal con excitación codificada de transformada (también brevemente denominado modo TCX-LPD), donde el modo TCX-LPD es un ejemplo de un modo de dominio de transformada. La ruta de dominio de transformada 230 está configurada para proveer un
15 conjunto codificado de coeficientes espectrales 244 y parámetros de dominio de predicción lineal codificada 246, que puede ser considerada información acerca del moldeado de ruido. La ruta de dominio de transformada 230 comprende opcionalmente un pre-procesamiento 250, que está configurada para proveer una versión preprocesada 250a de la representación de dominio de tiempo 240. La ruta de dominio de transformada también comprende un cálculo de parámetro 251 de dominio de predicción lineal, que está configurado para computar parámetros 251a de
20 filtro de dominio de predicción lineal sobre la base de la representación de dominio de tiempo 240. El cálculo de parámetro de dominio de predicción lineal 251 puede, por ejemplo, estar configurado para realizar un análisis de correlación de la representación de dominio de tiempo 240, para obtener parámetros de filtro de dominio de predicción lineal. Por ejemplo, el cálculo de parámetro de dominio de predicción lineal 251 puede ser realizado según se describe en los documentos “3GPP TS 26.090”, “3GPP TS 26.190” y “3GPP TS 26.290” del Proyecto de
25 Sociedad de Tercera Generación.
[0065] La ruta de dominio de transformada 230 también comprende un filtrado 262 de base LPC, en el que la representación de dominio de tiempo 240 o su versión preprocesada 250a, es filtrada con el uso de un filtro que está configurado de acuerdo con los parámetros de filtro de dominio de predicción lineal 251a. De igual manera, se 30 obtiene una señal 262a de dominio de tiempo filtrada, por el filtrado 262, que se basa en los parámetros de dominio de predicción lineal 251a. La señal de dominio de tiempo filtrada 262a lleva una función de ventana en una función de ventana 263, para obtener una señal de dominio de tiempo en función de ventana 263a. La señal de dominio de tiempo en función de ventana 263a es convertida en una representación de dominio de frecuencia por una conversión de dominio de tiempo a dominio de frecuencia 264, para obtener un conjunto de coeficientes espectrales
35 264a como resultado de la conversión 264 de dominio de tiempo a dominio de frecuencia. El conjunto de coeficientes espectrales 264a es subsiguientemente cuantificado y codificado en una cuantificación/codificación 265, para obtener el conjunto codificado de coeficientes espectrales 244.
[0066] La ruta de dominio de transformada 230 también comprende una cuantificación y codificación 266 de
40 los parámetros de dominio de predicción lineal 251a, para proveer los parámetros de dominio de predicción lineal codificada 246.
[0067] Con respecto a la funcionalidad de la ruta de dominio de transformada 230, puede decirse que el cálculo de parámetro de dominio de predicción lineal 251 provee una información de filtro de dominio de predicción 45 lineal 251a, que se aplica en el filtro 262. La señal de dominio de tiempo filtrada 262a es una versión espectralmente formada de la representación de dominio de tiempo 240 o de la versión preprocesada 250 de la misma. Hablando en general, puede decirse que el filtrado 262 realiza un moldeado de ruido, de manera tal que los componentes de la representación de dominio de tiempo 240, que son más importantes para la inteligibilidad de la señal de audio descripta por la representación de dominio de tiempo 240, se pesan más alto que los componentes espectrales de la
50 representación de dominio de tiempo 240 que son menos importante para inteligibilidad del contenido de audio representado por la representación de dominio de tiempo 240. De igual manera, los coeficientes espectrales 264a de los componentes espectrales de la representación de dominio de tiempo 240 que son más importantes para la inteligibilidad del contenido de audio se destacan sobre los coeficientes espectrales 264a de los componentes espectrales que son menos importantes para la inteligibilidad del contenido de audio.
55 [0068] Consecuentemente, los coeficientes espectrales asociados con los componentes espectrales más importantes de la representación de dominio de tiempo 240 serán cuantificados más efectivamente con mayor exactitud de cuantificación que los coeficientes espectrales de menor importancia. De esa forma, el ruido de cuantificación causado por la cuantificación/codificación 250 está formado de manera tal que los componentes
E10768928
17-03-2015
espectrales más importantes (con respecto a la inteligibilidad del contenido de audio) son efectuados con menor severidad por el ruido de cuantificación que los componentes espectrales menos importantes (con respecto a la inteligibilidad del contenido de audio).
5 [0069] De igual manera, los parámetros de dominio de predicción lineal codificada 246 puede ser considerados como información acerca del moldeado de ruido, que describe, en forma codificada, el filtrado 262, que se ha aplicado para moldear el ruido de cuantificación.
[0070] Además, debe advertirse que preferentemente una transformada encimada se usa para la conversión
10 dominio de tiempo a dominio de frecuencia 264. Por ejemplo, una transformación de coseno discreto modificada (MDCT) se usa para la conversión dominio de tiempo a dominio de frecuencia 264. De igual forma, una cantidad de coeficientes espectrales codificados 244 provistos para la ruta de dominio de transformada es menor que una cantidad de muestras de dominio de tiempo de una trama de audio. Por ejemplo, un conjunto codificado de coeficientes espectrales N/2 244 puede ser provisto para una trama de audio que comprenda N muestras de dominio
15 de tiempo. De igual manera, una reconstrucción perfecta (o aproximadamente perfecta) de las N muestras de dominio de tiempo de la trama de audio no es posible sobre la base del conjunto codificado de N/2 coeficientes espectrales 244 asociados con dicho trama. En su lugar, se requiere una superposición y agregado entre representaciones de dominio de tiempo de dos tramas de audio subsiguientes para cancelar un solapamiento de dominio de tiempo, que es causado por el hecho de que una cantidad menor que, por ejemplo N/2 coeficientes
20 espectrales está asociada con una trama de audio de N muestras de dominio de tiempo. De esta manera, por lo general se requiere superponer representaciones de dominios de tiempo de dos tramas de audio subsiguientes codificados en el modo TCX-LPD del lado del decodificador a efectos de cancelar artefactos de solapamiento en la región de superposición temporal entre los mencionados dos tramas subsiguientes.
25 [0071] No obstante, a continuación se describen los mecanismos para la cancelación de solapamiento en una transición entre una trama de audio codificado en el modo TCX-LPD y una trama de audio subsiguiente codificado en el modo ACELP.
1.1.3. Ruta de Dominio de Transformada de acuerdo con la Fig. 2c
30 [0072] La Fig. 2c muestra un diagrama esquemático de bloque de una ruta de dominio de transformada 260, que puede ocupar el lugar de la ruta de dominio de transformada 120 en algunas formas de realización, y que puede ser considerada una ruta de dominio de predicción lineal de excitación codificada transformada.
35 [0073] La ruta de dominio de transformada 260 está configurada para recibir una representación de dominio de tiempo de una trama de audio a ser codificado en el modo TCX-LPD y proporciona, sobre la base de la misma, un conjunto codificado de coeficientes espectrales 274 y parámetros de dominio de predicción lineal codificados 276, que pueden ser considerados como información del moldeado de ruido. La ruta de dominio de transformada 260 comprende un pre-procesamiento opcional 280, que puede ser idéntico al pre-procesamiento 250 y proporciona una
40 versión preprocesada de la representación de dominio de tiempo 270. La ruta de dominio de transformada 260 también comprende un cálculo de parámetro de dominio de predicción lineal 281, que puede ser idéntico al cálculo de parámetro de dominio de predicción lineal 251, y que provee parámetros de filtro de dominio de predicción lineal 281a. La ruta de dominio de transformación 260 también comprende una conversión de dominio de predicción lineal a dominio espectral 282, que está configurada para recibir los parámetros de filtro de dominio de predicción lineal
45 281a y para proveer, sobre la base de la misma, una representación de dominio espectral 282b de los parámetros de filtro de dominio de predicción lineal. La ruta de dominio de transformación 260 también comprende una función de ventana 283, que está configurada para recibir la representación de dominio de tiempo 270 o la versión preprocesada 280a de la misma y para proveer una señal de dominio de tiempo 283a para una conversión de dominio de tiempo a dominio de frecuencia 284. La conversión dominio de tiempo a dominio de frecuencia 284
50 provee un conjunto de coeficientes espectrales 284a. El conjunto de coeficientes espectrales 284 es procesado espectralmente en un procesamiento espectral 285. Por ejemplo, cada uno de los coeficientes espectrales 284a está escalado de acuerdo con un valor asociado de la representación de dominio espectral 282a de los parámetros de filtro de dominio de predicción lineal. De la misma manera, se obtiene un conjunto de coeficientes espectrales 285a escalados (es decir, espectralmente formados). Se aplica una cuantificación y una codificación 286 al conjunto de
55 coeficientes escalados 285a para obtener un conjunto codificado de coeficientes espectrales 274. De esta manera, a los coeficientes espectrales 284a, para los que el valor asociado de la representación de dominio espectral 282a comprende un valor comparativamente grande, se les da una ponderación comparativamente alta en el procesamiento espectral 285, mientras que a los coeficientes espectrales 284 a, para los que el valor asociado de la representación de dominio espectral 282a comprende un valor comparativamente pequeño, se les da una
E10768928
17-03-2015
ponderación comparativamente más pequeña en el proceso espectral 285. Así, se aplican diferentes pesos a los coeficientes espectrales 284a cuando se derivan los coeficientes espectrales 285a, donde los pesos son determinados por los valores de la representación de dominio espectral 282a.
5 [0074] Electivamente, la ruta de dominio de transformada 260 realiza una formación espectral similar a la ruta de dominio de transformada 230, aun cuando la formación espectral es realizada por el procesamiento espectral 285, más que por el banco de filtro 262.
[0075] Una vez más, los parámetros de filtro de dominio de predicción lineal 281a son cuantificados y
10 codificados en una cuantificación/codificación 288, para obtener los parámetros de dominio de predicción lineal 276. Los parámetros de dominio de predicción lineal codificados 276 describen, en forma codificada, el moldeado de ruido que se realiza por el procesamiento espectral 285.
[0076] Una vez más, debe advertirse que la conversión dominio de tiempo a dominio de frecuencia 284 se
15 realiza preferentemente con el uso de una transformación encimada, de manera tal que el conjunto codificado de coeficientes espectrales 274 comprende generalmente una cantidad más pequeña de, por ejemplo, N/2 coeficientes espectrales cuando se la compara con una cantidad de por ejemplo, N muestras de dominio de tiempo de una trama de audio. Así, una reconstrucción perfecta (o aproximadamente perfecta) de una trama de audio codificado en la trama TCX-LPD no es posible sobre la base de un solo conjunto codificado de coeficientes espectrales 274. En su
20 lugar, las representaciones de dominio de tiempo de dos tramas de audio subsiguientes codificados en el modo TCX-LPD se superponen y agregan por lo general en un decodificador de señal de audio a efectos de cancelar artefactos de solapamiento.
[0077] No obstante, a continuación se describe un concepto para la cancelación de artefactos de
25 solapamiento en una transición de una trama de audio codificado en el modo TCX-LPD a una trama de audio codificado en el modo ACELP.
1.2. Detalles con respecto a la Ruta de Dominio de Predicción Lineal Excitada por Código Algebraico
30 [0078] A continuación se describen algunos detalles con respecto a la ruta de dominio de predicción lineal excitada por código algebraico 140.
[0079] La ruta ACELP 140 comprende un cálculo de parámetro de dominio de predicción lineal 150, que puede ser idéntico al cálculo de parámetro de dominio de predicción lineal 251 y al cálculo de parámetro de dominio 35 de predicción lineal 281 en algunos casos. La ruta ACELP 140 también comprende un cómputo de excitación ACELP 152, que está configurado para proporcionar una información de excitación ACELP 152 en dependencia de la representación de dominio de tiempo 142 de una porción del contenido de audio a ser codificado en el modo ACELP y también en dependencia de los parámetros de dominio de predicción lineal 150a (que pueden ser parámetros de filtro de dominio de predicción lineal) provistos por el cálculo de parámetro de dominio de predicción 40 lineal 150. La ruta ACELP 140 también comprende una codificación 154 de la información de excitación de ACELP 152, para obtener la información de excitación de código algebraico 144. Además, la ruta ACELP 140 comprende una cuantificación y codificación 156 de la información del parámetro de dominio de predicción lineal 150a, para obtener la información del parámetro de dominio de predicción lineal codificado. Debe señalarse que la ruta ACELP puede comprender una funcionalidad que es similar a, o aun igual a, la funcionalidad de la codificación descripta, por
45 ejemplo, en los documentos “3GPP TS 26.090”, “3GPP TS 26.190” y “3GPP TS 26.290” del Proyecto de Sociedad de Tercera Generación. No obstante, en algunas formas de realización también pueden aplicarse conceptos diferentes para la provisión de información de excitación de código algebraico 144 y la información de parámetro de dominio de predicción lineal 146 sobre la base de la representación de dominio de tiempo 142.
50 1.3. Detalles con respecto a la Provisión de Información sobre Cancelación de Solapamiento
[0080] A continuación, se explican algunos detalles con respecto a la provisión de información sobre cancelación de solapamiento, que se usa para proporcionar la información sobre cancelación de solapamiento 164.
55 [0081] Debe señalarse que, preferentemente, la información de cancelación de solapamiento es provista selectivamente en una transición desde una porción del contenido de audio codificado en el modo de dominio de transformada (por ejemplo en el modo de dominio de frecuencia o en el modo TCX-LPD) a una porción subsiguiente del contenido de audio codificado en el modo ACELP, mientras la provisión de información de cancelación de solapamiento es omitida en una transición desde una porción del contenido de audio codificado en el modo de
E10768928
17-03-2015
dominio de transformación a una porción subsiguiente del contenido de audio también codificado en un modo de dominio de transformada. La información de cancelación de solapamiento 164 puede, por ejemplo, codificar una señal que está adaptada a cancelar artefactos de solapamiento que están incluidos en una representación de dominio de tiempo de una porción del contenido de audio obtenido por una decodificación individual (sin
5 superposición y agregado y con una representación de dominio de tiempo de una porción subsiguiente del contenido de audio codificado en el modo de dominio de transformación) de la porción del contenido de audio sobre la base del conjunto de coeficientes espectrales 124 y la información acerca del moldeado de ruido 126.
[0082] Como se describe más arriba, una representación de dominio de tiempo obtenida por la decodificación
10 de un solo trama de audio sobre la base de un conjunto de coeficientes espectrales 124 y sobre la base de la información de moldeado de ruido 126 comprende un solapamiento de dominio de tiempo, que es causado por el uso de una transformación encimada en la conversión dominio de tiempo a dominio de frecuencia y también en el convertidor dominio de frecuencia a dominio de tiempo de un decodificador de audio.
15 [0083] La provisión de información de cancelación de solapamiento 160 puede, por ejemplo, comprender un cómputo de resultado de síntesis 170, que es configurado para computar una señal de resultado de síntesis 170a de forma tal que la señal del resultado de síntesis 170a describe un resultado de síntesis que también se obtendrá en un decodificador de señal de audio por una decodificación individual de la porción actual del contenido de audio sobre la base del conjunto de coeficientes espectrales 124 y la información de moldeado de ruido 126. La señal de
20 resultado de síntesis 170a puede ser alimentada en un cómputo de error 172, que también puede recibir la representación de ingreso de datos 110 del contenido de audio. El cómputo de error 172 puede comparar la señal del resultado de síntesis 170a con la representación del ingreso de datos 110 del contenido de audio y proveer una señal de error 172a. La señal de error 172a describe una diferencia entre un resultado de síntesis obtenible por un decodificador de señal de audio y la representación de ingreso de datos 110 del contenido de audio. Como una
25 contribución principal de la señal de error 172 es determinada por lo general por un solapamiento de dominio de tiempo, la señal de error 172 es adecuada para una cancelación de solapamiento del lado del decodificador. La provisión de información de cancelación de solapamiento 160 también comprende una codificación de error 174, en la que la señal de error 172a es codificada para obtener la información de cancelación de solapamiento 164. Así, la señal de error 172a es codificada de forma que puede, opcionalmente, ser adaptada a las características de la señal
30 esperada de la señal de error 172a, para obtener la información de cancelación de solapamiento 164 de manera tal que la información de cancelación de solapamiento describe la señal de error 172a en una manera eficiente de bitrate. Así, la información de cancelación de solapamiento 164 permite una reconstrucción del lado del decodificador de una señal de cancelación de solapamiento, que es adaptada para reducir o aun eliminar los artefactos de solapamiento en una transición desde una porción del contenido de audio codificado en el modo de
35 dominio de transformada a la porción subsiguiente del contenido de audio codificado en el modo ACELP.
[0084] Se pueden usar diferentes conceptos para la codificación de error 174. Por ejemplo, la señal de error 172a puede ser codificada por una codificación de dominio de frecuencia (que comprende una conversión dominio de tiempo a dominio de frecuencia, para obtener valores espectrales, y una cuantificación y una codificación de
40 dichos valores espectrales). Se pueden aplicar diferentes tipos de moldeado de ruido del ruido de cuantificación. Alternativamente, sin embargo, se pueden usar diferentes conceptos de codificación de audio para codificar la señal de error 172a.
[0085] Asimismo, en el cómputo de error 172 se pueden considerar señales adicionales de cancelación de 45 error, que pueden ser derivadas a un decodificador de audio.
2. Decodificador de Señal de Audio de acuerdo con la Fig. 3
[0086] A continuación se describe un decodificador de señal de audio, que está configurado para recibir la
50 representación de audio codificada 112 provista por el codificador de señal de audio 100 y para decodificar dicha representación codificada del contenido de audio. La Fig. 3 muestra un diagrama esquemático de bloque de dicho decodificador de señal de audio 300, de acuerdo con una forma de realización de la invención.
[0087] El decodificador de señal de audio 300 está configurado para recibir una representación codificada
55 310 de un contenido de audio y para proveer, sobre la base de la misma, una representación codificada 312 del contenido de audio.
[0088] El decodificador de la señal de audio 300 comprende una ruta de dominio de transformada 320, que está configurada para recibir un conjunto de coeficientes espectrales 322 y una información acerca del moldeado de
E10768928
17-03-2015
ruido 324. La ruta de dominio de transformación 320 está configurada para obtener una representación de dominio de tiempo 326 de una porción del contenido de audio codificado en un modo de dominio de transformación (por ejemplo, un modo de dominio de frecuencia o un modo de dominio de predicción lineal con excitación codificada de transformada) sobre la base de los coeficientes espectrales 322 y la información de moldeado de ruido 324. El 5 decodificador de señal de audio 300 también comprende una ruta de dominio de predicción lineal excitada por código algebraico 340. La ruta de dominio de predicción lineal excitada por código algebraico 340 está configurada para recibir una información de excitación de código algebraico 342 y una información de parámetro de dominio de predicción lineal 344. La ruta de dominio de predicción lineal excitada por código algebraico 340 está configurada para obtener una representación de dominio de tiempo 346 de una porción del contenido de audio codificado en el
10 modo de dominio de predicción lineal excitada por código algebraico sobre la base de la información de excitación por código algebraico 342 y la información de parámetro de dominio de predicción lineal 344.
[0089] El decodificador de señal de audio 300 comprende además un proveedor de señal de cancelación de solapamiento 360 que está configurado para recibir una información de cancelación de solapamiento 362 y para
15 proveer, sobre la base de la misma, una señal de cancelación de solapamiento 364.
[0090] El decodificador de señal de audio 300 está configurado además para combinar, por ejemplo con el uso de una combinación 380, la representación de dominio de tiempo 326 de una porción del contenido de audio codificado en el modo de dominio de transformada y la representación de dominio de tiempo 346 de una porción del
20 contenido de audio codificado en el modo ACELP, para obtener la representación codificada 312 del contenido de audio.
[0091] La ruta de dominio de transformada 320 comprende un convertidor dominio de frecuencia a dominio de tiempo 330 que está configurada para aplicar una conversión dominio de frecuencia a dominio de tiempo 332 y 25 una función de ventana 334, para derivar en función de ventana una representación de dominio de tiempo del contenido de audio a partir del conjunto de coeficientes espectrales 322 o una versión preprocesada de la misma. El convertidor dominio de frecuencia a dominio de tiempo 330 está configurado para aplicar una ventana de síntesis asimétrica predeterminada para una porción de ventana de una porción actual del contenido de audio codificado en el modo dominio de transformada y siguiendo una porción anterior del contenido de audio codificado en el modo de
30 dominio de transformación tanto si la porción actual del contenido de audio es seguida por una porción subsiguiente el contenido de audio codificado en el modo dominio de transformada como si la porción actual del contenido de audio es seguida por una porción subsiguiente del contenido de audio codificado en el modo ACELP.
[0092] El decodificador de señal de audio (o, más precisamente, el proveedor de señal de cancelación de
35 solapamiento 360) está configurado para proveer selectivamente una señal de cancelación de solapamiento 364 sobre la base de una información de cancelación de solapamiento 362 si la porción actual del contenido de audio (que está codificada en el modo de dominio de transformada) es seguida por una porción subsiguiente del contenido de audio codificado en el modo ACELP.
40 [0093] Con respecto a la funcionalidad del decodificador de señal de audio 300, puede decirse que el decodificador de señal de audio 300 es capaz de proveer una representación decodificada 312 de un contenido de audio, porciones del cual están codificadas en diferentes modos, a saber en un modo de dominio de transformada y en modo ACELP. Para una porción (por ejemplo una trama o subtrama) del contenido de audio codificado en el modo de dominio de transformada, la ruta de dominio de transformada 320 provee una representación de dominio
45 de tiempo 326. No obstante, una representación de dominio de tiempo 326 de una trama del contenido de audio codificado en el modo dominio de transformada puede comprender un solapamiento de dominio de tiempo, porque el convertidor de dominio de frecuencia a dominio de tiempo 330 generalmente usa una transformación encimada inversa para proveer la representación de dominio de tiempo 326. En la transformación encimada inversa, que puede, por ejemplo, ser una transformación de coseno discreta modificada inversa, (IMDCT), se puede trazar un
50 conjunto de coeficientes espectrales 322 sobre muestras de la trama de dominio de tiempo, donde la cantidad de muestras de dominio de tiempo de la trama puede ser mayor que la cantidad de coeficientes espectrales 322 asociadas con dicho trama. Por ejemplo, puede haber N/2 coeficientes espectrales asociados con una trama de audio, y se puede proveer N muestras de dominio de tiempo por la ruta de dominio de transformada 320 para dicho trama. De igual manera, una representación de dominio de tiempo sustancialmente libre de solapamiento se obtiene
55 por superposición y agregado (por ejemplo en la combinación 380) las representaciones de dominio de tiempo obtenidas (alternancia de tiempo) para dos tramas subsiguientes codificados en el modo de dominio de transformada.
[0094] No obstante, la cancelación de solapamiento es más difícil en una transición desde una porción del
E10768928
17-03-2015
contenido de audio (por ejemplo, una trama o subtrama) codificado en el modo de dominio de transformada a una porción subsiguiente del contenido de audio codificado en el modo ACELP. Preferentemente, la representación de dominio de tiempo para una trama o subtrama codificado en el modo de dominio de transformada se extiende temporalmente en una porción de tiempo (generalmente en forma de bloque) para lo cual se proveen muestras de 5 dominio de tiempo (no cero) por la rama ACELP. Además, una porción del contenido de audio codificado en el modo de dominio de transformada y que precede una porción subsiguiente del contenido de audio codificado en el modo ACELP comprende generalmente algún grado de solapamiento de dominio de tiempo, que sin embargo, no puede ser cancelado por las muestras de dominio de tiempo provisto por la rama ACELP para una porción del contenido de audio codificado en el modo ACELP (mientras el solapamiento de dominio de tiempo sería sustancialmente
10 cancelado por una representación de dominio de tiempo provista por la rama de dominio de transformada si la porción subsiguiente del contenido de audio estuviese codificado en el modo de dominio de transformada).
[0095] No obstante, el solapamiento en una transición a partir de una porción del contenido de audio codificado en el modo de dominio de transformación a una porción subsiguiente del contenido de audio codificado en 15 al modo ACELP es reducido, o aun eliminado, por la señal de cancelación de solapamiento 364 provista por el proveedor de señal de cancelación de solapamiento 360. A tal efecto, el proveedor de señal de cancelación de solapamiento 360 evalúa la información de cancelación de solapamiento y provee, sobre la base de la misma, una señal de cancelación de solapamiento de dominio de tiempo. La señal de cancelación de solapamiento 364 se agrega, por ejemplo, a una mitad del lado derecho (o porción más corta del lado derecho) de una representación de 20 dominio de tiempo de, por ejemplo, N muestras de dominio de tiempo provistas para una porción del contenido de audio codificado en el modo de dominio de transformada por la ruta de dominio de transformada para reducir o aun eliminar un solapamiento de dominio de tiempo. La señal de cancelación de solapamiento 364 puede agregarse tanto a una porción de tiempo en la cual la representación de dominio de tiempo (no cero) 346 de una porción del contenido de audio codificado en el modo ACELP no superpone una representación de dominio de tiempo del 25 contenido de audio codificado en el modo de dominio de transformada y a una porción de tiempo en la cual la representación de dominio de tiempo (no cero) de la porción de contenido de audio codificada en el modo ACELP superpone una representación de dominio de tiempo de la porción anterior del contenido de audio codificado en el modo de dominio de transformada. De igual manera, puede obtenerse una transición paulatina (sin artefactos con “clic”) ente la porción de la representación de dominio de tiempo codificada en el modo de dominio de transformada
30 y la porción subsiguiente del contenido de audio codificado en el modo ACELP. Los artefactos de solapamiento pueden ser reducidos o aun eliminados en tal transición con el uso de una señal de cancelación de solapamiento.
[0096] Consecuentemente, el decodificador de señal de audio 300 es capaz de manejar eficientemente una secuencia de porciones (por ejemplo, tramas) del contenido de audio codificado en el modo de dominio de 35 transformada. En tal caso, el solapamiento de dominio de tiempo es cancelado por una superposición y agregado de representaciones de dominio de tiempo (de, por ejemplo, N muestras de dominio de tiempo) de tramas subsiguiente (temporalmente superpuestos) codificados en el modo de dominio de transformada. De igual manera, se obtienen transiciones graduales sin superposición adicional. Por ejemplo, al evaluar N/2 coeficientes espectrales por trama de audio y al usar una superposición de trama temporal del 50%, se puede usar muestreo crítico. Una muy buena
40 eficiencia de codificación se obtiene para tal secuencia de tramas de audio codificados en el modo de dominio de transformada mientras se evitan los artefactos de bloqueo.
[0097] Además, al emplear la misma ventana de síntesis asimétrica predeterminada sin importar si la porción actual del contenido de audio que está codificado en el modo de dominio de transformada, es seguida por una
45 porción subsiguiente del contenido de audio codificado en el modo de dominio de transformada o por una porción subsiguiente del contenido de audio codificado en el modo ACELP, el retardo puede mantenerse razonablemente bajo.
[0098] Asimismo, una calidad de audio de transiciones ente una porción del contenido de audio codificado en
50 el modo de dominio de transformada y una porción subsiguiente del contenido de audio codificado en el modo ACELP puede mantenerse alto, aun sin usar una ventana de síntesis específicamente adaptada, mediante el uso de la señal de cancelación de solapamiento, que es provista sobre la base de la información de cancelación de solapamiento.
55 [0099] Así, el decodificador de señal de audio 300 provee una combinación equilibrada entre una eficiencia de código, retardo de codificación y calidad de audio.
2.1 Detalles con respecto a la Ruta de Dominio de Transformada
E10768928
17-03-2015
[00100] A continuación, se suministran detalles con respecto a la ruta de dominio de transformada 320. A tal efecto, se describen ejemplos de implementaciones de la ruta de transformada 320.
2.1.1 Ruta de Dominio de Transformada de acuerdo con la Fig. 4ª
5 [00101] La Fig. 4a muestra un diagrama esquemático de una ruta de dominio de transformada 400, que puede ocupar el lugar de la ruta de dominio de transformada 320 en algunas formas de realización de acuerdo con la invención, y que puede ser considerada como ruta de dominio de frecuencia.
10 [00102] La ruta de dominio de transformada 400 está configurada para recibir un conjunto codificado de coeficientes espectrales 412 y una información de factor de escala codificado 414. La ruta de dominio de transformada 400 está configurada para proveer una representación de dominio de tiempo 416 de una porción del contenido de audio codificado en el modo de dominio de frecuencia.
15 [00103] La ruta de dominio de transformada 400 comprende una codificación y cuantificación inversa 420, que recibe el conjunto codificado de coeficientes espectrales 412 y provee, sobre la base de la misma, un conjunto decodificado e inversamente cuantificado de coeficientes espectrales 420a. La ruta de dominio de transformada 400 también comprende una decodificación y cuantificación inversa 421, que recibe la información de factor de escala codificado 414 y provee, sobre la base de la misma, una información de factor de escala decodificado e
20 inversamente cuantificado 421a.
[00104] La ruta de dominio de transformada 400 también comprende un procesamiento espectral 422, cuyo procesamiento espectral 422 puede, por ejemplo, comprender un escalamiento en el sentido de la banda de factor de escala de los coeficientes decodificados e inversamente cuantificados 420a. De igual manera, se obtiene un
25 conjunto escalado (es decir, espectralmente formado) de coeficientes espectrales 422a. En el procesamiento espectral 422, un factor de escala (comparativamente) pequeño se puede aplicar a dichas bandas de factor de escala que son de relevancia psicoacústica comparativamente alta, mientras se aplica un escalamiento (comparativamente) grande a coeficientes espectrales de bandas de factor de escala que tienen una relevancia psicoacústica comparativamente más pequeña. De igual manera, se llega a que un ruido de cuantificación efectiva
30 es más pequeño para coeficientes espectrales de bandas de factor de escala que tienen una relevancia psicoacústica comparativamente más alta cuando se las compara con un ruido de cuantificación efectiva para coeficientes espectrales de bandas de factor de escala que tienen una relevancia psicoacústica comparativamente más baja. En el procesamiento espectral, los coeficientes espectrales 420a pueden ser multiplicados con los respectivos factores de escala asociados, para obtener los coeficientes espectrales escalados 422a.
35 [00105] La ruta de dominio de transformada 400 también puede comprender una conversión dominio de frecuencia a dominio de tiempo 423, que está configurada para recibir los coeficientes espectrales escalados 422a y para proveer, sobre la base de la misma, una señal de dominio de tiempo 423a. Por ejemplo, la conversión dominio de frecuencia a dominio de tiempo puede ser una transformada encimada inversa, como, por ejemplo, una
40 transformada de coseno discreta modificada. De igual manera, la conversión dominio de frecuencia a dominio de tiempo 423 puede proveer, por ejemplo, una representación de dominio de tiempo 423a de N muestras de dominio de tiempo sobre la base de N/2 coeficientes espectrales 422a escalados (espectralmente formados). La ruta de dominio de transformada 400 también puede comprender una función de ventana 424, que se aplica a la señal de dominio de tiempo 423a. Por ejemplo, una ventana de síntesis asimétrica predeterminada, como se ha mencionado
45 más arriba, y como se trata en más detalle a continuación puede aplicarse a la señal de dominio de tiempo 432a, para derivar desde allí una señal de dominio de tiempo en función de ventana 424a. Opcionalmente, se puede aplicar un post-procesamiento 425 a la señal de dominio de tiempo en función de ventana 424a, para obtener una representación de dominio de tiempo 426 de una porción del contenido de audio codificado en el modo de dominio de frecuencia.
50 [00106] Así, la ruta de dominio de transformada 420, que puede ser considerada una ruta de dominio de frecuencia, está configurada para proveer la representación de dominio de tiempo 416 de una porción del contenido de audio codificado en el modo de dominio de frecuencia con el uso de una cuantificación de moldeado de ruido con base en un factor de escala, que se aplica en el procesamiento espectral 422. Preferentemente, una representación
55 de dominio de tiempo de N muestras de dominio de tiempo se provee para un conjunto de N/2 coeficientes espectrales, donde la representación de dominio de tiempo 416 comprende algún solapamiento debido al hecho de que la cantidad de muestras de dominio de tiempo de la representación de dominio de tiempo 416 (para una trama determinado) es mayor (por ejemplo, por un factor de 2, o por un factor diferente) que la cantidad de coeficientes espectrales del conjunto codificado de coeficientes espectrales 412 (para una trama determinado).
E10768928
17-03-2015
[00107] No obstante, como se ha dicho más arriba, el solapamiento de dominio de tiempo es reducido o cancelado por una operación de superposición y agregado entre porciones subsiguientes del contenido de audio codificado en el dominio de frecuencia o por el agregado de la señal de cancelación de solapamiento 364 en el caso
5 de una transición entre una porción del contenido de audio codificado en el modo de dominio de frecuencia y una porción del contenido de audio codificado en el modo ACELP.
2.1.2 Ruta de Dominio de Transformada de acuerdo con la Fig. 4b
10 [00108] La Fig. 4b muestra un diagrama esquemático de bloque de una ruta de dominio de predicción lineal con excitación codificada de transformada 430, que es una ruta de transformada y que puede ocupar el lugar de la ruta de transformada 320.
[00109] La ruta TCX-LPD 430 está configurada para recibir un conjunto codificado de coeficientes espectrales
15 442 y parámetros de dominio de predicción lineal codificados 444, que pueden ser considerados como información acerca del moldeado de ruido. La ruta TCX-LPD 430 está configurada para proveer una representación de dominio de tiempo 446 de una porción del contenido de audio codificado en el modo TCX-LPD sobre la base del conjunto de coeficientes espectrales 442 y parámetros de dominio de predicción lineal codificado 444.
20 [00110] La ruta TCX-LPD 430 comprende una decodificación y una cuantificación inversa 450 del conjunto codificado de coeficientes espectrales 442, que provee, como resultado de la decodificación y cuantificación inversa, un conjunto decodificado e inversamente cuantificado de coeficientes espectrales 450a. Los coeficientes decodificados e inversamente cuantificados 450a son ingreso de datos para una conversión de dominio de frecuencia a dominio de tiempo 451, que provee, sobre la base de los coeficientes espectrales decodificados e
25 inversamente cuantificados, una señal de dominio de tiempo 451a. La conversión de dominio de frecuencia a dominio de tiempo 451 puede, por ejemplo, comprender la ejecución de una transformada encimada inversa sobre la base de los coeficientes espectrales decodificados e inversamente cuantificados 450a, a efectos de proveer la señal de dominio de tiempo 451a como resultado de dicha transformada encimada inversa. Por ejemplo, una transformada de coseno discreta modificada inversa puede realizarse para derivar la señal de dominio de tiempo 451a a partir de
30 los coeficientes espectrales decodificados e inversamente cuantificados 450a. Una cantidad (por ejemplo, N) de muestras de dominio de tiempo de la representación de dominio de tiempo 451a puede ser mayor que una cantidad (por ejemplo, N/2) de coeficientes espectrales 450a que ingresa a la conversión de dominio de frecuencia a dominio de tiempo en el caso de una transformada encimada, de manera que, por ejemplo, N muestras de dominio de tiempo de la señal de dominio de tiempo 451a puedan ser provistas en respuesta a N/2 coeficientes espectrales 450a.
35 [00111] La ruta TCX-LPD 430 también comprende una función de ventana 452, en la que una función de ventana de síntesis se aplica para una función de ventana de la señal de dominio de tiempo 451a, para derivar una señal de dominio de tiempo en función de ventana 452a. Por ejemplo, una ventana de síntesis asimétrica predeterminada puede aplicarse en la función de ventana 452, para obtener la señal de dominio de tiempo en
40 función de ventana 452a como versión en función de ventana de la señal de dominio de tiempo 451a. La ruta TCX-LPD 430 también comprende una decodificación y cuantificación inversa 453, en la que una información de parámetro de dominio de predicción lineal 453a es derivada de los parámetros 444 de dominio de predicción lineal codificada. La información de parámetro de dominio de predicción lineal puede, por ejemplo, comprender (o describir) coeficientes de filtro para un filtro de predicción lineal. Los coeficientes de filtro pueden, por ejemplo, ser
45 decodificados como se describe en las especificaciones técnicas “3GPP TS 26.090”, “3GPP TS 26.190” y “3GPP TS 26.290” del Proyecto de Sociedad de Tercera Generación. De la misma manera, los coeficientes de filtro 453a pueden ser usados en un filtrado con base en codificación de predicción lineal 454, para filtrar la señal de dominio de tiempo en función de ventana 452a. En otras palabras, los coeficientes de un filtro (por ejemplo, un filtro de respuesta de impulso finito), que se usa para derivar una señal de dominio de tiempo filtrada 454a a partir de la
50 señal de dominio de tiempo en función de ventana 452a, puede ser ajustada de acuerdo con la información del parámetro de dominio de predicción lineal decodificada 453a, que puede describir dichos coeficientes de filtro. Así, la señal de dominio de tiempo 452a puede servir como señal de estímulo de una síntesis de señal con base en una codificación de predicción lineal 454, que se ajusta de acuerdo con los coeficientes de filtro 453a.
55 [00112] Opcionalmente, se puede aplicar un post-procesamiento 455 para derivar la representación de dominio de tiempo 446 de una porción de contenido de audio codificado en el modo TCX-LPD a partir de la señal de dominio de tiempo filtrada 454a.
[00113] Para sintetizar, un filtrado 454, que es descripto por los parámetros de dominio de predicción lineal
E10768928
17-03-2015
codificada 444, se aplica para derivar la representación de dominio de tiempo 446 de una porción del contenido de audio codificado en el modo TCX-LPD a partir de una señal de estímulo de filtro 452a, que es descripta por el conjunto codificado de los coeficientes espectrales 442. De igual manera, se obtiene una buena eficiencia de codificación para dichas señales que son bien predecibles, es decir que se adaptan bien a un filtro de predicción
5 lineal. Para tales señales, el estímulo puede ser eficientemente codificado por un conjunto codificado de coeficientes espectrales 442, mientras las otras características de correlación de la señal pueden ser consideradas por el filtrado 454, que es determinado en dependencia de los coeficientes de filtro de predicción lineal 453a.
[00114] No obstante, debe advertirse que se introduce un solapamiento de dominio de tiempo en la 10 representación de dominio de tiempo 446 al aplicar una transformada encimada en la conversión dominio de frecuencia a dominio de tiempo 451. El solapamiento de dominio de tiempo puede ser cancelado por una superposición y agregado de (alternado temporalmente) representaciones de dominio de tiempo 446 de porciones subsiguientes del contenido de audio codificado en el modo TCX-LPD. El solapamiento de dominio de tiempo puede alternativamente ser reducido o cancelado con el uso de la señal de cancelación de solapamiento 364 en una
15 transición entre porciones del contenido de audio codificado en modos diferentes.
2.1.3 Ruta de Dominio de Transformada de acuerdo con la Fig. 4c
[00115] La Fig. 4c muestra un diagrama esquemático de bloque de una ruta de dominio de transformada 460,
20 que puede ocupar el lugar de la ruta de dominio de transformada 320 en algunas formas de realización de acuerdo con la invención.
[00116] La ruta de dominio de transformada 460 es una ruta de dominio de predicción lineal con excitación codificada de transformada (ruta TCX-LPD) que emplea un moldeado de ruido de dominio de frecuencia. La ruta
25 TCX-LPD 460 está configurada para recibir un conjunto codificado de coeficientes espectrales 472 y parámetros de dominio de predicción lineal codificada 474, que pueden ser considerados información acerca del moldeado de ruido. La ruta TCX-LPD 460 está configurada para proveer, sobre la base del conjunto codificado de coeficientes espectrales 472 y sobre la base de los parámetros de dominio de predicción lineal codificada 472, una representación de dominio de tiempo 476 de una porción del contenido de audio codificado en el modo TCX-LPD.
30 [00117] La ruta TCX-LPD comprende una decodificación/cuantificación inversa 480, que está configurada para recibir el conjunto codificado de coeficientes espectrales 472 y para proveer, sobre la base de la misma, coeficientes espectrales decodificados e inversamente cuantificados 480a. La ruta TCX-LPD también comprende una decodificación y cuantificación inversa 481 configurada para recibir los parámetros de dominio de predicción lineal
35 codificada 472 y para proveer, sobre la base de la misma, parámetros de dominio de predicción lineal decodificados e inversamente cuantificadas 481a, como, por ejemplo, coeficientes de filtro de un filtro de codificación de predicción lineal (LPC). La ruta TCX-LPD 460 también comprende una conversión de dominio de predicción lineal a dominio espectral 482 configurada para recibir los parámetros de dominio de predicción lineal decodificada e inversamente cuantificada 481 y para proveer una representación de dominio espectral 482a de los parámetros de dominio de
40 predicción lineal 481a. Por ejemplo, la representación de dominio espectral 482a puede ser una representación de dominio espectral de una respuesta de filtro descripta por los parámetros de dominio de predicción lineal 481a. La ruta TCX-LPD 460 comprende además un procesamiento espectral 483 que está configurado para escalar los coeficientes espectrales 480a en dependencia de la representación de dominio espectral 482a de los parámetros de dominio de predicción lineal 481, para obtener un conjunto de coeficientes espectrales escalados 483a. Por ejemplo,
45 cada uno de los coeficientes espectrales 480a se puede multiplicar con un factor de escala que es determinado de acuerdo con (o en dependencia de) uno o más de los coeficientes espectrales de la representación de dominio espectral 482a. Así, la ponderación de los coeficientes espectrales 480a es efectivamente determinado por una respuesta espectral de un filtro de codificación de predicción lineal descripto por los parámetros de dominio de predicción lineal codificada 472. Por ejemplo, los coeficientes espectrales 480a para frecuencias, para lo cual el filtro
50 de predicción lineal comprende una respuesta de frecuencia comparativamente grande, puede estar escalado con un factor de escalamiento pequeño en el procesamiento espectral 483, de forma tal que un ruido de cuantificación asociado con dichos coeficientes espectrales 480a es reducido. En contraposición, los coeficientes espectrales 480a para frecuencias, para lo cual el filtro de predicción lineal descripto por los parámetros de dominio de predicción lineal comprende una respuesta de frecuencia comparativamente pequeña, puede estar escalado con un factor de
55 escalamiento comparativamente más alto en el procesamiento espectral 483, de forma tal que un ruido de cuantificación efectiva es comparativamente más grande para dichos coeficientes espectrales 480a. Así, el procesamiento espectral 483 trae aparejada efectivamente el moldeado de un ruido de cuantificación de acuerdo con los parámetros de dominio de predicción lineal 472.
E10768928
17-03-2015
[00118] Los coeficientes espectrales escalados 483a son ingreso de datos en una conversión dominio de frecuencia a dominio de tiempo 484 a efectos de obtener una señal de dominio de tiempo 484a. La conversión dominio de frecuencia a dominio de tiempo 484 puede, por ejemplo, comprender una transformada encimada, como por ejemplo, una transformada de coseno discreta modificada inversa. De igual manera, la representación de 5 dominio de tiempo 484a puede ser el resultado de la ejecución de tal conversión de dominio de frecuencia a dominio de tiempo sobre la base de los coeficientes espectrales escalados (es decir espectralmente formados) 483a. Debe señalarse que una representación de dominio de tiempo 484a puede comprender una cantidad de muestras de dominio de tiempo que es mayor que una cantidad de los coeficientes espectrales escalados 483a que son ingresos de datos en la conversión de dominio de frecuencia a dominio de tiempo. De igual manera, la señal de dominio de
10 tiempo 484a comprende componentes de solapamiento de dominio de tiempo, que son cancelados por una superposición y agregado de las representaciones de dominio de tiempo 476 de porciones subsiguientes (por ejemplo, tramas o subtramas) del contenido de audio codificado en el modo TCX-LPD, o por el agregado de la señal de cancelación de solapamiento 364 en el caso de una transición entre porciones del contenido de audio codificado en modos diferentes.
15 [00119] La ruta TCX-LPD 460 también comprende una función de ventana 485, que se aplica para una función de ventana de la señal de dominio de tiempo 484a para derivar una señal de dominio de tiempo en función de ventana 485a a partir de allí. En la función de ventana 485, una función de síntesis asimétrica predeterminada puede usarse en algunas formas de realización de acuerdo con la invención, como se verá a continuación.
20 [00120] Opcionalmente, un post-procedimiento 486 puede aplicarse para derivar la representación de dominio de tiempo 476 de la señal de dominio de tiempo en función de ventana 485a.
[00121] Para sintetizar la funcionalidad de la ruta TCX-LPD 460, puede decirse que en el procesamiento
25 espectral 483, que es una parte central de la ruta TCX-LPD 460 se aplica un moldeado de ruido a los coeficientes espectrales decodificados e inversamente cuantificados 480a, donde el moldeado de ruido se ajusta en dependencia de los parámetros de dominio de predicción lineal. Subsiguientemente, una señal de dominio de tiempo en función de ventana 485a se provee sobre la base de los coeficientes espectrales con moldeado de ruido escalados 483a con el uso de la conversión dominio de frecuencia a dominio de tiempo 484 y la función de ventana 485, donde,
30 preferentemente, se usa una transformada encimada que introduce algún solapamiento.
2.2. Detalles relacionados con la ruta ACELP
[00122] A continuación se describirán algunos detalles relacionados con la ruta ACELP 340.
35 [00123] Cabe observar que la ruta ACELP 340 puede realizar una funcionalidad inversa, en comparación con la ruta ACELP 140. La ruta ACELP 340 comprende una decodificación 350 de la información de excitación de código algebraico 342. La decodificación 350 provee una información decodificada de excitación de código algebraico 350a a una computación de señal de excitación y post-proceso 351, que a su vez provee una señal de excitación ACELP
40 351a. La ruta ACELP comprende asimismo una decodificación 352 de los parámetros de dominio de la predicción lineal. La decodificación 352 recibe la información de los parámetros de dominio de predicción lineal 344 y provee, sobre esa base, los parámetros de dominio de predicción lineal 352a, como, por ejemplo, los coeficientes de filtro de un filtro de predicción lineal (también designado asimismo como filtro LPC). La ruta ACELP asimismo comprende un filtrado de síntesis 353, que está configurado para filtrar la señal de excitación 351a en dependencia de los
45 parámetros de dominio de predicción lineal 352a. En consecuencia, se obtiene una señal sintetizada del dominio del tiempo 353a como resultado del filtrado de síntesis 353, que opcionalmente es post-procesada en un postprocesamiento 354 para derivar la representación del dominio del tiempo 346 de una porción del contenido de audio codificado en el modo ACELP.
50 [00124] La ruta ACELP está configurada para proveer una representación del dominio del tiempo de una porción temporalmente limitada del contenido de audio codificado en el modo ACELP. Por ejemplo, la representación del dominio del tiempo 346 puede representar coherentemente con sí misma una señal del dominio del tiempo de una porción del contenido de audio. En otras palabras, la representación de dominio del tiempo 346 puede estar libre del solapamiento del dominio del tiempo y puede estar limitado por una ventana con forma de
55 bloque. En consecuencia, la representación del dominio del tiempo 346 puede ser suficiente para reconstruir la señal de audio de un bloque temporal bien-delimitado (que tiene una forma de ventana tipo bloque), aun cuando se debe tener cuidado de que no haya artefactos bloqueantes en los límites de dicho bloque.
[00125] En adelante se describirán mayores detalles.
E10768928
17-03-2015
2.3. Detalles relacionados con el Proveedor de Señal de Cancelación de Solapamiento
[00126] En la siguiente sección, se describirán algunos detalles acerca del proveedor de solapamiento de
5 señales de cancelación 360. El proveedor de señal de cancelación de solapamiento 360 está configurado para recibir información de cancelación de solapamiento 362 y realizar una decodificación 370 de la información de cancelación de solapamiento 362, para obtener una información decodificada de cancelación de solapamiento 370a. El proveedor de señal de cancelación de solapamiento 360 está asimismo configurado para realizar una reconstrucción 372 de la señal de cancelación de solapamiento 364 sobre la base de la información decodificada de
10 cancelación de solapamiento 370a.
[00127] La información de cancelación de solapamiento 360 se puede codificar en diferentes formas, como se describiera anteriormente. Por ejemplo, la información de cancelación de solapamiento 362 puede estar codificada en una representación de dominio de frecuencia o en una representación de dominio de predicción lineal. De este 15 modo, diferentes conceptos de cuantización del moldeado de ruido se pueden aplicar en la reconstrucción 372 de la señal de cancelación de solapamiento. En algunos casos, se pueden aplicar factores de escala de una porción del contenido de audio codificado en el modo de dominio de frecuencia, en la reconstrucción de la señal de cancelación de solapamiento 364. En algunos otros casos, se pueden aplicar los parámetros de dominio de predicción lineal (por ejemplo, coeficientes de filtro de predicción lineal) en la reconstrucción 372 de la señal de cancelación de 20 solapamiento 364. Alternativamente, o además, se puede incluir información acerca del moldeado de ruido en la información codificada de cancelación de solapamiento 362, por ejemplo, sumada a la representación de dominio de frecuencia. Por otra parte, se puede emplear a modo opcional, información adicional de la ruta de dominio de transformada 320 o de la rama 340 en la reconstrucción 372 de la señal de cancelación de solapamiento 364. Es más, se puede usar también una función de ventana en la reconstrucción 372 de la señal de cancelación de
25 solapamiento, como se describirá en detalle más adelante.
[00128] Para resumir, se pueden usar diferentes conceptos de decodificación de señales 364 sobre la base de la información de cancelación de solapamiento 362 con dependencia del formato de la información de cancelación de solapamiento 362.
30
3. Conceptos de función de ventana (función de ventana) y cancelación de solapamiento
[00129] En la siguiente sección, se describirá en detalle lo referente a un concepto de función de ventana y cancelación de solapamiento, que se pueden aplicar en el codificador de señal de audio 100 y en el decodificador de
35 señal de audio 300.
[00130] A continuación, se brindará una descripción del estado de situación de las secuencias de ventana en una codificación unificada de voz y audio de bajo retardo (USAC).
40 [00131] En las formas de realización corrientes de los desarrollos de codificaciones unificadas de voz y audio con bajo retardo (USAC), la ventana de bajo retardo de la codificación de audio avanzada de retardo bajo realzado (AAC-ELD), que tiene un solapamiento extendido al pasado, no se usa. En su lugar, se usa o bien una ventana en seno o una ventana de bajo retardo idéntica o similar a la utilizada en el estándar ITU-TG.718 (por ejemplo, en el convertidor de dominio de tiempo a dominio de frecuencia 130 y/o en el convertidor dominio de frecuencia a tiempo
45 330). Esta ventana G.718 tiene una forma no simétrica similar a la ventana de bajo retardo de la codificación de audio avanzada de retardo bajo realzado (ventana AAC-ELD) a fin de reducir el retardo, pero sólo tiene un solapamiento de dos tiempos (2 x solapamiento) es decir, el mismo solapamiento que una ventana normal en seno. Las siguientes figuras (en particular las Figs. 5 a 9) ilustran las diferencias entre una ventana en seno y una ventana
G.718.
50 [00132] Cabe observar que en las siguientes figuras, se asume una longitud de trama de 400 muestras a fin de que la grilla de la figura calce mejor en las ventanas. Sin embargo, en un sistema real, se prefiere una longitud de trama de 512.
55 3.1. Comparación entre una ventana en seno y una ventana de análisis G.718 (Figs. 5 a 9)
[00133] La Fig. 5 muestra una comparación de una ventana en seno (representada por una línea de puntos) y una ventana de análisis G.718 (representada por una línea continua). Tomando como referencia la Fig. 5, que muestra una representación gráfica de los valores de ventana de una ventana en seno y una ventana de análisis
E10768928
17-03-2015
G.718, debe observarse que una abscisa 510 describe un tiempo en términos de muestras de dominio de tiempo que tienen índices de muestra entre 0 y 400, y que una ordenada 512 describe a los valores de ventana (que pueden, por ejemplo, ser valores de ventana normalizados).
5 [00134] Como se puede ver en la Fig. 5, la ventana de análisis G.718, que está representada por una línea continua 520, es asimétrica. Como se puede ver, una mitad izquierda de ventana (muestras de dominio de tiempo 0 a 199) comprende una curva de transición 522, en la que los valores de ventana aumentan monotónicamente de 0 a un valor central de ventana de 1 y una porción excedida 524 en la que los valores de ventana son mayores que el valor central de ventana de 1. En la porción excedida 524, la ventana comprende un máximo 524a. La ventana de
10 análisis G.718 520 comprende asimismo un valor central de 1 en un centro 526. La ventana de análisis G.718 520 comprende asimismo una mitad derecha de ventana (muestras de dominio de tiempo 201 a 400). La mitad derecha de ventana comprende una curva de transición 520a en la que los valores de ventana disminuyen monotónicamente desde el valor central de ventana 1 hasta 0. La mitad derecha de ventana comprende asimismo una porción cero del lado derecho 530. Cabe señalar que la ventana de análisis G.718 520 se puede usar en el convertidor dominio de
15 tiempo a dominio de frecuencia 130 a fin de aplicar una función de ventana a una porción (por ejemplo, una trama o sub-trama) que tiene una longitud de trama de 400 muestras, en donde las últimas 50 muestras de dicho trama pueden ser dejadas sin considerar debido a la porción cero del lado derecho 530 de la ventana de análisis G.718. En consecuencia, la conversión dominio de tiempo a dominio de frecuencia puede iniciarse antes de que todas las 400 muestras de la trama estén disponibles. Más bien, es suficiente que 350 muestras de la trama actualmente
20 analizada estén disponibles a fin de iniciar la conversión dominio de tiempo a dominio de frecuencia.
[00135] Asimismo, la forma asimétrica de la ventana 520, que comprende una porción excedida 524 (solamente) en la mitad izquierda de la ventana, está bien adaptada para una reconstrucción de señal de bajo retardo en una cadena de procesamiento de codificador de señal de audio/decodificador de señal de audio.
25 [00136] Para resumir lo antedicho, la Fig. 5 muestra una comparación de una ventana en seno (línea de puntos) y una ventana de análisis G.718 (línea continua), donde 50 muestras sobre el lado derecho de la ventana
G.718 520 causan una reducción del retardo de 50 muestras en el codificador (si se lo compara con un codificador que usa la ventana en seno).
30 [00137] La Fig. 6 muestra una comparación de una ventana en seno (línea de puntos) y una ventana de síntesis G.718 (línea continua). Una abscisa 610 describe un tiempo en términos de muestras de dominio de tiempo, en donde las muestras de dominio de tiempo tienen índices de muestra de entre 0 y 400. Una ordenada 612 describe los valores (normalizados) de ventana.
35 [00138] Como se puede ver, la ventana de síntesis G.718 620, que se puede usar para la función de ventana en el convertidor de dominio de frecuencia al dominio de tiempo 330, comprende una mitad izquierda de la ventana y una mitad derecha de la ventana. La mitad izquierda de la ventana (muestras 0 a 199) comprende una porción cero de lado izquierdo 622 y una curva de transición de lado izquierdo 624 en la que los valores de la ventana aumentan
40 monotónicamente desde cero (muestra 50) hasta un valor de ventana central de, por ejemplo, 1. La ventana de síntesis G.718 620 asimismo comprende un valor de ventana central de 1 (muestra 200). Una porción derecha de la ventana (muestras 201 a 400) comprende una porción excedida 628, que comprende una máxima 628a. La mitad derecha de la ventana (muestras 201 a 400) también comprende una curva de transición 630 en la que los valores de ventana disminuyen monotónicamente desde el valor central de la ventana (1) hasta cero.
45 [00139] La ventana de síntesis G.718 620 se puede aplicar, en una ruta de dominio de transformada 320, para aplicar una función de ventana a las 400 muestras de una trama de audio codificado en el modo de dominio de transformada. Las 50 muestras del lado izquierdo de la ventana G.718 (porción izquierda cero 622) provocan una reducción del retardo de otras 50 muestras en el decodificador (por ejemplo, cuando se las compara con una
50 ventana que comprende una extensión temporal no-cero de 400 muestras). La reducción del retardo resulta del hecho de que un contenido de audio de una trama de audio previo puede ser devuelto (output) hasta la posición de la muestra 50ª de la porción corriente del contenido de audio antes de obtenerse la representación del dominio de tiempo de la porción corriente del contenido de audio. Así, una región (no-cero) de superposición entre una trama (o subtrama de audio) de audio previo y la trama de audio (o subtrama de audio) corriente se reduce por la longitud de
55 la porción cero del lado izquierdo 622, que causa una reducción del retardo cuando se provee una representación decodificada de audio. Sin embargo, las tramas subsiguientes pueden ser trasladadas en un 50% (por ejemplo, en 200 muestras). Se brindan mayores detalles más adelante.
[00140] Para resumir lo antedicho, la Fig. 6 muestra una comparación de una ventana en seno (línea de
E10768928
17-03-2015
puntos) y una ventana de síntesis G.718 (línea continua). Las 50 muestras sobre el lado izquierdo de la ventana
G.718 resultan en una reducción del retardo de otras 50 muestras en el decodificador. La ventana de síntesis G.718 620 se puede usar, por ejemplo, en el convertidor dominio de frecuencia a dominio de tiempo 330, en la función de ventana 424, en la función de ventana 452 o en la función de ventana 485.
5 [00141] La Fig. 7 muestra una representación gráfica de una secuencia de ventanas en seno. Una abscisa 710 describe un tiempo en términos de valores de muestra de audio, y una ordenada 712 describe los valores normalizados de la ventana. Como puede verse, una primera ventana en seno 720 está asociada con una primera trama de audio 722 que tiene una longitud de trama de, por ejemplo, 400 muestras (índices de muestra de entre 0 y
10 399). Una segunda ventana en seno 730 está asociada con un segundo trama de audio 732 que tiene una longitud de 400 muestras de audio (índices de muestra de entre 200 y 599). Como puede verse, la segunda trama de audio 732 está compensada con respecto a la primera trama de audio 722 por 200 muestras. Asimismo, la primera trama de audio 722 y la segunda trama de audio 732 comprenden una superposición temporal de, por ejemplo, 200 muestras de audio (índices de muestra de entre 200 y 399). En otras palabras, el primer trama de audio 722 y el
15 segundo trama de audio 732 comprenden un superposición temporal de, aproximadamente, 50% (con una tolerancia de, por ejemplo, +/-1 muestra).
[00142] La Fig. 8 muestra una representación gráfica de una secuencia de ventanas de análisis G.718. Una abscisa 810 describe un tiempo en términos de muestras de dominio de tiempo de audio, y una ordenada 812 20 describe los valores normalizados de ventana. Una primera ventana de análisis G.718 820 está asociada con un primer trama de audio 822, que se extiende desde la muestra 0 hasta la muestra 399. Una segunda ventana de análisis G.718 830 está asociada con un segundo trama de audio 832, que se extiende desde la muestra 200 hasta la muestra 599. Como puede verse, la primera ventana de análisis G.718 820 y la segunda ventana de análisis
G.718 830 comprenden un superposición temporal (cuando se consideran solamente los valores de ventana no
25 cero) de, por ejemplo, 150 muestras (+/-1 muestra). Con respecto a este tema, cabe señalar que la primera ventana de análisis G.718 820 está asociada con el primer trama 822, que se extiende entre las muestras 0 y 399. Si embargo, la primera ventana de análisis G.718 820 comprende una porción cero del lado derecho de, por ejemplo, 50 muestras (una porción cero de lado derecho 530), de modo tal que la superposición (medida en términos de valores de ventana no-cero) de las ventanas de análisis 820, 830 se reduce a 150 valores de muestra (+/-1 valor de
30 muestra). Como puede verse en la Fig. 8, existe un superposición temporal entre dos tramas de audio adyacentes 822, 832 (en total 200 valores de muestra +/-1 valor de muestra) y existe también un superposición temporal (en total 150 muestras +/-1 muestra) entre las porciones no-cero de dos (y no más de dos) ventanas 820, 830.
[00143] Cabe señalar que la secuencia de ventanas de análisis G.718 que se ilustra en la Fig. 8 puede ser
35 aplicada por el convertidor dominio de frecuencia a dominio de tiempo 130, y por las rutas de dominio de transformada 200, 230, 260.
[00144] La Fig. 9 muestra una representación gráfica de una secuencia de ventanas de síntesis G.718. Una abscisa 910 describe un tiempo en términos de muestras de audio de dominio de tiempo, y una ordenada 912
40 describe los valores normalizados de las ventanas de síntesis.
[00145] La secuencia de ventanas de síntesis G.718 de acuerdo con la Fig. 9 comprende una primera ventana de síntesis G.718 920 y una segunda ventana de síntesis G.718 930. La primera ventana de síntesis G.718 920 está asociada a un primer trama 922 (muestras de audio 0 a 399), donde la porción cero del lado izquierdo de la ventana 45 de síntesis G.718 920 (que corresponde a la porción cero del lado izquierdo 622) cubre una pluralidad de, por ejemplo, aproximadamente 50 muestras al comienzo del primer trama 922. En consecuencia, una porción no-cero de la primera ventana de síntesis G.718 se extiende, aproximadamente desde la muestra 50 hasta la muestra 399. La segunda ventana de síntesis G.718 930 está asociada con un segundo trama de audio 932, que se extiende desde la muestra de audio 200 hasta la muestra de audio 599. Como puede verse, una porción cero del lado izquierdo de 50 la segunda ventana de síntesis G.718 930 se extiende desde las muestras 200 a 249 y consecuentemente cubre una pluralidad de, por ejemplo, aproximadamente 50 muestras al comienzo del segundo trama de audio 932. Una región no-cero de la segunda ventana de síntesis G.718 930 se extiende desde la muestra 250 hasta la muestra
599. Como puede verse, existe una región de superposición desde la muestra 250 hasta la muestra 399 entre las
regiones no-cero de la primera ventana de síntesis G.718 y la segunda ventana de síntesis G.718 930. Las ventanas 55 adicionales de síntesis G.718 están espaciadas en forma pareja, como puede verse en la Fig. 9.
3.2. Secuencia de Ventanas en Seno y ACELP
[00146] La Fig. 10 muestra una representación gráfica de una secuencia de ventanas en seno (línea continua)
E10768928
17-03-2015
y ACELP (línea marcada con cuadrados). Como puede verse, un primer trama de dominio de transformada 1012 se extiende desde las muestras 0 a 399, un segundo trama de audio de dominio de transformada 1022 se extiende desde las muestras 200 a 599, un primer trama de audio ACELP 1032 se extiende desde las muestras 400 hasta 799, con valores no-cero entre las muestras 500 y 700, un segundo trama de audio ACELP 1042 se extiende desde 5 la muestra 600 hasta la muestra 999, con valores no-cero entre las muestras 700 y 900, un tercer trama de audio de dominio de transformada 1052 se extiende desde la muestra 800 hasta la muestra 1199, y un cuarto trama de audio de dominio de transformada 1062 se extiende desde la muestra 1000 hasta la muestra 1399. Como puede verse, existe un superposición temporal entre el segundo trama de audio de dominio de transformada 1022 y una porción no-cero del primer trama de audio ACELP 1032 (entre las muestras 500 y 600). De modo similar, existe una
10 superposición entre una porción no-cero del segundo trama de audio ACELP 1042 y la tercera trama de audio de dominio de transformada 1052 (entre las muestras 800 y 900).
[00147] Se provee una señal de cancelación avanzada de solapamiento 1070 (que se muestra con una línea de puntos, y brevemente designada como FAC, según sus siglas en inglés) en una transición desde el segundo
15 trama de audio de dominio de transformada 1022 hasta el primer trama de audio ACELP 1032, y también en una transición desde el segundo trama de audio ACELP 1042 hasta el tercer trama de audio de dominio de transformada 1052.
[00148] Como puede verse en la Fig. 10, las transiciones permiten una reconstrucción perfecta (o al menos una
20 reconstrucción aproximadamente perfecta) con la ayuda de la cancelación avanzada de solapamiento 1070, 1072 (FAC) que se ilustra con una línea de puntos. Cabe señalar que la forma de la ventana de cancelación avanzada de solapamiento 1070, 1072 es sólo una ilustración y no refleja los valores correctos. Para las ventanas simétricas (tales como por ejemplo la ventana en senos) esta técnica es similar, o incluso idéntica a una técnica que también se emplea en la codificación MPEG unificada voz y audio (USAC).
25
3.3. Función de Ventana de las Transiciones de Modo – Primera Opción
[00149] En la siguiente sección, se describirá una primera opción para una transición entre tramas de audio codificados en el modo de dominio de transformada y tramas de audio codificados en el modo ACELP, tomando
30 como referencia las Figs. 11 y 12.
[00150] La Fig. 11 muestra una representación esquemática de una función de ventana de acuerdo con una primera opción para la codificación unificada voz y audio (USAC) de bajo retardo. La Fig. 11 muestra una representación gráfica de una secuencia de ventana de análisis G.718 (línea continua), ACELP (línea marcada con
35 cuadrados) y cancelación avanzada de solapamiento (línea de puntos).
[00151] En la Fig. 11, una abscisa 1110 describe un tiempo en términos de muestras de audio (dominio de tiempo) y una ordenada 1112 describe valores normalizados de ventana. Un primer trama de audio, que está codificado en el modo de dominio de transformada, se extiende desde las muestras 0 a 399 y está designado con el 40 numeral de referencia 1122. Un segundo trama de audio, que está codificado en el modo de dominio de transformada, y que se extiende de las muestras 200 a 599, se designa con el numeral 1132. Una tercera trama de audio, que está codificado en el modo ACELP, se extiende desde las muestras de audio 400 a 799 y se designa con el numeral 1142. Un cuarto trama de audio, que asimismo se codifica en el modo ACELP, se extiende desde las muestras 600 hasta 999 y se designa con el numeral 1152. Un quinto trama de audio, que se extiende desde las
45 muestras de audio 800 a 1199, se codifica en el modo de dominio de transformada y se designa con el numeral 1162. Un sexto trama de audio, que se codifica en el modo de dominio de transformada, y que se extiende desde las muestras de audio 1000 a 1399, se designa con el numeral 1172.
[00152] Como puede verse, las muestras de audio de la primera trama de audio 1122 son ventaneadas usando
50 una ventana de análisis G.718 1120, que puede, por ejemplo, ser idéntica a la ventana de análisis G.718 520 que se muestra en la Fig. 5. De modo similar, las muestras de audio (muestras de dominio del tiempo) del segundo trama de audio 1132 son ventaneadas usando la ventana de análisis G.718 1130, que comprende una región superposición no-cero con la ventana de análisis G.718 1120 entre las muestras 200 y 350 como puede verse en la Fig. 11. Para la trama de audio 1142, se codifica un bloque de muestras de audio que tiene índices de muestra entre
55 500 y 700 en el modo ACELP. Sin embargo, las muestras de audio que tienen índices de muestra de entre 400 y 500 y también entre 700 y 800 no están consideradas en los parámetros ACELP (información de excitación de código algebraico e información de parámetros de dominio de predicción lineal) asociados a la tercera trama de audio 1142. Así, la información ACELP (información de excitación de código algebraico 144 e información de parámetros de dominio de predicción lineal 146) asociada al tercer trama de audio 1142 permite meramente la
E10768928
17-03-2015
reconstrucción de muestras de audio que tienen índices de muestra entre 500 y 700. De modo similar, un bloque de muestras de audio con índices de muestra de entre 700 y 900 está codificado en la información ACELP asociada al cuarto trama de audio 1152. En otras palabras, para tramas de audio 1142, 1152 codificados en el modo ACELP, sólo un bloque temporalmente limitado de muestras de audio en el centro de los respectivos tramas de audio 1142, 5 1152 es considerado en la codificación ACELP. Por el contrario, una porción cero extendida en el lado izquierdo (por ejemplo, aproximadamente 100 muestras) y una porción cero extendida en el lado derecho (por ejemplo, alrededor de 100 muestras) son dejados sin considerar en la codificación ACELP para una trama de audio codificado en el modo ACELP. Así, cabe señalar que la codificación ACELP de una trama de audio codifica aproximadamente 200 muestras no-cero de dominio del tiempo (por ejemplo, muestras 500 a 700 para el tercer trama 1142 y muestras 700 10 a 900 para el cuarto trama 1152). Por el contrario, un número mayor de muestras de audio no-cero es codificado por trama de audio en el modo de dominio de transformada. Por ejemplo, aproximadamente 350 muestras de audio son codificadas para un trama de audio codificado en el modo de dominio de transformada (por ejemplo, muestras de audio 0 a 349 para el primer trama de audio 1122 y las muestras de audio 200 a 549 para el segundo trama de audio 1132). Es más, se aplica una ventana de análisis G.718 1160 para ventanear las muestras de dominio de tiempo
15 para una codificación de dominio de transformada del quinto trama de audio 1162. Una ventana de análisis G.718 1170 se aplica para ventanear las muestras de dominio del tiempo para una codificación de dominio de transformada del sexto trama de audio 1172.
[00153] Como puede verse, la curva de transición del lado derecho (porción no-cero) de la ventana de análisis
20 G.718 1130 superpone temporalmente con un bloque 1140 de muestras de audio (no-cero) codificadas para la tercera trama de audio 1142. Sin embargo, el hecho de que la curva de transición del lado derecho de la ventana
G.718 1130 no se superpone con la curva de transición del lado izquierdo de una ventana de análisis subsiguiente
G.718 daría como resultado la ocurrencia de componentes de solapamiento de dominio del tiempo. No obstante ello, dichos componentes de solapamiento de dominio del tiempo está determinados empleando una función de ventana 25 de cancelación avanzada del solapamiento (ventana FAC 1136) y codificados en la forma de la información de cancelación del solapamiento 164. En otras palabras, se determina un solapamiento de dominio del tiempo, que aparece en una transición desde una trama de audio codificado en el modo de dominio de transformada y una trama de audio subsiguiente codificado en el modo ACELP, usando una ventana FAC 1136 y se lo codifica para obtener la información de cancelación del solapamiento 164. La ventana FAC 1136 se puede aplicar en la computación de
30 error 172 o en la codificación de error 174 del codificador de señal de audio 100. De este modo, la información de la cancelación de solapamiento 164 puede representar, en una forma codificada, un solapamiento que aparece en una transición desde el segundo trama de audio 1132 hasta el tercer trama de audio 1142, en donde la ventana de cancelación avanzada del solapamiento 1136 se puede usar para ponderar el solapamiento (por ejemplo, la estimación del solapamiento obtenido en un codificador de señal de audio).
35 [00154] De modo similar, un solapamiento puede aparecer en una transición desde el cuarto trama de audio 1152 codificado en el modo ACELP hasta el quinto trama de audio 1162 codificado en el modo de dominio de transformada. El solapamiento en esta transición, que es causado por el hecho de que la porción de transición del lado izquierdo de la ventana de análisis G.718 1162 no se superpone con una curva de transición del lado derecho
40 de una ventana de análisis precedente G.718 sino mas bien con un bloque de muestras de audio de dominio de tiempo en el modo ACELP, es determinado (por ejemplo, usando la computación del resultado de síntesis 170 y la computación de error 172) y codificado, por ejemplo, usando la codificación de error 174, para obtener una información de cancelación de solapamiento 164. En la codificación 174 de la señal de solapamiento, se puede aplicar una ventana de cancelación avanzada de solapamiento 1156.
45 [00155] Para resumir, la información de cancelación de solapamiento es selectivamente provista en la transición desde el segundo trama 1132 hasta el tercer trama 1142 y también en la transición desde el cuarto trama 1152 hasta el quinto trama 1162.
50 [00156] Para seguir resumiendo, la Fig. 11 muestra una primera opción para una codificación unificada de voz y audio con bajo retardo. La Fig. 11 muestra una secuencia de ventanas de análisis G.718 (línea continua), ACELP (línea marcada con cuadrados) y FAC (línea de puntos). Se ha descubierto que para las ventanas asimétricas, tales como por ejemplo la ventana G.718, una combinación con FAC, brinda mejoras significativas sobre los conceptos convencionales. En particular, se logra una combinación equilibrada entre retardo de la codificación, calidad del
55 audio y eficiencia de la codificación.
[00157] La Fig. 12 muestra una representación gráfica de una secuencia para la síntesis que corresponde al concepto de acuerdo con la Fig. 11. En otras palabras, la Fig. 12 muestra una representación gráfica de una función de trama y de una función de ventana, que se puede usar en un decodificador de señal de audio 300, de acuerdo
E10768928
17-03-2015
con la Fig. 3.
[00158] Una abscisa 1210 describe un tiempo en términos de muestras de audio (dominio de tiempo), y una ordenada 1212 describe valores de ventana normalizados. El primer trama de audio 1222, que está codificado en el 5 modo de dominio de transformada, se extiende desde las muestras de audio 0 a 399, un segundo trama de audio 1232 que está codificado en el modo de dominio de transformada se extiende desde las muestras de audio 200 a 599, un tercer trama de audio 1242, que está codificado en el modo ACELP se extiende desde las muestras de audio 400 a 799, un cuarto trama de audio 1252, que está codificado en el modo ACELP, se extiende desde las muestras de audio 600 a 999, un quinto trama de audio 1262, que está codificado en el modo de dominio de 10 transformada, se extiende desde las muestras de audio 800 a 1199 y un sexto trama de audio 1272, que está codificado en el modo de dominio de transformada, se extiende desde las muestras de audio 1000 a 1399. Las muestras de audio provistas para la primera trama de audio 1222 por la conversión dominio de frecuencia a dominio de tiempo 423, 451, 484 son ventaneadas usando una primera ventana de síntesis G.718 1220, que puede ser idéntica a la ventana de síntesis G.718 620, de acuerdo con la Fig. 6. De modo similar, las muestras de audio 15 provistas para el segundo trama de audio 1232 son ventaneadas usando la ventana de síntesis G.718 1230. En consecuencia, las muestras de audio que tienen índices de muestra de audio entre 0 y 399 o, más precisamente, muestras de audio no-cero con índices de entre 50 y 399) están provistas para el primer trama de audio 1222 (es decir, sobre la base del conjunto de coeficientes espectrales 322 asociado al primer trama de audio 1222 y la información acerca del moldeado de ruido 324 asociada al primer trama de audio 1222). De modo similar, las 20 muestras de audio con índices de muestra de audio entre 200 y 599 están provistas para el segundo trama de audio 1232 (con muestra de audio no-cero con índices de muestra de entre 250 y 599). Así, hay una superposición temporal entre muestras de audio (no-cero) provistas para la primera trama de audio 1222 y muestras de audio (nocero) provistas para el segundo trama de audio 1232. Las muestras de audio provistas para la primera trama de audio 1222 están superpuestas y agregadas con las muestras de audio provistas para el segundo trama de audio 25 1232, a fin de cancelar un solapamiento. Sin embargo las muestras de audio con índices de muestra de audio entre 200 y 599, que se proveen para el segundo trama de audio 1232, son ventaneadas usando la segunda ventana de síntesis G.718 1230. Para la tercera trama de audio 1242, que está codificado en el modo ACELP, se proveen muestras de audio de dominio de tiempo (no-cero) solamente dentro de un bloque limitado 1240, que es típico de una codificación ACELP. Sin embargo, las muestras de dominio de tiempo provistas para la segunda trama de audio 30 1232 y ventaneadas usando la curva de transición del lado derecho de la ventana de síntesis G.718 1230 se extienden a una región temporal definida por el bloque 1240, para el cual se proveen muestras de dominio de tiempo (no-cero) mediante la ruta ACELP 340. No obstante ello, las muestras de dominio de tiempo provistas por la ruta ACELP 340 no son suficientes para cancelar un solapamiento dentro de la mitad derecha de la ventana de síntesis
G.718 1230. Sin embargo, se provee una señal de cancelación del solapamiento para cancelar un solapamiento en
35 la transición desde el segundo trama 1232 codificado en el modo de dominio de transformada hasta el tercer trama de audio 1242 codificado en el modo ACELP (es decir, dentro de la región de superposición entre el segundo trama de audio 1232 y la tercera trama de audio 1242, que se extiende desde la muestra 400 hasta la muestra 599, o al menos dentro de una parte de dicha región de superposición). La señal de cancelación de solapamiento es provista sobre la base de una información de cancelación de solapamiento 362, que se puede extraer de una corriente o flujo
40 de bits que representa al contenido codificado de audio. La información de cancelación de solapamiento es decodificada (paso 370) y la señal de cancelación de solapamiento es reconstruida (paso 372) sobre la base de la información decodificada de cancelación de solapamiento 362. Una ventana de cancelación avanzada de solapamiento 1236 es aplicada en la reconstrucción de la señal de cancelación del solapamiento 364. En consecuencia, la señal de cancelación del solapamiento reduce, o inclusive elimina, un solapamiento en una
45 transición entre el segundo trama de audio 1232 codificado en el modo de dominio de transformada y el tercer trama de audio 1242 codificado en el modo ACELP, cuyo solapamiento normalmente sería cancelado (en ausencia de una transición) por muestras de dominio de tiempo (ventaneadas) de una trama de audio subsiguiente codificado en el dominio de transformada.
50 [00159] El cuarto trama de audio 1252 está codificado en el modo ACELP. En consecuencia, se provee un bloque 1250 de muestras de dominio de tiempo para el cuarto trama de audio 1252. Sin embargo, cabe señalar que las muestras de audio no-cero sólo son provistas para una porción central del cuarto trama de audio 1252 por la rama ACELP 340. Además, la ruta ACELP provee una porción extendida cero del lado izquierdo (muestras de audio 600 a 700) y una porción extendida cero del lado derecho (muestras de audio 900 a 1000) para el cuarto trama de
55 audio 1152.
[00160] Una representación de dominio de tiempo provista para la quinta trama de audio 1262 es ventaneada usando una ventana de síntesis G.718 1260. Una porción no cero de lado izquierdo (curva de transición) de la ventana de síntesis G.718 1260 se superpone temporalmente con una porción de tiempo para la cual la ruta ACELP
E10768928
17-03-2015
340 provee muestras de audio no-cero para el cuarto trama de audio 1252. De este modo, las muestras de audio provistas por la ruta ACELP 340 para el cuarto trama de audio 1252 se superponen y agregan a muestras de audio provistas por la ruta de dominio de transformada para el quinto trama de audio 1262.
5 [00161] Por otra parte, una señal de cancelación de solapamiento 364 es provista en la transición desde el cuarto trama de audio 1252 hasta el quinto trama de audio 1262 (por ejemplo, durante la superposición temporal entre el cuarto trama de audio 1252 y el quinto trama de audio 1262) por el proveedor de señal de cancelación del solapamiento 360 sobre la base de la información de cancelación de solapamiento 362. En la reconstrucción de la señal de cancelación del solapamiento, se puede aplicar una ventana de cancelación del solapamiento 1256. En
10 consecuencia, la señal de cancelación del solapamiento 364 está bien adaptada para cancelar un solapamiento mientras se mantiene la posibilidad de superponer y agregar muestras de dominio de tiempo del cuarto trama de audio 1252 y del quinto trama de audio 1262.
3.4. Función de ventana de Transiciones de Modo – Segunda Opción
15 [00162] En la siguiente sección, se describirá una función de ventana modificada de transiciones entre tramas de audio codificados en diferentes modos.
[00163] Cabe señalar que el esquema de la función de ventana de acuerdo con las Figs. 13 y 14 son idénticos
20 al esquema de la función de ventana de acuerdo con las Figs. 11 y 12 en la transición del modo de dominio de transformada al modo ACELP. Sin embargo, el esquema de la función de ventana de acuerdo con las Figs. 13 y 14 son diferentes del esquema de la función de ventana de acuerdo con las Figs. 11 y 12 en la transición del modo ACELP al modo de dominio de transformada.
25 [00164] La Fig. 13 muestra una representación gráfica de la segunda opción para la codificación unificada voz y audio con bajo retardo. La Fig. 13 muestra una representación gráfica de una secuencia de ventana de análisis
G.718 (línea continua), ACELP (línea marcada con cuadrados) y cancelación avanzada del solapamiento (línea de puntos).
30 [00165] La cancelación avanzada del solapamiento se usa solamente para la transición desde el codificador de transformación hasta ACELP. Para la transición desde ACELP hasta el codificador de transformada, se usa una forma de ventana rectangular para el lado izquierdo de la ventana de transición hasta el modo de codificación de la transformada.
35 [00166] Tomando ahora como referencia la Fig. 13, una abscisa 1310 describe un tiempo en términos de muestras de audio de dominio de tiempo y una ordenada 1312 describe valores normalizados de la ventana. Una primera trama de audio 1322 está codificada en el modo de dominio de transformada, una segunda trama de audio 1332 está codificada en el modo de dominio de transformada, una tercera trama de audio 1342 está codificada en el modo ACELP, una cuarta trama de audio 1352 está codificada en el modo ACELP, una quinta trama de audio 1362
40 está codificada en el modo de dominio de transformada y una sexta trama de audio 1372 está también codificada en el modo de dominio de transformada.
[00167] Cabe señalar que la codificación de la primera trama 1322, de la segunda trama 1332 y de la tercera trama 1342 es idéntica a la codificación de la primera trama 1122, de la segunda trama 1132 y de la tercera trama 45 1142 descriptas con referencia a la Fig. 11. No obstante ello, cabe señalar que las muestras de audio de la porción central 1350 de la cuarta trama de audio 1352 están codificadas usando la rama ACELP 140 solamente, como puede verse en la Fig. 13. En otras palabras, se consideran las muestras de dominio de tiempo con índices de muestra entre 700 y 900 para la provisión de información ACELP 144, 146 de la cuarta trama de audio 1352. Para la provisión de la información del dominio de transformada 124, 126 asociada con la quinta trama de audio 1362, se 50 aplica una ventana de análisis de transición dedicada 1360 en el convertidor de dominio de tiempo-a dominio de frecuencia 130 (por ejemplo, para la función de ventana 221, 263, 283). En consecuencia, las muestras de dominio de tiempo, que están codificadas por la ruta ACELP 140 cuando se codifica la cuarta trama de audio 1352 (precediendo la transición del modo de codificación ACELP al modo de codificación de dominio de transformada), quedan fuera de consideración cuando se codifica la quinta trama de audio 1362 usando la ruta de dominio de
55 transformada 120.
[00168] La ventana de análisis de transición dedicada 1360 comprende una curva de transición del lado izquierdo (que en algunas formas de realización puede ser un aumento gradual, y en otras un muy marcado aumento), una porción constante de ventana (no-cero) y una curva de transición de lado derecho. Sin embargo, la
E10768928
17-03-2015
ventana de análisis de transición dedicada 1360 no comprende una porción excedida (overshoot). Más bien, los valores de ventana de la ventana de análisis de transición dedicada 1360 están limitados al valor central de ventana de una de las ventanas de análisis G.718. Cabe señalar también que la mitad derecha de la ventana o la curva de transición del lado derecho de la ventana de análisis de transición dedicada 1360 pueden ser idénticas a la mitad
5 derecha de la ventana o la curva de transición del lado derecho de la ventana de análisis G.718.
[00169] La sexta trama de audio 1372, que sigue a la quinta trama de audio 1362, está ventaneada usando la ventana de análisis G.718 1370, que es idéntica a las ventanas de análisis G.718 1320, 1330, usadas para la función de ventana de la primera trama de audio 1322 y la segunda trama de audio 1332. En particular, la curva de
10 transición del lado izquierdo de la ventana de análisis G.718 1370 se superpone temporalmente con la curva de transición del lado derecho de la ventana de análisis de transición dedicada 1360.
[00170] Para resumir lo antedicho, se aplicó una ventana de transición dedicada 1360 para la función de ventana de una trama de audio codificado en el dominio de transformada siguiendo a una trama de audio previo 15 codificado en el dominio ACELP. En este caso, las muestras de audio de la trama previa 1352 codificadas en el dominio ACELP (por ejemplo, las muestras de audio con índices de muestra entre 700 y 900) se dejaron fuera de consideración para la codificación de la trama subsiguiente 1362 codificado en el dominio de transformada debido a la forma de la ventana de análisis de transición dedicada 1360. A estos efectos, la ventana de análisis de transición dedicada 1360 comprende una porción cero para las muestras de audio codificadas en el modo ACELP (por
20 ejemplo, para las muestras de audio del bloque ACELP 1350).
[00171] En consecuencia, no hay solapamiento en la transición desde el modo ACELP al modo de dominio de transformada. Sin embargo, se debe aplicar un tipo de ventana dedicada, es decir la ventana de análisis de transición dedicada 1360.
25 [00172] Tomando ahora como referencia la Fig. 14, se describirá un concepto de decodificación, que se adapta al concepto de codificación comentado con referencia a la Fig. 13.
[00173] La Fig. 14 muestra una representación gráfica de una secuencia para la síntesis correspondiente al
30 análisis de acuerdo con la Fig. 13. En otras palabras, la Fig. 14 muestra una representación gráfica de la secuencia de las ventanas de síntesis, que se puede usar en un decodificador de señal de audio 300 de acuerdo con la Fig. 3. Una abscisa 1410 describe un tiempo en términos de muestras de audio y una ordenada 1412 describe los valores normalizados de ventana. Una primera trama de audio 1422 es codificado en el modo de dominio de transformada y decodificado usando una ventana de síntesis G.718 1420, una segunda trama de audio 1432 es codificado en el
35 modo de dominio de transformada y decodificado usando una ventana de síntesis G.718 1430, una tercera trama de audio 1442 es codificado en el modo ACELP y decodificado para obtener un bloque ACELP 1440, una cuarta trama de audio 1452 es codificado en el modo ACELP y decodificado para obtener un bloque ACELP 1450, una quinta trama de audio 1462 es codificado en el modo de dominio de transformada y decodificado usando una ventana de síntesis de transición dedicada 1460, y una sexta trama de audio 1472 es codificado en el modo de dominio de
40 transformada y decodificado usando una ventana de síntesis G.718 1470.
[00174] Cabe señalar que la decodificación de la primera trama de audio 1422, de la segunda trama de audio 1432 y de la tercera trama de audio 1442 es idéntica a la decodificación de las tramas de audio 1222, 1232, 1242, que ha sido descripta con referencia a la Fig. 12. Sin embargo, la decodificación en la transición de la cuarta trama
45 de audio 1452 codificado en el modo ACELP a la quinta trama de audio 1462 codificado en el modo de dominio de transformada es diferente.
[00175] La ventana de síntesis de transición dedicada 1460 difiere de la ventana de síntesis G.718 1260 en que la mitad izquierda de la ventana de síntesis de transición dedicada 1460 está adaptada de modo tal que la 50 ventana de síntesis de transición dedicada 1460 toma valores cero para muestras de audio (no-cero), que son provistos por la ruta ACELP 340. En otras palabras, la ventana de síntesis de transición dedicada 1460 comprende valores cero, de modo tal que la ruta de dominio de transformada 320 sólo provee muestras cero de dominio de tiempo para las instancias de tiempo de muestra para las que la ruta ACELP provee muestras cero de dominio de tiempo (es decir para el bloque 1450). En consecuencia, se evita una superposición entre las muestras (no-cero) de
55 dominio de tiempo provistas por la ruta ACELP para la trama de audio 1452 (bloque de muestras no-cero de dominio de tiempo 1450) y las muestras de dominio de tiempo provistas por la ruta de dominio de tiempo 320 para la trama de audio 1462.
[00176] Asimismo, cabe señalar que, además de la porción cero del lado izquierdo (muestras 800 a 899), la
E10768928
17-03-2015
ventana de síntesis de transición dedicada 1460 comprende una porción constante del lado izquierdo (muestras 900 a 999), en la que los valores de ventana toman el valor central de ventana (por ejemplo, de uno). En consecuencia, se evitan o al menos se reducen los artefactos de solapamiento, en la porción de lado izquierdo de la ventana de síntesis de transición dedicada 260. La mitad derecha de la ventana de síntesis de transición dedicada 1460 es
5 preferentemente idéntica a la mitad derecha de una ventana de síntesis G.718.
[00177] Para resumir lo antedicho, se usa una ventana de síntesis de transición dedicada 260 para la función de ventana 424, 452, 485, cuando se provee la representación de dominio de tiempo 326 de la porción de contenido de audio codificada en el modo de dominio de transformada usando la ruta de dominio de transformada 320 para 10 una trama de audio previo codificado en el modo de dominio de transformada y siguiendo a una trama de audio previo codificado en el modo ACELP. La ventana de síntesis de transición dedicada 1460 comprende una porción de lado izquierdo cero, que puede, por ejemplo, componer un 50 % de la mitad izquierda de la ventana (muestras 800 a 899) y una porción constante de mitad izquierda, que puede componer el 50% restante (+/–1 muestra) de la mitad izquierda de la ventana de síntesis de transición dedicada 1460 (muestras 900 a 999). La mitad derecha de la 15 ventana de síntesis de transición dedicada 1460 puede ser idéntica a la mitad derecha de la ventana de síntesis
G.718 y puede comprender una porción excedida y una curva de transición del lado derecho. En consecuencia, se puede obtener una transición libre de solapamiento entre la trama 1452 codificado en el modo ACELP y la trama 1462 codificado en el modo de dominio de transformada.
20 [00178] Para seguir resumiendo, la Fig. 13 muestra una segunda opción para la codificación unificada voz y audio de bajo retardo. La Fig. 13 muestra una representación gráfica de una secuencia de ventanas de análisis
G.718 (línea continua), ACELP (línea marcada con cuadrados) y cancelación avanzada del solapamiento (línea de puntos). La cancelación avanzada del solapamiento se usa solamente para las transiciones desde un codificador de transformada (ruta de dominio de transformada) hasta ACELP (ruta ACELP). Para la transición desde ACELP hasta
25 un codificador de transformada, se usa una forma de ventana rectangular (o tipo escalón) (por ejemplo, muestras 800 a 999) para el lado izquierdo de la ventana de transición 1360 hasta el modo de codificación de transformada.
[00179] La Fig. 14 muestra una representación gráfica de una secuencia para la síntesis que corresponde al análisis de la Fig. 13.
30
3.5. Tratamiento de las Opciones
[00180] Ambas opciones (es decir la opción de acuerdo con las Figs. 11 y 12 y la opción de acuerdo con las Figs. 13 y 14) son corrientemente consideradas en el desarrollo de una codificación unificada voz y audio de bajo
35 retardo. La primera opción (de acuerdo con las Figs. 11 y 12) tiene la ventaja de que la misma ventana con una respuesta de buena frecuencia es utilizada para todos los bloques de la codificación de transformada. Sin embargo, la desventaja es que los datos adicionales (por ejemplo, la información de cancelación avanzada del solapamiento) tiene que ser codificada para la parte FAC.
40 [00181] La segunda opción tiene la ventaja de que no se requieren datos adicionales para la cancelación avanzada de solapamiento (FAC) en la transición de ACELP al codificador de transformada. Esto es especialmente una ventaja si se requiere de un bitrate constante. Sin embargo, la desventaja es que la respuesta de frecuencia de la ventana de transición (1360 o 1460) es peor que aquella de la ventana normal (1320, 1330, 1370; 1420, 1430, 1470).
45
3.6. Función de ventana de las Transiciones de Modo – Tercera Opción
[00182] En la siguiente sección, se tratará otra opción. Una tercera opción consiste en usar una ventana rectangular también para la transición del codificador de transformada a ACELP. Sin embargo, esta tercera opción
50 causaría un retardo adicional, ya que la decisión entre el codificador de transformada y ACELP tiene que conocerse una trama antes entonces. Así, esta opción no es óptima para la codificación unificada voz y audio de bajo retardo. No obstante, la tercera opción se puede usar en algunas formas de realización en donde el retardo no es de mayor relevancia.
55 4. Formas Alternativas de Realización
4.1. Generalidades
[00183] En la siguiente sección, se describirá otro nuevo esquema de codificación unificada voz y audio
E10768928
17-03-2015
(USAC) con bajo retardo. Específicamente, se puede basar en cambiar entre el códec de dominio de frecuencia AAC-ELD al códec de dominio de tiempo AMR-WB o AMR-WB+. El sistema (o las formas de realización de acuerdo con la invención) mantiene la ventaja de un cambio dependiente del contenido entre un códec de audio y un códec de voz, mientras se mantiene un bajo retardo lo suficientemente bajo para aplicaciones de comunicación. El banco
5 de filtro de bajo retardo (LDMDCT) utilizado en AAC-ELD y modificado por las ventanas de transición, que permiten un desvanecimiento cruzado hacia y desde un códec de dominio de tiempo, sin introducir ningún retardo adicional, en comparación con AAC-ELD.
[00184] Cabe señalar que el concepto descripto a continuación se puede usar en el codificador de señal de 10 audio 100 de acuerdo con la Fig. 1 y/o en el decodificador de señal de audio 300 de acuerdo con la Fig. 3.
4.2. Ejemplo de Referencia 1: Codificación Unificada Voz y Audio (USAC)
[00185] Un así llamado códec USAC permite cambiar entre un modo música y un modo voz. En el modo
15 música, se utiliza un códec basado en MDCT similar a la codificación avanzada de audio (AAC). En el modo de voz, se utiliza un códec similar a una banda ancha+ adaptativa multi tasa (AMR-WB+), que se denomina “modo LPD” en el códec USAC. Se presta especial cuidado para permitir transiciones eficientes y paulatinas entre los dos modos, como se describe a continuación.
20 [00186] Seguidamente, se describirá un concepto para una transición de AAC a AMR-WB+. Usando este concepto, la última trama antes de cambiar a AMR-WB+ es ventaneada con una ventana similar a una ventana de “inicio” en una codificación avanzada de audio (AAC), pero sin solapamiento de dominio de tiempo sobre el lado derecho. Se dispone un área de transición de 64 muestras, en la cual las muestras codificadas AAC tienen un desvanecimiento cruzado con las muestras codificadas AMR-WB+-. Esto se ilustra en la Fig. 15. La Fig. 15 muestra
25 una representación gráfica de una ventana usada en una transición de AAC a AMR-WB+ en una codificación unificada voz y audio. Una abscisa 1510 describe un tiempo, y una ordenada 1512 describe un valor de ventana. Para mayores detalles, se hace referencia a la Fig.15.
[00187] A continuación se describirá brevemente un concepto para una transición de AMR-WB+ a AAC.
30 Cuando se vuelve a cambiar a una codificación avanzada de audio (AAC), la primera trama AAC es ventaneada con una ventana idéntica a la ventana de “detención” AAC. De esta forma, se introduce un solapamiento de dominio de tiempo en el rango de desvanecimiento cruzado, que es cancelado mediante el agregado intencional del correspondiente solapamiento negativo de dominio de tiempo en la señal AMRWB+ de dominio de tiempo codificado. Esto se ilustra en la Fig. 16, que muestra una representación gráfica de un concepto para una transición
35 de AMR-WB+ a AAC. Una abscisa 1610 describe un tiempo en términos de muestras de audio, y una ordenada 1612 describe valores de ventana. Para mayores detalles referirse a la Fig. 16.
4.3. Ejemplo de Referencia 2: Codificación Avanzada de Audio MPEG-4 Mejorada de Bajo Retardo (AAC-ELD)
40 [00188] El así llamado códec de “AAC mejorada con bajo retardo” (designado también con la sigla “AAC-ELD”
o "codificación avanzada de audio mejorada con bajo retardo") se basa en un sabor especial de bajo retardo de la transformada modificada discreta de coseno (MDCT), también denominada “LD-MDCT”. En la LD-MDCT, la superposición se extiende a un factor de cuatro, en lugar de un factor de dos para la MDCT. Esto se logra sin retardo adicional, ya que la superposición se agrega en forma asimétrica y sólo utiliza muestras del pasado. Por otra parte, 45 la mirada al futuro se reduce mediante varios valores cero sobre el lado derecho de la ventana de análisis. Las ventanas de análisis y de síntesis son ilustradas en las Figs. 17 y 18, donde la Fig. 17 muestra a representación gráfica de una ventana de análisis de LD-MDCT en AAC-ELD, y donde la Fig. 18 muestra a representación gráfica de una ventana de síntesis de LD-MDCT en AAC-ELD. En la Fig. 17, una abscisa 1710 describe un tiempo en términos de muestras de audio, y una ordenada 1712 describe valores de ventana. Una línea 1720 describe los
50 valores de ventana de la ventana de análisis. En la Fig. 18, una abscisa 1810 describe el tiempo en términos de muestras de audio, una ordenada 1812 describe valores de ventana y una línea 1820 describe la ventana de síntesis.
[00189] La codificación AAC-ELD utiliza solamente esta ventana y no utiliza ningún cambio de forma de
55 ventana o longitud de bloque, lo que introduciría un retardo. Esta única ventana (por ejemplo, la ventana de análisis 1720 de acuerdo con la Fig. 17 para el caso de un codificador de señal de audio, y la ventana de síntesis 1820 de acuerdo con la Fig. 18 para el caso de un decodificador de señal de audio) sirve bien para cualquier tipo de señal de audio, tanto para señales estacionarias como transitorias.
E10768928
17-03-2015
4.4. Tratamiento de los Ejemplos de Referencia
[00190] En esta sección se tratará brevemente a los ejemplos de referencia descriptos en las secciones 4.2 y
4.3.
5 [00191] El códec USAC permite cambiar entre un códec de audio y un códec de voz, pero estos cambios traen aparejado un retardo. Dado que hay una ventana de transición necesaria para realizar la transición al modo voz, se requiere una mirada previa a fin de determinar si la trama siguiente es de voz. De así serlo, la trama corriente tiene que ser ventaneada con la ventana de transición. De este modo, este concepto no resulta apropiado para un sistema
10 de codificación con bajo retardo, requerido para ser aplicado en comunicaciones.
[00192] El códec AAC-ELD permite un bajo retardo para las aplicaciones en comunicaciones, pero para las señales de voz codificadas a velocidades binarias bajas, el desempeño de este códec queda demorado con respecto a los códecs de voz dedicados (por ejemplo, AMR-WB), que también tienen su propio retardo.
15 [00193] En vista de la situación, se ha hallado que por consiguiente sería deseable cambiar entre un códec AAC-ELD y un códec de voz a fin de contar con el modo de codificación más eficiente que se disponga tanto para las señales de voz como de música. También se ha descubierto que este cambio, idealmente, no debería agregar ningún retardo adicional al sistema.
20 [00194] Se ha hallado que para la LD-MDCT como se la usó en la AAC-ELD, dicho cambio a un códec de voz no es posible de manera directa. También se ha hallado que una posible solución de codificar a la entera porción de dominio de tiempo cubierto por las ventanas LD-MDCT del segmento de voz resultaría en un enorme overhead debido a la superposición de cuatro veces (4 x) de la LD-MDCT. A fin de reemplazar una trama de muestras de
25 dominio de frecuencia (por ejemplo, 512 valores de frecuencia), 4 x 512 muestras de dominio de tiempo tendría que ser codificado en un codificador de dominio de tiempo.
[00195] En vista de esta situación, existe el deseo de crear un concepto que provea una combinación equilibrada mejor entre una codificación eficiente, retardo y calidad de audio. 30
4.5. Concepto de Función de Ventana de acuerdo con las Figs. 19 a 23b
[00196] En esta sección, se describirá un enfoque de acuerdo con una forma de realización de la invención, que permite un pase eficiente y libre de retardo entre AAC-ELD y un códec de dominio de tiempo.
35 [00197] En el enfoque propuesto presentado en esta sección, la LD-MDCT de la AAC-ELD es utilizada (por ejemplo, en el convertidor dominio de tiempo a dominio de frecuencia 130 o en el convertidor dominio de frecuencia a dominio de tiempo 330) y enmendada por ventanas de transición que permiten un pase eficiente a un códec de códec de dominio de tiempo, sin introducir ningún retardo adicional.
40 [00198] En la Fig. 19 se muestra una secuencia de ventana ejemplar. La Fig. 19 muestra una secuencia ejemplar de ventana para cambiar entre AAC-ELD y un códec de dominio de tiempo. En la Fig. 19, una abscisa 1910 describe un tiempo en términos de muestras de audio y una ordenada 1912 describe valores de ventana. Para mayores detalles con respecto al significado de las curvas, se hace referencia a la leyenda de la Fig. 19.
45 [00199] Por ejemplo, el Fig. 19 muestra ventanas de análisis LD-MDCT 1920a-1920e, ventanas de síntesis LD-MDCT 1930a-1930e, una ponderación 1940 para un solapamiento de dominio de tiempo de una señal de dominio de tiempo.
50 [00200] A continuación, se describirán detalles sobre la función de ventana de análisis. Para explicar aún más la secuencia de las ventanas de análisis, la Fig. 20 muestra la misma secuencia (o secuencia de ventana) (por ejemplo, la misma secuencia de ventana se muestra en la Fig. 19) sin las ventanas de síntesis. Una abscisa 2010 describe un tiempo en términos de muestras de audio y una ordenada 2012 describe valores de ventana. En otras palabras, la Fig. 20 muestra una secuencia ejemplar de ventana de análisis para cambiar entre AAC-ELD y un códec
55 de dominio de tiempo. Para mayores de detalles sobre el significado de las líneas, se hace referencia a la leyenda de la Fig. 20.
[00201] La Fig. 20 muestra ventanas de análisis LD-MDCT 2020a-2020e, una ponderación 2040 para una señal codificada de dominio de tiempo, y una ponderación 2050a, 2050b para el solapamiento de dominio de tiempo
E10768928
17-03-2015
de la señal de dominio de tiempo.
[00202] En la Fig. 20 se puede ver que la secuencia consiste en ventanas normales LD-MDCT 2020a, 2020b (como se muestra en la Fig. 17) hasta el punto en que asume el códec de dominio de tiempo. No hay ventana de
5 transición especial necesaria para la transición de AAC-ELD al códec del dominio de tiempo. De este modo, no es necesaria ninguna mirada previa para la decisión de cambiar al códec del dominio de tiempo, y por consiguiente no es necesario ningún retardo adicional.
[00203] En la transición del códec dominio de tiempo a AAC-ELD, se requiere una ventana especial de
10 transición 2020c, pero sólo en la parte izquierda de la ventana, que se superpone con la señal codificada de dominio de tiempo (indicada por la ponderación 2040 para la señal codificada de dominio de tiempo), es diferente de las ventanas AAC-ELD normales 2020a, 2020b, 2020d, 2020e. Esta ventana de transición 2020c se ve ilustrada en la Fig. 21a, y se compara con la ventana de análisis AACELD normal en la Fig. 21b.
15 [00204] La Fig. 21a muestra una representación gráfica de una ventana de análisis 2020c para una transición de un códec de dominio de tiempo a AAC-ELD. Una abscisa 2110 describe un tiempo en términos de muestras de audio, y una ordenada 2112 describe valores de ventana.
[00205] Una línea 2120 describe valores de ventana de la ventana de análisis 2020c como función de la 20 posición dentro de la ventana.
[00206] La Fig. 21b muestra una representación gráfica de la ventana de análisis 2020c, 2120 para una transición de códec de dominio de tiempo a AAC-ELD (línea continua) en comparación con la ventana de análisis normal AAC-ELD 2020a, 2020b, 2020d, 2020e, 2170 (línea de puntos). Una abscisa 2160 describe un tiempo en
25 términos de muestras de audio, y una ordenada 2162 describe valores de ventana (normalizados).
[00207] Para la secuencia de ventanas de análisis en la Fig. 20 debe observarse además que todas las ventanas de análisis que siguen a la ventana de transición 2020c no hacen uso de las muestras de entrada a la izquierda de la parte no-cero de la ventana de transición 2020c. Aunque estos coeficientes de ventana (o valores de
30 ventana) están ploteados en la Fig. 20, en el procesamiento real no se aplican a la señal de entrada. Esto se logra volviendo a cero la parte no cero de la zona buffer izquierda de la entrada de función de ventana de análisis de la ventana de transición 2020c.
[00208] En el siguiente párrafo, se describirán detalles de la función de ventana de síntesis. La ventana de
35 síntesis se puede usar en el decodificador de audio descripto más arriba. Para la función de ventana síntesis, la Fig. 22 muestra la secuencia correspondiente. La secuencia parece similar a la versión de tiempo revertido de la función de ventana de análisis, pero debido a las consideraciones de retardo, merece que se haga una descripción individual.
40 [00209] En otras palabras, la Fig. 22 muestra una representación gráfica de un ejemplo de secuencia de ventana de síntesis para cambiar entre AAC-ELD y un códec de dominio de tiempo. Para mayores detalles sobre el significado de las líneas, se hace referencia a la leyenda de la Fig. 22.
[00210] En la Fig. 22, una abscisa 2210 describe un tiempo en términos de muestras de audio, y una ordenada
45 2212 describe valores de ventana. La Fig. 22 muestra ventanas de síntesis LD-MDCT 2220a a 2220e, una ponderación 2240 para una señal codificada de dominio de tiempo y una ponderación 2250a, 2250b para el solapamiento del dominio de tiempo de la señal de dominio de tiempo.
[00211] Antes de cambiar de AAC-ELD al códec de dominio de tiempo, hay una ventana de transición 2220c,
50 que está representada en detalle en la Fig. 23a. Esta ventana de transición 2220c sin embargo no introduce ningún retardo adicional en el decodificador, porque la parte izquierda de esta ventana, que es la parte para que se complete la superposición-agregado, y así para la reconstrucción perfecta de la salida de dominio de tiempo de la LD-MDCT inversa, es idéntica a la parte izquierda de la ventana de síntesis normal AAC-ELD (por ejemplo, de las ventanas de síntesis (2220a, 2220b, 2220d, 2220e), como puede verse en la Fig. 23b. En forma similar a la
55 secuencia de la ventana de análisis, debe señalarse que las partes de las ventanas de síntesis 2220a, 2220b que preceden a la ventana de transición 2220c, que son visibles a la derecha de la parte no cero de la ventana de transición 2220c, realmente no contribuyen a la señal de salida. En una implementación práctica, esto se logra volviendo a cero la salida de estas ventanas a la derecha de la parte no cero de la ventana de transición 2220c.
E10768928
17-03-2015
[00212] Cuando se vuelve a cambiar desde el códec de dominio de tiempo hasta AAC-ELD, no se requieren ventanas especiales. La ventana de síntesis normal AAC-ELD 2220e se puede usar desde un comienzo de la porción de señal codificada AAC-ELD
5 [00213] La Fig. 23a muestra una representación gráfica de una ventana de síntesis 2220c, 2320 para una transición de AAC-ELD a códec de dominio de tiempo. En la Fig. 23a, una abscisa 2310 describe un tiempo en términos de muestras de audio, y una ordenada 2312 describe valores de ventana. Una línea 2320 describe valores de la ventana de síntesis 2220c como función de la posición ideal de muestra.
10 [00214] La Fig. 23b muestra a representación gráfica de una ventana de síntesis 2220c para una transición de AAC-ELD a un códec de dominio de tiempo (línea continua) en comparación con una ventana de síntesis normal AAC-ELD 2020a, 2020b, 2020d, 2020e, 2370 (línea de puntos). Una abscisa 2360 describe un tiempo en términos de muestras de audio y una ordenada 2362 describe valores de ventana (normalizados).
15 [00215] A continuación se describirá una ponderación de la señal codificada de dominio de tiempo.
[00216] Si bien aparece ilustrado tanto en la Fig. 20 (secuencia de ventana de análisis) como en la Fig. 22 (secuencia de ventana de síntesis), la ponderación de la señal codificada de dominio de tiempo se aplica solamente una vez, y preferentemente después de la codificación y decodificación del dominio de tiempo, es decir, en el
20 decodificador 300. Podría también, sin embargo, ser aplicado alternativamente en el codificador, es decir antes de la codificación del dominio de tiempo, o tanto en el codificador como en el decodificador, de modo tal que la ponderación general resultante corresponde a la función de ponderación empleada en las Figs. 19, 20 y 22.
[00217] Se puede ver también en estas figuras que el rango general de las muestras de dominio de tiempo
25 cubierto por la función de ponderación (línea continua marcada con puntos, línea 1940, 2040, 2240) es levemente más largo que dos tramas de las muestras de entrada. Más precisamente, en este ejemplo las muestras 2*N+0.5*N codificadas en dominio de tiempo son necesarias para llenar la brecha introducida por dos tramas (con N nuevas muestras de entrada por trama) no codificadas por el códec basado en LD-MDCT. Si, por ejemplo, N=512, entonces las muestras 2*512+256 de dominio de tiempo tienen que ser codificadas en el dominio de tiempo en lugar de los
30 valores espectrales 2*512. De esta forma, se introduce un overhead de sólo media trama al efectuarse el cambio – ida y vuelta -al códec de dominio de tiempo.
[00218] A continuación, se describirán algunos detalles referentes al solapamiento del dominio de tiempo. En las transiciones al códec del dominio de tiempo y nuevamente de regreso al códec de transformada, el solapamiento 35 del dominio de tiempo se introduce intencionalmente a fin de cancelar el solapamiento del dominio de tiempo introducido por las tramas vecinos codificados LD-MDCT. Por ejemplo, el solapamiento del dominio de tiempo puede ser introducido por el proveedor de la señal de cancelación del solapamiento 360. Las líneas marcadas con puntos y designadas 1950a, 1950b, 2050a, 2050b, 2250a, 2250b representan a la función de ponderación para esta operación. La señal codificada de dominio de tiempo es multiplicada con esta función de ponderación y luego
40 agregada respectivamente sustraída a/desde la señal en función de ventana de dominio de tiempo, en reversa.
4.6. Concepto de Función de Ventana de acuerdo con la Fig. 24
[00219] A continuación se describirá un diseño alternativo de longitudes de las transiciones.
45 [00220] Mirando más de cerca la secuencia de análisis en la Fig. 20 y la secuencia de síntesis en la Fig. 22, se puede ver que las ventanas de transición no son exactamente versiones de reversión en el tiempo una de la otra. Las ventanas de transición de síntesis no son exactamente versiones de reversión en el tiempo una de la otra. La ventana de transición de síntesis (Fig. 23a) tiene una parte no cero más corta que la ventana de transición de
50 análisis (Fig. 21a). Tanto para el caso del análisis como para el de síntesis, las versiones más larga así como la más corta son posibles y podrían ser elegidas independientemente. Sin embargo, son elegidas en esta forma (como lo ilustran las Figs. 20 y 22) debido a varias razones. Para elaborar aún más este concepto, la versión con ambas elecciones hechas diferentemente se representa en la Fig. 24.
55 [00221] La Fig. 24 muestra una representación gráfica de las elecciones alternativas de ventanas de transición para la secuencia de ventana que cambia entre AAC-ELD y códec de dominio de tiempo. En la Fig. 24, una abscisa 2410 describe un tiempo en términos de muestras de audio, y una ordenada 2412 describe los valores de ventana. La Fig. 24 muestra ventanas de análisis LD-MDCT 2420a a 2420e, ventanas de síntesis LD-MDCT 2430a a 2430e, un ponderación 2440 para las señales codificadas de dominio de tiempo y un ponderación 2450a a 2450b para un
E10768928
17-03-2015
solapamiento de dominio de tiempo de la señal de dominio de tiempo. Para mayores detalles sobre los tipos de línea, se hace referencia a la leyenda de la Fig. 24.
[00222] Se puede ver que en esta alternativa, que se muestra en la Fig. 24, las funciones de ponderación para
5 el solapamiento de dominio de tiempo en la transición AAC-ELD a códec de dominio de tiempo se extienden hacia la izquierda. Esto significa que se necesita una porción adicional de las señales de dominio de tiempo, sólo por el solapamiento intencional de dominio de tiempo (o cancelación del solapamiento del dominio de tiempo), no por el desvanecimiento cruzado real. Esto se asume como ineficiente e innecesario. Por consiguiente, se prefiere la alternativa de una ventana de transición de síntesis más corta y una región de solapamiento del dominio del tiempo
10 correspondientemente más corta (como se ve en la Fig. 19) para la transición de AAC-ELD al códec de dominio del tiempo.
[00223] Por otra parte, para la transición desde un códec de dominio de tiempo a AAC-ELD, la ventana de transición de análisis es más corta en la Fig. 24 (en comparación con la Fig. 19) resulta e una respuesta de 15 frecuencia peor para esta ventana. Asimismo, la región de solapamiento de dominio de tiempo más larga en la Fig. 19 no requiere en esta transición muestras a ser codificadas por el códec de dominio del tiempo, ya que estas muestras de todos modos están disponibles en el códec de dominio de tiempo. Por consiguiente, la alternativa de una ventana de transición más larga y una región de solapamiento de dominio de tiempo correspondientemente más larga (como en la Fig. 19) es preferida para la transición del códec de dominio de tiempo a AAC-ELD. No obstante
20 ello, cabe señalar que en algunas formas de realización del codificador 100 y del descodificador 300, se puede aplicar el esquema de función de ventana de acuerdo con la Fig. 24, aun cuando la aplicación del esquema de función de ventana de la Fig. 19 en un codificador de audio 100 o en un descodificador de audio 300 parece traer aparejadas ciertas ventajas.
25 4.7. Concepto de Función de Ventana de acuerdo con la Fig. 25
[00224] En la siguiente sección se describirán una función de ventana alternativa de la señal de dominio de tiempo y una función de trama alternativa.
30 [00225] En las descripciones que se han hecho hasta ahora, la señal de dominio de tiempo se considera haber sido ventaneada solamente una vez, luego de aplicar la codificación y descodificación de dominio de tiempo. Este proceso de función de ventana puede asimismo ser dividido en dos etapas, una antes de la codificación del dominio del tiempo y una después de la codificación del dominio del tiempo. Esto aparece ilustrado en la Fig. 25, en la transición de AAC-ELD al códec de dominio de tiempo.
35 [00226] La Fig. 25 muestra una representación gráfica de la función de ventana alternativa de la señal de dominio de tiempo y de la función de trama alternativa. Una abscisa 2510 describe a un tiempo en términos de muestras de audio y una ordenada 2512 describe valores (normalizados) de ventana. La Fig. 25 muestra un valor de ventanas de análisis LD20 MDCT 2520a-2520e, ventanas de síntesis LD-MDCT 2530a-2530d, una ventana de
40 análisis 2542 para una función de ventana antes del códec de dominio de tiempo, una ventana de síntesis 2552 para expandir/contraer TDA y aplicar la función de ventana después del códec de dominio de tiempo, una ventana de análisis 2562 para una primera MDCT después del códec de dominio de tiempo y una ventana de síntesis 2572 para la primera MDCT después del códec de dominio de tiempo.
45 [00227] La Fig. 25 muestra también una alternativa para la función de marco del códec de dominio de tiempo. En el códec de dominio de tiempo, todas las tramas pueden tener la misma longitud, sin la necesidad de compensar las muestras perdidas debido al muestreo no crítico en la transición. Entonces, sin embargo, el códec-MDCT puede necesitar compensar eso teniendo una primera MDCT después del códec de dominio de tiempo, la que tiene más valores espectrales que las otras tramas MDCT (líneas 2562 y 2572).
50 [00228] En general, esta alternativa, que se ilustra en la Fig. 25, torna al códec muy similar al códec de la codificación unificada de voz y audio (códec USAC) pero con un retardo mucho más bajo.
[00229] Otra pequeña modificación de esta alternativa consiste en reemplazar la transición ventaneada del
55 códec de dominio de tiempo a AAC-ELD (líneas 2542, 2552, 2562, 2572) mediante una transición rectangular, como se hizo en AMR-WB+ cuando se pasaba de ACELP a TCX. En un códec que use AMR-WB+ como el “códec de dominio de tiempo”, esto puede asimismo significar que después de una trama ACELP no hay transición directa desde ACELP a AAC-ELD, pero siempre hay un trama TCX entre medio. De esta forma, un potencial retardo adicional debido a esta específica transición queda eliminado y todo el sistema en conjunto sufre un retardo tan
E10768928
17-03-2015
pequeño como en la AAC-ELD. Asimismo, esto hace que el paso o cambio resulte más flexible, dado que un eficiente cambio de vuelta a la AAC-ELD en caso de señales de voz es más eficiente que el cambio de AAC-ELD a ACELP, puesto que tanto ACELP como TCX comparten el mismo filtrado LPC.
5 4.8. Concepto de Función de Ventana de acuerdo con la Fig. 26
[00230] En la siguiente sección, se describirá una alternativa para alimentar al códec de dominio de tiempo con señales TDA y lograr un muestreo crítico.
10 [00231] La Fig. 26 muestra una variante alternativa. Para ser más precisos, la Fig. 26 muestra una alternativa para alimentar al códec de dominio de tiempo con señales TDA y así lograr un muestreo crítico. En la Fig. 26, una abscisa 2610 describe un tiempo en términos de muestras de audio, y una ordenada 2612 describe valores (normalizados) de ventana. La Fig. 12 muestra ventanas de análisis LD-MDCT 2620a a 2620e, ventanas de síntesis LD-MDCT 2630a a 2630e, una ventana de análisis 2642a para la función de ventana y TDA antes del códec de
15 dominio de tiempo, y una ventana de síntesis 2652a para la contracción y aplicación de la función de ventana de TDA después del códec de dominio de tiempo. Para mayores detalles sobre las líneas, referirse a la leyenda de la Fig. 26.
[00232] En esta variante, la señal de entrada para el códec de dominio de tiempo es procesada por la misma
20 función de ventana y mecanismo TDA que la LD-MDCT y la señal de solapamiento del dominio de tiempo es alimentada al códec de dominio de tiempo. Después de decodificar TDA, se aplica la contracción y función de ventana a la señal de salida del códec de dominio de tiempo.
[00233] La ventaja de esta alternativa es que se logra un muestreo crítico en las transiciones. La desventaja es
25 que el dominio de tiempo codifica a la señal TDA en lugar de a la de dominio de tiempo. Una vez contraída la señal TDA descodificada, los errores de codificación se reflejan y podrían así causar artefactos pre-eco.
4.9. Otras Alternativas
30 [00234] En la siguiente sección, se describirán algunas alternativas más que se pueden usar para mejorar la codificación y descodificación.
[00235] Para el códec USAC corrientemente bajo desarrollo en MPEG, está en marcha un esfuerzo por unificar las partes AAC y TCX. Esta unificación se basa en las técnicas de cancelación avanzada del solapamiento
35 (FAC) y en el moldeado de ruido del dominio de frecuencia (FDNS). Estas técnicas pueden asimismo aplicarse al contexto de cambiar entre AAC-ELD y AMR-WB+ como códec a la vez que se mantiene una AAC-ELD de bajo retardo.
[00236] Se comentan algunos detalles sobre este concepto con referencia a las Figs. 1 a 14.
40 [00237] En el siguiente párrafo se describirá brevemente la así llamada “implementación del levantamiento” la que se podrá aplicar en algunas formas de realización. La LD-MDCT de AAC-ELD puede asimismo ser implementada con una eficiente estructura de levantamiento. Esta implementación de levantamiento se puede utilizar también para las ventanas de transición que aquí se describen, y las ventanas de transición se obtienen
45 simplemente omitiendo algunos de los coeficientes de elevación.
5. Posibles Modificaciones
[00238] Con respecto a las formas de realización antes descriptas, cabe señalar que se pueden aplicar muchas 50 modificaciones. En particular, se puede elegir una longitud de ventana diferente dependiendo de los requerimientos. Asimismo, se puede modificar el escalamiento de las ventanas. Naturalmente, se puede cambiar la escala entre las ventanas aplicadas en la rama del dominio de la transformada y la función de ventana aplicada en la rama ACELP. Asimismo, se pueden introducir algunos pasos pre-procesamiento y/o post-procesamiento al ingresar los bloques de procesamiento descriptos anteriormente y también entre los bloques de procesamiento antes descriptos sin
55 modificar el concepto general de la invención. Naturalmente, se pueden hacer otras modificaciones.
6. Alternativas de Implementación
[00239] Si bien se han descripto algunos aspectos en el contexto de un aparato, resulta obvio que estos
E10768928
17-03-2015
aspectos representan también una descripción del método correspondiente, donde un bloque o dispositivo corresponde a un paso del método o a una característica de un paso del método. De manera análoga, los aspectos descriptos en el contexto de un paso del método también representan una descripción de un bloque o ítem o característica correspondientes del aparato correspondiente. Algunos o todos los pasos del método se pueden
5 ejecutar (o usar) mediante un aparato de hardware, como, por ejemplo, un microprocesador, una computadora programable o un circuito electrónico. En algunas formas de realización, uno ó más de los pasos más importantes del método se pueden ejecutar a través de dicho aparato.
[00240] La señal de audio codificada de la invención se puede almacenar en un medio de almacenamiento
10 digital y transmitir en un medio de transmisión, como por ejemplo un medio de transmisión inalámbrico, o un medio de transmisión por cable, como por ejemplo Internet.
[00241] Según determinados requisitos de implementación, las formas de realización de la invención se pueden implementar en hardware o en software. La implementación se puede realizar usando un medio de almacenamiento
15 digital, por ejemplo un disco blando, un DVD, un Blue-Ray, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, con señales de control almacenadas que se puedan leer electrónicamente, en cooperación (o capaces de cooperar) con un sistema programable de computación de modo que se pueda desarrollar el método respectivo. Por lo tanto, el medio de almacenamiento digital se puede leer a través de una computadora.
20 [00242] Algunas formas de realización de acuerdo con la invención comprenden un portador de datos que tiene señales de control que se pueden leer electrónicamente, y que son capaces de cooperar con un sistema de computación programable, de modo que se pueda desarrollar algunos de los métodos aquí descriptos.
25 [00243] Generalmente, las formas de realización de la presente invención se pueden implementar como un producto programa de computación con un código de programa, siendo éste operativo para desarrollar uno de los métodos cuando el producto es corrido en una computadora. El código del programa puede por ejemplo ser almacenado en un portador que se pueda leer.
30 [00244] Otras formas de realización comprenden al programa de computación para desarrollar uno de los métodos aquí descriptos, almacenados en un portador que se pueda leer.
[00245] En otras palabras, una forma de realización del método de la invención, es por consiguiente un programa de computación que tiene un código de programa para desarrollar uno de los métodos aquí descriptos,
35 cuando el programa de computación es corrido en una computadora.
[00246] Otra forma de realización de los métodos de la invención consiste por lo tanto en un portador de datos (o medio de almacenamiento digital, o medio que se puede leer en computadora) que comprende allí registrado, al programa de computación para desarrollar uno de los métodos aquí descriptos. El portador de datos, el medio de
40 almacenamiento digital o el medio registrado son típicamente tangibles y/o de no transición.
[00247] Otra forma de realización del método de la invención es, por lo tanto, una corriente o flujo de datos o una secuencia de señales que representan al programa de computación para desarrollar uno de los métodos aquí descriptos. El flujo de datos o la secuencia de señales pueden por ejemplo estar configurados para ser transferidos a
45 través de una conexión de comunicación de datos, por ejemplo, vía Internet.
[00248] Otra forma de realización comprende un medio de procesamiento, por ejemplo una computadora, o un dispositivo lógico programable configurado o adaptado para desarrollar uno de los métodos aquí descriptos.
50 [00249] Otra forma de realización comprende una computadora en la que se haya instalado el programa para desarrollar uno de los métodos aquí descriptos.
[00250] Otra forma de realización de acuerdo con la invención comprende un aparato o un sistema configurado para transferir (por ejemplo, electrónica u óptimamente) un programa de computación para desarrollar uno de los
55 métodos aquí descriptos a un receptor. El receptor podrá, por ejemplo, ser una computadora, un dispositivo móvil, un dispositivo de memoria o similar. El aparato o sistema podrá, por ejemplo, comprender un servidor de archivos para transferir el programa de computación al receptor.
[00251] En algunas formas de realización se podrá usar un dispositivo lógico programable (por ejemplo una
E10768928
17-03-2015
matriz de puertas programables por campo (FPGA, según sus siglas en inglés) para desarrollar algunas o todas las funcionalidades de los métodos aquí descriptos. En algunas formas de realización, una FPGA puede cooperar con un microprocesador a fin de desarrollar uno de los métodos aquí descriptos. Generalmente, los métodos son preferentemente desarrollados por cualquiera de los aparatos de hardware.
[00252] Las formas de realización descriptas anteriormente son meramente ilustrativas para los principios de la presente invención. Se entiende que las modificaciones y variaciones de los arreglos y los detalles aquí descriptos resultarán evidentes para los entendidos en la técnica. Se pretende, por lo tanto, quedar sólo limitados por el alcance de las reivindicaciones de la patente y no por los detalles específicos presentados a modo de descripción y
10 explicación de las formas de realización.

Claims (25)

  1. REIVINDICACIONES
    1. Codificador de señal de audio (100) para proveer una representación codificada (112) de un contenido
    de audio sobre la base de una representación de entrada (110) del contenido de audio, la señal de audio 5 comprende:
    una ruta de dominio de transformada (120) configurada para obtener un conjunto de coeficientes espectrales (124) e información de moldeado de ruido (126) sobre la base de una representación de dominio de tiempo (122) de una porción del contenido de audio a ser codificado en un modo de dominio de transformada,
    10 de modo que los coeficientes espectrales (124) describen un espectro de una versión de moldeado de ruido (223a; 262a; 285a) del contenido de audio;
    en donde la ruta de dominio de transformada (120; 200; 230; 260) comprende un convertidor de dominio de tiempo a
    15 dominio de frecuencia (130;222;264;284) configurado para enventanar una representación de dominio de tiempo (220a; 280a) del contenido de audio, o una versión pre-procesada (262a) del mismo, para obtener una representación enventanada (221a;263;283a) del contenido de audio, y para aplicar una conversión dominio de tiempo a dominio de frecuencia, para derivar un conjunto de coeficientes espectrales (222a; 264a;284a) a partir de la representación de dominio de tiempo del contenido de audio enventanada; y
    20 una ruta de dominio de predicción lineal excitada por código (ruta CELP) (140) configurada para obtener una información de excitación por código (144) y una información de parámetro de dominio de predicción lineal (146) sobre la base de una porción del contenido de audio a ser codificado en un modo de dominio de predicción lineal excitado por código (modo CELP);
    25 en donde el convertidor de dominio de tiempo a dominio de frecuencia (130; 221,222; 263,264; 283,284) está configurado para aplicar una ventana de análisis asimétrico predeterminada (520;1130;1330) para un enventanado de una porción actual (1132; 1332) del contenido de audio a ser codificado en el modo de dominio de transformada tanto si la porción actual del contenido de audio es seguida por una porción subsiguiente (1142; 1342) del contenido
    30 de audio a ser codificado en el modo de dominio de transformada como si la porción actual del contenido de audio es seguida por una porción subsiguiente del contenido de audio a ser codificado en el modo CELP; y
    en donde el codificador de la señal de audio está configurado para proveer selectivamente una información de cancelación de solapamiento (164), que representa componentes de la señal de cancelación de solapamiento que
    35 estarían representados por una representación en el modo de dominio de transformada de la porción subsiguiente (1142; 1342) del contenido de audio, si la porción actual (1132; 1332) del contenido de audio es seguida por una porción subsiguiente (1142; 1342) del contenido de audio a ser codificado en el modo CELP.
  2. 2. El codificador de señal de audio (100) según la reivindicación 1, donde el convertidor de dominio de
    40 tiempo a dominio de frecuencia (130;222;264;284) está configurado para aplicar la misma ventana (520,1130,1330) para un enventanado de una porción actual (1132;1332) del contenido de audio a ser codificado en el modo de dominio de transformada y siguiendo una porción anterior (1122;1332) del contenido de audio codificado en el modo de dominio de transformada, tanto si la porción actual del contenido de audio es seguida por una porción subsiguiente (1142;1342) del contenido de audio a ser codificado en el modo de dominio de transformada como si la
    45 porción actual del contenido de audio es seguida por una porción subsiguiente del contenido de audio a ser codificado en el modo CELP.
  3. 3. El codificador de señal de audio (100) según la reivindicación 1 o la reivindicación 2, donde la ventana
    de análisis asimétrico predeterminada (520, 1130,1330) comprende una mitad de ventana izquierda y una mitad de 50 ventana derecha,
    en donde la mitad de ventana izquierda comprende una pendiente de transición de lado izquierdo (522), en la cual los valores de ventana aumentan monotónicamente desde cero a un valor central de ventana, y una porción excedida (524) en la cual los valores de ventana son mayores que el valor central de ventana y en la cual la ventana
    55 comprende un máximo (524a), y
    en donde la mitad de ventana derecha comprende una pendiente de transición de lado derecho (528) en la cual los valores de ventana disminuyen monotónicamente desde el valor central de ventana a cero, y una porción de cero de lado derecho (530).
  4. 4. El codificador de señal de audio (100) según la reivindicación 3, en donde la mitad de ventana izquierda comprende no más de uno por ciento de los valores de ventana de cero, y en donde la porción de cero del lado de derecho (530) comprende una longitud de por lo menos 20% de los valores
    5 de ventana de la mitad de ventana derecha.
  5. 5. El codificador de señal de audio (100) según la reivindicación 3 ó 4, en donde los valores de ventana de la mitad de ventana derecha de la ventana de análisis asimétrico predeterminada (520) son menores que el valor central de ventana, de modo que no hay porción excedida en la mitad de ventana derecha de la ventana de análisis
    10 asimétrico predeterminada.
  6. 6. El codificador de señal de audio (100) según cualquiera de las reivindicaciones 1 a 5, en donde una porción diferente de cero de la ventana de análisis asimétrico predeterminada (520) es más corta, por lo menos en 10% que una longitud de trama.
    15
  7. 7. El codificador de señal de audio (100) según cualquiera de las reivindicaciones 1 a 6, en donde el codificador de señal de audio está configurado de modo que las porciones subsiguientes (1122, 1132, 1162,1172; 1322,1332, 1362,1372) del contenido de audio a ser codificado en el modo de dominio de transformación comprende una superposición temporal de por lo menos 40%; y
    20 en donde el codificador de señal de audio está configurado de modo que una porción actual (1132; 1332) del contenido de audio a ser codificado en el modo de dominio de transformada y una porción subsiguiente (1142; 1342) del contenido de audio a ser codificado en el modo de dominio de predicción lineal excitada por código comprende una superposición temporal; y
    25 en donde el codificador de la señal de audio está configurado para proveer selectivamente la información de cancelación de solapamiento (164), de modo que la información de cancelación de solapamiento permite una provisión de una señal de cancelación (364) para artefactos de solapamiento de cancelación en una transición desde una porción (1232) del contenido de audio codificado en el modo de dominio de transformada a una porción
    30 (1242) del contenido de audio codificado en el modo CELP en un decodificador de señal de audio (300).
  8. 8. El codificador de señal de audio (100) según cualquiera de las reivindicaciones 1 a 7, en donde el codificador de la señal de audio está configurado para seleccionar una ventana (1130;1330) para un enventanado de una porción actual (1132;1332) del contenido de audio independiente de un modo que se usa para una codificación
    35 de una porción subsiguiente (1142;1342) del contenido de audio que se superpone temporalmente con la porción actual del contenido de audio, de modo que la representación enventanada (221a;263a;283a) de la porción actual del contenido de audio se superpone con una porción subsiguiente (1142;1342) del contenido de audio incluso si la porción subsiguiente del contenido de audio está codificada en el modo CELP; y
    40 en donde el codificador de la señal de audio está configurado para proveer, en respuesta a una detección de que la porción subsiguiente (1142; 1342) del contenido de audio va a ser codificada en un modo CELP, una información de cancelación de solapamiento (164) que representa componentes de señal de cancelación de solapamiento que serían representados por una representación de modo de dominio de transformada de la porción subsiguiente (1142; 1342) del contenido de audio.
    45
  9. 9. El codificador de señal de audio (100) según cualquiera de las reivindicaciones 1 a 8, en donde el convertidor de dominio de tiempo a dominio de frecuencia (130; 221, 222, 263, 264; 283, 284) está configurado para aplicar la ventana de análisis asimétrico predeterminada (520;1160) para un enventanado de una porción actual (1162) del contenido de audio a ser codificado en el modo de dominio de transformada y siguiendo una porción
    50 (1152) del contenido de audio codificado en el modo CELP, de manera tal que una representación enventanada (221a;263a;283a) de la porción actual (1162) del contenido de audio a ser codificado en el modo de dominio de transformada (1162) del contenido de audio a ser codificado en el modo de dominio de transformada se superpone temporalmente con la porción previa (1152) del contenido de audio codificado en el modo CELP, y
    55 de modo que las porciones (1122, 1132,1162, 1172) del contenido de audio a ser codificado en el modo de dominio de transformada son enventanadas usando la misma ventana de análisis asimétrico predeterminada (520, 1120, 1130, 1160,1170) independiente de un modo en el cual una porción previa del contenido de audio está codificada y es independiente de un modo en el cual una porción subsiguiente del contenido de audio está codificada.
  10. 10. El codificador de señal de audio (100) según la reivindicación 9, en donde el codificador de señal de audio está configurado para proveer selectivamente una información de cancelación de solapamiento (164) si la porción actual (1162) del contenido de audio sigue una porción anterior (1152) del contenido de audio codificado en el modo CELP.
    5
  11. 11. El codificador de señal de audio (100) según una de las reivindicaciones 1 a 8, en donde el convertidor de dominio de tiempo a dominio de frecuencia (130; 221,222; 263,264; 283,284) está configurado para aplicar una ventana de análisis de transición asimétrica dedicada (1360) que es diferente de la ventana de análisis asimétrico predeterminada (520;1320;1330;1370), para un enventanado de una porción actual (1362) del contenido de audio a
    10 ser codificado en el modo de dominio de transformada y siguiendo una porción (1352) del contenido de audio codificado en el modo CELP.
  12. 12. El codificador de la señal de audio según cualquiera de las reivindicaciones 1 a 11, en donde la ruta de dominio de predicción lineal excitada por código (ruta CELP) (140) es una ruta de dominio de predicción lineal
    15 excitada por código algebraico configurada para obtener una información de excitación de código algebraico (144) y una información de parámetro de dominio de predicción lineal (146) sobre la base de una porción del contenido de audio a ser codificado en un modo de dominio de predicción lineal excitada por código algebraico (modo CELP).
  13. 13. Decodificador de señal de audio (300) para proveer una representación decodificada (312) de un
    20 contenido de audio sobre la base de una representación codificada (310) del contenido de audio, el decodificador de señal de audio comprende:
    una ruta de dominio de transformada (320;400;430;460) configurada para obtener una representación de dominio de tiempo (326;416;446;476) de una porción (1222,1232,1262,1272; 1422,1432,1462,1472) del contenido de audio
    25 codificado en el modo de dominio de transformada sobre la base de un conjunto de coeficientes espectrales (322,412,442,472) y una información de moldeado de ruido (324;414;444;474);
    en donde la ruta de dominio de transformada comprende un convertidor de dominio de frecuencia a dominio de tiempo (330;423,424;451, 452; 484,485) configurado para aplicar una conversión de dominio de frecuencia a
    30 conversión de dominio de tiempo (423;451;484) y un enventanado (424; 452;485), para derivar una representación de dominio de tiempo enventanada (424a; 452a; 485a) del contenido de audio a partir del conjunto de coeficientes espectrales o de una versión preprocesada del mismo;
    una ruta de dominio de predicción lineal excitada por código (340) configurada para obtener una representación de
    35 dominio de tiempo (346) del contenido de audio codificado en un modo de dominio de predicción lineal excitada por código (modo CELP) sobre la base de una información de excitación por código (342) y una información de parámetro de dominio de predicción lineal (344); y
    en donde el convertidor de dominio de frecuencia a dominio de tiempo está configurado para aplicar una ventana de
    40 síntesis asimétrica predeterminada (620;1230;1430) para un enventanado de una porción actual (1232;1432) del contenido de audio codificado en el modo de dominio de transformada y siguiendo una porción previa (1222;1422) del contenido de audio codificado en el modo de dominio de transformada tanto si la porción actual del contenido de audio es seguida por una porción subsiguiente (1242;1442) del contenido de audio codificado en el modo de dominio de transformada como si la porción actual del contenido de audio es seguida por una porción subsiguiente del
    45 contenido de audio codificado en el modo CELP; y
    en donde el decodificador de la señal de audio (300) está configurado para proveer selectivamente una señal de cancelación de solapamiento (362), que se incluye en la representación codificada (310) del contenido de audio, y que representa los componentes de señal de cancelación de solapamiento que estarían representados por una
    50 representación en el modo de dominio de transformada de la porción subsiguiente (1142; 1342) del contenido de audio, si la porción actual del contenido de audio codificado en el modo de dominio de transformada es seguida por una porción subsiguiente del contenido de audio codificado en el modo CELP.
  14. 14. El decodificador de señal de audio (300) según la reivindicación 13, en donde el convertidor de
    55 dominio de frecuencia a dominio de tiempo (330;423,424; 451,452; 484,485) está configurado para aplicar la misma ventana (620;1230;1430) para un enventanado de una porción actual (1232; 1432) de un contenido de audio codificado en el modo de dominio de transformada y siguiendo una porción anterior (1222;1422) del contenido de audio codificado en el modo de dominio de transformada tanto si la porción actual (1232;1432) del contenido de audio es seguida por una porción subsiguiente (1242;1442) del contenido de audio codificado en el modo de dominio
    de transformada como si la porción actual del contenido de audio es seguida por una porción subsiguiente del contenido de audio codificado en el modo CELP.
  15. 15. El decodificador de señal de audio (300) según la reivindicación 13 ó la reivindicación 14, en donde la
    5 ventana de síntesis asimétrica predeterminada (620; 1230; 1430) comprende una mitad de ventana izquierda y una mitad de ventana derecha,
    en donde la mitad de ventana izquierda comprende una porción cero de lado izquierdo (622) y una pendiente de transición de lado izquierdo (624), en la cual los valores de ventana aumentan monotónicamente de cero a un valor
    10 central de ventana; y
    en donde la mitad de ventana derecha comprende una porción excedida (628) en la cual los valores de ventana son mayores que el valor central de ventana y en la cual la ventana comprende un máximo (628a), y una pendiente de transición del lado derecho (630) en la cual los valores de ventana disminuyen monotónicamente desde el valor
    15 central de ventana a cero.
  16. 16. El decodificador de señal de audio (300) según la reivindicación 15, en donde la porción cero del lado izquierdo (622) comprende una longitud de por lo menos 20% de los valores de ventana de la mitad de ventana izquierda, y
    20 en donde la mitad de ventana derecha comprende no más de uno por ciento de valores de ventana cero.
  17. 17. El decodificador de señal de audio (300) según la reivindicación 15 ó la reivindicación 16, en donde los valores de ventana de la mitad de ventana izquierda de la ventana de síntesis asimétrica predeterminada (620;
    25 1220, 1230,1260; 1420, 1430,1470) son menores que el valor central de ventana, de manera tal que no hay porción excedida en la mitad de ventana izquierda de la ventana de síntesis asimétrica predeterminada.
  18. 18. El decodificador de señal de audio según cualquiera de las reivindicaciones 13 a 17, en donde una
    porción diferente de cero de la ventana de síntesis asimétrica predeterminada 30 (620;1220,1230,1260;1420,1430,1470) es más corta, por lo menos en un 10%, que una longitud de trama.
  19. 19. El decodificador de señal de audio (300) según cualquiera de las reivindicaciones 13 a 18, en donde el decodificador de señal de audio está configurado de modo que las porciones subsiguientes (1222, 1232, 1262, 1272; 1422, 1432, 1462, 1472) del contenido de audio codificado en el modo de dominio de transformada comprende una
    35 superposición temporal de por lo menos 40%; y
    en donde el decodificador de señal de audio está configurado de modo que una porción actual (1232; 1432) del contenido de audio codificado en el modo de dominio de transformada y una porción subsiguiente (1242; 1442) del contenido de audio codificado en el modo de dominio de predicción lineal excitada por código comprende una
    40 superposición temporal; y
    en donde el decodificador de señal de audio está configurado para proveer selectivamente la señal de cancelación de solapamiento (364) sobre la base de la información de cancelación de solapamiento (362), de modo que la señal de cancelación de solapamiento reduce o cancela los artefactos de solapamiento en una transición de la porción
    45 actual del contenido de audio en el modo de dominio de transformada a una porción subsiguiente del contenido de audio codificado en el modo CELP.
  20. 20. El decodificador de señal de audio (300) según cualquiera de las reivindicaciones 13 a 19, en donde el decodificador de señal de audio está configurado para seleccionar una ventana (1230;1430) para un enventanado
    50 de una porción actual (1232;1432) del contenido de audio independiente de un modo que se usa para la codificación de una porción subsiguiente (1242;1442) del contenido de audio, que se superpone temporalmente con la porción actual (1232;1432) del contenido de audio, de modo que la representación enventanada (424a;452a;485a) de la porción actual del contenido de audio se superpone temporalmente con la porción subsiguiente del contenido de audio aun si la porción subsiguiente del contenido de audio está codificada en el modo CELP; y
    55 en donde el decodificador de señal de audio (300) está configurado para proveer, en respuesta a una detección de que la porción subsiguiente del contenido de audio está codificada en el modo CELP, una señal de cancelación de solapamiento (364) para reducir o cancelar artefactos de solapamiento en una transición de la porción actual (1232;1432) del contenido de audio codificado en el modo de dominio transformada a la porción subsiguiente
    (1242;1442) del contenido de audio codificado en el modo CELP.
  21. 21. El decodificador de señal de audio (300) según cualquiera de las reivindicaciones 13 a 20, en donde el convertidor de dominio de frecuencia a dominio de tiempo (330; 423,424; 451,452; 484,485) está configurado para 5 aplicar la ventana de síntesis asimétrica predeterminada (620;1230;1430) para un enventanado de una porción actual (1262;1462) del contenido de audio a ser codificado en el modo de dominio de transformada y siguiendo una porción anterior (1252;1452) del contenido de audio codificado en el modo CELP, de modo que porciones (1222;1232;1262;1272) del contenido de audio codificado en el modo de dominio de transformada están enventanadas utilizando la misma ventana de síntesis asimétrica predeterminada (620; 1220,1230,1260,1270)
    10 independiente de un modo en el cual una porción anterior del contenido de audio está codificada y es independiente de un modo en el cual una porción subsiguiente del contenido de audio está codificado, y
    de modo que una representación de dominio de tiempo enventanada (424a; 452a; 485a) de la porción actual del contenido de audio codificado en el modo de dominio de transformada se superpone temporalmente con la porción 15 anterior (1252;1452) del contenido de audio codificado en el modo CELP.
  22. 22. El decodificador de señal de audio (300) según la reivindicación 21, en donde el decodificador de señal de audio está configurado para proveer selectivamente una señal de cancelación de solapamiento (364) sobre la base de una información de cancelación de solapamiento (362) si la porción actual (1262) del contenido de audio
    20 sigue a una porción anterior (1252) del contenido de audio codificado en el modo CELP.
  23. 23. El decodificador de señal de audio (300) según cualquiera de las reivindicaciones 13 a 20, en donde el convertidor de dominio de frecuencia a dominio de tiempo (330; 423,424; 451,452; 484,485) está configurado para aplicar una ventana de síntesis de transición asimétrica dedicada (1460), que es diferente de la ventana de síntesis
    25 asimétrica predeterminada (620; 1230;1430), para un enventanado de una porción actual (1462) del contenido de audio codificado en el modo de dominio de transformada y siguiendo a una porción (1452) del contenido de audio codificado en el modo CELP.
  24. 24. El decodificador de señal de audio según cualquiera de las reivindicaciones 13 a 23, en donde la ruta
    30 de dominio de predicción lineal excitada por código (340) es una ruta de dominio de predicción lineal excitada por código algebraico (346) del contenido de audio codificado en un modo de dominio de predicción lineal excitada por código algebraico (modo CELP) sobre la base de una información de excitación de código algebraico (342) y una información de parámetro de dominio de predicción lineal (344).
    35 25. Método para proveer una representación codificada de un contenido de audio sobre la base de una representación de entrada del contenido de audio, el método comprende:
    obtener un conjunto de coeficientes espectrales y una información de moldeado de ruido sobre la base de una representación de dominio de tiempo de una porción del contenido de audio a ser codificado en el modo de dominio 40 de transformada, de modo que los coeficientes espectrales describen un espectro de una versión de moldeado de ruido del contenido de audio,
    en donde una representación de dominio de tiempo del contenido de audio a ser codificado en el modo de dominio de transformada, o una versión preprocesada de la misma, es enventanada, y en donde una conversión de dominio 45 de tiempo a dominio de frecuencia se aplica para derivar un conjunto de coeficientes espectrales de la representación de dominio de tiempo enventanada del contenido de audio;
    obtener una información de excitación de código y una información de dominio de predicción lineal sobre la base de una porción del contenido de audio a ser codificada en un modo de dominio de predicción lineal excitada por código 50 (modo CELP);
    en donde una ventana de análisis asimétrico predeterminada se aplica para el enventanado de una porción actual del contenido de audio a ser codificado en el modo de dominio de transformada y siguiendo una porción del contenido de audio codificado en el modo de dominio de transformada tanto si la porción actual del contenido de
    55 audio es seguida por una porción subsiguiente del contenido de audio a ser codificado en el modo de dominio de transformada como si la porción actual del contenido de audio es seguida por una porción subsiguiente del contenido de audio a ser codificado en el modo CELP; y
    en donde una información de cancelación de solapamiento, que representa componentes de la señal de cancelación
    de solapamiento que estarían representados por una representación en el modo de dominio de transformada de la porción subsiguiente (1142; 1342) del contenido de audio, es provista selectivamente si la porción actual del contenido de audio es seguida por una porción subsiguiente del contenido de audio a ser codificado en el modo CELP.
    5
  25. 26. Método para proveer una representación decodificada de un contenido de audio sobre la base de una representación codificada del contenido de audio, el método comprende:
    obtener una representación de dominio de tiempo de una porción del contenido de audio codificado en un modo de 10 dominio de transformada sobre la base de un conjunto de coeficientes espectrales y una información de moldeado de ruido,
    en donde una conversión de dominio de frecuencia a dominio de tiempo y un enventanado se aplican para derivar una representación de dominio de tiempo enventanada del contenido de audio a partir del conjunto de coeficientes 15 espectrales o a partir de una versión preprocesada del mismo; y
    obtener una representación de dominio de tiempo del contenido de audio codificado en un modo de dominio de predicción lineal excitada por código sobre la base de una información de excitación por código y una información de parámetro de dominio de predicción lineal;
    20 en donde una ventana de síntesis asimétrica predeterminada se aplica para un enventanado de una porción actual del contenido de audio codificado en el modo de dominio de transformada y siguiendo una porción previa del contenido de audio codificado en el modo de dominio de transformada tanto si la porción actual del contenido de audio es seguida por una porción subsiguiente del contenido de audio codificado en el modo de dominio de
    25 transformada y si la porción actual del contenido de audio es seguida por una porción subsiguiente del contenido de audio codificado en el modo CELP; y
    en donde una señal de cancelación de solapamiento es provista selectivamente sobre la base de una información de cancelación de solapamiento, que se incluye en la representación codificada del contenido de audio, y que
    30 representa los componentes de señal de cancelación de solapamiento que estarían representados por una representación en el modo de dominio de transformada de la porción subsiguiente (1142; 1342) del contenido de audio, si la porción actual del contenido de audio es seguida por una porción subsiguiente del contenido de audio codificado en el modo CELP.
    35 27. Un programa de computación para desarrollar un método según la reivindicación 25 ó 26 cuando el programa de computación corre en una computadora.
ES10768928.3T 2009-10-20 2010-10-19 Codificador de señal de audio, decodificador de señal de audio, método para proveer una representación codificada de un contenido de audio, método para proveer una representación decodificada de un contenido de audio y programa de computación para su uso en aplicaciones de bajo retardo Active ES2533098T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US25345009P 2009-10-20 2009-10-20
US253450P 2009-10-20
PCT/EP2010/065753 WO2011048118A1 (en) 2009-10-20 2010-10-19 Audio signal encoder, audio signal decoder, method for providing an encoded representation of an audio content, method for providing a decoded representation of an audio content and computer program for use in low delay applications

Publications (1)

Publication Number Publication Date
ES2533098T3 true ES2533098T3 (es) 2015-04-07

Family

ID=43447915

Family Applications (1)

Application Number Title Priority Date Filing Date
ES10768928.3T Active ES2533098T3 (es) 2009-10-20 2010-10-19 Codificador de señal de audio, decodificador de señal de audio, método para proveer una representación codificada de un contenido de audio, método para proveer una representación decodificada de un contenido de audio y programa de computación para su uso en aplicaciones de bajo retardo

Country Status (17)

Country Link
US (1) US8630862B2 (es)
EP (1) EP2473995B9 (es)
JP (1) JP5243661B2 (es)
KR (1) KR101414305B1 (es)
CN (1) CN102859588B (es)
AR (1) AR078702A1 (es)
BR (2) BR122020024243B1 (es)
CA (1) CA2778373C (es)
ES (1) ES2533098T3 (es)
HK (1) HK1172992A1 (es)
MX (1) MX2012004518A (es)
MY (1) MY162251A (es)
PL (1) PL2473995T3 (es)
RU (1) RU2596594C2 (es)
TW (1) TWI435317B (es)
WO (1) WO2011048118A1 (es)
ZA (1) ZA201203611B (es)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102105930B (zh) * 2008-07-11 2012-10-03 弗朗霍夫应用科学研究促进协会 用于编码采样音频信号的帧的音频编码器和解码器
EP3002750B1 (en) * 2008-07-11 2017-11-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding audio samples
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
JP5510559B2 (ja) * 2010-12-20 2014-06-04 株式会社ニコン 音声制御装置および撮像装置
MX2013009303A (es) 2011-02-14 2013-09-13 Fraunhofer Ges Forschung Codec de audio utilizando sintesis de ruido durante fases inactivas.
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
PT3239978T (pt) 2011-02-14 2019-04-02 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
AR085222A1 (es) 2011-02-14 2013-09-18 Fraunhofer Ges Forschung Representacion de señal de informacion utilizando transformada superpuesta
EP4243017A3 (en) * 2011-02-14 2023-11-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method decoding an audio signal using an aligned look-ahead portion
KR101699898B1 (ko) 2011-02-14 2017-01-25 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 스펙트럼 영역에서 디코딩된 오디오 신호를 처리하기 위한 방법 및 장치
TWI488177B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 使用頻譜域雜訊整形之基於線性預測的編碼方案
KR101525185B1 (ko) 2011-02-14 2015-06-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법
RU2630390C2 (ru) 2011-02-14 2017-09-07 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для маскирования ошибок при стандартизированном кодировании речи и аудио с низкой задержкой (usac)
RU2606552C2 (ru) * 2011-04-21 2017-01-10 Самсунг Электроникс Ко., Лтд. Устройство для квантования коэффициентов кодирования с линейным предсказанием, устройство кодирования звука, устройство для деквантования коэффициентов кодирования с линейным предсказанием, устройство декодирования звука и электронное устройство для этого
BR112013027093B1 (pt) * 2011-04-21 2021-04-13 Samsung Electronics Co., Ltd Método para quantizar, método para decodificar, método para codificar, e meio de gravação legível por computador não transitório
JPWO2013061584A1 (ja) * 2011-10-28 2015-04-02 パナソニック株式会社 音信号ハイブリッドデコーダ、音信号ハイブリッドエンコーダ、音信号復号方法、及び音信号符号化方法
US9489962B2 (en) * 2012-05-11 2016-11-08 Panasonic Corporation Sound signal hybrid encoder, sound signal hybrid decoder, sound signal encoding method, and sound signal decoding method
JP6113278B2 (ja) * 2012-06-28 2017-04-12 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 改良された確率分布推定を使用する線形予測に基づくオーディオ符号化
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
JP6148810B2 (ja) 2013-01-29 2017-06-14 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 第1の符号化アルゴリズム及び第2の符号化アルゴリズムのうちの1つを選択するための装置及び方法
WO2015025051A1 (en) * 2013-08-23 2015-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal using a combination in an overlap range
CN104681034A (zh) 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
CN105336336B (zh) 2014-06-12 2016-12-28 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
EP2980797A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
EP3067886A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
EP3107096A1 (en) 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downscaled decoding
US10008214B2 (en) * 2015-09-11 2018-06-26 Electronics And Telecommunications Research Institute USAC audio signal encoding/decoding apparatus and method for digital radio services
US10146500B2 (en) * 2016-08-31 2018-12-04 Dts, Inc. Transform-based audio codec and method with subband energy smoothing
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
RU2256293C2 (ru) * 1997-06-10 2005-07-10 Коудинг Технолоджиз Аб Усовершенствование исходного кодирования с использованием дублирования спектральной полосы
US7315815B1 (en) * 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
US7020605B2 (en) * 2000-09-15 2006-03-28 Mindspeed Technologies, Inc. Speech coding system with time-domain noise attenuation
CN1157076C (zh) * 2001-04-19 2004-07-07 北京邮电大学 移动通信系统性能的仿真方法
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
CN1485849A (zh) * 2002-09-23 2004-03-31 上海乐金广电电子有限公司 数字音频编码器及解码方法
AU2003208517A1 (en) * 2003-03-11 2004-09-30 Nokia Corporation Switching between coding schemes
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
FI118835B (fi) * 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
JP2007538281A (ja) * 2004-05-17 2007-12-27 ノキア コーポレイション 異なる符号化モデルを用いる音声符号化
US7739120B2 (en) * 2004-05-17 2010-06-15 Nokia Corporation Selection of coding models for encoding an audio signal
US7596486B2 (en) * 2004-05-19 2009-09-29 Nokia Corporation Encoding an audio signal using different audio coder modes
US7386445B2 (en) * 2005-01-18 2008-06-10 Nokia Corporation Compensation of transient effects in transform coding
ATE435481T1 (de) * 2005-04-28 2009-07-15 Siemens Ag Verfahren und vorrichtung zur geräuschunterdrückung
US7490036B2 (en) * 2005-10-20 2009-02-10 Motorola, Inc. Adaptive equalizer for a coded speech signal
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
ES2383217T3 (es) * 2006-12-12 2012-06-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador, descodificador y métodos para codificar y descodificar segmentos de datos que representan una corriente de datos de dominio de tiempo
WO2009114656A1 (en) * 2008-03-14 2009-09-17 Dolby Laboratories Licensing Corporation Multimode coding of speech-like and non-speech-like signals
WO2010031951A1 (fr) * 2008-09-17 2010-03-25 France Telecom Attenuation de pre-echos dans un signal audionumerique
ES2825032T3 (es) * 2009-06-23 2021-05-14 Voiceage Corp Cancelación de solapamiento de dominio de tiempo directo con aplicación en dominio de señal original o ponderado

Also Published As

Publication number Publication date
EP2473995B9 (en) 2016-12-21
JP2013508766A (ja) 2013-03-07
AU2010309839A1 (en) 2012-05-17
BR122020024236B1 (pt) 2021-09-14
AR078702A1 (es) 2011-11-30
TWI435317B (zh) 2014-04-21
US20120265541A1 (en) 2012-10-18
TW201137861A (en) 2011-11-01
EP2473995B1 (en) 2014-12-17
KR20120063527A (ko) 2012-06-15
WO2011048118A1 (en) 2011-04-28
CA2778373C (en) 2015-12-01
JP5243661B2 (ja) 2013-07-24
RU2012118782A (ru) 2013-11-10
ZA201203611B (en) 2013-02-27
BR112012009032A2 (pt) 2020-08-18
MX2012004518A (es) 2012-05-29
PL2473995T3 (pl) 2015-06-30
RU2596594C2 (ru) 2016-09-10
CN102859588A (zh) 2013-01-02
HK1172992A1 (en) 2013-05-03
US8630862B2 (en) 2014-01-14
BR122020024243B1 (pt) 2022-02-01
MY162251A (en) 2017-05-31
CN102859588B (zh) 2014-09-10
CA2778373A1 (en) 2011-04-28
EP2473995A1 (en) 2012-07-11
KR101414305B1 (ko) 2014-07-02

Similar Documents

Publication Publication Date Title
ES2533098T3 (es) Codificador de señal de audio, decodificador de señal de audio, método para proveer una representación codificada de un contenido de audio, método para proveer una representación decodificada de un contenido de audio y programa de computación para su uso en aplicaciones de bajo retardo
ES2910658T3 (es) Codificador de audio para la codificación de una señal de múltiples canales y un decodificador de audio para la decodificación de una señal de audio codificada
JP6773743B2 (ja) フォワードエイリアシング消去を用いた符号器
US9812136B2 (en) Audio processing system
ES2825032T3 (es) Cancelación de solapamiento de dominio de tiempo directo con aplicación en dominio de señal original o ponderado
ES2529221T3 (es) Codificación de sonido con bajo retardo que alterna codificación predictiva y codificación por transformada
ES2797525T3 (es) Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC
AU2009267394B2 (en) Audio encoder and decoder for encoding frames of sampled audio signals
ES2760573T3 (es) Decodificador de audio y método para proveer una información de audio decodificada usando un ocultamiento de error que modifica una señal de excitación de dominio de tiempo
ES2659838T3 (es) Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de errores en base a una señal de excitación de dominio de tiempo
ES2725305T3 (es) Aparato y procedimiento para codificar una señal de audio usando una parte de anticipación alineada
US20110087494A1 (en) Apparatus and method of encoding audio signal by switching frequency domain transformation scheme and time domain transformation scheme
KR20170037661A (ko) Fd/lpd 전이 컨텍스트에서 프레임 손실 관리
RU2644135C2 (ru) Устройство и способ декодирования кодированного аудиосигнала с низкими вычислительными ресурсами
US20110320193A1 (en) Speech encoding device, speech decoding device, speech encoding method, and speech decoding method
AU2010309839B2 (en) Audio signal encoder, audio signal decoder, method for providing an encoded representation of an audio content, method for providing a decoded representation of an audio content and computer program for use in low delay applications
ES2963367T3 (es) Aparato y procedimiento de decodificación de una señal de audio usando una parte de anticipación alineada
RU2574849C2 (ru) Устройство и способ для кодирования и декодирования аудиосигнала с использованием выровненной части опережающего просмотра
BR112012009032B1 (pt) Codificador de sinal de áudio, decodificador de sinal de áudio, método para prover uma representação codificada de um conteúdo de áudio, método para prover uma representação decodificada de um conteúdo de áudio para uso em aplicações de baixo retardamento
BR112012009447B1 (pt) Codificador de sinal de áudio, decodificador de stnai, de áudio, método para codificar ou decodificar um sinal de áudio usando um cancelamento de aliasing