ES2688134T3 - Codificador y decodificador de audio para codificación de forma de onda intercalada - Google Patents
Codificador y decodificador de audio para codificación de forma de onda intercalada Download PDFInfo
- Publication number
- ES2688134T3 ES2688134T3 ES14715895.0T ES14715895T ES2688134T3 ES 2688134 T3 ES2688134 T3 ES 2688134T3 ES 14715895 T ES14715895 T ES 14715895T ES 2688134 T3 ES2688134 T3 ES 2688134T3
- Authority
- ES
- Spain
- Prior art keywords
- frequency
- signal
- transition
- high frequency
- waveform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007704 transition Effects 0.000 claims abstract description 90
- 230000003595 spectral effect Effects 0.000 claims abstract description 84
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000005236 sound signal Effects 0.000 claims description 72
- 239000013598 vector Substances 0.000 claims description 57
- 238000001514 detection method Methods 0.000 claims description 17
- 238000010348 incorporation Methods 0.000 claims description 17
- 230000001052 transient effect Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 7
- 230000010076 replication Effects 0.000 claims description 3
- 230000011664 signaling Effects 0.000 description 17
- 239000011159 matrix material Substances 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 238000005070 sampling Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 6
- 238000012913 prioritisation Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
- G10L21/0388—Details of processing therefor
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Error Detection And Correction (AREA)
Abstract
Un método de decodificación en un sistema de procesamiento de audio que comprende: recibir una primera señal con forma de onda codificada (401a, 401b, 401c) que tiene un contenido espectral hasta una primera frecuencia de transición, recibir una señal de control (805) que comprende datos que indican uno o más rangos de tiempo para los cuales una segunda señal con forma de onda codificada se encuentra disponible para el intercalado, recibir una segunda señal con forma de onda codificada (402b) que tiene un contenido espectral correspondiente a un subconjunto del rango de frecuencia por encima de la primera frecuencia de transición, en donde, para cada rango de tiempo para el cual una segunda señal con forma de onda codificada se indica como disponible por la señal de control, el contenido espectral de la segunda señal con forma de onda codificada incluye todas las subbandas de frecuencia de un intervalo de frecuencia que se extiende entre la primera frecuencia de transición y una segunda frecuencia de transición, recibir parámetros de reconstrucción de frecuencia alta, llevar a cabo la reconstrucción de frecuencia alta mediante el uso de la primera señal con forma de onda codificada (401a, 401b, 401c) y los parámetros de reconstrucción de frecuencia alta para generar una señal de frecuencia extendida (403a, 403b, 403c) que tiene un contenido espectral por encima de la primera frecuencia de transición, e intercalar la señal de frecuencia extendida (403a, 403b, 403c) con la segunda señal con forma de onda codificada (402b) según la señal de control recibida (805).
Description
5
10
15
20
25
30
35
40
45
DESCRIPCIÓN
Codificador y decodificador de audio para codificación de forma de onda intercalada.
Campo técnico de la invención
La invención descrita en la presente memoria se refiere, en general, a la codificación y decodificación de audio. En particular, se refiere a un codificador de audio y a un decodificador de audio adaptados para llevar a cabo la reconstrucción de frecuencia alta de señales de audio.
Antecedentes de la invención
Los sistemas de codificación de audio usan diferentes metodologías para codificar audio como, por ejemplo, codificación de forma de onda pura, codificación espacial paramétrica y algoritmos de reconstrucción de frecuencia alta, incluido el algoritmo de Replicación de la Banda Espectral (SBR, por sus siglas en inglés). El estándar MPEG-4 combina la codificación de forma de onda y SBR de señales de audio. Más precisamente, un codificador puede codificar la forma de onda de una señal de audio para bandas espectrales hasta una frecuencia de transición y codificar las bandas espectrales por encima de la frecuencia de transición mediante el uso de la codificación SBR. La parte con forma de onda codificada de la señal de audio se transmite entonces a un decodificador junto con parámetros SBR determinados durante la codificación SBR. Según la parte con forma de onda codificada de la señal de audio y los parámetros SBR, el decodificador entonces reconstruye la señal de audio en las bandas espectrales por encima de la frecuencia de transición según se describe en el documento de revisión de Brinker y otros, An overview of the Coding Standard MPEG-4 Audio Amendments 1 and 2: HE-AAC, SSC, and HE-AAC v2, EURASIP Journal on Audio, Speech, and Music Processing, Volume 2009, Article ID 468971.
Un problema con dicho enfoque es que los componentes tonales fuertes, a saber, componentes armónicos fuertes, o cualquier componente en las bandas espectrales altas que no se reconstruye apropiadamente por el algoritmo SBR estarán ausentes en la salida.
A tal fin, el algoritmo SBR implementa un procedimiento de detección de armónicos faltantes. Los componentes tonales que no se regenerarán de manera apropiada por la reconstrucción de frecuencia alta SBR se identifican en el lado de codificador. Información de la ubicación de frecuencia de dichos componentes tonales fuertes se transmite al decodificador donde los contenidos espectrales en las bandas espectrales donde los componentes tonales faltantes se ubican se reemplazan por sinusoides generadas en el decodificador.
Una ventaja de la detección de armónicos faltantes provista en el algoritmo SBR es que es una solución con velocidad binaria muy baja dado que, de alguna manera simplificada, solo la ubicación de frecuencia del componente tonal y su nivel de amplitud necesitan transmitirse al decodificador.
Una desventaja de la detección de armónicos faltantes del algoritmo SBR es que es un modelo muy irregular. Otra desventaja es que cuando la velocidad de transmisión es baja, a saber, cuando el número de bits que pueden transmitirse por segundo es bajo, y como consecuencia de ello, las bandas espectrales son anchas, un rango de frecuencia grande se reemplazará por una sinusoide.
Otra desventaja del algoritmo SBR es que tiene una tendencia a difundir transitorios que ocurren en la señal de audio. Normalmente, habrá un pre-eco y un post-eco del transitorio en la señal de audio reconstruida SBR. Hay, por consiguiente, espacio para mejoras.
El documento de la técnica anterior "Bandwidth Extension for Hierarchical Speech and Audio Coding in G.729.1" de Geiser y otros describe el enfoque de extensión de ancho de banda en G.729.1, que incluye ciertas subbandas en una señal expandida.
Breve descripción de los dibujos
A continuación se describirán realizaciones a modo de ejemplo en mayor detalle y con referencia a anexos, en los cuales:
La Figura 1 es un dibujo esquemático de un decodificador según realizaciones a modo de ejemplo; la Figura 2 es un dibujo esquemático de un decodificador según realizaciones a modo de ejemplo; la Figura 3 es un diagrama de flujo de un método de decodificación según realizaciones a modo de ejemplo; la Figura 4 es un dibujo esquemático de un decodificador según realizaciones a modo de ejemplo; la Figura 5 es un dibujo esquemático de un codificador según realizaciones a modo de ejemplo;
ITU-T Rec. reemplazar
los dibujos
5
10
15
20
25
30
35
40
45
la Figura 6 es un diagrama de flujo de un método de codificación según realizaciones a modo de ejemplo;
la Figura 7 es una ilustración esquemática de un esquema de señalización según realizaciones a modo de ejemplo;
y
las Figuras 8a-b son una ilustración esquemática de una etapa de intercalado según realizaciones a modo de ejemplo.
Todas las figuras son esquemáticas y, en general, solo muestran partes que son necesarias para elucidar la invención, mientras que otras partes se pueden omitir o simplemente sugerir. A menos que se indique lo contrario, iguales numerales de referencia se refieren a partes iguales en diferentes figuras.
Descripción detallada de la invención
Según lo establecido más arriba, es un objeto proveer un codificador y un decodificador y métodos asociados que proveen una reconstrucción mejorada de transitorios y componentes tonales en las bandas de frecuencia alta.
I. Resumen - Decodificador
Según su uso en la presente memoria, una señal de audio puede ser una señal de audio pura, una parte de audio de una señal audiovisual o señal multimedia o cualquiera de estas en combinación con metadatos.
Según un primer aspecto, las realizaciones a modo de ejemplo proponen métodos de decodificación, dispositivos de decodificación y productos de programas de ordenador para la decodificación. Los métodos, dispositivos y productos de programas de ordenador propuestos pueden tener, en general, las mismas características y ventajas.
Según realizaciones a modo de ejemplo, se provee un método de decodificación en un sistema de procesamiento de audio según las reivindicaciones 1 a 10.
Según su uso en la presente memoria, una señal con forma de onda codificada se interpretará como una señal que se ha codificado por la cuantificación directa de una representación de la forma de onda; de manera más preferida, una cuantificación de las líneas de una transformada de frecuencia de la señal de forma de onda de entrada. Ello se opone a una codificación paramétrica, donde la señal se representa por variaciones de un modelo genérico de un atributo de señal.
El método de decodificación sugiere, por consiguiente, usar datos con forma de onda codificada en un subconjunto del rango de frecuencia por encima de la primera frecuencia de transición e intercalar ello con una señal reconstruida de frecuencia alta. De esta manera, partes importantes de una señal en la banda de frecuencia por encima de la primera frecuencia de transición como, por ejemplo, componentes tonales o transitorios que, normalmente, no se reconstruyen bien por algoritmos de reconstrucción de frecuencia alta paramétricos, pueden ser con forma de onda codificada. Como resultado, la reconstrucción de dichas partes importantes de una señal en la banda de frecuencia por encima de la primera frecuencia de transición se mejora.
Según realizaciones a modo de ejemplo, se provee también un producto de programa de ordenador que comprende un medio legible por ordenador con instrucciones para llevar a cabo el método de decodificación de cualquiera de las reivindicaciones 1-10.
Según realizaciones a modo de ejemplo, se provee también un decodificador para un sistema de procesamiento de audio según la reivindicación 11.
II. Resumen - Codificador
Según un segundo aspecto, las realizaciones a modo de ejemplo proponen métodos de codificación, dispositivos de codificación y productos de programas de ordenador para la codificación. Los métodos, dispositivos y productos de programas de ordenador propuestos pueden tener, en general, las mismas características y ventajas.
Las ventajas relativas a las características y establecimientos según se presentan en el resumen del decodificador más arriba pueden ser, en general, válidas para las características y establecimientos correspondientes para el codificador.
Según realizaciones a modo de ejemplo, se provee un método de codificación según las reivindicaciones 12-13.
Según realizaciones a modo de ejemplo, se provee también un producto de programa de ordenador que comprende un medio legible por ordenador con instrucciones para llevar a cabo el método de codificación de la reivindicación 12 o reivindicación 13.
Según realizaciones a modo de ejemplo, se provee un codificador según la reivindicación 15.
5
10
15
20
25
30
35
40
45
50
55
III. Realizaciones a modo de ejemplo - Decodificador
La Figura 1 ilustra una realización a modo de ejemplo de un decodificador 100. El decodificador comprende una etapa de recepción 110, una etapa de reconstrucción de frecuencia alta 120, y una etapa de intercalado 130.
El funcionamiento del decodificador 100 se explicará ahora en mayor detalle con referencia a la realización a modo de ejemplo de la Figura 2, que muestra un decodificador 200, y el diagrama de flujo de la Figura 3. El propósito del decodificador 200 es proveer una reconstrucción de señal mejorada para frecuencias altas en el caso donde existen componentes tonales fuertes en las bandas de frecuencia alta de la señal de audio que se reconstruirá. La etapa de recepción 110 recibe, en la etapa D02, una primera señal con forma de onda codificada 201. La primera señal con forma de onda codificada 201 tiene un contenido espectral hasta una primera frecuencia de transición fc, a saber, la primera señal con forma de onda codificada 201 es una señal de banda baja que se encuentra limitada al rango de frecuencia por debajo de la primera frecuencia de transición fc.
La etapa de recepción 110 recibe, en la etapa D04, una segunda señal con forma de onda codificada 202. La segunda señal con forma de onda codificada 202 tiene un contenido espectral que corresponde a un subconjunto del rango de frecuencia por encima de la primera frecuencia de transición fc. En el ejemplo ilustrado de la Figura 2, la segunda señal con forma de onda codificada 202 tiene un contenido espectral correspondiente a múltiples intervalos de frecuencia aislados 202a y 202b. La segunda señal con forma de onda codificada 202 puede, por consiguiente, verse que se compone de múltiples señales de banda limitada, cada señal de banda limitada correspondiendo a uno de los intervalos de frecuencia aislados 202a y 202b. En la Figura 2, solo se muestran dos intervalos de frecuencia 202a y 202b. En general, el contenido espectral de la segunda señal con forma de onda codificada puede corresponder a cualquier número de intervalos de frecuencia de ancho variable.
La etapa de recepción 110 puede recibir la primera y la segunda señal con forma de onda codificada 201 y 202 como dos señales separadas. De manera alternativa, la primera y la segunda señal con forma de onda codificada
201 y 202 pueden formar una primera y segunda porciones de señal de una señal común recibida por la etapa de recepción 110. En otras palabras, la primera y la segunda señales con forma de onda codificada pueden codificarse de manera conjunta, por ejemplo, mediante el uso de la misma transformada MDCT.
Normalmente, la primera señal con forma de onda codificada 201 y la segunda señal con forma de onda codificada
202 según se reciben por la etapa de recepción 110 se codifican mediante el uso de una transformada con ventanas superpuestas como, por ejemplo, una transformada MDCT. La etapa de recepción puede comprender una etapa de decodificación de forma de onda 240 configurada para transformar la primera y la segunda señales con forma de onda codificada 201 y 202 en el dominio temporal. La etapa de decodificación de forma de onda 240 normalmente comprende un banco de filtros MDCT configurado para llevar a cabo una transformada MDCT inversa de la primera y la segunda señales con forma de onda codificada 201 y 202.
La etapa de recepción 110 además recibe, en la etapa D06, parámetros de reconstrucción de frecuencia alta que se usan por la etapa de reconstrucción de frecuencia alta 120 según se describirá a continuación.
La primera señal con forma de onda codificada 201 y los parámetros de frecuencia alta recibidos por la etapa de recepción 110 se ingresan entonces en la etapa de reconstrucción de frecuencia alta 120. La etapa de reconstrucción de frecuencia alta 120 normalmente funciona en señales en un dominio de la frecuencia, preferiblemente un dominio QMF. Antes de ingresarse en la etapa de reconstrucción de frecuencia alta 120, la primera señal con forma de onda codificada 201 se transforma, por lo tanto, preferiblemente, en el dominio de la frecuencia, preferiblemente el dominio QMF, por una etapa de análisis QMF 250. La etapa de análisis QMF 250 normalmente comprende un banco de filtros QMF configurado para llevar a cabo una transformada QMF de la primera señal con forma de onda codificada 201.
Según la primera señal con forma de onda codificada 201 y los parámetros de reconstrucción de frecuencia alta, la etapa de reconstrucción de frecuencia alta 120, en la etapa D08, extiende la primera señal con forma de onda codificada 201 a frecuencias por encima de la primera frecuencia de transición fc. De manera más específica, la etapa de reconstrucción de frecuencia alta 120 genera una señal de frecuencia extendida 203 que tiene un contenido espectral por encima de la primera frecuencia de transición fc. La señal de frecuencia extendida 203 es, por consiguiente, una señal de banda alta.
La etapa de reconstrucción de frecuencia alta 120 puede funcionar según cualquier algoritmo conocido para llevar a cabo la reconstrucción de frecuencia alta. En particular, la etapa de reconstrucción de frecuencia alta 120 puede configurarse para llevar a cabo SBR según se describe en el documento de revisión de Brinker y otros, An overview of the Coding Standard MPEG-4 Audio Amendments 1 and 2: HE-AAC, SSC, and HE-AAC v2, EuRASIP Journal on Audio, Speech, and Music Processing, Volume 2009, Article ID 468971. Como tal, la etapa de reconstrucción de frecuencia alta puede comprender un número de subetapas configuradas para generar la señal de frecuencia extendida 203 en un número de etapas. Por ejemplo, la etapa de reconstrucción de frecuencia alta 120 puede comprender una etapa de generación de frecuencia alta 221, una etapa de incorporación de componentes de frecuencia alta paramétricos 222, y una etapa de ajuste de envolvente 223.
4
5
10
15
20
25
30
35
40
45
50
55
En pocas palabras, la etapa de generación de frecuencia alta 221, en una primera subetapa D08a, extiende la primera señal con forma de onda codificada 201 al rango de frecuencia por encima de la frecuencia de transición fc con el fin de generar la señal de frecuencia extendida 203. La generación se lleva a cabo mediante la selección de porciones de subbanda de la primera señal con forma de onda codificada 201 y según reglas específicas, guiada por los parámetros de reconstrucción de frecuencia alta, reflejar o copiar las porciones de subbanda seleccionadas de la primera señal con forma de onda codificada 201 a porciones de subbanda seleccionadas del rango de frecuencia por encima de la primera frecuencia de transición fc.
Los parámetros de reconstrucción de frecuencia alta pueden además comprender parámetros de armónicos faltantes para incorporar armónicos faltantes a la señal de frecuencia extendida 203. Según se describe más arriba, un armónico faltante se interpretará como cualquier parte tonal fuerte arbitraria del espectro. Por ejemplo, los parámetros de armónicos faltantes pueden comprender parámetros relacionados con la frecuencia y amplitud de los armónicos faltantes. Según los parámetros de armónicos faltantes, la etapa de incorporación de componentes de frecuencia alta paramétricos 222 genera, en la subetapa D08b, componentes de sinusoide e incorpora los componentes de sinusoide a la señal de frecuencia extendida 203.
Los parámetros de reconstrucción de frecuencia alta pueden además comprender parámetros de envolvente espectral que describen los niveles de energía objetivo de la señal de frecuencia extendida 203. Según los parámetros de envolvente espectral, la etapa de ajuste de envolvente 223 puede, en la subetapa D08c, ajustar el contenido espectral de la señal de frecuencia extendida 203, a saber, los coeficientes espectrales de la señal de frecuencia extendida 203, de modo que los niveles de energía de la señal de frecuencia extendida 203 corresponden a los niveles de energía objetivo descritos por los parámetros de envolvente espectral.
La señal de frecuencia extendida 203 de la etapa de reconstrucción de frecuencia alta 120 y la segunda señal con forma de onda codificada de la etapa de recepción 110 se ingresan entonces en la etapa de intercalado 130. La etapa de intercalado 130 normalmente funciona en el mismo dominio de la frecuencia, preferiblemente el dominio QMF, como la etapa de reconstrucción de frecuencia alta 120. Por consiguiente, la segunda señal con forma de onda codificada 202 se ingresa, normalmente, en la etapa de intercalado mediante la etapa de análisis QMF 250. Además, la segunda señal con forma de onda codificada 202 se retarda, normalmente, por una etapa de retardo 260, para compensar el tiempo que lleva a la etapa de reconstrucción de frecuencia alta 120 llevar a cabo la reconstrucción de frecuencia alta. De esta manera, la segunda señal con forma de onda codificada 202 y la señal de frecuencia extendida 203 se alinearán de modo que la etapa de intercalado 130 funciona en señales correspondientes a la misma trama de tiempo.
La etapa de intercalado 130, en la etapa D10, entonces intercala, a saber, combina la segunda señal con forma de onda codificada 202 con la señal de frecuencia extendida 203 con el fin de generar una señal intercalada 204. Diferentes enfoques pueden usarse para intercalar la segunda señal con forma de onda codificada 202 con la señal de frecuencia extendida 203.
Según una realización a modo de ejemplo, la etapa de intercalado 130 intercala la señal de frecuencia extendida 203 con la segunda señal con forma de onda codificada 202 mediante la incorporación de la señal de frecuencia extendida 203 y la segunda señal con forma de onda codificada 202. Los contenidos espectrales de la segunda señal con forma de onda codificada 202 se superponen a los contenidos espectrales de la señal de frecuencia extendida 203 en el subconjunto del rango de frecuencia correspondiente a los contenidos espectrales de la segunda señal con forma de onda codificada 202. Mediante la incorporación de la señal de frecuencia extendida 203 y la segunda señal con forma de onda codificada 202, la señal intercalada 204 comprende, por consiguiente, los contenidos espectrales de la señal de frecuencia extendida 203 así como los contenidos espectrales de la segunda señal con forma de onda codificada 202 para las frecuencias que se superponen. Como resultado de la incorporación, los niveles de envolvente espectral de la señal intercalada 204 aumentan para las frecuencias superpuestas. Preferiblemente, y como se describirá más adelante, el aumento de los niveles de envolvente espectral debido a la incorporación se representa en el lado de codificador cuando se determinan niveles de envolvente de energía comprendidos en los parámetros de reconstrucción de frecuencia alta. Por ejemplo, los niveles de envolvente espectral para las frecuencias superpuestas pueden reducirse en el lado de codificador en una cantidad correspondiente al aumento en niveles de envolvente espectral debido al intercalado en el lado de decodificador.
De manera alternativa, el aumento de niveles de envolvente espectral debido a la incorporación puede representarse en el lado de decodificador. Por ejemplo, puede haber una etapa de medición de energía que mide la energía de la segunda señal con forma de onda codificada 202, compara la energía medida con los niveles de energía objetivo descritos por los parámetros de envolvente espectral, y ajusta la señal de frecuencia extendida 203 de modo que los niveles de envolvente espectral para la señal intercalada 204 son iguales a los niveles de energía objetivo.
Según otra realización a modo de ejemplo, la etapa de intercalado 130 intercala la señal de frecuencia extendida 203 con la segunda señal con forma de onda codificada 202 mediante el reemplazo de los contenidos espectrales de la señal de frecuencia extendida 203 por los contenidos espectrales de la segunda señal con forma de onda
5
10
15
20
25
30
35
40
45
50
55
codificada 202 para aquellas frecuencias donde la señal de frecuencia extendida 203 y la segunda señal con forma de onda codificada 202 se superponen. En realizaciones a modo de ejemplo donde la señal de frecuencia extendida 203 se reemplaza por la segunda señal con forma de onda codificada 202, no es necesario ajustar los niveles de envolvente espectral para compensar el intercalado de la señal de frecuencia extendida 203 y la segunda señal con forma de onda codificada 202.
La etapa de reconstrucción de frecuencia alta 120 preferiblemente funciona con una velocidad de muestreo que es igual a la velocidad de muestreo del codificador principal subyacente que se ha usado para codificar la primera señal con forma de onda codificada 201. De esta manera, la misma transformada con ventanas superpuestas como, por ejemplo, la misma MDCT, puede usarse para codificar la segunda señal con forma de onda codificada 202 que se ha usado para codificar la primera señal con forma de onda codificada 202.
La etapa de intercalado 130 puede además configurarse para recibir la primera señal con forma de onda codificada 201 de la etapa de recepción, preferiblemente mediante la etapa de decodificación de forma de onda 240, la etapa de análisis QMF 250, y la etapa de retardo 260, y para combinar la señal intercalada 204 con la primera señal con forma de onda codificada 201 con el fin de generar una señal combinada 205 que tiene un contenido espectral para frecuencias por debajo y por encima de la primera frecuencia de transición.
La señal de salida de la etapa de intercalado 130, a saber, la señal intercalada 204 o la señal combinada 205, puede, posteriormente, por una etapa de síntesis QMF 270, transformarse otra vez en el dominio temporal.
Preferiblemente, la etapa de análisis QMF 250 y la etapa de síntesis QMF 270 tienen el mismo número de subbandas, lo que significa que la velocidad de muestreo de la señal que se ingresa en la etapa de análisis QMF 250 es igual a la velocidad de muestreo de la señal que se emite de la etapa de síntesis QMF 270. Como consecuencia, el codificador de forma de onda (mediante el uso de MDCT) que se ha usado para codificar la forma de onda de la primera y la segunda señales con forma de onda codificada puede funcionar en la misma velocidad de muestreo que la señal de salida. Por consiguiente, la primera y la segunda señales con forma de onda codificada pueden, de manera eficaz y estructuralmente de manera fácil, codificarse mediante el uso de la misma transformada MDCT. Ello es opuesto a la técnica anterior donde la velocidad de muestreo del codificador de forma de onda normalmente se encontraba limitado a la mitad de aquella de la señal de salida, y el módulo de reconstrucción de frecuencia alta posterior llevaba a cabo un muestreo ascendente así como una reconstrucción de frecuencia alta. Ello limita la capacidad de codificar la forma de onda de frecuencias que cubren todo el rango de frecuencia de salida.
La Figura 4 ilustra una realización a modo de ejemplo del decodificador 400. El decodificador 400 pretende proveer una reconstrucción de señal mejorada para frecuencias altas en el caso donde existen transitorios en la señal de audio de entrada que se reconstruirá. La principal diferencia entre el ejemplo de la Figura 4 y el de la Figura 2 es la forma del contenido espectral y la duración de la segunda señal con forma de onda codificada.
La Figura 4 ilustra el funcionamiento del decodificador 400 durante múltiples porciones de tiempo subsiguientes de una trama de tiempo; aquí, se muestran tres porciones de tiempo subsiguientes. Una trama de tiempo puede, por ejemplo, corresponder a 2048 muestras de tiempo. De manera específica, durante una primera porción de tiempo, la etapa de recepción 110 recibe una primera señal con forma de onda codificada 401a que tiene un contenido espectral hasta una primera frecuencia de transición fc1. No se recibe ninguna segunda señal con forma de onda codificada durante la primera porción de tiempo.
Durante la segunda porción de tiempo, la etapa de recepción 110 recibe una primera señal con forma de onda codificada 401b que tiene un contenido espectral hasta la primera frecuencia de transición fc1, y una segunda señal con forma de onda codificada 402b que tiene un contenido espectral que corresponde a un subconjunto del rango de frecuencia por encima de la primera frecuencia de transición fc1. En el ejemplo ilustrado de la Figura 4, la segunda señal con forma de onda codificada 402b tiene un contenido espectral correspondiente a un intervalo de frecuencia que se extiende entre la primera frecuencia de transición fc1 y una segunda frecuencia de transición fc2. La segunda señal con forma de onda codificada 402b es, por consiguiente, una señal de banda limitada que se encuentra limitada a la banda de frecuencia entre la primera frecuencia de transición fc1 y la segunda frecuencia de transición
fc2.
Durante la tercera porción de tiempo, la etapa de recepción 110 recibe una primera señal con forma de onda codificada 401c que tiene un contenido espectral hasta la primera frecuencia de transición fc1. No se recibe ninguna segunda señal con forma de onda codificada para la tercera porción de tiempo.
Para la primera y tercera porciones de tiempo ilustradas, no hay segundas señales con forma de onda codificada. Para dichas porciones de tiempo, el decodificador funcionará según un decodificador convencional configurado para llevar a cabo la reconstrucción de frecuencia alta como, por ejemplo, un decodificador SBR convencional. La etapa de reconstrucción de frecuencia alta 120 generará señales de frecuencia extendida 403a y 403c según las primeras señales con forma de onda codificada 401a y 401c, respectivamente. Sin embargo, dado que no hay segundas señales con forma de onda codificada, no se llevará a cabo ningún intercalado por la etapa de intercalado 130.
6
5
10
15
20
25
30
35
40
45
50
55
60
Para la segunda porción de tiempo ilustrada, hay una segunda señal con forma de onda codificada 402b. Para la segunda porción de tiempo, el decodificador 400 funcionará en la misma manera que se describe con respecto a la Figura 2. En particular, la etapa de reconstrucción de frecuencia alta 120 lleva a cabo la reconstrucción de frecuencia alta según la primera señal con forma de onda codificada y los parámetros de reconstrucción de frecuencia alta para generar una señal de frecuencia extendida 403b. La señal de frecuencia extendida 403b se ingresa, posteriormente, en la etapa de intercalado 130 donde se intercala con la segunda señal con forma de onda codificada 402b en una señal intercalada 404b. Según se describe en conexión con la realización a modo de ejemplo de la Figura 2, el intercalado puede llevarse a cabo mediante el uso de un enfoque de incorporación o de reemplazo.
En el ejemplo de más arriba, no hay una segunda señal con forma de onda codificada para la primera y tercera porciones de tiempo. Para dichas porciones de tiempo, la segunda frecuencia de transición es igual a la primera frecuencia de transición, y no se lleva a cabo ningún intercalado. Para la segunda trama de tiempo, la segunda frecuencia de transición es más grande que la primera frecuencia de transición, y el intercalado se lleva a cabo. En general, la segunda frecuencia de transición puede, por consiguiente, variar como una función de tiempo. En particular, la segunda frecuencia de transición puede variar dentro de una trama de tiempo. El intercalado se llevará a cabo cuando la segunda frecuencia de transición sea más grande que la primera frecuencia de transición y más pequeña que una frecuencia máxima representada por el decodificador. El caso donde la segunda frecuencia de transición es igual a la frecuencia máxima corresponde a la codificación de forma de onda pura y no se necesita ninguna reconstrucción de frecuencia alta.
Debe notarse que las realizaciones descritas con respecto a las Figuras 2 y 4 pueden combinarse. La Figura 7 ilustra una matriz de frecuencia de tiempo 700 definida con respecto al dominio de la frecuencia, preferiblemente el dominio QMF, en el cual el intercalado se lleva a cabo por la etapa de intercalado 130. La matriz de frecuencia de tiempo 700 ilustrada corresponde a una trama de una señal de audio que se decodificará. La matriz 700 ilustrada se divide en 16 intervalos de tiempo y múltiples subbandas de frecuencia que comienzan en la primera frecuencia de transición fc1. Además, se muestran un primer rango de tiempo T1 que cubre el rango de tiempo por debajo del octavo intervalo de tiempo, un segundo rango de tiempo T2 que cubre el octavo intervalo de tiempo, y un rango de tiempo T3 que cubre los intervalos de tiempo por encima del octavo intervalo de tiempo. Diferentes envolventes espectrales, como parte de los datos SBR, pueden asociarse a los diferentes rangos de tiempo T1 a T3.
En el presente ejemplo, dos componentes tonales fuertes en bandas de frecuencia 710 y 720 se han identificado en la señal de audio en el lado de codificador. Las bandas de frecuencia 710 y 720 pueden ser del mismo ancho de banda que, p.ej., bandas de envolvente SBR, a saber, la misma resolución de frecuencia que se usa para representar la envolvente espectral. Dichos componentes tonales en las bandas 710 y 720 tienen un rango de tiempo correspondiente a la trama de tiempo completa, a saber, el rango de tiempo de los componentes tonales incluye los rangos de tiempo T1 a T3. En un lado de codificador, se ha decidido codificar la forma de onda de los componentes tonales de 710 y 720 durante el primer rango de tiempo T1, ilustrado por el componente tonal 710a y 720 en líneas punteadas durante el primer rango de tiempo T1. Además, se ha decidido en un lado de codificador que durante el segundo y tercer rangos de tiempo T2 y T3, el primer componente tonal 710 se reconstruirá de forma paramétrica en el decodificador mediante la incorporación de una sinusoide según se explica en conexión con la etapa de componentes de frecuencia alta paramétricos 222 de la Figura 2. Ello se ilustra por el patrón cuadrado del primer componente tonal 710b durante (el segundo rango de tiempo T2) y el tercer rango de tiempo T3. Durante el segundo y tercer rangos de tiempo T2 y T3, el segundo componente tonal 720 aún tiene forma de onda codificada. Además, en la presente realización, el primer y segundo componentes tonales se intercalarán con la señal de audio reconstruida de alta frecuencia por medio de la incorporación y, por lo tanto, el codificador ha ajustado la envolvente espectral transmitida, la envolvente SBR, de manera acorde.
Además, un transitorio 730 se ha identificado en la señal de audio en el lado de codificador. El transitorio 730 tiene una duración temporal correspondiente al segundo rango de tiempo T2, y corresponde a un intervalo de frecuencia entre la primera frecuencia de transición fc1 y una segunda frecuencia de transición fc2. En un lado de codificador, se ha decidido codificar la forma de onda de la porción tiempo-frecuencia de la señal de audio correspondiente a la ubicación del transitorio. En la presente realización, el intercalado del transitorio con forma de onda codificada se lleva a cabo mediante reemplazo. Un esquema de señalización se establece para señalizar dicha información al decodificador. El esquema de señalización comprende información relacionada con en qué rangos de tiempo y/o en qué rangos de frecuencia por encima de la primera frecuencia de transición fc1 una segunda señal con forma de onda codificada se encuentra disponible. El esquema de señalización puede también asociarse a reglas relacionadas con cómo se llevará a cabo el intercalado, a saber, si el intercalado es por medio de la incorporación o reemplazo. El esquema de señalización puede también asociarse a reglas que definen el orden de prioridad de la incorporación o reemplazo de las diferentes señales según se explicará más abajo.
El esquema de señalización incluye un primer vector 740, etiquetado "sinusoide adicional", que indica para cada subbanda de frecuencia si una sinusoide debe añadirse o no de manera paramétrica. En la Figura 7, la incorporación del primer componente tonal 710b en el segundo y tercer rangos de tiempo T2 y T3 se indica por un "1" para la subbanda correspondiente del primer vector 740. La señalización que incluye el primer vector 740 se conoce
5
10
15
20
25
30
35
40
45
50
55
de la técnica anterior. Existen reglas definidas en el decodificador de la técnica anterior para cuando se permite que una sinusoide se inicie. La regla es que si se detecta una nueva sinusoide, a saber, la señalización "sinusoide adicional" del primer vector 740 va de cero en una trama a uno en la siguiente trama, para una subbanda específica, entonces la sinusoide comienza en el inicio de la trama a menos que haya un episodio de transitorio en la trama, por lo cual la sinusoide comienza en el transitorio. En el ejemplo ilustrado, hay un episodio de transitorio 730 en la trama que explica porqué la reconstrucción de forma paramétrica por medio de un sinusoidal para la banda de frecuencia 710 solo comienza después del episodio de transitorio 730.
El esquema de señalización además incluye un segundo vector 750, etiquetado "codificación de forma de onda". El segundo vector 750 indica para cada subbanda de frecuencia si una señal con forma de onda codificada se encuentra disponible para intercalarse con una reconstrucción de frecuencia alta de la señal de audio. En la Figura 7, la disponibilidad de una señal con forma de onda codificada para el primer y el segundo componentes tonales 710 y 720 se indica mediante un "1" para la subbanda correspondiente del segundo vector 750. En el presente ejemplo, la indicación de disponibilidad de datos con forma de onda codificada en el segundo vector 750 también es una indicación de que el intercalado se llevará a cabo a modo de incorporación. Sin embargo, en otras realizaciones, la indicación de disponibilidad de datos con forma de onda codificada en el segundo vector 750 puede ser una indicación de que el intercalado se llevará a cabo a modo de reemplazo.
El esquema de señalización además incluye un tercer vector 760, etiquetado "codificación de forma de onda". El tercer vector 760 indica para cada intervalo de tiempo si una señal con forma de onda codificada se encuentra disponible para el intercalado con una reconstrucción de frecuencia alta de la señal de audio. En la Figura 7, la disponibilidad de una señal con forma de onda codificada para el transitorio 730 se indica mediante un "1" para el intervalo de tiempo correspondiente del tercer vector 760. En el presente ejemplo, la indicación de disponibilidad de datos con forma de onda codificada en el tercer vector 760 también es una indicación de que el intercalado se llevará a cabo a modo de reemplazo. Sin embargo, en otras realizaciones, la indicación de disponibilidad de datos con forma de onda codificada en el tercer vector 760 puede ser una indicación de que el intercalado se llevará a cabo a modo de incorporación.
Existen muchas alternativas para cómo realizar el primer, segundo y tercer vectores 740, 750, 760. En algunas realizaciones, los vectores 740, 750, 760 son vectores binarios que usan una lógica cero o una lógica uno para proveer sus indicaciones. En otras realizaciones, los vectores 740, 750, 760 pueden tomar diferentes formas. Por ejemplo, un primer valor como, por ejemplo, "0" en el vector puede indicar que ningún dato con forma de onda codificada se encuentra disponible para la banda de frecuencia o intervalo de tiempo específico. Un segundo valor como, por ejemplo, "1" en el vector puede indicar que el intercalado se llevará a cabo a modo de incorporación para la banda de frecuencia o intervalo de tiempo específico. Un tercer valor como, por ejemplo, "2" en el vector puede indicar que el intercalado se llevará a cabo a modo de reemplazo para la banda de frecuencia o intervalo de tiempo específico.
El esquema de señalización a modo de ejemplo de más arriba puede también asociarse a un orden de prioridad que puede aplicarse en caso de conflicto. A modo de ejemplo, el tercer vector 760, que representa el intercalado de un transitorio a modo de reemplazo puede tener prioridad sobre el primer y segundo vectores 740 y 750. Además, el primer vector 740 puede tener prioridad sobre el segundo vector 750. Se comprende que cualquier orden de prioridad entre los vectores 740, 750, 760 puede definirse.
La Figura 8a ilustra la etapa de intercalado 130 de la Figura 1 en mayor detalle. La etapa de intercalado 130 puede comprender un componente de decodificación de señalización 1301, un componente de lógica de decisión 1302 y un componente de intercalado 1303. Según se describe más arriba, la etapa de intercalado 130 recibe una segunda señal con forma de onda codificada 802 y una señal de frecuencia extendida 803. La etapa de intercalado 130 puede también recibir una señal de control 805. El componente de decodificación de señalización 1301 decodifica la señal de control 805 en tres partes correspondientes al primer vector 740, segundo vector 750, y tercer vector 760 del esquema de señalización descrito con respecto a la Figura 7. Estos se envían al componente de lógica de decisión 1302 que, según la lógica, crea una matriz tiempo/frecuencia 870 para la trama QMF que indica cuál de la segunda señal con forma de onda codificada 802 y la señal de frecuencia extendida 803 usar para qué losa tiempo/frecuencia. La matriz tiempo/frecuencia 870 se envía al componente de intercalado 1303 y se usa cuando se intercala la segunda señal con forma de onda codificada 802 con la señal de frecuencia extendida 803.
El componente de lógica de decisión 1302 se muestra en mayor detalle en la Figura 8b. Los componentes de lógica de decisión 1302 pueden comprender un componente de generación de matriz tiempo/frecuencia 13021 y un componente de priorización 13022. El componente de generación de tiempo/frecuencia 13021 genera una matriz tiempo/frecuencia 870 que tiene losas tiempo/frecuencia correspondientes a la trama QMF actual. El componente de generación de tiempo/frecuencia 13021 incluye información del primer vector 740, segundo vector 750 y tercer vector 760 en la matriz tiempo/frecuencia. Por ejemplo, según se ilustra en la Figura 7, si hay un "1" (o, de manera más general, cualquier número diferente de cero) en el segundo vector 750 para cierta frecuencia, las losas tiempo/frecuencia correspondientes a dicha cierta frecuencia se establecen en "1" (o, de manera más general, en el número presente en el vector 750) en la matriz tiempo/frecuencia 870 e indica que el intercalado con la segunda
5
10
15
20
25
30
35
40
45
50
55
señal con forma de onda codificada 802 se llevará a cabo para dichas losas tiempo/frecuencia. De manera similar, si hay un "1" (o, de manera más general, cualquier número diferente de cero) en el tercer vector 760 para cierto intervalo de tiempo, las losas tiempo/frecuencia correspondientes a dicho cierto intervalo de tiempo se establecen en "1" (o, de manera más general, cualquier número diferente de cero) en la matriz tiempo/frecuencia 870 e indica que el intercalado con la segunda señal con forma de onda codificada 802 se llevará a cabo para dichas losas tiempo/frecuencia. Asimismo, si hay un "1" en el primer vector 740 para cierta frecuencia, las losas tiempo/frecuencia correspondientes a dicha cierta frecuencia se establecen en "1" en la matriz tiempo/frecuencia 870 e indica que la señal de salida 804 se basará en la señal de frecuencia extendida 803 en la cual dicha cierta frecuencia se ha reconstruido de manera paramétrica, p.ej., mediante la incorporación de una señal sinusoidal.
Para algunas losas tiempo/frecuencia, habrá un conflicto entre la información del primer vector 740, segundo vector 750 y tercer vector 760, lo cual significa que más de uno de los vectores 740-760 indica un número diferente de cero como, por ejemplo, un "1", para la misma losa tiempo/frecuencia de la matriz tiempo/frecuencia 870. En dicha situación, el componente de priorización 13022 necesita tomar una decisión sobre cómo priorizar la información de los vectores con el fin de eliminar los conflictos en la matriz tiempo/frecuencia 870. De manera más precisa, el componente de priorización 13022 decide si la señal de salida 804 se basará en la señal de frecuencia extendida 803 (y, de esta manera, dar prioridad al primer vector 740), mediante el intercalado de la segunda señal con forma de onda codificada 802 en una dirección de frecuencia (y, de esta manera, dar prioridad al segundo vector 750), o mediante el intercalado de la segunda señal con forma de onda codificada 802 en una dirección de tiempo (y, de esta manera, dar prioridad al tercer vector 750).
A tal fin, el componente de priorización 13022 comprende reglas predefinidas relacionadas con un orden de prioridad de los vectores 740-760. El componente de priorización 13022 puede también comprender reglas predefinidas relacionadas con cómo se llevará a cabo el intercalado, a saber, si el intercalado se llevará a cabo a modo de incorporación o reemplazo.
Preferiblemente, dichas reglas son las siguientes:
■ Intercalado en la dirección de tiempo, a saber, al intercalado, según se define por el tercer vector 760, se le da la prioridad más alta. El intercalado en la dirección de tiempo se lleva a cabo, preferiblemente, mediante el reemplazo de la señal de frecuencia extendida 803 en dichas losas tiempo/frecuencia definidas por el tercer vector 760. La resolución de tiempo del tercer vector 760 corresponde a un intervalo de tiempo de la trama QMF. Si la trama QMF corresponde a 2048 muestras de dominio temporal, un intervalo de tiempo puede, normalmente, corresponder a 128 muestras de dominio temporal.
■ A la reconstrucción paramétrica de frecuencias, a saber, mediante el uso de la señal de frecuencia extendida 803 según se define por el primer vector 740, se le da la segunda prioridad más alta. La resolución de frecuencia del primer vector 740 es la resolución de frecuencia de la trama QMF como, por ejemplo, una banda de envolvente SBR. Las reglas de la técnica anterior relacionadas con la señalización e interpretación del primer vector 740 permanecen válidas.
■ Intercalado en la dirección de frecuencia, a saber, al intercalado, según se define por el segundo vector 750, se le da el orden de prioridad más bajo. El intercalado en la dirección de frecuencia se lleva a cabo mediante la incorporación de la señal de frecuencia extendida 803 en dichas losas tiempo/frecuencia definidas por el segundo vector 750. La resolución de frecuencia del segundo vector 750 corresponde a la resolución de frecuencia de la trama QMF como, por ejemplo, una banda de envolvente SBR.
III. Realizaciones a modo de ejemplo - Codificador
La Figura 5 ilustra una realización a modo de ejemplo de un codificador 500 que es apropiado para su uso en un sistema de procesamiento de audio. El codificador 500 comprende una etapa de recepción 510, una etapa de codificación de forma de onda 520, una etapa de codificación de alta frecuencia 530, una etapa de detección de codificación de intercalado 540, y una etapa de transmisión 550. La etapa de codificación de alta frecuencia 530 puede comprender una etapa de cálculo de parámetros de reconstrucción de frecuencia alta 530a y una etapa de ajuste de parámetros de reconstrucción de frecuencia alta 530b.
El funcionamiento del codificador 500 se describirá a continuación con referencia a la Figura 5 y al diagrama de flujo de la Figura 6. En la etapa E02, la etapa de recepción 510 recibe una señal de audio que se codificará.
La señal de audio recibida se ingresa en la etapa de codificación de alta frecuencia 530. Según la señal de audio recibida, la etapa de codificación de alta frecuencia 530 y, en particular, la etapa de cálculo de parámetros de reconstrucción de frecuencia alta 530a, calcula, en la etapa E04, parámetros de reconstrucción de frecuencia alta, lo cual permite la reconstrucción de frecuencia alta de la señal de audio recibida por encima de la primera frecuencia de transición fc. La etapa de cálculo de parámetros de reconstrucción de frecuencia alta 530a puede usar cualquier técnica conocida para calcular los parámetros de reconstrucción de frecuencia alta como, por ejemplo, la codificación SBR. La etapa de codificación de alta frecuencia 530 normalmente funciona en un dominio QMF. Por
9
5
10
15
20
25
30
35
40
45
50
55
consiguiente, antes de calcular los parámetros de reconstrucción de frecuencia alta, la etapa de codificación de alta frecuencia 530 puede llevar a cabo el análisis QMF de la señal de audio recibida. Como resultado, los parámetros de reconstrucción de frecuencia alta se definen con respecto a un dominio QMF.
Los parámetros de reconstrucción de frecuencia alta calculados pueden comprender un número de parámetros relacionados con la reconstrucción de frecuencia alta. Por ejemplo, los parámetros de reconstrucción de frecuencia alta pueden comprender parámetros relacionados con cómo reflejar o copiar la señal de audio de porciones de subbanda del rango de frecuencia por debajo de la primera frecuencia de transición fc a porciones de subbanda del rango de frecuencia por encima de la primera frecuencia de transición fc. A veces, se hace referencia a dichos parámetros como parámetros que describen la estructura de interconexión.
Los parámetros de reconstrucción de frecuencia alta pueden además comprender parámetros de envolvente espectral que describen los niveles de energía objetivo de porciones de subbanda del rango de frecuencia por encima de la primera frecuencia de transición.
Los parámetros de reconstrucción de frecuencia alta pueden además comprender parámetros de armónicos faltantes que indican armónicos, o componentes tonales fuertes que faltarán si la señal de audio se reconstruye en el rango de frecuencia por encima de la primera frecuencia de transición mediante el uso de los parámetros que describen la estructura de interconexión.
La etapa de detección de codificación de intercalado 540 luego, en la etapa E06, identifica un subconjunto del rango de frecuencia por encima de la primera frecuencia de transición fc para el cual el contenido espectral de la señal de audio recibida tendrá forma de onda codificada. En otras palabras, el rol de la etapa de detección de codificación de intercalado 540 es identificar frecuencias por encima de la primera frecuencia de transición para la cual la reconstrucción de frecuencia alta no provee un resultado deseable.
La etapa de detección de codificación de intercalado 540 puede tomar diferentes enfoques para identificar un subconjunto relevante del rango de frecuencia por encima de la primera frecuencia de transición fc. Por ejemplo, la etapa de detección de codificación de intercalado 540 puede identificar componentes tonales fuertes que no se reconstruirán bien por la reconstrucción de frecuencia alta. La identificación de componentes tonales fuertes puede basarse en la señal de audio recibida, por ejemplo, mediante la determinación de la energía de la señal de audio como una función de la frecuencia e identificación de frecuencias que tienen una energía alta como unas que comprenden componentes tonales fuertes. Además, la identificación puede basarse en el conocimiento sobre cómo la señal de audio recibida se reconstruirá en el decodificador. En particular, dicha identificación puede basarse en cuotas de tonalidad que constituyen la relación de una medida de tonalidad de la señal de audio recibida y la medida de tonalidad de una reconstrucción de la señal de audio recibida para bandas de frecuencia por encima de la primera frecuencia de transición. Una cuota de tonalidad alta indica que la señal de audio no se reconstruirá bien para la frecuencia correspondiente a la cuota de tonalidad.
La etapa de detección de codificación de intercalado 540 puede también detectar transitorios en la señal de audio recibida que no se reconstruirá bien por la reconstrucción de frecuencia alta. Dicha identificación puede ser el resultado de un análisis tiempo-frecuencia de la señal de audio recibida. Por ejemplo, un intervalo tiempo-frecuencia donde ocurre un transitorio puede detectarse a partir de un espectrograma de la señal de audio recibida. Dicho intervalo tiempo-frecuencia normalmente tiene un rango de tiempo que es más corto que una trama de tiempo de la señal de audio recibida. El rango de frecuencia correspondiente normalmente corresponde a un intervalo de frecuencia que se extiende a una segunda frecuencia de transición. El subconjunto del rango de frecuencia por encima de la primera frecuencia de transición puede, por lo tanto, identificarse por la etapa de detección de codificación de intercalado 540 como un intervalo que se extiende de la primera frecuencia de transición a una segunda frecuencia de transición.
La etapa de detección de codificación de intercalado 540 puede además recibir parámetros de reconstrucción de frecuencia alta de la etapa de cálculo de parámetros de reconstrucción de frecuencia alta 530a. Según los parámetros de armónicos faltantes de los parámetros de reconstrucción de frecuencia alta, la etapa de detección de codificación de intercalado 540 puede identificar frecuencias de armónicos faltantes y decidir incluir al menos algunas de las frecuencias de los armónicos faltantes en el subconjunto identificado del rango de frecuencia por encima de la primera frecuencia de transición fc. Dicho enfoque puede ser ventajoso si hay un componente tonal fuerte en la señal de audio que no puede modelarse de forma correcta dentro de los límites del modelo paramétrico.
La señal de audio recibida se ingresa también en la etapa de codificación de forma de onda 520. La etapa de codificación de forma de onda 520, en la etapa E08, lleva a cabo la codificación de forma de onda de la señal de audio recibida. En particular, la etapa de codificación de forma de onda 520 genera una primera señal con forma de onda codificada mediante la codificación de forma de onda de la señal de audio para bandas espectrales hasta la primera frecuencia de transición fc. Además, la etapa de codificación de forma de onda 520 recibe el subconjunto identificado de la etapa de detección de codificación de intercalado 540. La etapa de codificación de forma de onda 520 entonces genera una segunda señal con forma de onda codificada mediante la codificación de forma de onda
5
10
15
20
25
30
35
40
45
50
55
de la señal de audio recibida para bandas espectrales correspondientes al subconjunto identificado del rango de frecuencia por encima de la primera frecuencia de transición. La segunda señal con forma de onda codificada tendrá, por lo tanto, un contenido espectral correspondiente al subconjunto identificado del rango de frecuencia por encima de la primera frecuencia de transición fc.
Según las realizaciones a modo de ejemplo, la etapa de codificación de forma de onda 520 puede generar la primera y segunda señales con forma de onda codificada mediante la primera codificación de forma de onda de la señal de audio recibida para todas las bandas espectrales y luego eliminar el contenido espectral de la señal con forma de onda codificada para frecuencias correspondientes al subconjunto identificado de frecuencias por encima de la primera frecuencia de transición fc.
La etapa de codificación de forma de onda puede, por ejemplo, llevar a cabo la codificación de forma de onda mediante el uso de un banco de filtros de transformada con ventanas superpuestas como, por ejemplo, un banco de filtros MDCT. Dichos bancos de filtros de transformada con ventanas superpuestas usan ventanas que tienen cierta longitud temporal, lo cual provoca que los valores de la señal transformada en una trama de tiempo se vea influenciada por valores de la señal en la trama de tiempo previa y siguiente. Con el fin de reducir el efecto de este hecho, puede ser ventajoso llevar a cabo cierta cantidad de sobrecodificación temporal, lo cual significa que la etapa de codificación de forma de onda 520 no solo codifica la forma de onda de la trama de tiempo actual de la señal de audio recibida sino también la trama de tiempo previa y siguiente de la señal de audio recibida. De manera similar, también la etapa de codificación de alta frecuencia 530 puede codificar no solo la trama de tiempo actual de la señal de audio recibida sino también la trama de tiempo previa y siguiente de la señal de audio recibida. De esta manera, un fondo encadenado mejorado entre la segunda señal con forma de onda codificada y una reconstrucción de frecuencia alta de la señal de audio puede lograrse en el dominio QMF. Además, ello reduce la necesidad de ajuste de los bordes de datos de envolvente espectral.
Debe notarse que la primera y segunda señales con forma de onda codificada pueden ser señales separadas. Sin embargo, preferiblemente forman una primera y segunda porciones de señal con forma de onda codificada de una señal común. De ser así, pueden generarse llevando a cabo una sola función de codificación de forma de onda en la señal de audio recibida como, por ejemplo, mediante la aplicación de una sola transformada MDCT a la señal de audio recibida.
La etapa de codificación de alta frecuencia 530 y, en particular, la etapa de ajuste de parámetros de reconstrucción de frecuencia alta 530b, pueden también recibir el subconjunto identificado del rango de frecuencia por encima de la primera frecuencia de transición fc. Según los datos recibidos, la etapa de ajuste de parámetros de reconstrucción de frecuencia alta 530b puede, en la etapa E10, ajustar los parámetros de reconstrucción de frecuencia alta. En particular, la etapa de ajuste de parámetros de reconstrucción de frecuencia alta 530b puede ajustar los parámetros de reconstrucción de frecuencia alta correspondientes a bandas espectrales comprendidas en el subconjunto identificado.
Por ejemplo, la etapa de ajuste de parámetros de reconstrucción de frecuencia alta 530b puede ajustar los parámetros de envolvente espectral y describir los niveles de energía objetivo de porciones de subbanda del rango de frecuencia por encima de la primera frecuencia de transición. Ello es particularmente relevante si la segunda señal con forma de onda codificada se añadirá con una reconstrucción de frecuencia alta de la señal de audio en un decodificador, dado que entonces la energía de la segunda señal con forma de onda codificada se añadirá a la energía de la reconstrucción de frecuencia alta. Con el fin de compensar dicha incorporación, la etapa de ajuste de parámetros de reconstrucción de frecuencia alta 530b puede ajustar los parámetros de envolvente de energía mediante la resta de una energía medida de la segunda señal con forma de onda codificada de los niveles de energía objetivo para bandas espectrales correspondientes al subconjunto identificado del rango de frecuencia por encima de la primera frecuencia de transición fc. De esta manera, la energía de señal total se preservará cuando la segunda señal con forma de onda codificada y la reconstrucción de frecuencia alta se añadan al decodificador. La energía de la segunda señal con forma de onda codificada puede, por ejemplo, medirse por la etapa de detección de codificación de intercalado 540.
La etapa de ajuste de parámetros de reconstrucción de frecuencia alta 530b puede también ajustar los parámetros de armónicos faltantes. Más concretamente, si una subbanda que comprende un armónico faltante según se indica por los parámetros de armónicos faltantes es parte del subconjunto identificado del rango de frecuencia por encima de la primera frecuencia de transición fc, dicha subbanda tendrá forma de onda codificada por la etapa de codificación de forma de onda 520. Por consiguiente, la etapa de ajuste de parámetros de reconstrucción de frecuencia alta 530b puede eliminar dichos armónicos faltantes de los parámetros de armónicos faltantes, dado que dichos armónicos faltantes no necesitan reconstruirse de manera paramétrica en el lado de decodificador.
La etapa de transmisión 550 entonces recibe la primera y segunda señales con forma de onda codificada de la etapa de codificación de forma de onda 520 y los parámetros de reconstrucción de frecuencia alta de la etapa de codificación de alta frecuencia 530. La etapa de transmisión 550 formatea los datos recibidos en un tren de bits para su transmisión a un decodificador.
5
10
15
20
25
30
35
40
45
La etapa de detección de codificación de intercalado 540 puede además señalizar información a la etapa de transmisión 550 para su incorporación al tren de bits. En particular, la etapa de detección de codificación de intercalado 540 puede señalizar cómo la segunda señal con forma de onda codificada se intercalará con una reconstrucción de frecuencia alta de la señal de audio como, por ejemplo, si el intercalado se llevará a cabo mediante la incorporación de las señales o mediante el reemplazo de una de las señales por la otra, y para qué rango de frecuencia y qué intervalo de tiempo las señales con forma de onda codificada deben intercalarse. Por ejemplo, la señalización puede llevarse a cabo mediante el uso del esquema de señalización descrito con referencia a la Figura 7.
Equivalentes, extensiones, alternativas y varios
Realizaciones adicionales de la presente descripción serán aparentes para una persona con experiencia en la técnica tras estudiar la descripción de más arriba. Aunque la presente descripción y dibujos describen realizaciones y ejemplos, la descripción no se encuentra limitada a dichos ejemplos específicos. Se pueden llevar a cabo numerosas modificaciones y variaciones sin apartarse del alcance de la presente descripción, el cual se define por las reivindicaciones anexas. Todo signo de referencia que aparezca en las reivindicaciones no se comprenderá como uno que limita su alcance.
Además, las variaciones de las realizaciones descritas se pueden comprender y llevar a cabo por la persona con experiencia en la técnica al practicar la descripción, a partir de un estudio de los dibujos, la descripción y las reivindicaciones anexas. En las reivindicaciones, la expresión "que comprende(n)" no excluye otros elementos o etapas, y el artículo indefinido "un" o "una/o" no excluye una pluralidad. El mero hecho de que ciertas medidas se incluyan en reivindicaciones dependientes mutuamente diferentes no indica que una combinación de dichas medidas no se pueda usar de manera ventajosa.
Los sistemas y métodos descritos en la presente memoria más arriba se pueden implementar como software, firmware, hardware o una combinación de ellos. En una implementación de hardware, la división de tareas entre unidades funcionales a la que se hace referencia en la descripción de más arriba no corresponde, necesariamente, a la división en unidades físicas; por el contrario, un componente físico puede tener múltiples funcionalidades y una tarea puede llevarse a cabo por varios componentes físicos en colaboración. Ciertos componentes o todos los componentes se pueden implementar como software ejecutado por un procesador digital de señales o microprocesador, o se pueden implementar como hardware o como un circuito integrado para aplicaciones específicas. Dicho software se puede distribuir en medios legibles por ordenador, los cuales pueden comprender medios de almacenamiento de ordenador (o medios no transitorios) y medios de comunicación (o medios transitorios). Como una persona con experiencia en la técnica conoce, el término medio de almacenamiento de ordenador incluye medios no permanentes y permanentes, extraíbles y no extraíbles implementados en cualquier método o tecnología para el almacenamiento de información como, por ejemplo, instrucciones legibles por ordenador, estructuras de datos, módulos de programa u otros datos. Los medios de almacenamiento de ordenador incluyen, pero sin limitación, RAM, ROM, EEPROM, memoria flash u otra tecnología de memoria, CD-ROM, discos versátiles digitales (DVD) u otro almacenamiento de disco óptico, casetes magnéticos, cinta magnética, almacenamiento de disco magnético u otros dispositivos de almacenamiento magnético, o cualquier otro medio que se pueda usar para almacenar la información deseada y al que se pueda acceder por un ordenador. Además, la persona con experiencia en la técnica sabe que los medios de comunicación normalmente realizan instrucciones legibles por ordenador, estructuras de datos, módulos de programa u otros datos en una señal de datos modulada como, por ejemplo, una onda portadora u otro mecanismo de transporte e incluye cualquier medio de entrega de información.
Claims (15)
- 51015202530354045REIVINDICACIONES1. Un método de decodificación en un sistema de procesamiento de audio que comprende:recibir una primera señal con forma de onda codificada (401a, 401b, 401c) que tiene un contenido espectral hasta una primera frecuencia de transición,recibir una señal de control (805) que comprende datos que indican uno o más rangos de tiempo para los cuales una segunda señal con forma de onda codificada se encuentra disponible para el intercalado,recibir una segunda señal con forma de onda codificada (402b) que tiene un contenido espectral correspondiente a un subconjunto del rango de frecuencia por encima de la primera frecuencia de transición, en donde, para cada rango de tiempo para el cual una segunda señal con forma de onda codificada se indica como disponible por la señal de control, el contenido espectral de la segunda señal con forma de onda codificada incluye todas las subbandas de frecuencia de un intervalo de frecuencia que se extiende entre la primera frecuencia de transición y una segunda frecuencia de transición,recibir parámetros de reconstrucción de frecuencia alta,llevar a cabo la reconstrucción de frecuencia alta mediante el uso de la primera señal con forma de onda codificada (401a, 401b, 401c) y los parámetros de reconstrucción de frecuencia alta para generar una señal de frecuencia extendida (403a, 403b, 403c) que tiene un contenido espectral por encima de la primera frecuencia de transición, eintercalar la señal de frecuencia extendida (403a, 403b, 403c) con la segunda señal con forma de onda codificada (402b) según la señal de control recibida (805).
- 2. El método de decodificación de la reivindicación 1, en donde la señal de control además comprende datos que indican uno o más rangos de frecuencia por encima de la primera frecuencia de transición para la cual la segunda señal con forma de onda codificada se encuentra disponible para el intercalado, y en donde el subconjunto del rango de frecuencia por encima de la primera frecuencia de transición además comprende múltiples intervalos de frecuencia aislados correspondientes al único o más rangos de frecuencia indicados.
- 3. El método de decodificación de la reivindicación 1, en donde los datos que indican uno o más rangos de tiempo indican la disponibilidad de la segunda señal con forma de onda codificada para cada intervalo de tiempo de una trama de tiempo establecida por el sistema de procesamiento de audio.
- 4. El método de decodificación de cualquiera de las reivindicaciones precedentes, en donde la etapa de llevar a cabo la reconstrucción de frecuencia alta comprende llevar a cabo la replicación de banda espectral, SBR.
- 5. El método de decodificación de cualquiera de las reivindicaciones precedentes, en donde la etapa de llevar a cabo la reconstrucción de frecuencia alta se lleva a cabo en un dominio de la frecuencia, y/oen donde la etapa de intercalar la señal de frecuencia extendida con la segunda señal con forma de onda codificada se lleva a cabo en un dominio de la frecuencia.
- 6. El método de decodificación de la reivindicación 5, en donde el dominio de la frecuencia es un dominio de Filtros Espejo en Cuadratura, QMF, por sus siglas en inglés, y/oen donde la primera y segunda señales con forma de onda codificada según se reciben se codifican mediante el uso de la misma transformada MDCT, y/oen donde la primera señal con forma de onda codificada y la segunda señal con forma de onda codificada forman una primera y segunda porciones de señal de una señal común.
- 7. El método de decodificación de cualquiera de las reivindicaciones precedentes, que además comprende ajustar el contenido espectral de la señal de frecuencia extendida según los parámetros de reconstrucción de frecuencia alta para ajustar la envolvente espectral de la señal de frecuencia extendida.
- 8. El método de decodificación de cualquiera de las reivindicaciones precedentes, en donde el intercalado comprende añadir la segunda señal con forma de onda codificada a la señal de frecuencia extendida, oen donde el intercalado comprende reemplazar el contenido espectral de la señal de frecuencia extendida por el contenido espectral de la segunda señal con forma de onda codificada en el subconjunto del rango de frecuencia por encima de la primera frecuencia de transición que corresponde al contenido espectral de la segunda señal con forma de onda codificada.5101520253035404550
- 9. El método de decodificación de cualquiera de las reivindicaciones precedentes, en donde la señal de control comprende al menos uno de un segundo vector que indica uno o más rangos de frecuencia por encima de la primera frecuencia de transición para los cual la segunda señal con forma de onda codificada se encuentra disponible para el intercalado con la señal de frecuencia extendida, y un tercer vector que indica el único o más rangos de tiempo para los cuales la segunda señal con forma de onda codificada se encuentra disponible para el intercalado con la señal de frecuencia extendida.
- 10. El método de decodificación de la reivindicación 9, en donde la señal de control comprende un primer vector que indica uno o más rangos de frecuencia por encima de la primera frecuencia de transición que se reconstruirá, de manera paramétrica, según los parámetros de reconstrucción de frecuencia alta.
- 11. Un decodificador para un sistema de procesamiento de audio, que comprende:una etapa de recepción configurada para recibir una primera señal con forma de onda codificada (401a, 401b, 401c) que tiene un contenido espectral hasta una primera frecuencia de transición, una señal de control (805) que comprende datos que indican uno o más rangos de tiempo para los cuales una segunda señal con forma de onda codificada se encuentra disponible para el intercalado, y una segunda señal con forma de onda codificada (402b) que tiene un contenido espectral correspondiente a un subconjunto del rango de frecuencia por encima de la primera frecuencia de transición, y parámetros de reconstrucción de frecuencia alta, en donde, para cada rango de tiempo para el cual una segunda señal con forma de onda codificada se indica como disponible por la señal de control, el contenido espectral de la segunda señal con forma de onda codificada incluye todas las subbandas de frecuencia de un intervalo de frecuencia que se extiende entre la primera frecuencia de transición y una segunda frecuencia de transición;una etapa de reconstrucción de frecuencia alta configurada para recibir la primera señal con forma de onda codificada y los parámetros de reconstrucción de frecuencia alta de la etapa de recepción y llevar a cabo la reconstrucción de frecuencia alta mediante el uso de la primera señal con forma de onda codificada (401a, 401b, 401c) y los parámetros de reconstrucción de frecuencia alta para generar una señal de frecuencia extendida (403a, 403b, 403c) que tiene un contenido espectral por encima de la primera frecuencia de transición;y una etapa de intercalado configurada para recibir la señal de frecuencia extendida de la etapa de reconstrucción de frecuencia alta y la segunda señal con forma de onda codificada de la etapa de recepción, e intercalar la señal de frecuencia extendida (403a, 403b, 403c) con la segunda señal con forma de onda codificada (402b).
- 12. Un método de codificación en un sistema de procesamiento de audio, que comprende las etapas de: recibir una señal de audio que se codificará;calcular, según la señal de audio recibida, parámetros de reconstrucción de frecuencia alta que permiten la reconstrucción de frecuencia alta de la señal de audio recibida por encima de una primera frecuencia de transición,identificar, según la señal de audio recibida, un subconjunto del rango de frecuencia por encima de la primera frecuencia de transición para el cual el contenido espectral de la señal de audio recibida tendrá forma de onda codificada y posteriormente, en un decodificador, se intercalará con una reconstrucción de frecuencia alta (403a, 403b, 403c) de la señal de audio, en donde la identificación incluye detectar transitorios (730) en la señal de audio;generar una primera señal con forma de onda codificada (401a, 401b, 401c) mediante la codificación de forma de onda de la señal de audio recibida para bandas espectrales hasta la primera frecuencia de transición; y una segunda señal con forma de onda codificada (402b) mediante la codificación de forma de onda de la señal de audio recibida para bandas espectrales correspondientes al subconjunto identificado del rango de frecuencia por encima de la primera frecuencia de transición, en donde, para un rango de tiempo donde un transitorio se detecta, un contenido espectral de la segunda señal con forma de onda codificada (402b) incluye todas las bandas espectrales de un intervalo de frecuencia que se extiende entre la primera frecuencia de transición y una segunda frecuencia de transición.
- 13. El método de codificación de la reivindicación 12, en donde el subconjunto del rango de frecuencia por encima de la primera frecuencia de transición además comprende múltiples intervalos de frecuencia aislados, y/oen donde los parámetros de reconstrucción de frecuencia alta se calculan mediante el uso de la replicación de la banda espectral, SBR, codificación, y/oque además comprende ajustar niveles de envolvente espectral comprendidos en los parámetros de reconstrucción de frecuencia alta para compensar la incorporación de una reconstrucción de frecuencia alta de la señal de audio recibida con la segunda señal con forma de onda codificada en un decodificador.
- 14. Un producto de programa de ordenador que comprende un medio legible por ordenador con instrucciones para llevar a cabo el método de cualquiera de las reivindicaciones 1-10, o con instrucciones para llevar a cabo el método de la reivindicación 12 o reivindicación 13.
- 15. Un codificador para un sistema de procesamiento de audio, que comprende:5 una etapa de recepción configurada para recibir una señal de audio que se codificará;una etapa de codificación de alta frecuencia configurada para recibir la señal de audio de la etapa de recepción y calcular, según la señal de audio recibida, parámetros de reconstrucción de frecuencia alta que permiten la reconstrucción de frecuencia alta de la señal de audio recibida por encima de una primera frecuencia de transición;una etapa de detección de codificación de intercalado configurada para identificar, según la señal de audio recibida, 10 un subconjunto del rango de frecuencia por encima de la primera frecuencia de transición para el cual el contenido espectral de la señal de audio recibida tendrá forma de onda codificada y posteriormente, en un decodificador, se intercalará con una reconstrucción de frecuencia alta (403a, 403b, 403c) de la señal de audio, en donde la identificación incluye detectar transitorios (730) en la señal de audio; yuna etapa de codificación de forma de onda configurada para recibir la señal de audio de la etapa de recepción y 15 generar una primera señal con forma de onda codificada (401a, 401b, 401c) mediante la codificación de forma de onda de la señal de audio recibida para bandas espectrales hasta la primera frecuencia de transición; y recibir el subconjunto identificado del rango de frecuencia por encima de la primera frecuencia de transición de la etapa de detección de codificación de intercalado y generar una segunda señal con forma de onda codificada (402b) mediante la codificación de forma de onda de la señal de audio recibida para bandas espectrales correspondientes al 20 subconjunto identificado recibido del rango de frecuencia, en donde, para un rango de tiempo donde se detecta un transitorio, un contenido espectral de la segunda señal con forma de onda codificada (402b) incluye todas las bandas espectrales de un intervalo de frecuencia que se extiende entre una primera frecuencia de transición y una segunda frecuencia de transición.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361808687P | 2013-04-05 | 2013-04-05 | |
US201361808687P | 2013-04-05 | ||
PCT/EP2014/056856 WO2014161995A1 (en) | 2013-04-05 | 2014-04-04 | Audio encoder and decoder for interleaved waveform coding |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2688134T3 true ES2688134T3 (es) | 2018-10-31 |
Family
ID=50442508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES14715895.0T Active ES2688134T3 (es) | 2013-04-05 | 2014-04-04 | Codificador y decodificador de audio para codificación de forma de onda intercalada |
Country Status (10)
Country | Link |
---|---|
US (5) | US9514761B2 (es) |
EP (4) | EP3742440B1 (es) |
JP (6) | JP6026704B2 (es) |
KR (7) | KR102170665B1 (es) |
CN (7) | CN117253497A (es) |
BR (4) | BR122020020705B1 (es) |
ES (1) | ES2688134T3 (es) |
HK (1) | HK1217054A1 (es) |
RU (4) | RU2622872C2 (es) |
WO (1) | WO2014161995A1 (es) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3742440B1 (en) * | 2013-04-05 | 2024-07-31 | Dolby International AB | Audio decoder for interleaved waveform coding |
CN105493182B (zh) * | 2013-08-28 | 2020-01-21 | 杜比实验室特许公司 | 混合波形编码和参数编码语音增强 |
RU2665281C2 (ru) * | 2013-09-12 | 2018-08-28 | Долби Интернэшнл Аб | Временное согласование данных обработки на основе квадратурного зеркального фильтра |
EP3288031A1 (en) | 2016-08-23 | 2018-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding an audio signal using a compensation value |
EP3337065B1 (en) * | 2016-12-16 | 2020-11-25 | Nxp B.V. | Audio processing circuit, audio unit and method for audio signal blending |
US20190051286A1 (en) * | 2017-08-14 | 2019-02-14 | Microsoft Technology Licensing, Llc | Normalization of high band signals in network telephony communications |
JP7270836B2 (ja) | 2019-08-08 | 2023-05-10 | ブームクラウド 360 インコーポレイテッド | 音響心理学的周波数範囲拡張のための非線形適応フィルタバンク |
CN113192521B (zh) * | 2020-01-13 | 2024-07-05 | 华为技术有限公司 | 一种音频编解码方法和音频编解码设备 |
CN113808596A (zh) * | 2020-05-30 | 2021-12-17 | 华为技术有限公司 | 一种音频编码方法和音频编码装置 |
JP7253208B2 (ja) | 2021-07-09 | 2023-04-06 | 株式会社ディスコ | ダイヤモンド成膜方法及びダイヤモンド成膜装置 |
Family Cites Families (76)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2598159B2 (ja) * | 1990-08-28 | 1997-04-09 | 三菱電機株式会社 | 音声信号処理装置 |
DE69322805T2 (de) | 1992-04-03 | 1999-08-26 | Yamaha Corp. | Verfahren zur Steuerung von Tonquellenposition |
US5598478A (en) | 1992-12-18 | 1997-01-28 | Victor Company Of Japan, Ltd. | Sound image localization control apparatus |
EP0695109B1 (en) | 1994-02-14 | 2011-07-27 | Sony Corporation | Device for reproducing video signal and audio signal |
JP3849210B2 (ja) * | 1996-09-24 | 2006-11-22 | ヤマハ株式会社 | 音声符号化復号方式 |
SE512719C2 (sv) * | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
US6442275B1 (en) * | 1998-09-17 | 2002-08-27 | Lucent Technologies Inc. | Echo canceler including subband echo suppressor |
CA2311817A1 (en) | 1998-09-24 | 2000-03-30 | Fourie, Inc. | Apparatus and method for presenting sound and image |
SE9903553D0 (sv) * | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
EP1158494B1 (en) * | 2000-05-26 | 2002-05-29 | Lucent Technologies Inc. | Method and apparatus for performing audio coding and decoding by interleaving smoothed critical band evelopes at higher frequencies |
SE0004187D0 (sv) * | 2000-11-15 | 2000-11-15 | Coding Technologies Sweden Ab | Enhancing the performance of coding systems that use high frequency reconstruction methods |
EP1423847B1 (en) * | 2001-11-29 | 2005-02-02 | Coding Technologies AB | Reconstruction of high frequency components |
CN1177433C (zh) | 2002-04-19 | 2004-11-24 | 华为技术有限公司 | 一种移动网络中广播多播业务源的管理方法 |
KR20050057288A (ko) | 2002-09-09 | 2005-06-16 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 스마트 스피커들 |
US7191136B2 (en) * | 2002-10-01 | 2007-03-13 | Ibiquity Digital Corporation | Efficient coding of high frequency signal information in a signal using a linear/non-linear prediction model based on a low pass baseband |
US7318035B2 (en) * | 2003-05-08 | 2008-01-08 | Dolby Laboratories Licensing Corporation | Audio coding systems and methods using spectral component coupling and spectral component regeneration |
DE10338694B4 (de) | 2003-08-22 | 2005-08-25 | Siemens Ag | Wiedergabeeinrichtung, umfassend wenigstens einen Bildschirm zur Darstellung von Informationen |
RU2374703C2 (ru) | 2003-10-30 | 2009-11-27 | Конинклейке Филипс Электроникс Н.В. | Кодирование или декодирование аудиосигнала |
DE102004007200B3 (de) | 2004-02-13 | 2005-08-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audiocodierung |
EP1719117A1 (en) | 2004-02-16 | 2006-11-08 | Koninklijke Philips Electronics N.V. | A transcoder and method of transcoding therefore |
KR20070009644A (ko) * | 2004-04-27 | 2007-01-18 | 마츠시타 덴끼 산교 가부시키가이샤 | 스케일러블 부호화 장치, 스케일러블 복호화 장치 및 그방법 |
KR100608062B1 (ko) * | 2004-08-04 | 2006-08-02 | 삼성전자주식회사 | 오디오 데이터의 고주파수 복원 방법 및 그 장치 |
CA2581810C (en) * | 2004-10-26 | 2013-12-17 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
SE0402652D0 (sv) | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Methods for improved performance of prediction based multi- channel reconstruction |
JP4939424B2 (ja) | 2004-11-02 | 2012-05-23 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 複素値のフィルタ・バンクを用いたオーディオ信号の符号化及び復号化 |
DE102005008343A1 (de) | 2005-02-23 | 2006-09-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Liefern von Daten in einem Multi-Renderer-System |
JP5129117B2 (ja) * | 2005-04-01 | 2013-01-23 | クゥアルコム・インコーポレイテッド | 音声信号の高帯域部分を符号化及び復号する方法及び装置 |
US7684981B2 (en) * | 2005-07-15 | 2010-03-23 | Microsoft Corporation | Prediction of spectral coefficients in waveform coding and decoding |
US7693709B2 (en) * | 2005-07-15 | 2010-04-06 | Microsoft Corporation | Reordering coefficients for waveform coding or decoding |
US8199828B2 (en) | 2005-10-13 | 2012-06-12 | Lg Electronics Inc. | Method of processing a signal and apparatus for processing a signal |
US8190425B2 (en) * | 2006-01-20 | 2012-05-29 | Microsoft Corporation | Complex cross-correlation parameters for multi-channel audio |
CN101086845B (zh) * | 2006-06-08 | 2011-06-01 | 北京天籁传音数字技术有限公司 | 声音编码装置及方法以及声音解码装置及方法 |
WO2008004812A1 (en) | 2006-07-04 | 2008-01-10 | Electronics And Telecommunications Research Institute | Apparatus and method for restoring multi-channel audio signal using he-aac decoder and mpeg surround decoder |
JP2008096567A (ja) | 2006-10-10 | 2008-04-24 | Matsushita Electric Ind Co Ltd | オーディオ符号化装置およびオーディオ符号化方法ならびにプログラム |
JP4973919B2 (ja) | 2006-10-23 | 2012-07-11 | ソニー株式会社 | 出力制御システムおよび方法、出力制御装置および方法、並びにプログラム |
EP3288027B1 (en) | 2006-10-25 | 2021-04-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating complex-valued audio subband values |
JP5141180B2 (ja) * | 2006-11-09 | 2013-02-13 | ソニー株式会社 | 周波数帯域拡大装置及び周波数帯域拡大方法、再生装置及び再生方法、並びに、プログラム及び記録媒体 |
US8363842B2 (en) | 2006-11-30 | 2013-01-29 | Sony Corporation | Playback method and apparatus, program, and recording medium |
JPWO2008084688A1 (ja) * | 2006-12-27 | 2010-04-30 | パナソニック株式会社 | 符号化装置、復号装置及びこれらの方法 |
KR101379263B1 (ko) * | 2007-01-12 | 2014-03-28 | 삼성전자주식회사 | 대역폭 확장 복호화 방법 및 장치 |
JP2008268384A (ja) * | 2007-04-17 | 2008-11-06 | Nec Lcd Technologies Ltd | 液晶表示装置 |
US8015368B2 (en) | 2007-04-20 | 2011-09-06 | Siport, Inc. | Processor extensions for accelerating spectral band replication |
US8630863B2 (en) * | 2007-04-24 | 2014-01-14 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding and decoding audio/speech signal |
CN101743586B (zh) * | 2007-06-11 | 2012-10-17 | 弗劳恩霍夫应用研究促进协会 | 音频编码器、编码方法、解码器、解码方法 |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
US8046214B2 (en) * | 2007-06-22 | 2011-10-25 | Microsoft Corporation | Low complexity decoder for complex transform coding of multi-channel sound |
DK2571024T3 (en) | 2007-08-27 | 2015-01-05 | Ericsson Telefon Ab L M | Adaptive transition frequency between the noise filling and bandwidth extension |
JP5008542B2 (ja) * | 2007-12-10 | 2012-08-22 | 花王株式会社 | トナー用結着樹脂の製造方法 |
EP3296992B1 (en) * | 2008-03-20 | 2021-09-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for modifying a parameterized representation |
JP5010743B2 (ja) * | 2008-07-11 | 2012-08-29 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | スペクトル傾斜で制御されたフレーミングを使用して帯域拡張データを計算するための装置及び方法 |
CA2836871C (en) * | 2008-07-11 | 2017-07-18 | Stefan Bayer | Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs |
EP2144171B1 (en) * | 2008-07-11 | 2018-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder for encoding and decoding frames of a sampled audio signal |
CN102089814B (zh) * | 2008-07-11 | 2012-11-21 | 弗劳恩霍夫应用研究促进协会 | 对编码的音频信号进行解码的设备和方法 |
EP2301028B1 (en) * | 2008-07-11 | 2012-12-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus and a method for calculating a number of spectral envelopes |
ES2592416T3 (es) * | 2008-07-17 | 2016-11-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Esquema de codificación/decodificación de audio que tiene una derivación conmutable |
JP5215077B2 (ja) | 2008-08-07 | 2013-06-19 | シャープ株式会社 | コンテンツ再生装置、コンテンツ再生方法、プログラムおよび記録媒体 |
US8532983B2 (en) * | 2008-09-06 | 2013-09-10 | Huawei Technologies Co., Ltd. | Adaptive frequency prediction for encoding or decoding an audio signal |
US9947340B2 (en) * | 2008-12-10 | 2018-04-17 | Skype | Regeneration of wideband speech |
PL4231290T3 (pl) * | 2008-12-15 | 2024-04-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Dekoder powiększania szerokości pasma audio, powiązany sposób oraz program komputerowy |
DK2211339T3 (en) | 2009-01-23 | 2017-08-28 | Oticon As | listening System |
EP2239732A1 (en) * | 2009-04-09 | 2010-10-13 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for generating a synthesis audio signal and for encoding an audio signal |
TWI556227B (zh) * | 2009-05-27 | 2016-11-01 | 杜比國際公司 | 從訊號的低頻成份產生該訊號之高頻成份的系統與方法,及其機上盒、電腦程式產品、軟體程式及儲存媒體 |
US8515768B2 (en) * | 2009-08-31 | 2013-08-20 | Apple Inc. | Enhanced audio decoder |
JP5754899B2 (ja) * | 2009-10-07 | 2015-07-29 | ソニー株式会社 | 復号装置および方法、並びにプログラム |
CN102257567B (zh) | 2009-10-21 | 2014-05-07 | 松下电器产业株式会社 | 音响信号处理装置、音响编码装置及音响解码装置 |
CN102667920B (zh) * | 2009-12-16 | 2014-03-12 | 杜比国际公司 | Sbr比特流参数缩混 |
CN108989721B (zh) | 2010-03-23 | 2021-04-16 | 杜比实验室特许公司 | 用于局域化感知音频的技术 |
US9275650B2 (en) * | 2010-06-14 | 2016-03-01 | Panasonic Corporation | Hybrid audio encoder and hybrid audio decoder which perform coding or decoding while switching between different codecs |
WO2012000882A1 (en) * | 2010-07-02 | 2012-01-05 | Dolby International Ab | Selective bass post filter |
CN103155033B (zh) * | 2010-07-19 | 2014-10-22 | 杜比国际公司 | 高频重建期间的音频信号处理 |
JP5533502B2 (ja) | 2010-09-28 | 2014-06-25 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム |
US9117440B2 (en) | 2011-05-19 | 2015-08-25 | Dolby International Ab | Method, apparatus, and medium for detecting frequency extension coding in the coding history of an audio signal |
JP5817499B2 (ja) * | 2011-12-15 | 2015-11-18 | 富士通株式会社 | 復号装置、符号化装置、符号化復号システム、復号方法、符号化方法、復号プログラム、及び符号化プログラム |
BR122021018240B1 (pt) * | 2012-02-23 | 2022-08-30 | Dolby International Ab | Método para codificar um sinal de áudio multicanal, método para decodificar um fluxo de bits de áudio codificado, sistema configurado para codificar um sinal de áudio, e sistema para decodificar um fluxo de bits de áudio codificado |
US9129600B2 (en) * | 2012-09-26 | 2015-09-08 | Google Technology Holdings LLC | Method and apparatus for encoding an audio signal |
EP3742440B1 (en) | 2013-04-05 | 2024-07-31 | Dolby International AB | Audio decoder for interleaved waveform coding |
-
2014
- 2014-04-04 EP EP20179681.0A patent/EP3742440B1/en active Active
- 2014-04-04 CN CN202311191143.0A patent/CN117253497A/zh active Pending
- 2014-04-04 BR BR122020020705-1A patent/BR122020020705B1/pt active IP Right Grant
- 2014-04-04 BR BR122020020698-5A patent/BR122020020698B1/pt active IP Right Grant
- 2014-04-04 KR KR1020207012124A patent/KR102170665B1/ko active IP Right Grant
- 2014-04-04 KR KR1020217011196A patent/KR102450178B1/ko active IP Right Grant
- 2014-04-04 WO PCT/EP2014/056856 patent/WO2014161995A1/en active Application Filing
- 2014-04-04 BR BR122017006820-2A patent/BR122017006820B1/pt active IP Right Grant
- 2014-04-04 KR KR1020207030234A patent/KR102243688B1/ko active IP Right Grant
- 2014-04-04 CN CN201910557658.5A patent/CN110223703B/zh active Active
- 2014-04-04 JP JP2016505844A patent/JP6026704B2/ja active Active
- 2014-04-04 EP EP24191339.1A patent/EP4428860A2/en active Pending
- 2014-04-04 CN CN201910557659.XA patent/CN110136728B/zh active Active
- 2014-04-04 ES ES14715895.0T patent/ES2688134T3/es active Active
- 2014-04-04 KR KR1020227033768A patent/KR102694669B1/ko active IP Right Grant
- 2014-04-04 RU RU2015147173A patent/RU2622872C2/ru active
- 2014-04-04 CN CN201480019104.5A patent/CN105103224B/zh active Active
- 2014-04-04 US US14/781,891 patent/US9514761B2/en active Active
- 2014-04-04 EP EP18167164.5A patent/EP3382699B1/en active Active
- 2014-04-04 RU RU2017118558A patent/RU2665228C1/ru active
- 2014-04-04 KR KR1020157027445A patent/KR101632238B1/ko active IP Right Grant
- 2014-04-04 BR BR112015025022-0A patent/BR112015025022B1/pt active IP Right Grant
- 2014-04-04 KR KR1020247026655A patent/KR20240127481A/ko active Search and Examination
- 2014-04-04 CN CN202311191551.6A patent/CN117253498A/zh active Pending
- 2014-04-04 CN CN202311188836.4A patent/CN117275495A/zh active Pending
- 2014-04-04 CN CN201910557683.3A patent/CN110265047B/zh active Active
- 2014-04-04 KR KR1020167015595A patent/KR102107982B1/ko active Application Filing
- 2014-04-04 EP EP14715895.0A patent/EP2981959B1/en active Active
-
2016
- 2016-04-29 HK HK16104970.8A patent/HK1217054A1/zh unknown
- 2016-09-28 US US15/279,365 patent/US10121479B2/en active Active
- 2016-10-12 JP JP2016200664A patent/JP6317797B2/ja active Active
-
2018
- 2018-03-30 JP JP2018068064A patent/JP6541824B2/ja active Active
- 2018-07-24 RU RU2018127009A patent/RU2694024C1/ru active
- 2018-10-24 US US16/169,964 patent/US11145318B2/en active Active
-
2019
- 2019-06-11 JP JP2019108504A patent/JP6859394B2/ja active Active
- 2019-06-28 RU RU2019120194A patent/RU2713701C1/ru active
-
2021
- 2021-03-25 JP JP2021051360A patent/JP7317882B2/ja active Active
- 2021-10-06 US US17/495,184 patent/US11875805B2/en active Active
-
2023
- 2023-07-19 JP JP2023117210A patent/JP7551860B2/ja active Active
- 2023-12-14 US US18/539,664 patent/US20240194210A1/en active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2688134T3 (es) | Codificador y decodificador de audio para codificación de forma de onda intercalada | |
ES2324926T3 (es) | Descodificacion de audio multicanal. | |
ES2748939T3 (es) | Codificador y descodificador de audio | |
ES2900594T3 (es) | Procedimiento para determinar un modo de codificación | |
JP5706917B2 (ja) | 信号処理器、入力信号の処理されたバージョンを入力信号に応じて提供するための方法及びプログラム | |
BR122019025115B1 (pt) | Sistema e método para gerar um sinal de tempo alongado e/ou de frequência transposta a partir de um sinal de entrada e meio de armazenamento legível por computador não transitório |