ES2650941T3 - Método y aparato para decodificar una señal de audio codificada con bajos recursos computacionales - Google Patents

Método y aparato para decodificar una señal de audio codificada con bajos recursos computacionales Download PDF

Info

Publication number
ES2650941T3
ES2650941T3 ES14808907.1T ES14808907T ES2650941T3 ES 2650941 T3 ES2650941 T3 ES 2650941T3 ES 14808907 T ES14808907 T ES 14808907T ES 2650941 T3 ES2650941 T3 ES 2650941T3
Authority
ES
Spain
Prior art keywords
bandwidth extension
harmonic
audio signal
extension mode
encoded audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES14808907.1T
Other languages
English (en)
Inventor
Andreas NIEDERMEIER
Stephan Wilde
Daniel Fischer
Matthias Hildenbrand
Marc Gayer
Max Neuendorf
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2650941T3 publication Critical patent/ES2650941T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Aparato para decodificar una señal de audio codificada (101) que comprende datos de control de extensión de ancho de banda que indican ya sea un primer modo de extensión de ancho de banda armónico o un segundo modo de extensión de ancho de banda no armónico, que comprende: una interfaz de entrada (100) para recibir la señal de audio codificada que comprende los datos de control de extensión de ancho de banda que indican ya sea el primer modo de extensión de ancho de banda armónico o el segundo modo de extensión de ancho de banda no armónico; un procesador (102) para decodificar la señal de audio (101) usando el segundo modo de extensión de ancho de banda no armónico; y un controlador (104) para controlar el procesador (102) para decodificar la señal de audio utilizando el segundo modo de extensión de ancho de banda no armónico, incluso cuando los datos de control de extensión de ancho de banda indican el primer modo de extensión de ancho de banda armónico para la señal codificada.

Description

5 La presente invención se refiere al procesamiento de audio y en particular a un concepto para decodificar una señal de audio codificada usando recursos computacionales reducidos.
La norma “Codificación de voz y audio unificada” (USAC) [1], normaliza una herramienta de extensión de ancho de banda armónico, HBE, usando un dispositivo de trasposición de armónicos y que es una extensión del sistema de
10 replicación de banda espectral (SBR) normalizado en [1] y [2], respectivamente.
El SBR sintetiza el contenido de alta frecuencia de las señales de audio limitadas de ancho de banda utilizando la parte de baja frecuencia dada junto con información secundaria dada. La herramienta de SBR se describe en [2], SBR mejorada, eSBR, se describe en [1]. La extensión de ancho de banda armónica HBE que emplea codificadores
15 vocales de fase es parte de eSBR y ha sido desarrollada para evitar la aspereza auditiva que se observa a menudo en señales sometidas a parche de copiado, ya que se lleva a cabo en el procesamiento de SBR normal. El alcance principal de HBE es conservar estructuras armónicas en la región de alta frecuencia sintetizada de la señal de audio dada mientras se aplica eSBR.
20 Mientras que un codificador puede seleccionar el uso de la herramienta de HBE, un decodificador que es conforme a
[1] deberá proporcionar decodificación y aplicar datos relacionados con HBE.
Las pruebas de escucha [3] han demostrado que el uso de HBE mejorará la calidad de audio perceptual de flujos de bits decodificados de acuerdo con [1].
25 La herramienta de HBE sustituye el parche de copiado simple del sistema de SBR heredado mediante rutinas de procesamiento de señal avanzadas. Estas requieren una cantidad considerable de potencia de procesamiento y memoria para filtrar estados y líneas de retardo. Por el contrario, la complejidad del parche de copiado es insignificante.
30 El incremento de complejidad observado con HBE no es un problema para dispositivos de computadora personal. Sin embargo, los fabricantes de chips que diseñan chips de decodificador están exigiendo restricciones rígidas y de baja complejidad con respecto a la carga de trabajo computacional y de consumo de memoria. De otra manera, se desea el procesamiento de HBE con el fin de evitar aspereza auditiva.
35 Los flujos de bits de USAC se decodifican como se describe en [1]. Esto implica necesariamente la implementación de una herramienta de decodificador de HBE, como se describe en [1], 7.5.3. La herramienta puede señalizarse en todos los puntos de operación de códec que contienen procesamiento de eSBR. Para dispositivos decodificadores que satisfacen los criterios de perfil y conformidad con [1], esto significa que el peor de los casos globales de la
40 carga de trabajo computacional y el consumo de memoria se incrementan significativamente.
El incremento real en la complejidad computacional es dependiente de la implementación y de la plataforma. El incremento en consumo de memoria por canal de audio es, en la implementación optimizada de memoria actual, de al menos 15 K palabras para el procesamiento de HBE real.
45 Es un objeto de la presente invención proporcionar un concepto mejorado para decodificar una señal de audio codificada que es menos complejo y, no obstante, es apropiado para procesar señales de audio codificadas existentes.
50 Este objeto se consigue por un aparato para decodificar una señal de audio codificada de acuerdo con la reivindicación 1, un método de decodificación de una señal de audio codificada de acuerdo con la reivindicación 13 o un programa de computadora de acuerdo con la reivindicación 14.
La presente invención está basada en el hallazgo de que se obtiene un concepto de decodificación de audio que
55 requiere recursos de memoria reducidos cuando se decodifica una señal de audio que consiste en porciones a decodificarse utilizando un modo de extensión de ancho de banda armónico y que contiene adicionalmente porciones a decodificarse usando un modo de extensión de ancho de banda no armónico, en toda la señal, con el modo de extensión de ancho de banda no armónico solamente. En otras palabras, incluso cuando una señal comprende porciones o tramas que se señalizan para decodificarse usando un modo de extensión de ancho de
60 banda armónico, estas porciones o tramas se decodifican, sin embargo, usando el modo de extensión de ancho de banda no armónico. Para este fin, se proporciona un procesador para decodificar la señal de audio utilizando el modo de extensión de ancho de banda no armónico y adicionalmente se implementa un controlador dentro del aparato o se implementa una etapa de control dentro de un método de decodificación para controlar el procesador para decodificar la señal de audio usando el segundo modo de extensión de ancho de banda no armónico, incluso
cuando los datos de control de extensión de ancho de banda incluidos en la señal de audio codificada indican el primer modo de extensión de ancho de banda, esto es, armónico, para la señal de audio. Así, el procesador solamente tiene que implementarse con recursos de hardware correspondientes, tales como memoria y potencia de procesamiento para hacer frente sólo al modo de extensión de ancho de banda no armónico computacionalmente 5 muy eficiente. Por otra parte, el decodificador de audio está, sin embargo, en posición para aceptar y decodificar una señal de audio codificada que requiere un modo de extensión de ancho de banda armónico con una calidad aceptable. Dicho de otra manera, para aplicaciones de baja demanda de recursos computacionales, el controlador está configurado para controlar el procesador para decodificar toda la señal de audio con el modo de extensión de ancho de banda no armónico, incluso aunque lo requiera la misma señal de audio codificada, debido a los datos de 10 control de extensión de ancho de banda incluidos, que al menos varias porciones de esta señal se decodifican usando el modo de extensión de ancho de banda armónico. Así, se obtiene una buena solución intermedia entre recursos computacionales por una parte y calidad de audio por otra parte, mientras que se mantiene la total compatibilidad hacia atrás a las señales de audio codificadas que requieren ambos modos de extensión de ancho de banda. La presente invención es ventajosa debido al hecho de que reduce la complejidad computacional y demanda 15 de memoria particularmente de un decodificador de USAC. Además, en realizaciones preferidas, el modo de extensión de ancho de banda no armónico predeterminado o normalizado se modifica utilizando datos de modo de extensión de ancho de banda armónico transmitidos en el flujo de bits con el fin de reutilizar los datos del modo de extensión de ancho de banda que son básicamente no necesarios para el modo de extensión de ancho de banda no armónico en la medida de lo posible con el fin de incluso mejorar la calidad de audio del modo de extensión de
20 ancho de banda no armónico. Así, se proporciona un esquema de decodificación alternativo en esta realización preferida, con el fin de mitigar el deterioro de la calidad perceptual provocada por omitir el modo de extensión de ancho de banda armónico que está basado normalmente en el procesamiento de codificador vocal de fase como se analiza en la norma USAC [1].
25 En una realización, el procesador tiene recursos de memoria y procesamiento que son suficientes para decodificar la señal de audio codificada usando el segundo modo de extensión de ancho de banda no armónico, en el que los recursos de memoria o procesamiento no son suficientes para decodificar la señal de audio codificada usando el primer modo de extensión de ancho de banda armónico, cuando la señal de audio codificada es una señal de audio estéreo o de multicanal codificada. Por el contrario, el procesador tiene recursos de memoria y procesamiento que
30 son suficientes para decodificar la señal de audio codificada usando el segundo modo de extensión de ancho de banda no armónico y usando el primer modo de extensión de ancho de banda armónico, cuando la señal de audio codificada es una señal mono codificada, debido a que los recursos para decodificación mono son reducidos, en comparación con los recursos para decodificación estéreo o de multicanal. De aquí, los recursos disponibles dependen de la configuración del flujo de bits, esto es, combinación de herramientas, tasa de muestreo, etc. Por
35 ejemplo, puede ser posible que los recursos sean suficientes para decodificar un flujo de bits mono usando BWE armónico, pero el procesador carezca de recursos para decodificar un flujo de bits estéreo usando BWE armónico.
Posteriormente, se analizan realizaciones preferidas en el contexto de los dibujos adjuntos, en los cuales:
40 La figura 1a ilustra una realización de un aparato para decodificar una señal de audio codificada usando un procesador de recursos limitados;
La figura 1b ilustra un ejemplo de unos datos de señal de audio codificados para ambos modos de extensión de ancho de banda; 45 La figura 1c ilustra una tabla que ilustra el decodificador convencional de USAC y el nuevo decodificador;
La figura 2 ilustra un diagrama de flujo de una realización para implementar el controlador de la figura 1A;
50 La figura 3a ilustra una estructura adicional de una señal de audio codificada que tiene datos de carga útil de extensión de ancho de banda comunes y datos de extensión de ancho de banda armónicos adicionales;
La figura 3b ilustra una implementación del controlador para modificar el modo de extensión de ancho de 55 banda no armónico convencional;
La figura 3c ilustra una implementación adicional del controlador;
La figura 4 ilustra una implementación del modo de extensión de ancho de banda no armónico mejorado; 60 La figura 5 ilustra una implementación preferida del procesador;
La figura 6 ilustra una sintaxis del procedimiento de decodificación para un elemento de un solo canal;
Las figuras 7a y 7b ilustran una sintaxis del procedimiento de decodificación para un elemento de un par de canales;
La figura 8a ilustra una implementación adicional del modo de extensión de ancho de banda no armónico 5 mejorado;
La figura 8b ilustra un resumen de los datos indicados en la figura 8a;
La figura 8c ilustra una implementación adicional de la mejora del modo de extensión de ancho de banda no 10 armónico tal como se realiza por el controlador;
La figura 8d ilustra una memoria intermedia de aplicación de parches y el desplazamiento del contenido de la memoria intermedia de aplicación de parches; y
15 La figura 9 ilustra una explicación de la modificación preferida del modo de extensión de ancho de banda no armónico.
La figura 1a ilustra una realización de un aparato para decodificar una señal de audio codificada. La señal de audio codificada comprende datos de control de extensión de ancho de banda que indican ya sea un primer modo de 20 extensión de ancho de banda armónico o un segundo modo de extensión de ancho de banda no armónico. La señal de audio codificada se introduce en una línea 101 a una interfaz de entrada 100. La interfaz de entrada se conecta mediante la línea 108 a un procesador de recursos limitados 102. Además, se proporciona un controlador 104 que se conecta al menos opcionalmente a la interfaz de entrada 100 mediante la línea 106 y que se conecta adicionalmente al procesador 102 mediante la línea 110. La salida del procesador 102 es una señal de audio 25 decodificada, como se indica en 112. La interfaz de entrada 100 está configurada para recibir la señal de audio codificada que comprende los datos de control de extensión de ancho de banda que indican ya sea un primer modo de extensión de ancho de banda armónico o un segundo modo de extensión de ancho de banda no armónico para una porción codificada, tal como una trama de la señal de audio codificada. El procesador 102 está configurado para decodificar la señal de audio usando el segundo modo de extensión de ancho de banda no armónico solamente
30 como se indica cerca de la línea 110 en la figura 1a. Esto se asegura por el controlador 104. El controlador 104 está configurado para controlar el procesador 102 para decodificar la señal de audio utilizando el segundo modo de extensión de ancho de banda no armónico, incluso cuando los datos de control de extensión de ancho de banda indican el primer modo de extensión de ancho de banda armónico para la señal de audio codificada.
35 La figura 1b ilustra una implementación preferida de la señal de audio codificada dentro de un flujo de datos o un flujo de bits. La señal de audio codificada comprende un encabezamiento 114 para todo el elemento de audio y todo el elemento de audio se organiza en tramas en serie, tales como la trama 1, 116, la trama 2, 118 y la trama 3, 120. Cada trama tiene adicionalmente un encabezamiento asociado, tal como el encabezamiento 1, 116a para la trama 1 y datos de carga útil 116b para la trama 1. Además, la segunda trama 118 tiene de nuevo los datos de
40 encabezamiento 118a y datos de carga útil 118b. Análogamente, la tercera trama 120 tiene de nuevo un encabezamiento 120a y un bloque de datos de carga útil 120b. En la norma USAC, el encabezamiento 114 tiene un indicador “SBR armónico”. Si este indicador SBR armónico es cero, entonces todo el elemento de audio se decodifica usando un modo de extensión de ancho de banda no armónico, como se define en la norma USAC, que en este contexto se refiere otra vez a la norma de AAC de alta eficiencia (HEAAC), que es el ISO/IEC 14493: 2009,
45 parte de audio. Sin embargo, si el indicador SBR armónico tiene un valor de uno, entonces se activa el modo de extensión de ancho de banda armónico, pero entonces se señaliza, para cada trama, por un indicador individual sbrPatchingMode, que puede ser cero o uno. En este contexto, se hace referencia a la figura 1c que indica los valores diferentes de los dos indicadores. Así, cuando el indicador SBR armónico es uno y el indicador sbrPatchingMode es cero, entonces el decodificador convencional USAC realiza un modo de extensión de ancho de
50 banda armónico. En este caso, que se indica en 130 en la figura 1c, sin embargo, el controlador 104 de la figura 1a es operativo para controlar, no obstante, el procesador 102 para realizar un modo de extensión de ancho de banda no armónico.
La figura 2 ilustra una implementación preferida del procedimiento de la invención. En la etapa 200, la interfaz de
55 entrada 100 o cualquier otra entidad dentro del aparato para decodificación lee los datos de control de extensión de ancho de banda de la señal de audio codificada y estos datos de control de extensión de ancho de banda pueden ser una indicación por trama o, si se proporciona, una indicación adicional por elemento como se analiza en el contexto de la figura 1b con respecto a la norma de USAC. En la etapa 202, el procesador 102 recibe los datos de control de extensión de ancho de banda y almacena los datos de control de extensión de ancho de banda en un
60 registro de control específico implementado dentro del procesador 102 de la figura 1a. A continuación, en la etapa 204, el controlador 104 accede a este registro de control del procesador y como se indica en 206, sobrescribe el registro de control con un valor que indica la extensión de ancho de banda no armónica. Esto se ilustra de manera ejemplar dentro de la sintaxis de USAC para el elemento de un solo canal en 600 en la figura 6 o para el sbr_channel_pair_element indicado en la etapa 700 en la figura 7a y 702, 704 en la figura 7b, respectivamente. En
particular, la “sobreescritura” como se ilustra en el bloque 206 de la figura 2 puede implementarse insertando las líneas 600, 700, 702, 704 a la sintaxis de USAC. En particular, el resto de la figura 6 corresponde a la tabla 41 de ISO/IEC DIS 230033 y las figuras 7a, 7b corresponden a la tabla 42 de ISO/IEC DIS 230033. Esta norma internacional se incorpora en el presente documento en su totalidad por referencia. En la norma se da una definición
5 detallada de todos los parámetros/valores en la figura 6 y figuras 7a, 7b. En particular, la línea adicional en la sintaxis de alto nivel indicada en 600, 700, 702, 704 indica que independientemente del valor de sbrPatchingMode como se lee del flujo de bits en 602, no obstante, el indicador de sbrPatchingMode se establece a uno, esto es, que señaliza, al proceso adicional en el decodificador, que se va a realizar un modo de extensión de ancho de banda no armónico. De manera importante, la línea de sintaxis 600 se
10 coloca después de la lectura del lado del decodificador de los datos de extensión de ancho de banda armónicos específicos que consisten en sbrOversampllingFlag, sbrPitchInBinsFlag y sbrPitchInBins indicados en 604. Así, como se ilustra en la figura 6 y análogamente en la figura 7A, la señal de audio codificada comprende datos de carga útil de extensión de ancho de banda comunes 606 para ambos modos de extensión de ancho de banda, esto es, el modo de extensión de ancho de banda no armónico y el modo de extensión de ancho de banda armónico y
15 adicionalmente datos específicos para el modo de extensión de ancho de banda armónico ilustrado en 604. Esto se analizará más adelante en el contexto de la figura 3a. La variable “lpHBE” ilustra el procedimiento inventivo, esto es, el modo de “extensión de ancho de banda armónico de baja potencia”, que es un modo de extensión de ancho de banda no armónico, pero con una modificación adicional que se analizará más adelante con respecto a “la extensión de ancho de banda armónica”.
20 Preferentemente, como se indica en la figura 1a, el procesador 102 es un procesador de recursos limitados. Específicamente, el procesador de recursos limitados 102 tiene recursos de procesamiento y recursos de memoria que son suficientes para decodificar la señal de audio utilizando el segundo modo de extensión de ancho de banda no armónico. Sin embargo, específicamente la memoria o los recursos de procesamiento no son suficientes para
25 decodificar la señal de audio codificada usando el primer modo de extensión de ancho de banda armónico. Como se indica en la figura 3a, una trama comprende un encabezamiento 300, datos de carga útil de extensión de ancho de banda comunes 302, datos de extensión de ancho de banda armónicos adicionales 304 tal como información en cuanto a un tono, una cuadrícula armónica o así y adicionalmente datos centrales codificados 306. El orden de los elementos de datos, sin embargo, puede ser diferente de la figura 3a. En una realización preferida diferente, los
30 datos centrales codificados se encuentran en primer lugar. A continuación, el encabezamiento 300 que tiene el indicador/bit de sbrPatchingMode viene seguido por los datos de HBE adicionales 304 y finalmente, los datos de extensión de BW comunes 302.
Los datos de extensión de ancho de banda armónicos adicionales son, en el ejemplo de USAC, como se analiza en
35 el contexto de la figura 6, el elemento 604, la información de sbrPitchInBins que consiste en 7 bits. Específicamente, como se indica en la norma USAC, los datos de sbrPitchInBins controlan la adición de términos de producto cruzado en el dispositivo de trasposición armónico de SBR. sbrPitchInBins es un valor entero en el intervalo entre 0 y 127 y representa la distancia medida en binarios de frecuencia para una 1536DFT que actúa sobre la frecuencia de muestreo del codificador central. En particular, se ha encontrado que usando la información de sbrPitchInBins, se
40 puede determinar el tono o cuadrícula armónica. Esto se ilustra en la fórmula (1) en la figura 8b. Con el fin de calcular la cuadrícula armónica, se calculan los valores de sbrPitchInBins y sbrRatio, en los que la proporción de SBR puede ser como se indica en la figura 8b anterior.
Naturalmente, otras indicaciones de la cuadrícula armónica, el tono o el tono fundamental que define la cuadrícula
45 armónica pueden incluirse en el flujo de bits. Estos datos son usados para controlar el primer modo de extensión de ancho de banda armónico y pueden, en una realización de la presente invención, descartarse, de tal manera que se realiza el modo de extensión de ancho de banda no armónico sin ninguna modificación. En otras realizaciones, sin embargo, el modo de extensión de ancho de banda no armónico directo se modifica utilizando los datos de control para el modo de extensión de ancho de banda armónico, como se ilustra en la figura 3B y otras figuras. En otras
50 palabras, la señal de audio codificada comprende los datos de carga útil de extensión de ancho de banda comunes 302 para la primera extensión de ancho de banda armónica y el segundo modo de extensión de ancho de banda no armónico y datos de carga útil adicionales 304 para el primer modo de extensión de ancho de banda armónico. En este contexto, el controlador 104 ilustrado en la figura 1a está configurado para utilizar los datos de carga útil adicionales para controlar el procesador 102 para modificar una operación de aplicación de parches realizada por el
55 procesador, en comparación con una operación de aplicación de parches en el segundo modo de extensión de ancho de banda no armónico sin ninguna modificación. Para este fin, se prefiere que el procesador 102 comprenda una memoria intermedia de aplicación de parches como se ilustra en la figura 3b y la implementación específica de la memoria intermedia se explica de manera ejemplar con respecto a la figura 8d.
60 En la realización adicional, los datos de carga útil adicionales 304 para el primer modo de extensión de ancho de banda armónico comprenden información en cuanto a una característica armónica de la señal de audio codificada y esta característica armónica puede consistir de datos de sbrPitchInBins, otros datos de cuadrícula armónica, datos de tono fundamentales o cualesquiera otros datos, de los cuales se puede derivar una cuadrícula armónica o un tono fundamental o un tono de la porción correspondiente de la señal de audio codificada. El controlador 104 está
configurado para modificar un contenido de la memoria intermedia de aplicación de parches de una memoria intermedia de aplicación de parches utilizada por el procesador 102 para realizar una operación de aplicación de parches en la decodificación de la señal de audio codificada, de tal manera que una característica armónica de una señal de parche está más cercana a la característica armónica que una señal parcheada sin modificar la memoria
5 intermedia de aplicación de parches.
Para este fin, se hace referencia a la figura 9 que ilustra, en 900, un espectro original que tiene líneas espectrales en una cuadrícula armónica cuadrícula armónica k — f0 y las líneas armónicas se extienden de 1 a N. Además, el tono fundamental f0 es, en este ejemplo, igual a 3, de tal manera que la cuadrícula armónica comprende todos los 10 múltiplos de 3. Además, el elemento 902 indica un espectro central decodificado antes de la aplicación de parches. En particular, la frecuencia de cruce x0 se indica en 16 y una fuente de aplicación de parches se indica para extenderse de la línea de frecuencia 4 a la línea de frecuencia 10. La frecuencia de inicio y/o parada fuente de aplicación de parches se señaliza preferentemente dentro de la señal de audio codificada típicamente como datos dentro de los datos de carga útil de extensión de ancho de banda común 302 de la figura 3a. El elemento 904 indica 15 la misma situación como en el elemento 902, pero con una cuadrícula armónica calculada adicionalmente k ⋅ fo en
906. Además, se indica un destino de aplicación de parches 908. Este destino de aplicación de parches se incluye preferentemente de manera adicional en los datos de carga útil de extensión de ancho de banda común 302 de la figura 3a. Así, la fuente de aplicación de parches indica la frecuencia inferior del intervalo fuente como se indica en 903 y el destino de aplicación de parches indica el borde inferior del destino de aplicación de parches. Si la 20 aplicación de parches normalmente no armónica se aplicara como se indica 910, entonces se observaría que habría una falta de coincidencia entre las líneas tonales o líneas armónicas de los datos parcheados y la cuadrícula armónica calculada 906. Así, la aplicación de parches de SBR heredada o el modo de aplicación de parches no armónico de AAC de alta eficiencia o USAC directo inserta un parche con una cuadrícula armónica falsa. Con el fin de abordar esta cuestión, la modificación de este parche noarmónico directo se realiza por el procesador. Una 25 manera para modificar es girar el contenido de la memoria intermedia de aplicación de parches o, dicho de otra manera, mover las líneas armónicas dentro de la banda de aplicación de parches, pero sin cambiar la distancia en frecuencia de las líneas armónicas. Otras maneras para hacer coincidir la cuadrícula armónica del parche con la cuadrícula armónica calculada del espectro decodificado antes de la aplicación de parches son claras para los expertos en la materia. En esta realización preferida de la presente invención, los datos de extensión de ancho de 30 banda armónicos adicionales incluidos en la señal de audio codificada junto con los datos de carga útil de extensión de ancho de banda comunes no se descartan simplemente, sino que se reutilizan para mejorar aún la calidad de audio al modificar el modo de extensión de ancho de banda no armónico señalado comúnmente en el flujo de bits. Sin embargo, debido al hecho de que el modo de extensión de ancho de banda no armónico modificado es todavía un modo de extensión de ancho de banda no armónico que depende de una operación de copiado de un conjunto
35 de binarios de frecuencia adyacentes a un conjunto de binarios de frecuencia adyacentes, este procedimiento no da como resultado una cantidad adicional de recursos de memoria, en comparación con la realización del modo de extensión de ancho de banda no armónico directo, pero mejora significativamente la calidad de audio de la señal reconstruida debido a las cuadrículas armónicas coincidentes como se indica en la figura 9 en 912.
40 La figura 3c ilustra una implementación preferida realizada por el controlador 104 de la figura 3b. En una etapa 310, el controlador 104 calcula una cuadrícula armónica de los datos de extensión de ancho de banda armónicos adicionales y para este fin se puede realizar cualquier cálculo, pero en el contexto de USAC, se realiza la fórmula (1) en la figura 8b. Además, en la etapa 312, se determinan una banda fuente de aplicación de parches y una banda objetivo de aplicación de parches, esto es, puede comprender básicamente leer los datos fuente de aplicación de
45 parches 903 y los datos de destino de aplicación de parches 908 de los datos de extensión de ancho de banda comunes. En otras realizaciones, sin embargo, estos datos pueden predefinirse y por consiguiente pueden ya ser conocidos para el decodificador y no necesariamente tienen que transmitirse.
En la etapa 314, la banda fuente de aplicación de parches se modifica dentro de los bordes de frecuencia, esto es,
50 los bordes de parcheo de la fuente de aplicación de parches no se cambian, en comparación con los datos transmitidos. Esto se puede hacer ya sea antes de la aplicación de parches, esto es, cuando los datos de aplicación de parches son, con respecto al espectro central o decodificado antes de la aplicación de parches indica en 902 o cuando el contenido de la aplicación de parches ya se ha transpuesto al intervalo de frecuencia más alta, esto es, como se ilustra en la figura 9 en 910 y 912, donde se realiza la rotación posteriormente a la aplicación de parches,
55 donde la aplicación de parches se simboliza por la flecha 914.
Esta aplicación de parches 914 o “copiado” es una aplicación de parches no armónica, que puede observarse en la figura 9 al comparar la amplitud de la fuente de aplicación de parches que comprende seis incrementos de frecuencia y los mismos seis incrementos de frecuencia en el intervalo objetivo, esto es, en 910 o 912.
60 La modificación se realiza de tal manera que se localiza una porción de frecuencia en la banda fuente de aplicación de parches que coincide con la cuadrícula armónica, después de la aplicación de parches, en una porción de frecuencia objetivo que coincide con la cuadrícula armónica.
Preferentemente, como se ilustra en la figura 8d, la memoria intermedia de aplicación de parches indicada en tres estados diferentes 828, 830, 832 se proporciona dentro del procesador 102. El procesador está configurado para cargar la memoria intermedia de aplicación de parches como se indica en 400 en la figura 4. A continuación, el controlador está configurado para calcular 402 un valor de desplazamiento de memoria intermedia utilizando los 5 datos de extensión de ancho de banda adicionales y los datos de extensión de ancho de banda comunes. A continuación, en la etapa 404, el contenido de la memoria intermedia se desplaza por el valor de desplazamiento de memoria intermedia calculado. El elemento 830 indica cuándo se ha calculado el valor de desplazamiento para que sea “2” y el elemento 832 indica un estado de memoria intermedia en el cual se ha calculado un valor de desplazamiento 2 en la etapa 404 y se ha realizado un cambio en +2 en la etapa 404. A continuación, como se 10 ilustra en 406 de la figura 4, se realiza la aplicación de parches usando el contenido de memoria intermedia de aplicación de parches desplazado y la aplicación de parches se realiza, no obstante, de manera no armónica. A continuación, en la etapa 408, el resultado de la aplicación de parches se modifica utilizando los datos de extensión de ancho de banda comunes. Tales datos de ancho de banda de extensión comunes utilizados adicionalmente pueden ser, como se conoce de AAC de alta eficiencia o de USAC, datos de envolvente espectral, datos de ruido,
15 datos sobre líneas armónicas específicas, datos de filtración inversa, etc.
Para este fin, se hace referencia a la figura 5 que ilustra una implementación más detallada del procesador 102 de la figura 1a. El procesador comprende típicamente un decodificador central 500, un aplicador de parches 502 con la memoria intermedia de aplicación de parches, un modificador de parche 504 y un combinador 506. El decodificador 20 central está configurado para decodificar la señal de audio codificada para obtener un espectro decodificado antes de la aplicación de parches, como se ilustra en 902 en la figura 9. A continuación, el aplicador de parches con la memoria intermedia de aplicación de parches 502 realiza la operación 914 en la figura 9. El aplicador de parches 502 realiza la modificación de la memoria intermedia de aplicación de parches ya sea antes o después de la aplicación de parches, como se analiza en el contexto de la figura 9. El modificador de parche 504 usa finalmente los
25 datos de extensión de ancho de banda adicionales para modificar el resultado de la aplicación del parche, como se señala en 408 en la figura 4. A continuación, el combinador 506, que puede ser, por ejemplo, un combinador de dominio de frecuencia en forma de un banco de filtros de síntesis, combina la salida del modificador de parche 504 y la salida del decodificador central 500, esto es, la señal de banda baja, con el fin de obtener finalmente la señal de audio de ancho de banda extendido como salida en la línea 112 en la figura 1a.
30 Como ya se ha analizado en el contexto de la figura 1b, los datos de control de extensión de ancho de banda pueden comprender una primera entidad de datos de control para un elemento de audio, tal como SBR armónico ilustrado en la figura 1B, donde este elemento de audio comprende una pluralidad de tramas de audio 116, 118, 120. La primera entidad de datos de control indica si el primer modo de extensión de ancho de banda armónico está
35 activo o no para la pluralidad de tramas. Además, se proporciona una segunda entidad de datos de control correspondiente al modo de aplicación de parches de SBR de manera ejemplar en la norma USAC que se proporciona en cada uno de los encabezamientos 116a, 118a, 120a para las tramas individuales.
La interfaz de entrada 100 de la figura 1a está configurada para leer los primeros datos de control para el elemento
40 de audio y la segunda entidad de datos de control para cada trama de la pluralidad de tramas y el controlador 104 de la figura 1a está configurado para controlar el procesador 102 para decodificar la señal de audio utilizando el segundo modo de extensión de ancho de banda no armónico independientemente del valor de la primera entidad de datos de control e independientemente de un valor de la segunda entidad de datos de control.
45 En una realización de la presente invención y como se ilustra por los cambios en la sintaxis en la figura 6 y figuras 7a, 7b, el decodificador de USAC se fuerza a omitir el cálculo de extensión de ancho de banda armónico complejo relativamente alto. Así, participa la extensión de ancho de banda o “HBE de baja potencia”, si el indicador de lpHBE indicado en 600 y 700, 702, 704 se establece a un valor de no cero. El indicador de lpHBE puede establecerse por un decodificador individualmente, dependiendo de los recursos de hardware disponibles. Un valor de cero significa
50 que el decodificador actuará totalmente compatible con la norma, esto es, como se ordena por las primeras y segundas entidades de datos de control de la figura 1b. Sin embargo, si el valor es uno, entonces el modo de extensión de ancho de banda no armónico se efectuará por el procesador incluso cuando se señalice el modo de extensión de ancho de banda armónico.
55 Así, la presente invención proporciona un procesador que requiere una complejidad computacional más baja y un consumo de memoria más bajo junto con un nuevo procedimiento de decodificación. La sintaxis del flujo de bits de eSBR como se define en [1] comparte una base común tanto para decodificación de HBE[1] como decodificación de SBR heredada [2]. En caso de HBE, sin embargo, se codifica información adicional al flujo de bits. El decodificador de “HBE de baja complejidad” en una realización preferida de la presente invención decodifica datos codificados de
60 USAC de acuerdo con [1] y descarta toda la información específica de HBE. A continuación, los datos de eSBR restantes se alimentan e interpretan por el algoritmo de SBR heredado [2], esto es, los datos se usan para aplicar parches de copiado [2] en lugar de transposición armónica. La modificación de la mecánica de decodificación de eSBR, con respecto a los cambios de sintaxis, se ilustra en las figuras 6 y 7a, 7b. Además, en una realización preferida, la información de HBE específica, tal como información de sbrPitchInBins portada por el flujo de bits se
reutiliza.
Con los datos del flujo de bits codificados de USAC heredados el valor de sbrPitchInBins podría transmitirse dentro de una trama de USAC. Este valor refleja un valor de frecuencia que se determinó por un codificador para transmitir 5 información que describe la estructura armónica de la trama de USAC actual. Con el fin de aprovechar este valor sin utilizar la funcionalidad de HBE convencional, el siguiente método inventivo debe aplicarse paso a paso:
1. Extraer sbrPitchInBins del flujo de bits
Véase tabla 44 y tabla 45, respectivamente, para información en cuanto a cómo extraer el elemento de flujo de 10 bits sbrPitchInBins del flujo de bits de USAC [1].
2. Calcular la cuadrícula armónica de acuerdo con la fórmula (1)
3. Calcular la distancia tanto de la subbanda de inicio de aplicación de parches fuente como de la subbanda de 15 inicio de aplicación de parches de destino a cuadrícula armónica
El diagrama de flujo de la figura 8a proporciona una descripción detallada del algoritmo inventivo de cómo calcular la distancia de inicio y parada de aplicación de parches a la cuadrícula armónica
20 harmonicGrid (hg) cuadrícula armónica de acuerdo con (1) source_band banda fuente de parche QMF 903 de la figura 9 dest_band banda de destino de parche QMF 908 de la figura 9 p_mod_x source_band mod hg k_mod_x dest_band mod hg
25 mod Operación módulo NINT redondeo al número entero más cercano sbrRatio, proporción de SBR, esto es, 1/2, 3/8 o 1/4 pitchInBins información de tono transmitida en el flujo de bits.
30 Posteriormente, la figura 8a se analiza en más detalle. Preferentemente, este control, esto es, todo el cálculo se realiza en el controlador 104 de la figura 1a. En la etapa 800, la cuadrícula armónica se calcula de acuerdo con la fórmula (1) como se ilustra en la figura 8b. A continuación, se determina si la cuadrícula armónica hg es menor de 2. Si este no es el caso, entonces el control procede a la etapa 810. Sin embargo, cuando se determina que la cuadrícula armónica es menor de 2, entonces la etapa 804 determina si el valor de banda fuente es par. Si este es el
35 caso, entonces se determina que la cuadrícula armónica es 2, pero si esto no es el caso, entonces se determina que la cuadrícula armónica es igual a 3. A continuación, en la etapa 810, se realizan los cálculos de módulo. En la etapa 812, se determina si tanto el módulocálculo difieren. Si los resultados son idénticos, el procedimiento termina y si los resultados difieren, se calcula el valor de desplazamiento, como se indica en el bloque 814 como la diferencia entre ambos resultados de módulocálculo. Entonces, como también se ilustra en la etapa 814, se realiza el cambio
40 de memoria intermedia con envolvente. Merece la pena destacar que las relaciones de fase se consideran preferentemente cuando se aplica el desplazamiento. El control se detiene en el bloque 816.
Para resumir, como se ilustra en la figura 8c, todo el procedimiento comprende la etapa de extraer la información de sbrPitchInBins del flujo de bits como se indica en 820. A continuación, el controlador calcula la cuadrícula armónica
45 como se indica en 822. A continuación, en la etapa 824, se calcula tanto la distancia de la subbanda de inicio fuente como la subbanda de inicio de destino a la cuadrícula armónica, que corresponde en la realización preferida, a la etapa 810. Finalmente, como se indica en el bloque 826, se realiza el desplazamiento de memoria intermedia de QMF, esto es, el cambio de envolvente dentro del dominio de QMF de la extensión de ancho de banda no armónica de AAC de alta eficiencia.
50 En el desplazamiento de memoria intermedia de QMF, la estructura armónica de la señal se reconstruye de acuerdo con la información de sbrPitchInBins transmitida aunque se haya realizado un procedimiento de extensión de ancho de banda no armónico.
55 Aunque algunos aspectos se han descrito en el contexto de un aparato para codificación o decodificación, es claro que estos aspectos también representan una descripción del método correspondiente, donde un bloque o dispositivo corresponde a una etapa de método o una característica de una etapa del método. Análogamente, aspectos descritos en el contexto de una etapa de método también representan una descripción de un bloque correspondiente
o un elemento o característica de un aparato correspondiente. Algunas o todas las etapas del método pueden 60 ejecutarse por (o usando) un aparato de hardware, como por ejemplo, un microprocesador, una computadora
programable o un circuito electrónico. En algunas realizaciones, algunas o más de las etapas de método más importantes pueden ejecutarse por un aparato de este tipo.
Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención pueden implementarse en
5 hardware o software. La implementación puede realizarse utilizando un medio de almacenamiento no transitorio, tal como un medio de almacenamiento digital, por ejemplo, un disco flexible, una unidad de disco duro (HDD), un DVD, un BluRay, un CD, una ROM, una PROM y EPROM, una EEPROM o una memoria FLASH, que tiene señales de control legibles electrónicamente almacenadas en el mismo, que cooperan (o pueden cooperar) con un sistema de computadora programable, de tal manera que se realiza el respectivo método. Por consiguiente, el medio de
10 almacenamiento digital puede ser legible por computadora.
Algunas realizaciones de acuerdo con la invención comprenden un portador de datos que tiene señales de control legibles electrónicamente, que pueden cooperar con un sistema de computadora programable, de tal manera que se realiza uno de los métodos descritos en el presente documento.
15 En general, las realizaciones de la presente invención pueden implementarse como un producto de programa de computadora con un código de programa, siendo el código de programa operativo para realizar uno de los métodos, cuando el producto de programa de computadora se ejecuta en una computadora. El código de programa puede almacenarse, por ejemplo, en portador que es legible por máquina.
20 Otras realizaciones comprenden el programa de computadora para realizar uno de los métodos descritos en el presente documento, almacenado en un portador que es legible por máquina.
En otras palabras, una realización del método inventivo es, por consiguiente, un programa de computadora que tiene 25 un código de programa para realizar uno de los métodos descritos en el presente documento, cuando el programa de computadora se ejecuta en una computadora.
Una realización adicional del método inventivo es, por consiguiente, un portador de datos (o medio de almacenamiento digital o medio legible por computadora) que comprende, grabado en el mismo, el programa de 30 computadora para realizar uno de los métodos descritos en el presente documento. El portador de datos, el medio de almacenamiento digital o medio grabado suelen ser tangibles y/o no transitorios.
Una realización adicional del método de invención es, por consiguiente, un flujo de datos o una secuencia de señales que representan el programa de computadora para realizar uno de los métodos descritos en el presente 35 documento. El flujo de datos o la secuencia de señales pueden configurarse, por ejemplo, para transferirse mediante una conexión de comunicación de datos, por ejemplo, mediante Internet.
Una realización adicional comprende medios de procesamiento, por ejemplo, una computadora o un dispositivo lógico programable, configurado para o adaptado para, realizar uno de los métodos descritos en el presente 40 documento.
Una realización adicional comprende además una computadora que tiene instalado en la misma el programa de computadora para realizar uno de los métodos descritos en el presente documento.
45 Una realización adicional de acuerdo con la invención comprende un aparato o sistema configurado para transferir (por ejemplo, electrónica u ópticamente) un programa de computadora para realizar uno de los métodos descritos en el presente documento a un receptor. El receptor puede ser, por ejemplo, una computadora, un dispositivo móvil, un dispositivo de memoria o similares. El aparato o sistema puede comprender, por ejemplo, un servidor de archivos para transferir el programa de computadora al receptor.
50 En algunas realizaciones, un dispositivo lógico programable (por ejemplo, un campo de matriz de puertas programables) puede usarse para realizar algunas o todas las funcionalidades de los métodos descritos en el presente documento. En algunas realizaciones, un campo de matriz de puertas programables puede cooperar con un microprocesador para realizar uno de los métodos descritos en el presente documento. En general, los métodos
55 se realizan preferentemente por cualquier aparato de hardware.
Las realizaciones descritas anteriormente son solo ilustrativas de los principios de la presente invención. Se entiende que modificaciones y variaciones de las disposiciones y detalles descritos en el presente documento serán evidentes para los expertos en la materia. Es la intención, por consiguiente, estar limitados sólo por el alcance de las
60 reivindicaciones de patente inminentes y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones del presente documento.
Referencias
[1] ISO/IEC 230033: 2012: “Unified speech and audio coding”
[2] ISO/IEC 144963: 2009: “Audio”
[3] ISO/IEC JTCI/SC29/WG11 MPEG2011/N12232: “USAC Verification Test Report”

Claims (12)

  1. REIVINDICACIONES
    1. Aparato para decodificar una señal de audio codificada (101) que comprende datos de control de extensión de
    ancho de banda que indican ya sea un primer modo de extensión de ancho de banda armónico o un segundo modo 5 de extensión de ancho de banda no armónico, que comprende:
    una interfaz de entrada (100) para recibir la señal de audio codificada que comprende los datos de control de extensión de ancho de banda que indican ya sea el primer modo de extensión de ancho de banda armónico o el segundo modo de extensión de ancho de banda no armónico;
    10 un procesador (102) para decodificar la señal de audio (101) usando el segundo modo de extensión de ancho de banda no armónico; y un controlador (104) para controlar el procesador (102) para decodificar la señal de audio utilizando el segundo modo de extensión de ancho de banda no armónico, incluso cuando los datos de control de extensión de ancho de banda indican el primer modo de extensión de ancho de banda armónico para la señal codificada.
  2. 2. Aparato de acuerdo con la reivindicación 1, en el que el procesador (102) tiene memoria y recursos de procesamiento que son suficientes para decodificar la señal de audio codificada usando el segundo modo de extensión de ancho de banda no armónico, en el que los recursos de memoria o de procesamiento no son suficientes para decodificar la señal de audio codificada usando el primer modo de extensión de ancho de banda
    20 armónico.
  3. 3. Aparato de acuerdo con la reivindicación 1 o 2, en el que la interfaz de entrada (100) está configurada para leer los datos de control de extensión de ancho de banda para determinar si la señal de audio codificada se ha de decodificar usando ya sea el primer modo de
    25 extensión de ancho de banda armónico o el segundo modo de extensión de ancho de banda no armónico y para almacenar los datos de control de extensión de ancho de banda en un registro de control del procesador, y en el que el controlador (104) está configurado para acceder al registro de control del procesador y para sobrescribir un valor en el registro de control del procesador por un valor que indica el segundo modo de extensión de ancho de banda no armónico, cuando la interfaz de entrada (100) ha almacenado un valor que indica el primer modo de
    30 extensión de ancho de banda armónico.
  4. 4. Aparato de una de las reivindicaciones precedentes, en el que la señal de audio codificada comprende datos de carga útil de extensión de ancho de banda comunes (302) para el primer modo de extensión de ancho de banda armónico y el segundo modo de extensión de ancho de banda no armónico y datos de carga útil adicionales (304)
    35 para el primer modo de extensión de ancho de banda armónico solamente, y en el que el controlador (104) está configurado para utilizar los datos de carga útil adicionales (304) para controlar el procesador (102) para modificar una operación de aplicación de parches realizada por el procesador, en comparación con una operación de aplicación de parches en el segundo modo de extensión de ancho de banda no armónico, en el que la operación de aplicación de parches modificada es una operación de aplicación de parches no
    40 armónica.
  5. 5. Aparato de acuerdo con la reivindicación 4, en el que los datos de carga útil adicionales (304) comprenden información sobre una característica armónica de la señal de audio codificada, y
    45 en el que el controlador (104) está configurado para modificar un contenido de memoria intermedia de aplicación de parches (828, 830, 832) de una memoria intermedia de aplicación de parches utilizada por el procesador (102) para realizar una operación de aplicación de parches en la decodificación de la señal de audio codificada, de tal manera que una característica armónica de una señal parcheada es más cercana a la característica armónica que una característica armónica de una señal parcheada sin modificar el contenido de memoria intermedia de aplicación de
    50 parches.
  6. 6. Aparato de acuerdo con la reivindicación 4 a 5, en el que el controlador (104) está configurado:
    55 para calcular (310) una cuadrícula armónica que indica una frecuencia de tono de los datos de carga útil adicionales, para determinar (312) una información fuente de aplicación de parches e información objetivo de aplicación de parches para una banda fuente de aplicación de parches que tiene bordes de frecuencia y una banda objetivo de parches que tiene bordes de frecuencia; y
    60 para modificar (314) los datos dentro de la banda fuente de parches dentro de los bordes de frecuencia antes o después de una operación de aplicación de parches (914), de tal manera que se localiza la porción de frecuencia en la banda fuente de aplicación de parches que coincide con la cuadrícula armónica, después de la aplicación de parches (914), en una porción de frecuencia objetivo (912) que coincide con la cuadrícula armónica.
  7. 7. Aparato de acuerdo con una de las reivindicaciones 4 a 6, en el que el procesador (102) comprende una memoria intermedia de aplicación de parches, en el que el procesador está configurado para cargar (400) la memoria de aplicación de parches utilizando los datos de carga útil de extensión de ancho de banda común,
    5 en el que el controlador está configurado para calcular (402) un valor de desplazamiento de memoria intermedia utilizando los datos de extensión de ancho de banda adicionales que indican una cuadrícula armónica de la señal de audio codificada usando una información de banda fuente de aplicación de parches (903) e información de banda de destino de parche (908), en el que el controlador está configurado para provocar (404) una operación de desplazamiento de memoria
    10 intermedia al contenido de memoria intermedia; y en el que el procesador (102) está configurado para generar (406, 408) datos parcheados utilizando el contenido de memoria intermedia desplazado por el valor de desplazamiento de memoria intermedia.
  8. 8. Aparato de acuerdo con la reivindicación 7, en el que el controlador está configurado para provocar (404) la 15 operación de desplazamiento de memoria intermedia con una envolvente.
  9. 9. Aparato de acuerdo con una de las reivindicaciones precedentes, en el que el procesador comprende:
    20 un decodificador central (500) para decodificar una señal de audio codificada central (902); un parche (502) para parchear una región de frecuencia fuente de la señal de audio codificada central a una región de frecuencia objetivo usando datos de extensión de ancho de banda de la señal de audio codificada de acuerdo con el modo de extensión de ancho de banda no armónico; y un modificador de parche (504) para modificar una señal parcheada en la región de frecuencia objetivo utilizando
    25 los datos de extensión de ancho de banda de la señal de audio codificada.
  10. 10. Aparato de acuerdo con una de las reivindicaciones precedentes, en el que los datos de control de extensión de ancho de banda comprenden una primera entidad de datos de control
    (114) para un elemento de audio que comprende una pluralidad de tramas de audio, indicando la primera entidad de
    30 datos de control si el primer modo de extensión de ancho de banda armónico está activo o no para la pluralidad de tramas, una segunda entidad de datos de control (116a, 118a, 120a) para cada trama de la señal de audio codificada que indica si el primer modo de extensión de ancho de banda armónico está activo o no para cada trama individual de la señal de audio codificada, en el que la interfaz de entrada (100) está configurada para leer la primera entidad de datos de control para el
    35 elemento de audio y la segunda entidad de datos de control para cada trama de la pluralidad de tramas, y en el que el controlador (104) está configurado para controlar el procesador (102) para decodificar la señal de audio utilizando el segundo modo de extensión de ancho de banda no armónico, independientemente de un valor de una primera entidad de datos de control e independientemente de un valor de la segunda entidad de datos de control.
    40 11. Aparato de acuerdo con una de las reivindicaciones precedentes, en el que la señal de audio codificada es un flujo de bits como se define por la norma USAC, en el que el procesador
    (102) está configurado para realizar el segundo modo de extensión de ancho de banda no armónico como se define por la norma USAC, y en el que la interfaz de entrada está configurada para analizar el flujo de bits que comprende la señal de audio codificada de acuerdo con la norma de codificación de voz y audio unificada, USAC.
  11. 12. Aparato de acuerdo con una de las reivindicaciones precedentes, en el que el procesador (102) tiene recursos de memoria y procesamiento suficientes para decodificar la señal de audio codificada usando el segundo modo de extensión de ancho de banda no armónico, en el que los recursos de memoria o de procesamiento no son suficientes para decodificar la señal de audio codificada usando el primer modo de extensión de ancho de banda
    50 armónico, cuando la señal de audio codificada es una señal de audio estéreo o de multicanal codificada, y en el que el procesador (102) tiene recursos de memoria y de procesamiento que son suficientes para decodificar la señal de audio codificada usando el segundo modo de extensión de ancho de banda no armónico y usando el primer modo de extensión de ancho de banda armónico, cuando la señal de audio codificada es una señal mono codificada.
    55 13. Método de decodificación de una señal de audio codificada (101) que comprende datos de control de extensión de ancho de banda que indican ya sea un primer modo de extensión de ancho de banda armónico o un segundo modo de extensión de ancho de banda no armónico, que comprende:
    recibir (100) la señal de audio codificada que comprende los datos de control de extensión de ancho de banda
    60 que indican ya sea el primer modo de extensión de ancho de banda armónico o el segundo modo de extensión de ancho de banda no armónico; decodificar (102) la señal de audio (101) usando el segundo modo de extensión de ancho de banda no armónico; y controlar (104) la decodificación de la señal de audio, de tal manera que se usa el segundo modo de extensión
    de ancho de banda no armónico en la decodificación, incluso cuando los datos de control de extensión de ancho de banda indican el primer modo de extensión de ancho de banda armónico para la señal codificada.
  12. 14. Programa de computadora para realizar, cuando se ejecuta en una computadora, el método de decodificación de una señal de audio codificada de acuerdo con la reivindicación 13.
ES14808907.1T 2013-12-09 2014-11-28 Método y aparato para decodificar una señal de audio codificada con bajos recursos computacionales Active ES2650941T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13196305.0A EP2881943A1 (en) 2013-12-09 2013-12-09 Apparatus and method for decoding an encoded audio signal with low computational resources
EP13196305 2013-12-09
PCT/EP2014/076000 WO2015086351A1 (en) 2013-12-09 2014-11-28 Apparatus and method for decoding an encoded audio signal with low computational resources

Publications (1)

Publication Number Publication Date
ES2650941T3 true ES2650941T3 (es) 2018-01-23

Family

ID=49725065

Family Applications (1)

Application Number Title Priority Date Filing Date
ES14808907.1T Active ES2650941T3 (es) 2013-12-09 2014-11-28 Método y aparato para decodificar una señal de audio codificada con bajos recursos computacionales

Country Status (11)

Country Link
US (2) US9799345B2 (es)
EP (2) EP2881943A1 (es)
JP (1) JP6286554B2 (es)
KR (1) KR101854298B1 (es)
CN (1) CN105981101B (es)
BR (1) BR112016012689B1 (es)
CA (1) CA2931958C (es)
ES (1) ES2650941T3 (es)
MX (1) MX353703B (es)
RU (1) RU2644135C2 (es)
WO (1) WO2015086351A1 (es)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI758146B (zh) 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
TWI752166B (zh) * 2017-03-23 2022-01-11 瑞典商都比國際公司 用於音訊信號之高頻重建的諧波轉置器的回溯相容整合
TWI834582B (zh) * 2018-01-26 2024-03-01 瑞典商都比國際公司 用於執行一音訊信號之高頻重建之方法、音訊處理單元及非暫時性電腦可讀媒體
WO2019207036A1 (en) * 2018-04-25 2019-10-31 Dolby International Ab Integration of high frequency audio reconstruction techniques
CN114242089A (zh) 2018-04-25 2022-03-25 杜比国际公司 具有减少后处理延迟的高频重建技术的集成
CN113808596A (zh) * 2020-05-30 2021-12-17 华为技术有限公司 一种音频编码方法和音频编码装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE9700772D0 (sv) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
US6850884B2 (en) * 2000-09-15 2005-02-01 Mindspeed Technologies, Inc. Selection of coding parameters based on spectral content of a speech signal
AU2004319555A1 (en) * 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding models
US8880410B2 (en) * 2008-07-11 2014-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a bandwidth extended signal
EP2224433B1 (en) * 2008-09-25 2020-05-27 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
EP2239732A1 (en) * 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
EP2273493B1 (en) 2009-06-29 2012-12-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Bandwidth extension encoding and decoding
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
CN102208188B (zh) * 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备

Also Published As

Publication number Publication date
US9799345B2 (en) 2017-10-24
EP3080803B1 (en) 2017-10-04
BR112016012689B1 (pt) 2021-02-09
EP3080803A1 (en) 2016-10-19
CA2931958C (en) 2018-10-02
JP2016539377A (ja) 2016-12-15
EP2881943A1 (en) 2015-06-10
KR20160079878A (ko) 2016-07-06
US20170278522A1 (en) 2017-09-28
MX2016007430A (es) 2016-08-19
US20160284359A1 (en) 2016-09-29
KR101854298B1 (ko) 2018-05-03
CN105981101A (zh) 2016-09-28
JP6286554B2 (ja) 2018-02-28
CN105981101B (zh) 2020-04-10
CA2931958A1 (en) 2015-06-18
MX353703B (es) 2018-01-24
WO2015086351A1 (en) 2015-06-18
US10332536B2 (en) 2019-06-25
RU2644135C2 (ru) 2018-02-07

Similar Documents

Publication Publication Date Title
ES2650941T3 (es) Método y aparato para decodificar una señal de audio codificada con bajos recursos computacionales
ES2959970T3 (es) Codificador de audio para la codificación de una señal de múltiples canales y un decodificador de audio para la decodificación de una señal de audio codificada
ES2946760T3 (es) Descodificar corrientes de bits de audio con metadatos de replicación potenciada de banda espectral en al menos un elemento de relleno
ES2593072T3 (es) Aparato y método para la reproducción de una señal de audio, aparato y método para la generación de una señal de audio codificada y programa de ordenador correspondiente
ES2773795T3 (es) Aparato y método para llenado estéreo en codificación multicanal
ES2599007T3 (es) Aparato y método para codificar y decodificar una señal de audio codificada utilizando modelado de ruido/parche temporal
ES2952871T3 (es) Concepto para puentear el espacio entre codificación parámetrica de audio multicanal y codificación multicanal envolvente matricial
ES2942867T3 (es) Procesamiento de señales de audio durante la reconstrucción de alta frecuencia
ES2430639T3 (es) Método y aparato para generar una capa de mejora dentro de un sistema de codificación de audio de múltiples canales
ES2641390T3 (es) Codificación y decodificación eficientes de una señal de audio multicanal con múltiples flujos secundarios
ES2703327T3 (es) Codificador, decodificador y métodos para codificación espacial de objetos de audio de multirresolución retrocompatible
BR112016001141B1 (pt) Codificador de áudio, decodificador de áudio e métodos que usam sinais residuais codificados em conjunto
ES2965741T3 (es) Aparato para codificar o decodificar una señal multicanal codificada mediante una señal de relleno generada por un filtro de banda ancha
BR112012014856B1 (pt) Método para fundir conjuntos de fonte de parâmetros de sbr a conjuntos-alvo de parâmetros de sbr, meio de armazenamento não transitório e unidade de fusão de parâmetros de sbr
BRPI0923850B1 (pt) Aparelho que decodifica um sinal de áudio de canal múltiplo e método para a decodificação e codificação de um sinal de áudio de canal múltiplo
BRPI0923749B1 (pt) Aparelho que decodifica um sinal de áudio, métodos para a decodificação e para a codificação de um sinal de áudio
TW202018699A (zh) 在包含三個音訊聲道的多聲道音訊系統中之解碼方法、編碼方法、解碼裝置及編碼裝置、包含用於執行解碼方法及編碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置及編碼裝置的音訊系統
BR122017006819B1 (pt) Método para decodificar um período de tempo de um fluxo de bits de áudio codificado em um sistema de processamento de áudio, decodificador de áudio para decodificar um fluxo de bits de áudio codificado e meio legível por computador não transitório
ES2948839T3 (es) Integración retrocompatible de técnicas de reconstrucción de alta frecuencia para señales de audio
ES2867477T3 (es) Decodificación de secuencias de bits de audio con metadatos de replicación de banda espectral mejorada en al menos un elemento de relleno