ES2377551T3 - Aparato, método y programa informático para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada usando una combinación de una ampliación de ancho de banda armónica y una ampliación de ancho de banda no armónica - Google Patents

Aparato, método y programa informático para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada usando una combinación de una ampliación de ancho de banda armónica y una ampliación de ancho de banda no armónica Download PDF

Info

Publication number
ES2377551T3
ES2377551T3 ES10712439T ES10712439T ES2377551T3 ES 2377551 T3 ES2377551 T3 ES 2377551T3 ES 10712439 T ES10712439 T ES 10712439T ES 10712439 T ES10712439 T ES 10712439T ES 2377551 T3 ES2377551 T3 ES 2377551T3
Authority
ES
Spain
Prior art keywords
representation
values
patch
spectral domain
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES10712439T
Other languages
English (en)
Inventor
Frederik Nagel
Max Neuendorf
Nikolaus Rettelbach
Jérémie Lecomte
Markus Multrus
Bernhard Grill
Sascha Disch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2377551T3 publication Critical patent/ES2377551T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Complex Calculations (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
  • Stored Programmes (AREA)

Abstract

Aparato (100; 386) para generar una representación (120; 426) de una señal de ancho de banda ampliado basándose en una representación (110; 383) de señal de entrada, comprendiendo el aparato: un vocoder (130; 406) de fase configurado para obtener valores (ßc ... ß2c, 408) de una representación de dominio espectral de un primer parche de la señal de ancho de banda ampliado basándose en la representación de señal de entrada; y un copiador (140; 410, 416) de valores configurado para copiar un conjunto de valores (ßc ... ß2c, 408)de la representación de dominio espectral del primer parche, valores que se proporcionan por el vocoder de fase, para obtener un conjunto de valores (ßc ... ß2c, 408) de una representación de dominio espectral de un segundo parche, en el que el segundo parche está asociado con frecuencias más altas que el primer parche; en el que el aparato está configurado para obtener la representación (120; 426) de la señal de ancho de banda ampliado usando los valores de la representación de dominio espectral del primer parche y los valores de la representación de dominio espectral del segundo parche.

Description

Aparato, método y programa informático para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada usando una combinación de una ampliación de ancho de banda armónica y una ampliación de ancho de banda no armónica.
Campo técnico
Realizaciones según la invención se refieren a un aparato para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada. Otras realizaciones según la invención se refieren a un método para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada. Realizaciones adicionales según la invención se refieren a un programa informático para realizar tal método.
Algunas realizaciones según la invención se refieren a métodos de parcheado novedosos dentro de la replicación de banda espectral.
Antecedentes de la invención
El almacenamiento o transmisión de señales de audio está sujeto a menudo a estrictas restricciones de tasa de transmisión de bits. Estas restricciones se superan habitualmente mediante una codificación de la señal. En el pasado, se forzaba a los codificadores a reducir drásticamente el ancho de banda del audio transmitido cuando sólo había disponible una tasa de transmisión de bits muy baja. Los códecs de audio modernos pueden preservar hoy en día el ancho de banda audible usando métodos de ampliación de ancho de banda (BWE). Tales métodos se describen, por ejemplo, en las referencias [1] a [12]. Estos algoritmos se basan en una representación paramétrica del contenido de alta frecuencia (HF), que se genera a partir de la parte de baja frecuencia (LF) con forma de onda codificada de la señal decodificada por medio de transposición a la región espectral de HF (“parcheado”) y la aplicación de un procesamiento posterior dirigido por parámetros.
En la técnica, métodos de ampliación de ancho de banda, tales como replicación de banda espectral (SBR), se usan como un método eficaz para generar señales de alta frecuencia en códecs basados en HFR (reconstrucción de alta frecuencia).
La replicación de banda espectral descrita en la referencia [1], que también se designa de manera abreviada como “SBR”, usa un banco de filtros de espejo en cuadratura (QMF) para generar la información de HF. Con la ayuda del denominado proceso de “parcheado”, se copian bandas QMF más bajas a una posición (frecuencia) más alta dando lugar a una replicación de la información de la parte de LF en la parte de HF. La parte de HF generada se adapta después a la parte de HF original con la ayuda de parámetros que adoptan (o ajustan) la envolvente espectral y la tonalidad (por ejemplo usando un formateado de envolvente).
En SBR estándar, el parcheado siempre se lleva a cabo mediante una operación de copia dentro del dominio de QMF. Se ha descubierto que esto a veces puede llevar a artefactos auditivos, particularmente si se copian sinusoides en la proximidad unos de otros en el borde de la parte de LF y la de HF generada. Por tanto, puede afirmarse que la SBR estándar tiene el problema de artefactos auditivos. Además, algunas implementaciones convencionales del concepto de ampliación de ancho de banda conllevan una complejidad comparativamente alta. Además, en algunas implementaciones de los conceptos de ampliación de ancho de banda de la invención, el espectro se vuelve muy disperso para parches altos (factores de alargamientos altos), lo que puede dar como resultado artefactos de audio (audibles) no deseados.
La referencia [14] da a conocer un método de ampliación de ancho de banda usando transposición de frecuencia del espectro de banda más bajo.
La referencia [15] da a conocer una ampliación de ancho de banda iterativa, en la que se obtienen parches espectrales y se usan para una posterior generación de parches.
En vista de los comentarios anteriores, es un objetivo de la presente invención crear un concepto para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada, que conlleve un equilibrio mejorado entre complejidad y calidad de audio.
Sumario de la invención
El objetivo se consigue proporcionando un aparato según la reivindicación 1, un método según la reivindicación 14, un aparato según la reivindicación 15, un método según la reivindicación 16 y un programa informático según la reivindicación 17.
Realizaciones según la invención crean un aparato para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada. El aparato comprende un vocoder de fase configurado para obtener valores de una representación de dominio espectral de un primer parche de la señal de ancho de banda ampliado basándose en la representación de señal de entrada. El aparato también comprende un copiador de valores configurado para copiar un conjunto de valores de la representación de dominio espectral del primer parche, valores que se proporcionan por el vocoder de fase, para obtener un conjunto de valores de una representación de dominio espectral de un segundo parche. El segundo parche está asociado con frecuencias más altas que el primer parche. El aparato está configurado para obtener la representación de la señal de ancho de banda ampliado usando los valores de la representación de dominio espectral del primer parche y los valores de la representación de dominio espectral del segundo parche.
La idea clave de la presente invención es que se obtiene un equilibrio particularmente bueno entre complejidad computacional y calidad de audio de una señal de ancho de banda ampliado combinando un vocoder de fase con un copiador de valores, de manera que el primer parche de la señal de ancho de banda ampliado se obtiene por el vocoder de fase, y de manera que el segundo parche de la señal de ancho de banda ampliado se obtiene basándose en el primer parche usando el copiador de valores.
Por consiguiente, el contenido del primer parche es una versión armónicamente transpuesta del contenido de la parte de baja frecuencia (LF) de la señal de entrada (representada por la representación de señal de entrada), y el segundo parche es (o representa) una versión desplazada en frecuencia (no armónicamente) del contenido de la señal del primer parche. Por consiguiente, el segundo parche puede obtenerse con una complejidad computacional relativamente baja porque el copiado de los valores es más sencillo desde un punto de vista computacional que una operación de vocodificación de fase. Además, se evita que haya grandes huecos espectrales en el segundo parche, porque los valores espectrales del primer parche normalmente están suficientemente poblados (es decir comprenden valores distintos de cero), de manera que se reducen o evitan artefactos audibles, que se provocarían, en algunos casos, si el segundo parche estuviese sólo escasamente poblado.
En resumen, el concepto de la invención conlleva ventajas significativas frente a métodos de parcheado convencionales, porque la ampliación de ancho de banda armónica, usando el vocoder de fase, se aplica sólo para obtener valores de la representación de dominio espectral del primer parche, es decir para la parte más baja del espectro, mientras que se usa una ampliación de ancho de banda no armónica, que se basa en un copiado de valores de la representación de dominio espectral del primer parche para obtener valores de la representación de dominio espectral del primer parche, para frecuencias más altas. Por consiguiente, el rango más bajo (que también se designa como “primer parche”) de la parte de frecuencia de ampliación (que es una parte de frecuencia por encima de la frecuencia de cruce) se proporciona como una ampliación armónica del rango de frecuencia fundamental (es decir en el rango de frecuencia de la señal de entrada, que abarca frecuencias más bajas que las frecuencias de la parte de frecuencia de ampliación, por ejemplo frecuencias por debajo de la frecuencia de cruce), lo que conlleva una buena impresión de la señal de ancho de banda ampliado cuando se escucha. Además, se ha descubierto que la sencilla generación de los valores de la representación de dominio espectral del rango más alto de la parte de frecuencia de ampliación (que también se designa como “segundo parche”), que se realiza usando el copiador, no conlleva artefactos auditivos significativos porque la audición humana no es particularmente sensible a detalles espectrales del rango más alto de la parte de frecuencia de ampliación (segundo parche).
En resumen, el concepto de la invención conlleva una buena impresión de escucha con una complejidad computacional comparativamente pequeña.
En una realización preferida, el vocoder de fase está configurado para copiar un conjunto de valores de magnitud asociados con una pluralidad de subrangos de frecuencia dados de la representación espectral de entrada, para obtener un conjunto de valores de magnitud asociados con correspondientes subrangos de frecuencia del primer parche, en el que un par de un subrango de frecuencia dado de la representación espectral de entrada y un correspondiente subrango de frecuencia del primer parche abarca (o comprende) un par de una frecuencia fundamental y un armónico de la frecuencia fundamental (por ejemplo un primer armónico de la frecuencia fundamental). El vocoder de fase también está preferiblemente configurado para multiplicar valores de fase asociados con la pluralidad de subrangos de frecuencia dados de la representación espectral de entrada por un factor predeterminado (por ejemplo 2), para obtener valores de fase asociados con correspondientes subrangos de frecuencia del primer parche. Preferiblemente, el copiador de valores está configurado para copiar un conjunto de valores asociados con una pluralidad de subrangos de frecuencia dados del primer parche, para obtener un conjunto de valores asociados con correspondientes subrangos de frecuencia del segundo parche. El copiador de valores está preferiblemente configurado para dejar valores de fase sin cambiar en el copiado. Por consiguiente, el vocoder de fase realiza, al menos aproximadamente, una transposición armónica, mientras que el copiador de valores realiza un desplazamiento de frecuencia no armónico. Los subrangos de frecuencia pueden ser, por ejemplo, rangos de frecuencia asociados con coeficientes de una transformada rápida de Fourier (o cualquier transformada comparable). Alternativamente, los subrangos de frecuencia pueden ser rangos de frecuencia asociados con señales individuales de un banco de filtros de QMF. Normalmente, un ancho de los subrangos de frecuencia es comparativamente pequeño en comparación con la frecuencia central, de manera que los subrangos de frecuencia abarcan un intervalo de frecuencia que tiene una razón de frecuencia entre una frecuencia final y una frecuencia inicial, que es significativamente menor que 2:1. En otras palabras, incluso aunque los subrangos de frecuencia de la representación espectral de entrada (que pueden, por ejemplo, adoptar la forma de coeficientes de FFT, o la forma de señales de banco de filtros de QMF) y los subrangos de frecuencia del primer parche no necesiten ser exactamente armónicos unos con respecto a otros, normalmente es posible identificar una asociación entre un subrango de frecuencia (por ejemplo, que tiene un índice de frecuencia k) de la representación espectral de entrada y un correspondiente subrango de frecuencia (por ejemplo, que tiene un índice de frecuencia 2k) del primer parche, de manera que el subrango de frecuencia (2k) del primer parche representa, al menos aproximadamente, una frecuencia armónica del correspondiente subrango de frecuencia (k) de la representación espectral de entrada.
Por consiguiente, una transposición armónica se realiza por el vocoder de fase, teniendo en cuenta los valores de fase, que se procesan usando un ajuste a escala de fase. En cambio, el copiador de valores simplemente realiza (al menos aproximadamente), una operación de desplazamiento de frecuencia no armónica.
En una realización preferida, el copiador de valores está configurado para copiar los valores de manera que se obtiene un desplazamiento espectral común (o desplazamiento de frecuencia) de valores del primer parche a valores del segundo parche.
En una realización preferida, el vocoder de fase está configurado para obtener los valores de la representación de dominio espectral del primer parche de manera que los valores de la representación de dominio espectral del primer parche representan una versión convertida en sentido ascendente de manera armónica de un rango de frecuencia fundamental de la representación de señal de entrada (por ejemplo, un rango de frecuencia fundamental por debajo de una denominada frecuencia de cruce). El copiador de valores está preferiblemente configurado para obtener los valores de la representación de dominio espectral del segundo parche de manera que los valores de la representación de dominio espectral del segundo parche representan una versión desplazada en frecuencia del primer parche. Por consiguiente se obtienen las ventajas anteriormente descritas. En particular, la implementación es sencilla al tiempo que se obtiene una buena impresión auditiva.
En una realización preferida, el aparato está configurado para recibir datos de audio de entrada modulados por impulsos codificados (PCM), para muestrear en sentido descendente los datos de audio de entrada modulados por impulsos codificados con el fin de obtener datos de audio modulados por impulsos codificados muestreados en sentido descendente. Además, el aparato está configurado para dividir en ventanas los datos de audio modulados por impulsos codificados muestreados en sentido descendente, con el fin de obtener datos de entrada divididos en ventanas, y para convertir o transformar los datos de entrada divididos en ventanas en un dominio de frecuencia, con el fin de obtener la representación de señal de entrada. El aparato también está preferiblemente configurado para calcular valores de magnitud ak (también designados con ak) y valores de fase qk, que representan un intervalo de frecuencia k (en el que k es un índice de intervalo de frecuencia) de la representación de señal de entrada, y para copiar los valores de magnitud valores de magnitud ak, para obtener valores de magnitud copiados ask (también designados con ask) que representan un intervalo de frecuencia que tiene un índice de intervalo de frecuencia sk del primer parche, en el que s es un factor de alargamiento siendo s=2. Además, el aparato está preferiblemente configurado para copiar y ajustar a escala valores de fase qk asociados con un intervalo de frecuencia que tiene un índice de intervalo de frecuencia k de la representación de señal de entrada, para obtener valores de fase copiados y ajustados a escala qsk asociados con un intervalo de frecuencia que tiene un índice de frecuencia sk del primer parche. Además, el aparato está preferiblemente configurado para copiar valores 1k-is asociados con un intervalo de frecuencia k-is de la representación de dominio espectral del primer parche, para obtener valores 1k de la representación de dominio espectral del segundo parche. Además, el aparato está preferiblemente configurado para convertir la representación de la señal de ancho de banda ampliado (que comprende la representación de dominio espectral del primer parche y la representación de dominio espectral del segundo parche) en el dominio de tiempo, para obtener una representación de dominio de tiempo, y para aplicar una ventana de síntesis a la representación de dominio de tiempo. Usando el concepto anteriormente descrito, es posible obtener una señal de ancho de banda ampliado con una complejidad computacional moderada. La ampliación de ancho de banda se realiza en el dominio de frecuencia, pudiendo realizarse una transformada a un dominio espectral, por ejemplo, a un dominio FFT o un dominio de QMF.
En una realización preferida, el aparato comprende un convertidor del dominio de tiempo al dominio espectral (por ejemplo, un medio de transformada rápida de Fourier o un banco de filtros de QMF) configurado para proporcionar, como la representación de señal de entrada, valores de una representación de dominio espectral (por ejemplo, coeficientes de transformada rápida de Fourier o señales de subbanda de QMF) de una señal de audio de entrada, o de una versión previamente procesada (por ejemplo muestreada en sentido descendente y/o dividida en ventanas) de la señal de audio de entrada (por ejemplo una señal modulada por impulsos codificados proporcionada por un núcleo de decodificador de audio). El aparato preferiblemente comprende un convertidor del dominio espectral al dominio de tiempo (por ejemplo, un medio de transformada rápida de Fourier inversa o un medio de síntesis de QMF) configurado para proporcionar una representación de dominio de tiempo de la señal de ancho de banda ampliado usando valores de la representación de dominio espectral (por ejemplo coeficientes de FFT, o señales de subbanda de QMF) del primer parche y valores de la representación de dominio espectral (por ejemplo coeficientes de FFT, o señales de subbanda de QMF) del segundo parche. El convertidor del dominio espectral al dominio de tiempo está preferiblemente configurado de manera que un número de diferentes valores espectrales (por ejemplo intervalos de FFT o bandas de QMF) recibidos por el convertidor del dominio espectral al dominio de tiempo es mayor que un número de diferentes valores espectrales (por ejemplo un número de intervalos de frecuencia de FFT, o un número de bandas de QMF) proporcionado por el convertidor del dominio de tiempo al dominio espectral (por ejemplo medios de transformada rápida de Fourier o banco de filtros de QMF), de manera que el convertidor del dominio espectral al dominio de tiempo está configurado para procesar un mayor número de intervalos de frecuencia (por ejemplo intervalos de frecuencia de transformada rápida de Fourier o bandas de frecuencia de QMF) que el convertidor del dominio de tiempo al dominio de frecuencia. Por consiguiente, una ampliación de ancho de banda se consigue por el hecho de que el convertidor del dominio espectral al dominio de tiempo comprende un mayor número de intervalos de frecuencia que el convertidor del dominio de tiempo al dominio de frecuencia.
En una realización preferida, el aparato comprende un divisor en ventanas de análisis configurado para dividir en ventanas una señal de audio de entrada de dominio de tiempo, para obtener una versión dividida en ventanas de la señal de audio de entrada de dominio de tiempo, que constituye la base para obtener la representación de señal de entrada. Además, el aparato comprende un divisor en ventanas de síntesis configurado para dividir en ventanas una parte de una representación de dominio de tiempo de la señal de ancho de banda ampliado, para obtener una parte dividida en ventanas de la representación de dominio de tiempo de la señal de ancho de banda ampliado. Por consiguiente, se reducen o incluso se evitan artefactos en la señal de ancho de banda ampliado.
En una realización preferida, el aparato está configurado para procesar una pluralidad de partes desplazadas en el tiempo que se solapan temporalmente de la señal de audio de entrada de dominio de tiempo, para obtener una pluralidad de partes divididas en ventanas desplazadas en el tiempo que se solapan temporalmente de la representación de dominio de tiempo de la señal de ancho de banda ampliado. Un desfase de tiempo entre partes desplazadas en el tiempo temporalmente adyacentes de la señal de audio de entrada de dominio de tiempo es menor que o igual a una cuarta parte de una longitud de ventana de la ventana de análisis. Se ha descubierto que un solapamiento temporal comparativamente grande entre partes desplazadas en el tiempo adyacentes de la señal de audio de entrada de dominio de tiempo (y/o un solapamiento temporal comparativamente grande entre partes desplazadas en el tiempo temporalmente adyacentes de la representación de dominio de tiempo de la señal de ancho de banda ampliado) da como resultado una ampliación de ancho de banda que conlleva una buena impresión de escucha, porque no se tienen en cuenta estacionaridades de la señal debido al solapamiento temporal comparativamente grande.
En una realización preferida, el aparato comprende un proveedor de información de transitorios configurado para proporcionar una información que indica la presencia de un transitorio en la señal de entrada (representado por la representación de señal de entrada). El aparato también comprende una primera rama de procesamiento para proporcionar una representación de una parte de señal de ancho de banda ampliado basándose en una parte sin transitorio de la representación de señal de entrada y una segunda rama de procesamiento para proporcionar una representación de una parte de señal de ancho de banda ampliado basándose en una parte con transitorio de la representación de señal de entrada. La segunda rama de procesamiento está configurada para procesar una representación de dominio espectral de la señal de entrada que tiene una resolución espectral más alta que una representación de dominio espectral de la señal de entrada procesada por la primera rama de procesamiento. Por consiguiente, pueden tratarse partes de señal que comprenden un transitorio con resolución espectral más alta, lo que evita artefactos audibles en presencia de transitorios. Por otro lado, puede usarse una resolución espectral reducida para partes de señal sin transitorio (es decir, para partes de señal en las que el proveedor de información de transitorios no identifica un transitorio). Por tanto, se mantiene alta la eficiencia computacional, y la resolución espectral aumentada se usa sólo cuando conlleva ventajas (por ejemplo, porque da como resultado una mejor impresión de escucha en la proximidad de transitorios).
En una realización preferida, el aparato comprende un rellenador de ceros de dominio de tiempo configurado para rellenar con ceros una parte con transitorio de la señal de entrada, con el fin de obtener una parte con transitorio temporalmente ampliada de la señal de entrada. En este caso, la primera rama de procesamiento comprende un (primer) convertidor del dominio de tiempo al dominio de frecuencia configurado para proporcionar un primer número de valores de dominio espectral asociados con una parte sin transitorio de la señal de entrada, y la segunda rama de procesamiento comprende un (segundo) convertidor del dominio de tiempo al dominio de frecuencia configurado para proporcionar un segundo número de valores de dominio espectral asociados con la parte con transitorio temporalmente ampliada de la señal de entrada. El segundo número de valores de dominio espectral es mayor, al menos en un factor de 1,5, que el primer número de valores de dominio espectral. Por consiguiente, se obtiene un buen manejo de transitorios.
En una realización preferida, la segunda rama de procesamiento comprende un eliminador de ceros configurado para eliminar una pluralidad de valores cero de una parte de señal de ancho de banda ampliado obtenida basándose en la parte con transitorio temporalmente ampliada de la señal de entrada. Por consiguiente, se invierte la ampliación temporal de la señal de entrada, que se obtiene mediante el relleno con ceros.
En una realización preferida, el aparato comprende un muestreador en sentido descendente configurado para muestrear en sentido descendente una representación de dominio de tiempo de la señal de entrada. Mediante el muestreo en sentido descendente de la señal de entrada, puede mejorarse una eficiencia computacional si la señal de entrada no abarca el ancho de banda Nyquist completo de un flujo de entrada de muestras moduladas por impulsos codificados.
Otra realización según la invención crea un aparato en el que se invierte el orden de procesamiento del procesamiento por el copiador de valores y el vocoder de fase. 15. Un aparato de este tipo para generar una representación de una señal de ancho de banda ampliado basándose en una representación (110; 383) de señal de entrada comprende un copiador de valores configurado para copiar un conjunto de valores de la representación de señal de entrada, para obtener un conjunto de valores de una representación de dominio espectral de un primer parche, en el que el primer parche está asociado con frecuencias más altas que la representación de señal de entrada. El aparato también comprende un vocoder (130; 406) de fase configurado para obtener valores (12s … 13s) de una representación de dominio espectral de un segundo parche de la señal de ancho de banda ampliado basándose en los valores (14/3s … 12s) de la representación de dominio espectral del primer parche, en el que el segundo parche está asociado con frecuencias más altas que el primer parche. El aparato está configurado para obtener la representación (120; 426) de la señal de ancho de banda ampliado usando los valores de la representación de dominio espectral del primer parche y los valores de la representación de dominio espectral del segundo parche.
Este aparato puede obtener una señal de ancho de banda ampliado con complejidad computacional comparativamente baja al tiempo que todavía se consigue una buena impresión de escucha de la señal de ancho de banda ampliado. Realizando la vocodificación de fase tras la operación de copiado, el vocoder de fase puede hacerse funcionar con una razón de frecuencia comparativamente pequeña (razón entre frecuencia de salida del vocoder y frecuencia de entrada del vocoder), lo que da como resultado un buen llenado espectral y evita la presencia de grandes huecos espectrales. Además, se ha descubierto que la impresión de escucha usando este concepto es aún mejor que para un concepto que se basa meramente en operaciones de copiado, sin una acción de vocoder de fase, a pesar de que el primer parche (parche de frecuencia más baja) se obtiene usando la operación de copiado, y sólo el segundo parche (parche de frecuencia más alta) se obtiene usando la operación de vocodificación de fase. Además, la complejidad computacional es menor que en sistemas en los que todos los parches se generan usando vocoders de fase, y los huecos espectrales se reducen en comparación con tales conceptos.
Naturalmente, esta realización puede complementarse mediante cualquiera de las funcionalidades comentadas en el presente documento.
Otras realizaciones según la invención crean métodos para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada. Dicho método se basa en las mismas ideas que el aparato anteriormente comentado.
Otra realización según la invención crea un programa informático para implementar el método.
Breve descripción de las figuras
La figura 1 muestra un diagrama de bloques esquemático de un aparato para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada, según una realización de la invención;
la figura 2 muestra una representación esquemática del concepto de ampliación de ancho de banda, según la presente invención;
la figura 3 muestra un diagrama de bloques esquemático detallado de un decodificador de audio que comprende un aparato para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada, según una realización de la invención;
la figura 4 muestra un diagrama de flujo de un método para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada, según una realización de la invención;
la figura 5 muestra un diagrama de bloques esquemático de un decodificador de audio, según un primer ejemplo de comparación; y
la figura 6 muestra un diagrama de bloques esquemático de un decodificador de audio, según un segundo ejemplo de comparación.
Descripción detallada de las realizaciones
1. Aparato según la figura 1
La figura 1 muestra un diagrama de bloques esquemático de un aparato 100 para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada. El aparato 100 está configurado para recibir una representación 110 de señal de entrada y proporcionar, basándose en la misma, una señal 120 de ancho de banda ampliado. El aparato 100 comprende un vocoder de fase configurado para obtener valores de una representación 130 de dominio espectral de un primer parche de la señal 120 de ancho de banda ampliado basándose en la representación 110 de señal de entrada. Los valores de la representación de dominio espectral del primer parche se designan, por ejemplo, con 1s a 12s. El aparato 100 también comprende un copiador 140 de valores configurado para copiar un conjunto de valores de la representación 132 de dominio espectral del primer parche, que se proporcionan por el vocoder 130 de fase, para obtener un conjunto de valores de una representación 142 de dominio espectral de un segundo parche, en el que el segundo parche está asociado con frecuencias más altas que el primer parche. Los valores de la representación 142 de dominio espectral del segundo parche se designan, por ejemplo, con 12s a 13s. El aparato 100 está configurado para obtener la representación 120 de la señal de ancho de banda ampliado usando los valores 1s a 12s de la representación 132 de dominio espectral del primer parche y los valores 12s a 13s de la representación 142 de dominio espectral del segundo parche. Por ejemplo, la representación 120 de la señal de ancho de banda ampliado puede comprender los valores tanto de la representación 132 de dominio espectral del primer parche como de la representación 142 de dominio espectral del segundo parche. Además, la representación 120 de la señal de ancho de banda ampliado puede comprender, por ejemplo, valores de una representación de dominio espectral de la señal de entrada (representados, por ejemplo, por la representación 110 de señal de entrada). Sin embargo, la representación 120 de la señal de ancho de banda ampliado puede ser una representación de dominio de tiempo, que puede basarse en los valores de la representación 132 de dominio espectral del primer parche y los valores de la representación 142 de dominio espectral del segundo parche (y, opcionalmente, valores adicionales, por ejemplo valores de la representación 116 de dominio espectral de la señal de entrada, y/o valores de una representación de dominio espectral de parches adicionales).
A continuación se describirá en detalle la funcionalidad y el funcionamiento del aparato 100 haciendo referencia a la figura 2, que muestra una representación esquemática del concepto de la invención para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada.
Una primera representación 200 gráfica muestra una transposición armónica de la señal de entrada (representada por la representación 110 de señal de entrada), que se realiza por el vocoder 130 de fase. Como puede verse, la señal de entrada está representada, por ejemplo, mediante un conjunto de valores de magnitud ak. El índice k designa un intervalo espectral (por ejemplo, un intervalo que tiene el índice k de una transformada rápida de Fourier, o una banda de frecuencia que tiene el índice k de una conversión de QMF). La representación 110 de señal de entrada puede comprender, por ejemplo, valores de magnitud ak para k = 1 a k = s, donde s puede designar un denominado intervalo de frecuencia de cruce y describe un inicio de frecuencia de la ampliación de ancho de banda. Un rango de frecuencia fundamental se describe adicionalmente, por ejemplo, mediante valores de fase qk, donde k es un índice de intervalo de frecuencia, tal como se comentó anteriormente.
De manera similar, el primer parche se describe mediante un conjunto de valores de una representación de dominio espectral, por ejemplo, valores 1k estando k entre s y2s. Alternativamente, el primer parche puede estar representado por valores de magnitud ak y valores de fase qk, estando el índice de intervalo de frecuencia k entre s y 2s.
Tal como se ha mencionado, el vocoder 130 de fase está configurado para realizar una transposición armónica basándose en la representación 110 de señal de entrada para obtener valores de la representación 132 de dominio espectral del primer parche. Con este fin, el vocoder 130 de fase puede ajustar un valor de magnitud a2k de un intervalo de frecuencia que tiene el índice (de intervalo de frecuencia) 2k para que sea igual al valor de magnitud ak de un intervalo de frecuencia que tiene el índice (de intervalo de frecuencia) k. Además, el vocoder 130 de fase puede estar configurado para ajustar el valor de fase q2k de un intervalo de frecuencia que tiene el índice 2k a un valor que es igual a 2 veces el valor de fase qk asociado con el intervalo de frecuencia que tiene el índice k. En este caso, el intervalo de frecuencia que tiene el índice k puede ser un intervalo de frecuencia de la representación 110 de señal de entrada, y el intervalo de frecuencia que tiene el índice 2k puede ser un intervalo de frecuencia de la representación 132 de dominio espectral del primer parche. Además, un intervalo de frecuencia que tiene el índice 2k puede comprender una frecuencia, que es un primer armónico de una frecuencia incluida en el intervalo de frecuencia que tiene el índice k. Por consiguiente, pueden obtenerse valores de magnitud a2k y valores de fase q2k que son valores de la representación 132 de dominio espectral del primer parche, para 2k oscilando desde s a2s, de manera que a2k = aky q2k=2qk. Alternativamente, y de manera equivalente, los valores 12k, que son valores de la representación 132 de dominio espectral del primer parche, pueden obtenerse para 2k entre s y2s, de manera que 12k = 1akei2qk.
En resumen, suponiendo que los intervalos de frecuencia que tienen índices k (o de manera equivalente, 2k, etc.), que son, por ejemplo, intervalos de frecuencia de una representación de transformada rápida de Fourier o bandas de frecuencia de una representación de dominio de QMF, están separados linealmente en frecuencia (de manera que el índice de intervalo de frecuencia, por ejemplo k o 2k, es al menos aproximadamente proporcional a una frecuencia comprendida en el respectivo intervalo de frecuencia, por ejemplo, una frecuencia central de un k-ésimo intervalo de frecuencia de transformada rápida de Fourier o una frecuencia central de una k-ésima banda de QMF), se obtiene una transposición armónica por el vocoder 130 de fase.
Sin embargo, los valores de la representación 142 de dominio espectral del segundo parche se obtienen por el copiador 140 de valores, que realiza un copiado ascendente no armónico de valores de la representación 132 de dominio espectral del primer parche.
Haciendo referencia ahora a la representación 250 gráfica se comentará brevemente el copiado ascendente no armónico. Como puede verse, el primer parche está representado por valores 1s a 12s (o, de manera equivalente, por valores de magnitud as a a2s y valores de fase qs a q2s. Por consiguiente, los valores 12s a 13s (o, de manera equivalente, valores de magnitud a2s a a3s y valores de fase q2s a q3s) de la representación 142 de dominio espectral del segundo parche se obtienen mediante un copiado no armónico, que se realiza por el copiador 140 de valores. Por ejemplo, valores espectrales de valor complejo 12s a 13s de la representación 142 de dominio espectral del segundo parche pueden obtenerse basándose en correspondientes valores 1s a 12s de la representación 132 de dominio espectral del primer parche según 1k=1k-s para k entre 2s y3s. De manera equivalente, valores de magnitud a2s a a3s de la representación 142 de dominio espectral del segundo parche pueden obtenerse basándose en valores de magnitud de la representación 132 de dominio espectral del primer parche según ak=ak-s para k entre 2s y3s. En este caso, pueden obtenerse valores de fase q2s a q3s de la representación 142 de dominio espectral del segundo parche basándose en valores de fase qs a q2s de la representación 132 de dominio espectral del primer parche según qk= qk-s para k entre 2s y3s.
Por consiguiente, los valores de la representación 142 de dominio espectral del segundo parche representan una señal, que está desplazada en frecuencia de manera no armónica (es decir, linealmente) con respecto a una señal representada por los valores de la representación 132 de dominio espectral del primer parche.
Los valores 1s a 12s de la representación 132 de dominio espectral del primer parche y los valores 12s a 13s de la representación 142 de dominio espectral del segundo parche pueden usarse para obtener la representación 120 de la señal de ancho de banda ampliado. Dependiendo de los requisitos, la representación 120 de la señal de ancho de banda ampliado puede ser una representación de dominio espectral o una representación de dominio de tiempo. Si se desea obtener una representación de dominio de tiempo, puede usarse un convertidor del dominio de frecuencia al dominio de tiempo para derivar la representación de dominio de tiempo basándose en los valores 1s a 12s de la representación 132 de dominio espectral del primer parche y los valores 12s a 13s de la representación 142 de dominio espectral del segundo parche. Alternativamente (y de manera equivalente) los valores as a a2s, qs a q2s, a2s a a3s y q2s a q3s pueden usarse con el fin de derivar la representación 120 de la señal de ancho de banda ampliado (ya sea en el dominio espectral o en el dominio de tiempo).
Tal como se comentó anteriormente, el concepto descrito con respecto a las figuras 1 y 2 conlleva una buena impresión de escucha y una complejidad computacional comparativamente baja. La vocodificación de fase sólo se requiere una vez, incluso aunque se use una pluralidad de parches (por ejemplo, el primer parche y el segundo parche). Además, se evita que haya grandes huecos espectrales en el segundo parche, lo que ocurriría si se usara otro vocoder de fase para obtener el segundo parche. Por tanto, el concepto de la invención conlleva un equilibrio muy bueno entre complejidad computacional y una impresión de escucha alcanzable.
Además, debe observarse que pueden obtenerse parches adicionales basándose en los valores de la representación 132 de dominio espectral del primer parche en algunas realizaciones. Por ejemplo, en una ampliación opcional del concepto de la invención, pueden obtenerse valores de una representación de dominio espectral de un tercer parche basándose en los valores de la representación 132 de dominio espectral del primer parche usando otro copiador de valores, tal como se describirá en más detalle haciendo referencia a la figura 3.
Las realizaciones según las figuras 1 y 2 (y también las demás realizaciones) pueden modificarse de una amplia variedad de formas. Por ejemplo, puede obtenerse un primer parche usando un vocoder de fase, y pueden obtenerse parches segundo, tercero y cuarto mediante una operación de copiado ascendente de valores espectrales. Alternativamente, un primer y un segundo parche pueden obtenerse usando vocoders de fase, y un tercer y un cuarto parche pueden obtenerse usando un copiado ascendente de valores espectrales. Naturalmente, pueden aplicarse diferentes combinaciones de la operación de vocodificación de fase y la operación de copiado ascendente.
Alternativamente, sin embargo, puede obtenerse un primer parche usando una operación de copiado ascendente (copiador de valores) de valores espectrales a partir de la representación de señal de entrada, y puede obtenerse un segundo parche usando un vocoder de fase (basándose en los valores copiados del primer parche, obtenidos usando el copiador de valores).
2. Realización según la figura 3
A continuación, se describirá un decodificador 300 de audio haciendo referencia a la figura 3, mostrando la figura 3 un diagrama de bloques esquemático detallado de un decodificador 300 de audio de este tipo que comprende un aparato para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada.
2.1. Visión general del decodificador de audio
El decodificador 300 de audio está configurado para recibir un flujo 310 de datos y para proporcionar, basándose en el mismo, una forma 312 de onda de audio. El decodificador 300 de audio comprende un decodificador 320 núcleo, que está configurado para proporcionar, por ejemplo, datos 322 modulados por impulsos codificados (“datos PCM”) basándose en el flujo 310 de datos. El decodificador 320 núcleo puede ser, por ejemplo, un decodificador de audio tal como se describe en la norma internacional ISO/IEC 14496-3: 2005(e), parte 3: audio, subparte 4: codificación general de audio (GA)-AAC, Twin VQ, BSAC. Por ejemplo, el decodificador 320 núcleo puede ser un denominado decodificador núcleo de codificación de audio avanzada (AAC), que se describe en dicha norma, y que los expertos en la técnica conocen ampliamente. Por tanto, los datos 322 de audio modulados por impulsos codificados pueden proporcionarse por el decodificador 220 núcleo basándose en el flujo 310 de datos. Por ejemplo, los datos 322 de audio modulados por impulsos codificados pueden comprender la longitud de trama de 1024 muestras.
El decodificador 300 de audio también comprende una ampliación 330 de ancho de banda (o ampliador de ancho de banda), que está configurada para recibir los datos 322 de audio modulados por impulsos codificados (por ejemplo, una longitud de trama de 1024 muestras) y para proporcionar, basándose en los mismos, la forma 312 de onda. La ampliación 330 de ancho de banda (o ampliador de ancho de banda) también recibe algunos datos 332 de control procedentes del flujo 310 de datos. La ampliación 330 de ancho de banda comprende una provisión 340 de datos de QMF parcheados (o proveedor de datos de QMF parcheados), que recibe los datos 322 de audio modulados por impulsos codificados y que proporciona, basándose en los mismos, datos 342 de QMF parcheados. La ampliación 330 de ancho de banda también comprende un formateo 344 de envolvente (o formateador de envolvente), que recibe los datos 342 de QMF parcheados y datos 346 de control de formateo de envolvente y proporciona, basándose en los mismos, datos 348 de QMF parcheados y con envolvente formateada. La ampliación 330 de ancho de banda también comprende una síntesis 350 de QMF (o sintetizador de QMF), que recibe los datos 348 de QMF parcheados y con envolvente formateada y proporciona, basándose en los mismos, la forma 312 de onda realizando una síntesis de QMF.
2.2. Provisión 340 de datos de OMF parcheados 2.2.1. Provisión 340 de datos de OMF parcheados – Visión general
La provisión 340 de datos de QMF parcheados (que puede realizarse mediante un proveedor 340 de datos de QMF parcheados en una implementación de hardware) puede conmutar entre dos modos, concretamente un primer modo, en el que se realiza un parcheado de replicación de banda espectral (SBR), y un segundo modo en el que se realiza un parcheado de ampliación de ancho de banda armónica (HBE). Por ejemplo, los datos 322 de audio modulados por impulsos codificados pueden retardarse mediante un retardador 360, para obtener datos 362 de audio modulados por impulsos codificados retardados, y los datos 362 de audio modulados por impulsos codificados retardados pueden convertirse a un dominio de QMF usando un analizador 364 de QMF de 32 bandas. El resultado del analizador 364 de QMF de 32 bandas, por ejemplo, una representación 365 de dominio de QMF de 32 bandas (es decir dominio espectral) de los datos 362 de audio modulados por impulsos codificados retardados, puede proporcionarse a un parcheador 366 de SBR y a un parcheador 368 de ampliación de ancho de banda armónica.
El parcheador 366 de replicación de banda espectral puede realizar, por ejemplo, un parcheado de replicación de banda espectral, que se describe, por ejemplo, en la sección 4.6.18 “SBR tool” de la norma internacional ISO/IEC 144963:2005(e), parte 3, subparte 4. Por consiguiente, puede proporcionarse una representación 370 de dominio de QMF de 64 bandas mediante el parcheador 366 de replicación de banda espectral.
Alternativamente, o además, el parcheador 368 de ampliación de ancho de banda armónica puede proporcionar una representación 372 de dominio de QMF de 64 bandas, que es una representación de ancho de banda ampliado de los datos 322 de audio PCM. Un conmutador 374, que se controla en dependencia de los datos 332 de control de ampliación de ancho de banda extraídos del flujo 310 de datos, puede usarse para decidir si se aplica el parcheado 366 de replicación de banda espectral o parcheado 368 de ampliación de ancho de banda armónica con el fin de obtener los datos 342 de QMF parcheados (que puede ser igual a la representación 370 de dominio de QMF 64 bandas o igual a la representación 372 de dominio de QMF de 64 bandas dependiendo del estado del conmutador 374).
2.2.2. Provisión de datos de OMF parcheados -Ampliación 368 de ancho de banda armónica
A continuación se describirá en más detalle el parcheado 368 de ampliación de ancho de banda (al menos parcialmente) armónica. El parcheado 368 de ampliación de ancho de banda armónica comprende una trayectoria de señal, en la que se convierten datos 322 de audio modulados por impulsos codificados, o una versión previamente procesada de los mismos, a un dominio espectral (por ejemplo, a un dominio de coeficiente de transformada rápida de Fourier o un dominio de QMF), en el que se realiza una ampliación de ancho de banda armónica en el dominio espectral, y en el que la representación de dominio espectral obtenida de la señal de ancho de banda ampliado, o una representación derivada de la misma, se usa para el parcheado de ampliación de ancho de banda armónica.
En la realización de la figura 3, los datos 322 de audio modulados por impulsos codificados se muestrean en sentido descendente en un muestreador 380 en sentido descendente, por ejemplo, en un factor de 2, para obtener datos 381 de audio modulados por impulsos codificados muestreados en sentido descendente. Los datos 381 de audio modulados por impulsos codificados muestreados en sentido descendente se dividen a continuación en ventanas mediante un divisor 382 en ventanas, que puede comprender, por ejemplo, una longitud de ventana de 512 muestras. Debe observarse que la ventana está desplazada, por ejemplo, 64 muestras de los datos 381 de audio modulados por impulsos codificados muestreados en sentido descendente en etapas de procesamiento posteriores, de manera que se obtiene un solapamiento comparativamente grande de las partes 383 divididas en ventanas de los datos de audio modulados por impulsos codificados muestreados en sentido descendente.
El decodificador 300 de audio también comprende un detector 384 de transitorios, que está configurado para detectar un transitorio dentro de los datos 322 de audio modulados por impulsos codificados. El detector 384 de transitorios puede detectar la presencia de un transitorio ya sea basándose en los propios datos 322 de audio PCM, o basándose en una información secundaria, que está incluida en el flujo 310 de datos.
Las partes 383 divididas en ventanas de los datos 381 de audio PCM muestreados en sentido descendente pueden procesarse selectivamente usando una primera rama 386 de procesamiento o una segunda rama 388 de procesamiento. La primera rama 386 puede usarse para procesar una parte 383 sin transitorio dividida en ventanas de los datos de audio PCM muestreados en sentido descendente (para los que el detector 384 de transitorio niega la presencia de un transitorio), y puede usarse una segunda rama 388 para un procesamiento de una parte 383 con transitorio dividida en ventanas de los datos de audio PCM muestreados en sentido descendente (para los que el detector 384 de transitorios indica la presencia de un transitorio).
La primera rama 386 recibe una parte 383 sin transitorio dividida en ventanas y proporciona, basándose en la misma, una representación 387, 434 de ancho de banda ampliado de la parte 383 dividida en ventanas. De forma similar, la segunda rama 388 recibe una parte 383 con transitorio dividida en ventanas de los datos 381 de audio PCM muestreados en sentido descendente y proporciona, basándose en la misma, una representación 389 de ancho de banda ampliado de la parte 383 (con transitorio) dividida en ventanas. Tal como se comentó anteriormente, el detector 384 de transitorio decide si la parte 383 dividida en ventanas actual es una parte sin transitorio dividida en ventanas o una parte con transitorio dividida en ventanas, de manera que el procesamiento de la parte 383 dividida en ventanas actual se realiza usando o bien la primera rama 386 o bien la segunda rama 388. Por tanto, diferentes partes 383 divididas en ventanas pueden procesarse por diferentes ramas 386, habiendo un solapamiento temporal significativo entre las subsiguientes representaciones 387, 389 de ancho de banda ampliado de las subsiguientes partes 383 divididas en ventanas (porque hay un solapamiento temporal significativo de partes 383 divididas en ventanas temporalmente subsiguientes).
La ampliación 368 de ancho de banda armónica comprende además un solapador-y-sumador 390, que está configurado para solapar-y-sumar las diferentes representaciones 387, 389 de ancho de banda ampliado asociadas con diferentes partes 383 divididas en ventanas (temporalmente subsiguientes). Un incremento de solapamiento-y-suma puede ajustarse, por ejemplo, a 256 muestras. Por consiguiente, se obtiene una señal 392 solapada-y-sumada.
La ampliación 368 de ancho de banda armónica también comprende un analizador 394 de QMF de 64 bandas, que está configurado para recibir la señal 392 solapada-y-sumada y para proporcionar, basándose en el mismo, una señal 396 de dominio de QMF de 64 bandas. La señal 396 de dominio de QMF de 64 bandas puede representar, por ejemplo, un rango de frecuencia más amplio que la señal 365 de dominio de QMF de 32 bandas proporcionada por el analizador 364 de QMF de 32 bandas.
La ampliación 368 de ancho de banda armónica también comprende un combinador 398, que está configurado para recibir tanto la señal de dominio de QMF de 32 bandas proporcionada por el analizador 364 de QMF de 32 bandas como la señal 396 de dominio de QMF de 64 bandas y para combinar esas señales. Por ejemplo, las componentes de rango de baja frecuencia (o rango de frecuencia fundamental) de la señal 396 de dominio de QMF de 64 bandas pueden sustituirse por, o combinarse con, la señal 365 de dominio de QMF de 32 bandas proporcionada por el analizador 364 de QMF de 32 bandas, de manera que, por ejemplo, las 32 componentes de rango de frecuencia más baja (o rango de frecuencia fundamental) de la señal 372 de dominio de QMF de 64 bandas se determinan mediante la salida del analizador 364 de QMF de 32 bandas, y de manera que las 32 componentes de frecuencia más alta de la señal 372 de dominio de QMF de 64 bandas se determinan por las 32 componentes de rango de frecuencia más alta de la señal 396 de dominio de QMF de 64 bandas.
Naturalmente, el número de componentes de las señales de dominio de QMF puede variar, dependiendo de los requisitos específicos. Naturalmente, una posición de frecuencia de una transición entre un rango de frecuencia fundamental (también designado como rango de frecuencia más baja) y un rango de frecuencia de ancho de banda ampliado (también designado como rango de frecuencia más alta) puede depender de la frecuencia de cruce, o, de manera equivalente, el ancho de banda de la señal de audio representada por los datos 322 de audio modulados por impulsos codificados.
A continuación se describirán detalles relativos a la primera rama 386 de procesamiento. La primera rama 386 comprende un convertidor 400 del dominio de tiempo al dominio de frecuencia, que está implementado, por ejemplo, en forma de un medio de transformada rápida de Fourier configurado para proporcionar 512 coeficientes de transformada rápida de Fourier basándose en una parte 383 dividida en ventanas de 512 muestras de dominio de tiempo de los datos 381 de audio modulados por impulsos codificados muestreados en sentido descendente. Por consiguiente, los intervalos de frecuencia de transformada rápida de Fourier se designan con índices de intervalo de frecuencia enteros subsiguientes k en un rango entre 1 y N=512.
La primera rama 386 también comprende un proveedor 402 de valores de magnitud, que está configurado para proporcionar valores de magnitud ak de los coeficientes de transformada rápida de Fourier. Además, la primera rama 386 comprende un proveedor 404 de valores de fase configurado para proporcionar valores de fase qk de los coeficientes de transformada rápida de Fourier.
La primera rama 386 también comprende un vocoder 406 de fase, que puede recibir los valores de magnitud ak ylos valores de fase qk como una representación de señal de entrada, y que puede comprender la funcionalidad del vocoder 130 de fase comentado anteriormente. Por consiguiente, el vocoder 406 de fase puede emitir valores 12k, en un rango entre 1s y 12s, de una representación de dominio espectral de un primer parche. Los valores 12k se designan con 408, y pueden ser equivalentes a los valores de la representación 132 de dominio espectral de un primer parche. La primera rama 386 también comprende un copiador 410 de valores, que puede asumir la funcionalidad del copiador 140 de valores, y que puede recibir, como información de entrada, los valores 12k (por ejemplo, en un rango entre 11 y 121). Por consiguiente, el primer copiador 410 de valores puede proporcionar valores 1k en un rango entre 121 y 131, que se designan con 412 y que pueden ser equivalentes a los valores 121 a 131 de la representación 142 de dominio espectral del segundo parche. Además, la primera rama 386 puede comprender (opcionalmente) un segundo copiador 414 de valores, que está configurado para recibir los valores 11 y 121 (también designados con 408) proporcionados por el vocoder 406 de fase y para proporcionar, basándose en los mismos, valores espectrales 131 a 141 usando una operación de copia (que da como resultado, efectivamente, un desplazamiento de frecuencia no armónico del espectro descrito por los valores 11 a 121 (408)). Por consiguiente, el segundo copiador 414 de valores proporciona valores espectrales 131 a 141 de una representación de dominio espectral de un tercer parche, que también se designan como 416.
La primera rama 386 puede comprender un interpolador 420 opcional, que puede estar configurado para recibir los valores 412, 416 de las representaciones de dominio espectral del segundo parche y del tercer parche (y, opcionalmente, también los valores 408 de la representación de dominio espectral del primer parche) y para proporcionar valores 422 interpolados de la representación de dominio espectral del segundo y tercer parche (y, opcionalmente, también del primer parche).
La primera rama 386 puede comprender adicionalmente un rellenador 424 de ceros, que está configurado para recibir los valores 422 interpolados (o, alternativamente, los valores 412, 416 originales) de las representaciones de dominio espectral del segundo y tercer parche (y, opcionalmente también del primer parche) y para obtener, basándose en las mismas, una versión rellenada con ceros de valores de una representación de dominio espectral, que está rellenada con ceros con el fin de adaptarse a una dimensión de un convertidor 428 del dominio espectral al dominio de tiempo.
El convertidor 428 del dominio espectral al dominio de tiempo puede implementarse, por ejemplo, como un transformador rápido de Fourier inverso. Por ejemplo, el transformador 428 rápido de Fourier inverso puede estar configurado para recibir un conjunto de 2048 valores espectrales (opcionalmente interpolados y rellenados con cero), y para proporcionar, basándose en los mismos, una representación 430 de dominio de tiempo de la parte de señal de ancho de banda ampliado. La primera trayectoria 386 también comprende un divisor 432 en ventanas de síntesis, que está configurado para recibir la representación 430 de dominio de tiempo de la parte de señal de ancho de banda ampliado y para aplicar una división en ventanas de síntesis, con el fin de obtener una representación de dominio de tiempo dividida en ventanas de síntesis de la parte 430 de señal de ancho de banda ampliado.
El decodificador 300 de audio también comprende una segunda trayectoria 388 de procesamiento, que realiza un procesamiento muy similar en comparación con la primera trayectoria 386. Sin embargo, la segunda trayectoria 388 comprende un rellenador 438 de ceros de dominio de tiempo, que está configurado para recibir la parte 383 con transitorio dividida en ventanas de los datos 381 de audio modulados por impulsos codificados muestreados en sentido descendente y para derivar una versión 439 rellenada con ceros a partir de la parte 383 dividida en ventanas, de manera que un inicio de la parte 439 rellenada con ceros y un final de la parte 439 rellenada con ceros estén rellenados con ceros, y de manera que el transitorio esté dispuesto en una región central (entre las muestras de inicio rellenadas con ceros y las muestras de final rellenadas con ceros) de la parte 439 rellenada con ceros.
La segunda trayectoria 388 también comprende un transformador 440 del dominio de tiempo al dominio espectral, por ejemplo, un transformador rápido de Fourier o un QMF (banco de filtros de espejo en cuadratura). El transformador 440 del dominio de tiempo al dominio espectral normalmente comprende un mayor número de intervalos de frecuencia (por ejemplo, intervalos de frecuencia de transformada rápida de Fourier, o bandas de QMF) que el transformador 400 del dominio de tiempo al dominio espectral de la primera rama. Por ejemplo, el transformador 440 rápido de Fourier puede estar configurado para derivar 1024 coeficientes de transformada rápida de Fourier a partir de la parte 439 rellenada con ceros de 1024 muestras de dominio de tiempo.
La segunda rama 388 también comprende un determinador 442 de valores de magnitud y un determinador 444 de valores de fase, que pueden comprender la misma funcionalidad que los medios 402, 404 correspondientes de la primera rama 386, aunque con una dimensión N=1024 aumentada. De forma similar, la segunda rama 388 también comprende un vocoder 446 de fase, un primer copiador 450 de valores, un segundo copiador 454 de valores, un interpolador 460 opcional, y un rellenador 464 de ceros opcional, que pueden comprender las mismas funcionalidades que los medios correspondientes de la primera rama 386, aunque con dimensiones aumentadas. En particular, el índice 1 de la banda de cruce puede ser superior en la segunda rama 388 que en la primera rama 386, por ejemplo, en un factor de 2.
Por consiguiente, una representación de dominio espectral que comprende, por ejemplo, 4096 coeficientes de transformada rápida de Fourier puede proporcionarse a un transformador 468 rápido de Fourier inverso, que a su vez proporciona una señal 470 de dominio de tiempo que tiene 4096 muestras.
La segunda rama 388 también comprende un divisor 472 en ventanas de síntesis, que está configurado para proporcionar una versión dividida en ventanas de la representación 470 de dominio de tiempo de la parte de señal de ancho de banda ampliado.
La segunda rama 388 también comprende un eliminador de ceros configurado para proporcionar una representación 478 de dominio de tiempo acortada, dividida en ventanas, de la parte de señal de ancho de banda ampliado, representación 478 de dominio de tiempo acortada, dividida en ventanas que puede comprender, por ejemplo, 2048 muestras.
Por consiguiente, la representación 387 de dominio de tiempo se usa para partes sin transitorio (por ejemplo, tramas de audio) de los datos 322 de audio modulados por impulsos codificados, y la representación 478 de dominio de tiempo se usa para partes con transitorio de los datos 322 de audio modulados por impulsos codificados. Por consiguiente, las partes con transitorio se procesan con una resolución de dominio espectral más alta en la segunda rama 388 de procesamiento, mientras que las partes sin transitorio se procesan con una resolución espectral más baja en la primera rama 386 de procesamiento.
2.3. Formateo 344 de envolvente
A continuación se resumirá brevemente el formateo 344 de envolvente. Además, se hace referencia a las respectivas observaciones realizadas en la sección de introducción, que también se aplican al concepto de la invención.
Los datos 342 de QMF parcheados, que se obtienen basándose en la señal 396 de dominio de QMF de 64 bandas, se procesan por el formateo 344 de envolvente, para obtener la representación 348 de señal, que se introduce en el sintetizador 350 de QMF. El formateo de envolvente puede adaptar, por ejemplo, las señales de banda de dominio de QMF de los datos 342 de QMF parcheados con el fin de realizar un llenado de ruido, con el fin de reconstruir armónicos que ausentes, y/o con el fin de obtener un filtrado inverso. Variaciones de llenado de ruido, inserción de armónicos ausentes y filtrado inverso pueden controlarse, por ejemplo, mediante una información 346 secundaria, que puede extraerse del flujo 310 de datos. Para más detalles se hace referencia, por ejemplo, a los comentarios de la herramienta de SBR en la sección 4.6.18 de la norma internacional ISC/IEC 14496-3:2005(e), parte 3, subparte 4. Sin embargo, también pueden aplicarse conceptos de formateo de envolvente diferentes según los requisitos.
3. Comentario y comparación de diferentes soluciones
A continuación se proporcionará un breve comentario y sumario de la solución de la invención.
Realizaciones según la presente invención, por ejemplo el aparato 100 según la figura 1 y el decodificador 300 de audio según la figura 3, son (o comprenden) nuevos algoritmos de parcheado dentro de la replicación de banda espectral (SBR). Puede usarse un parcheado de dominio espectral de diferentes maneras con el fin de tener en cuenta diferentes características de señal o restricciones dictadas por requisitos de software o hardware.
En SBR estándar, el parcheado siempre se lleva a cabo mediante una operación de copia dentro del dominio de QMF. Esto puede llevar a veces a artefactos auditivos, particularmente si se copian sinusoides en la proximidad unos de otros en el borde de la parte de LF y de HF generada. Por tanto, se ha introducido un nuevo algoritmo de parcheado que evita algunos problemas usando un vocoder de fase (véase, por ejemplo, la referencia [13]). Este algoritmo se ilustra en la figura 5 como un ejemplo de comparación.
La SBR estándar tiene el problema de los artefactos auditivos. El enfoque del vocoder de fase presentado en la referencia [13] tiene una complejidad, particularmente debido al alto número de transformadas rápidas de Fourier que tienen que calcularse. Adicionalmente, el espectro se vuelve muy disperso para parches altos (factores de alargamiento altos), lo que puede dar como resultado artefactos de audio no deseados.
Dos realizaciones evitan el elevado número de transformadas rápidas de Fourier moviendo la generación de diferentes parches del dominio de tiempo al dominio de frecuencia. En la figura 6 se da un ejemplo en el que la transformación al dominio de frecuencia se consigue con la ayuda de una transformada rápida de Fourier. En lugar de la transformación de Fourier pueden usarse, sin embargo, otras transformaciones de tiempo-frecuencia.
La figura 3 muestra una solución híbrida del algoritmo de la figura 6 para parcheado de SBR. Sólo se genera el primer parche mediante el algoritmo del vocoder de fase (por ejemplo, bloque 406 de la primera rama 386, y bloque 446 de la segunda rama 388) mientras que parches superiores (por ejemplo, el segundo parche y el tercer parche) se crean simplemente copiando el primer parche (por ejemplo, usando los copiadores 410, 414 de valores de la primera rama 386, y/o los copiadores 450, 454 de valores de la segunda rama 388). Esto da lugar a un espectro menos disperso.
A continuación se explicarán brevemente el algoritmo de comparación, que se implementa en el decodificador de audio mostrado en la figura 6, y el algoritmo de la invención, que se implementa en el decodificador de audio mostrado en la figura 3:
El algoritmo de comparación o de referencia, que se implementa en el decodificador de audio mostrado en la figura 6, comprende las siguientes etapas:
1.
Muestreo en sentido descendente de la señal (si no se daña el criterio Nyquist)
2.
La señal se divide en ventanas (se proponen ventanas “Hann” aunque pueden usarse otras formas de ventana) y se toman denominados granos (por ejemplo, partes 383 de señal divididas en ventanas) de longitudes N a partir de la señal. Las ventanas se desplazan sobre la señal con un tamaño de salto H. Se propone un solapamiento de N/H=8 veces.
3.
Si el grano (por ejemplo, una parte 383 de señal dividida en ventanas) contiene un evento transitorio en los bordes, se rellena (por ejemplo, mediante el rellenador 438 de ceros) con ceros lo que lleva a un sobremuestreo en dominio de frecuencia.
4.
Los granos se transforman al dominio de frecuencia (por ejemplo, usando los transformadores 400, 440 del dominio de tiempo al dominio espectral).
5.
Los granos de dominio de frecuencia se rellenan (opcionalmente) hasta una longitud de salida deseada del algoritmo de parcheado.
6.
Se calculan magnitud y fase (por ejemplo, usando los medios 402, 404, 442, 444).
7.
El contenido n de intervalo de frecuencia se copia a una posición sn para el factor de alargamiento s. La fase se multiplica por el factor de alargamiento s. Esto se hace para todos los factores de alargamiento s (sólo para las regiones en el espectro que abarcan los parches deseados). (a) s·(s-1)/s:n:1 o (b) s/s:n:s; (b) da lugar a un espectro más denso que (a) ya que los parches se solapan. s indica la frecuencia más alta de la parte de LF, la denominada frecuencia de cruce. En términos generales, la fase se corrige para una nueva posición de muestra (por ejemplo, posición de frecuencia), lo que puede conseguirse usando el algoritmo comentado en el presente documento o cualquier algoritmo alternativo apropiado.
8.
Los intervalos de dominio de frecuencia que no consiguen datos mediante el copiado pueden llenarse aplicando una función de interpolación (por ejemplo, usando los interpoladores 420, 460).
9.
Los granos se transforman de vuelta al dominio de tiempo (por ejemplo, usando los transformadores 428, 468 rápidos de Fourier inversos).
10.
Los granos de dominio de tiempo se multiplican por una ventana de síntesis (de nuevo se proponen ventanas Hann) (por ejemplo, usando los divisores 432, 472 en ventanas de síntesis).
11.
Si se llevó a cabo un relleno con ceros en la etapa 3, los ceros se eliminan de nuevo (por ejemplo, usando el eliminador 476 de ceros).
12.
Se crea una señal o trama de ancho de banda ampliado (por ejemplo, señal 392), respectivamente, usando solapamiento y suma (OLA) (por ejemplo, usando el solapamiento-y-suma 390).
Sin embargo, el orden de las etapas individuales también puede intercambiarse en algunas realizaciones alternativas, y algunas de las etapas pueden fusionarse en una única etapa en algunas realizaciones alternativas.
El algoritmo de la invención, que se implementa en el decodificador de audio mostrado en la figura 3, comprende las siguientes etapas:
1.
Muestreo descendente de la señal (si no se daña el criterio Nyquist)
2.
La señal se divide en ventanas (se proponen ventanas “Hann” aunque pueden usarse otras formas de ventana) y se toman denominados granos (por ejemplo, partes 383 de señal divididas en ventanas) de longitudes N de la señal. Las ventanas se desplazan sobre la señal con un tamaño de salto H. Se propone un solapamiento de N/H=8 veces.
3.
Si el grano (por ejemplo, una parte 383 de señal dividida en ventanas) contiene un evento transitorio en los bordes, se rellena (por ejemplo, por el rellenador 438 de ceros) con ceros lo que lleva a un sobremuestreo en el dominio de frecuencia.
4.
Los granos se transforman al dominio de frecuencia (por ejemplo, usando los transformadores 400, 440 del dominio de tiempo al dominio espectral).
5.
Los granos de dominio de frecuencia se rellenan (opcionalmente) hasta una longitud de salida deseada del algoritmo de parcheado.
6.
Se calculan magnitud y fase (por ejemplo, usando los medios 402, 404, 442, 444).
7.
a) El contenido n de intervalo de frecuencia se copia a la posición 2n. La fase se multiplica por 2.
(a) s·(s-1)/s:n:s o(b) s/s:n:s (véase más arriba).
7.
b) El contenido 2n de intervalo de frecuencia se copia a la posición sn para todos los factores de alargamiento s > 2 en los rangos 1:n:s.
8.
Los intervalos de dominio de frecuencia que no consiguen datos mediante el copiado pueden llenarse aplicando una función de interpolación (por ejemplo, usando los interpoladores 420, 460).
9.
Los granos se transforman de vuelta al dominio de tiempo (por ejemplo, usando los transformadores 428, 468 rápidos de Fourier inversos).
10.
Los granos de dominio de tiempo se multiplican por una ventana de síntesis (de nuevo se proponen ventanas Hann) (por ejemplo usando los divisores 432, 472 en ventanas de síntesis).
11.
Si se llevó a cabo un relleno con ceros en la etapa 3, los ceros se eliminan de nuevo (por ejemplo, usando el eliminador 476 de ceros).
12.
La señal o trama de ancho de banda ampliado (por ejemplo, señal 392), respectivamente, se crea usando solapamiento y suma (OLA) (por ejemplo, usando el solapamiento-y-suma 390).
Sin embargo, el orden de las etapas individuales también puede intercambiarse en algunas realizaciones alternativas, y algunas de las etapas pueden fusionarse en una única etapa en algunas realizaciones alternativas.
Por tanto, todas las etapas son idénticas en el algoritmo de referencia (que se implementa en el decodificador de audio mostrado en la figura 6) y el algoritmo de la invención (que se implementa en el decodificador de audio mostrado en la figura 3), excepto por la etapa 7, que se ha sustituido por las siguientes etapas:
7. a) El contenido n de intervalo de frecuencia se copia a la posición 2n. La fase se multiplica por 2.
(a) s·(s-1)/s:n:s o (b) s/s:n:s (véase más arriba).
7. b) El contenido 2n de intervalo de frecuencia se copia a la posición sn para todos los factores de alargamiento s > 2 en los rangos 1:n:s.
En resumen, las realizaciones según las figuras 1, 2, 3 y 4 (y también el decodificador de audio mostrado en la figura 6) reducen en primer lugar la complejidad drásticamente en comparación con las soluciones convencionales mencionadas. En segundo lugar, permiten diferentes modificaciones de espectro diferentes respecto o bien el plano SBR o bien según se presenta en la figura 5 (véase, por ejemplo, la referencia [13]).
Por ejemplo, las señales de voz podrían beneficiarse del algoritmo, que se realiza en el aparato, decodificador de audio y método según las figuras 1, 2, 3 y 4, ya que la estructura de tren de impulsos, que es típica de las señales de voz, se mantiene mejor que con el enfoque presentado en la referencia [13].
Las aplicaciones más destacadas de realizaciones según la invención son decodificadores de audio, que suelen implementarse en dispositivos portátiles y por tanto funcionan con un suministro eléctrico mediante batería.
4. Método según la figura 4.
A continuación se describirá un método 400 para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada haciendo referencia a la figura 4, que muestra un diagrama de flujo de tal método. El método 400 comprende una etapa 410 de obtener valores de una representación de dominio espectral de un primer parche de la señal de ancho de banda ampliado basándose en la representación de señal de entrada usando una vocodificación de fase. El método 400 también comprende una etapa 420 de copiar una conjunto de valores de la representación de dominio espectral del primer parche, valores que se obtienen usando la vocodificación de fase, para obtener un conjunto de valores de una representación de dominio espectral de un segundo parche, en el que el segundo parche está asociado con frecuencias más altas que el primer parche. El método 400 también comprende una etapa 430 de obtener una representación de la señal de ancho de banda ampliado usando los valores de la representación de dominio espectral del primer parche y los valores de la representación de dominio espectral del segundo parche.
El método 400 puede complementarse mediante cualquiera de los medios y funcionalidades comentados en el presente documento con respecto al aparato de la invención.
5. Alternativas de implementación
Aunque algunos aspectos se han descrito en el contexto de un aparato, está claro que estos aspectos también representan una descripción del correspondiente método, correspondiendo un bloque o dispositivo a una etapa de método o una característica de una etapa de método. De manera análoga, aspectos descritos en el contexto de una etapa de método también representan una descripción de un correspondiente bloque o elemento o característica de un correspondiente aparato. Algunas o todas las etapas de método pueden ejecutarse mediante (o usando) un aparato de hardware, como por ejemplo, un microprocesador, un ordenador programable o un circuito electrónico. En algunas realizaciones, alguna o más de las etapas de método más importantes pueden ejecutarse mediante tal aparato.
Dependiendo de determinados requisitos de implementación, las realizaciones de la invención pueden implementarse en hardware o en software. La implementación puede realizarse usando un medio de almacenamiento digital, por ejemplo, un disco flexible, un DVD, un Blue-Ray, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, con señales de control legibles electrónicamente almacenadas en el mismo, que actúan conjuntamente (o pueden actuar conjuntamente) con un sistema informático programable de manera que se lleve a cabo el respectivo método. Por tanto, el medio de almacenamiento digital puede ser legible por ordenador.
Algunas realizaciones según la invención comprenden un soporte de datos que tiene señales de control legibles electrónicamente, que pueden actuar conjuntamente con un sistema informático programable, de manera que se lleve a cabo uno de los métodos descritos en el presente documento.
Generalmente, realizaciones de la presente invención pueden implementarse como un producto de programa informático con un código de programa, siendo el código de programa operativo para realizar uno de los métodos cuando el producto de programa informático se ejecuta en un ordenador. El código de programa puede almacenarse, por ejemplo, en un soporte legible por máquina.
Otras realizaciones comprenden el programa informático para llevar a cabo uno de los métodos descritos en el presente documento, almacenado en un soporte legible por máquina.
En otras palabras, una realización del método de la invención es, por tanto, un programa informático que tiene un código de programa para llevar a cabo uno de los métodos descritos en el presente documento, cuando el programa informático se ejecuta en un ordenador.
Una realización adicional de los métodos de la invención es, por tanto, un soporte de datos (o un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, registrado en el mismo, el programa informático para llevar a cabo uno de los métodos descritos en el presente documento.
Una realización adicional del método de la invención es, por tanto, un flujo de datos o una secuencia de señales que representan el programa informático para llevar a cabo uno de los métodos descritos en el presente documento. El flujo de datos o la secuencia de señales pueden configurarse por ejemplo para transferirse a través de una conexión de comunicación de datos, por ejemplo, a través de Internet.
Una realización adicional comprende un medio de procesamiento, por ejemplo un ordenador, o un dispositivo lógico programable, configurado o adaptado para llevar a cabo uno de los métodos descritos en el presente documento.
Una realización adicional comprende un ordenador que tiene instalado en el mismo el programa informático para llevar a cabo uno de los métodos descritos en el presente documento.
En algunas realizaciones, un dispositivo lógico programable (por ejemplo una disposición de puertas programables en campo) puede usarse para llevar a cabo algunas o todas las funcionalidades de los métodos descritos en el presente documento. En algunas realizaciones, una disposición de puertas programables en campo puede actuar conjuntamente con un microprocesador con el fin de llevar a cabo uno de los métodos descritos en el presente documento. Generalmente, los métodos se llevan a cabo preferiblemente mediante cualquier aparato de hardware.
Las realizaciones descritas anteriormente son meramente ilustrativas de los principios de la presente invención. Se entiende que modificaciones y variaciones de las disposiciones y los detalles descritos en el presente documento resultarán evidentes para los expertos en la técnica. Se pretende, por tanto, limitarse únicamente al alcance de las siguientes reivindicaciones de patente y no a los detalles específicos presentados a modo de descripción y explicación de las realizaciones en el presente documento.
6.
Ejemplo de comparación según la figura 5
A continuación se comentará brevemente un ejemplo de comparación haciendo referencia a la figura 5. La funcionalidad del ejemplo de comparación según la figura 5 es similar a la función del decodificador de audio según la figura 3, de manera que los medios y funcionalidades no se explicarán de nuevo. Sin embargo, el ejemplo de comparación según la figura 5 se basa en el uso de tres vocoders 590, 592, 594, ó 596, 597, 598 de fase por cada rama. Transformadores rápidos de Fourier inversos, divisores en ventanas de síntesis, solapadores-y-sumadores, individuales, están asociados a los vocoders de fase individuales, como puede verse en la figura 5. Además, en algunas de las subramas, se usa muestreo en sentido descendente individual (Vfactor) y retardo individual (z-muestras). Por consiguiente, el aparato 500 según la figura 5 no es tan eficiente desde el punto de vista computacional como el aparato 300 según la figura 3. No obstante, el aparato 500 conlleva significativas mejoras frente a algunos decodificadores de audio convencionales.
7.
Ejemplo de comparación según la figura 6
La figura 6 muestra otro decodificador 600 de audio, según un ejemplo de comparación. El decodificador 600 de audio según la figura 6 es similar a los decodificadores 300, 500 de audio según las figuras 3 y 5. Sin embargo, el decodificador 600 de audio también se basa en el uso de una pluralidad de vocoders 690, 692, 694 ó 696, 697, 698 de fase individuales por cada rama, lo que hace que el aparato 600 sea más exigente desde el punto de vista computacional que el aparato 300, y lo que conlleva artefactos audibles en algunos casos. No obstante, el aparato 500 conlleva significativas mejoras frente a algunos decodificadores de audio convencionales.
8.
Conclusión
En vista de los comentarios anteriores, puede verse que el aparato 100 según la figura 1, el decodificador 300 de audio según la figura 3 y el método 400 según la figura 4 conllevan diversas ventajas frente a los ejemplos de comparación, que se han comentado brevemente con referencia a las figuras 5 y 6.
El concepto de la invención es aplicable en una amplia variedad de aplicaciones y puede modificarse de un gran número de formas. En particular, los transformadores rápidos de Fourier pueden sustituirse por bancos de filtros de QMF, y los transformadores rápidos de Fourier inversos pueden sustituirse por sintetizadores de QMF.
Además, en algunas realizaciones algunas o todas las etapas de procesamiento pueden resumirse en una única etapa. Por ejemplo, una secuencia de procesamiento que comprende una síntesis de QMF y un posterior análisis de QMF puede simplificarse omitiendo las transformadas repetidas.
Bibliografía:
[1] M. Dietz, L. Liljeryd, K. Kjörling y O. Kunz, “Spectral Band Replication, a novel approach in audio coding”, en 112th AES Convention, Múnich, mayo de 2002.
[2] S. Meltzer, R.Böhm y F. Henn, “SBR enhanced audio codecs for digital broadcasting such as “Digital Radio Mondiale” (DRM)”, en 112th AES Convention, Múnich, mayo de 2002.
[3] T. Ziegler, A. Ehret, P. Ekstrand y M. Lutzky, “Enhancing mp3 with SBR: Features and Capabilities of the new mp3PRO Algorithm”, en 112th AES Convention, Múnich, mayo de 2002.
[4] International Standard ISO/IEC 14496-3: 2001/FPDAM 1, “Bandwidth Extension”, ISO/IEC, 2002. Speech bandwidth extension method and apparatus Vasu Iyengar et al.
[5] E. Larsen, R. M. Aarts y M. Danessis. Efficient high-frequency bandwidth extension of music and speech. En AES 112th Convention, Múnich, Alemania, mayo de 2002.
[6] R. M. Aarts, E. Larsen y O. Ouweltjes. A unified approach to low-and high frequency bandwidth extension. En AES 115th Convention, Nueva York, EE.UU., octubre de 2003.
[7] K. Käyhkö. A Robust Wideband Enhancement for Narrowband Speech Signal. Research Report, Helsinki University of Technology, Laboratory of Acoustics and Audio Signal Processing, 2001.
[8] E. Larsen y R. M. Aarts. Audio Bandwidth Extension -Application to psychoacoustics, Signal Processing and Loudspeaker Design. John Wiley & Sons, Ltd, 2004.
[9] E. Larsen, R. M. Aarts y M. Danessis. Efficient high-frequency bandwidth extension of music and speech. En AES 112th Convention, Múnich, Alemania, mayo de 2002.
[10] J. Makhoul. Spectral Analysis of Speech by Linear Prediction. IEEE Transactions on Audio and Electroacoustics, AU-21 (3), junio de 1973.
[11] Solicitud de patente estadounidense 08/951.029, Ohmori, et al. Audio band width extending system and method.
[12] Patente estadounidense 6895375, Malah, D & Cox, R. V.: System for bandwidth extension of Narrowband speech.
[13] Frederik Nagel, Sascha Disch, “A harmonic bandwidth extension method for audio codecs”, ICASSP International Conference on Acoustics, Speech and Signal Processing, IEEE CNF, Taipei, Taiwán, abril de 2009.
[14] Solicitud de patente internacional WO 98/57436.
[15] Solicitud de patente estadounidense US 20071238415.

Claims (17)

  1. REIVINDICACIONES
    1. Aparato (100; 386) para generar una representación (120; 426) de una señal de ancho de banda ampliado basándose en una representación (110; 383) de señal de entrada, comprendiendo el aparato:
    un vocoder (130; 406) de fase configurado para obtener valores (1s … 12s, 408) de una representación de dominio espectral de un primer parche de la señal de ancho de banda ampliado basándose en la representación de señal de entrada; y
    un copiador (140; 410, 416) de valores configurado para copiar un conjunto de valores (1s … 12s, 408) de la representación de dominio espectral del primer parche, valores que se proporcionan por el vocoder de fase, para obtener un conjunto de valores (1s … 13s, 408) de una representación de dominio espectral de un segundo parche, en el que el segundo parche está asociado con frecuencias más altas que el primer parche;
    en el que el aparato está configurado para obtener la representación (120; 426) de la señal de ancho de banda ampliado usando los valores de la representación de dominio espectral del primer parche y los valores de la representación de dominio espectral del segundo parche.
  2. 2. Aparato (100; 386) según la reivindicación 1, en el que el vocoder (130; 406) de fase está configurado para copiar un conjunto de valores de magnitud (as/2 … as) asociados con una pluralidad de subrangos de frecuencia dados de la representación (110; 383) de señal de entrada, para obtener un conjunto de valores de magnitud (as … a2s) asociados con correspondientes subrangos de frecuencia del primer parche,
    en el que un par de un subrango de frecuencia dado de la representación de señal de entrada y de un correspondiente subrango de frecuencia del primer parche abarcan un par de una frecuencia fundamental y un armónico de la frecuencia fundamental,
    en el que el vocoder (130; 406) de fase está configurado para multiplicar valores de fase (qs/2 … qs) asociados con la pluralidad de subrangos de frecuencia dados de la representación de señal de entrada por un factor predeterminado, para obtener un conjunto de valores de fase (qs … q2s) asociado con los correspondientes subrangos de frecuencia del primer parche, y
    en el que el copiador (140; 410) de valores está configurado para copiar un conjunto de valores (1s … 12s) asociados con una pluralidad de subrangos de frecuencia dados del primer parche, para obtener un conjunto de valores (12s … 13s) asociados con correspondientes subrangos de frecuencia del segundo parche, en el que el copiador de valores está configurado para dejar valores de fase sin cambiar en el copiado.
  3. 3.
    Aparato (100; 386) según la reivindicación 2, en el que el copiador (140; 410) de valores está configurado para copiar los valores de manera que se obtiene un desplazamiento espectral común entre valores (1s … 12s) del primer parche y correspondientes valores (12s … 13s) del segundo parche.
  4. 4.
    Aparato (100; 386) según una de las reivindicaciones 1 a 3, en el que el vocoder (130; 410) de fase está configurado para obtener los valores (1s … 12s) de la representación (132; 408) de dominio espectral del primer parche de manera que los valores de la representación de dominio espectral del primer parche representan una versión convertida en sentido ascendente de manera armónica de un rango de frecuencia fundamental de la representación (110; 383) de señal de entrada; y
    en el que el copiador (140; 410) de valores está configurado para obtener los valores (12s … 13s) de la representación (142; 412) de dominio espectral del segundo parche de manera que los valores de la representación de dominio espectral del segundo parche representan una versión desplazada en frecuencia del contenido de audio del primer parche.
  5. 5.
    Aparato (100; 380, 382, 386) según una de las reivindicaciones 1 a 4, en el que el aparato está configurado para recibir datos (322) de audio de entrada,
    para muestrear en sentido descendente (380) los datos (322) de audio de entrada, con el fin de obtener datos (381) de audio muestreados en sentido descendente,
    para dividir en ventanas (382) los datos (381) de audio muestreados en sentido descendente, con el fin de obtener datos
    (383) de entrada divididos en ventanas,
    para convertir (400) o transformar los datos (383) de entrada divididos en ventanas en un dominio espectral, con el fin de obtener la representación (383) de señal de entrada en forma de una representación (401) de dominio espectral,
    para calcular (402, 404) valores de magnitud ak y valores de fase qk que representan un intervalo de frecuencia que tiene un índice k de la representación (383) de señal de entrada,
    para usar (130; 406) una pluralidad de valores de magnitud qk que representan intervalos de frecuencia que tienen índices de intervalo de frecuencia k de la representación (383) de señal de entrada, para obtener valores de magnitud a2k que representan intervalos de frecuencia que tienen índices de intervalo de frecuencia sk del primer parche, cuando s es un factor de alargamiento estando s entre 1,5 y 2,5, y
    para copiar y ajustar a escala (130; 406) valores de fase qk asociados a intervalos de frecuencia que tienen índices de intervalo de frecuencia k de la representación (383) de señal de entrada, para obtener valores de fase copiados y ajustados a escala q2k=sqk asociados con intervalos de frecuencia que tienen índices de intervalo de frecuencia 2k del primer parche,
    para copiar (140; 410) valores 1k-i1 asociados con intervalos de frecuencia que tienen índices de intervalo de frecuencia k-is de la representación (132; 408) de dominio espectral del primer parche, para obtener valores 1k de la representación (142; 412) de dominio espectral del segundo parche,
    para convertir (428) la representación (426) de la señal de ancho de banda ampliado en el dominio de tiempo, para obtener una representación (430) de dominio de tiempo, y
    para dividir (432) en ventanas de síntesis la representación de dominio de tiempo.
  6. 6. Aparato (100; 386) según una de las reivindicaciones 1 a 5, en el que el aparato comprende un convertidor
    (400) del dominio de tiempo al dominio espectral configurado para proporcionar, como la representación (401) de señal de entrada, valores de una representación de dominio espectral de una señal (322) de audio de entrada, o de una versión (383) previamente procesada de la señal (322) de audio de entrada; y
    en el que el aparato comprende un convertidor (428) del dominio espectral al dominio de tiempo configurado para proporcionar una representación (430) de dominio de tiempo de la señal de ancho de banda ampliado usando valores (1s, 12s, 408) de la representación de dominio espectral del primer parche y valores 12s … 13s, 412) de la representación de dominio espectral del segundo parche;
    en el que el convertidor (428) del dominio espectral al dominio de tiempo está configurado de manera que un número (N=2048) de diferentes valores (426) espectrales recibidos por el convertidor (428) del dominio espectral al dominio de tiempo es mayor que un número (N=512) de diferentes valores (401) espectrales proporcionados por el convertidor
    (400) del dominio de tiempo al dominio espectral, de manera que el convertidor (428) del dominio espectral al dominio de tiempo está configurado para procesar un mayor número de intervalos de frecuencia que el convertidor (400) del dominio de tiempo al dominio espectral.
  7. 7. Aparato (100; 382, 386) según una de las reivindicaciones 1 a 6, en el que el aparato comprende un divisor
    (382) en ventanas de análisis configurado para dividir en ventanas una señal (322) de audio de entrada de dominio de tiempo, para obtener una versión (383) dividida en ventanas de la señal de audio de entrada de dominio de tiempo, que constituye la base para obtener la representación de señal de entrada en forma de una representación (401) de dominio espectral; y
    en el que el aparato comprende un divisor (432) en ventanas de síntesis configurado para dividir en ventanas una parte de una representación (430) de dominio de tiempo de la señal de ancho de banda ampliado, para obtener una parte
    (434) dividida en ventanas de la representación de dominio de tiempo de la señal de ancho de banda ampliado.
  8. 8. Aparato (100; 382, 386) según la reivindicación 7, en el que el aparato está configurado para procesar una pluralidad de partes desplazadas en el tiempo que se solapan temporalmente de la señal (322) de audio de entrada de dominio de tiempo, para obtener una pluralidad de partes (434) divididas en ventanas desplazadas en el tiempo que se solapan temporalmente de la representación de dominio de tiempo de la señal de ancho de banda ampliado,
    en el que un desfase de tiempo (Inc=64) entre partes desplazadas en el tiempo temporalmente adyacentes de la señal
    (322) de audio de entrada de dominio de tiempo es menor que o igual a una cuarta parte de una longitud (512) de ventana del divisor (382) en ventanas de análisis.
  9. 9. Aparato (100; 382,386) según una de las reivindicaciones 1 a 8, en el que el aparato comprende un proveedor
    (384) de información de transitorios configurado para proporcionar una información que indica la presencia de un transitorio en la señal (322) de entrada; y
    en el que el aparato comprende una primera rama (386) de procesamiento para proporcionar una representación (434) de una parte de señal de ancho de banda ampliado basándose en una parte sin transitorio de la representación (383) de señal de entrada y una segunda rama (388) de procesamiento para proporcionar una representación (478) de una parte de señal de ancho de banda ampliado basándose en una parte con transitorio de la representación (383) de señal de entrada;
    en el que la segunda rama (388) de procesamiento está configurada para procesar una representación (441) de dominio espectral de la señal de entrada con una resolución espectral más alta (N=1024) que una representación (401) de dominio espectral de la señal de entrada procesada por la primera rama (386) de procesamiento.
  10. 10. Aparato (100; 382, 386) según la reivindicación 9, en el que la segunda rama (388) de procesamiento comprende un rellenador (438) de ceros de dominio de tiempo configurado para rellenar con ceros una parte (383) que contiene transitorios de la señal de entrada, con el fin de obtener una parte (439) que contiene transitorios temporalmente ampliada de la señal de entrada; y
    en el que la primera rama (386) de procesamiento comprende un convertidor (400) del dominio de tiempo al dominio de frecuencia configurado para proporcionar un primer número (N=512) de valores (401) de dominio espectral asociados con la parte (383) sin transitorio de la señal de entrada; y
    en el que la segunda rama (388) de procesamiento comprende un convertidor (440) del dominio de tiempo al dominio de frecuencia configurado para proporcionar un segundo número (N=1024) de valores (441) de dominio espectral asociados con la parte (439) que contiene transitorios temporalmente ampliada de la señal de entrada,
    en el que el segundo número (N=1024) de valores de dominio espectral es mayor, al menos en un factor de 1,5, que el primer número(N=512) de valores de dominio espectral.
  11. 11.
    Aparato (100; 382, 386) según la reivindicación 10, en el que la segunda rama de procesamiento comprende un eliminador (476) de ceros configurado para eliminar una pluralidad de valores cero de una parte (474) de señal de ancho de banda ampliado obtenida basándose en la parte (439) que contiene transitorios temporalmente ampliada de la señal de entrada.
  12. 12.
    Aparato (100; 380, 382, 386) según una de las reivindicaciones 1 a 11, en el que el aparato comprende un muestreador (380) en sentido descendente configurado para muestrear en sentido descendente una representación
    (322) de dominio de tiempo de la señal de entrada.
  13. 13.
    Decodificador (300) de audio que comprende un aparato (100; 386) según una de las reivindicaciones 1 a 12.
  14. 14.
    Método (400) para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada, comprendiendo el método:
    obtener (410), usando una vocodificación de fase, valores de una representación de dominio espectral de un primer parche de la señal de ancho de banda ampliado basándose en la representación de señal de entrada; y
    copiar (420) un conjunto de valores de la representación de dominio espectral del primer parche, valores que se proporcionan por la vocodificación de fase, para obtener un conjunto de valores de una representación de dominio espectral de un segundo parche, en el que el segundo parche está asociado con frecuencias más altas que el primer parche; y
    obtener (430) la representación de la señal de ancho de banda ampliado usando los valores de la representación de dominio espectral del primer parche y los valores de la representación de dominio espectral del segundo parche.
  15. 15. Aparato (100; 386) para generar una representación (120; 426) de una señal de ancho de banda ampliado basándose en una representación (110; 383) de señal de entrada, comprendiendo el aparato:
    un copiador de valores configurado para copiar un conjunto de valores (11… 1s) de la representación de señal de entrada, para obtener un conjunto de valores (1s … 12s) de una representación de dominio espectral de un primer parche, en el que el primer parche está asociado con frecuencias más altas que la representación de señal de entrada; y
    un vocoder (130; 406) de fase configurado para obtener valores (12s … 13s) de una representación de dominio espectral de un segundo parche de la señal de ancho de banda ampliado basándose en los valores (14/3s … 12s) de la representación de dominio espectral del primer parche, en el que el segundo parche está asociado con frecuencias más altas que el primer parche; y
    en el que el aparato está configurado para obtener la representación (120;426) de la señal de ancho de banda ampliado usando los valores de la representación de dominio espectral del primer parche y los valores de la representación de dominio espectral del segundo parche.
  16. 16. Método (400) para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada, comprendiendo el método:
    copiar valores de la representación de señal de entrada, para obtener valores de una representación de dominio espectral de un primer parche de la señal de ancho de banda ampliado basándose en la representación de señal de entrada, en el que el primer parche está asociado con frecuencias más altas que la representación de señal de entrada; y
    obtener, usando una vocodificación de fase, un conjunto de valores de la representación de dominio espectral del segundo parche basándose en un conjunto de valores de la representación de dominio espectral del primer parche, valores de la representación de dominio espectral del primer parche que se obtienen mediante el copiado, en el que el segundo parche está asociado con frecuencias más altas que el primer parche; y
    obtener (430) la representación de la señal de ancho de banda ampliado usando los valores de la representación de dominio espectral del primer parche y los valores de la representación de dominio espectral del segundo parche.
  17. 17. Programa informático para realizar el método según la reivindicación 14 o la reivindicación 16, cuando el programa informático se ejecuta en un ordenador.
ES10712439T 2009-04-02 2010-04-01 Aparato, método y programa informático para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada usando una combinación de una ampliación de ancho de banda armónica y una ampliación de ancho de banda no armónica Active ES2377551T3 (es)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US16612509P 2009-04-02 2009-04-02
US166125P 2009-04-02
US16806809P 2009-04-09 2009-04-09
US168068P 2009-04-09
EP09181008 2009-12-30
EP09181008A EP2239732A1 (en) 2009-04-09 2009-12-30 Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
PCT/EP2010/054422 WO2010112587A1 (en) 2009-04-02 2010-04-01 Apparatus, method and computer program for generating a representation of a bandwidth-extended signal on the basis of an input signal representation using a combination of a harmonic bandwidth-extension and a non-harmonic bandwidth-extension

Publications (1)

Publication Number Publication Date
ES2377551T3 true ES2377551T3 (es) 2012-03-28

Family

ID=42123165

Family Applications (2)

Application Number Title Priority Date Filing Date
ES10712944T Active ES2396686T3 (es) 2009-04-09 2010-04-01 Aparato y procedimiento para generar una señal de audio de síntesis y para codificar una sañal de audio
ES10712439T Active ES2377551T3 (es) 2009-04-02 2010-04-01 Aparato, método y programa informático para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada usando una combinación de una ampliación de ancho de banda armónica y una ampliación de ancho de banda no armónica

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES10712944T Active ES2396686T3 (es) 2009-04-09 2010-04-01 Aparato y procedimiento para generar una señal de audio de síntesis y para codificar una sañal de audio

Country Status (21)

Country Link
US (2) US9697838B2 (es)
EP (3) EP2239732A1 (es)
JP (2) JP5227459B2 (es)
KR (2) KR101248321B1 (es)
CN (2) CN102027537B (es)
AR (3) AR076199A1 (es)
AT (1) ATE534119T1 (es)
AU (2) AU2010230129B2 (es)
BR (1) BRPI1003636B1 (es)
CA (2) CA2721629C (es)
CO (1) CO6311123A2 (es)
EG (1) EG26400A (es)
ES (2) ES2396686T3 (es)
HK (1) HK1159842A1 (es)
MX (2) MX2011002419A (es)
MY (2) MY153798A (es)
PL (2) PL2351025T3 (es)
RU (1) RU2501097C2 (es)
SG (1) SG174113A1 (es)
TW (2) TWI492222B (es)
WO (2) WO2010115845A1 (es)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2452044C1 (ru) * 2009-04-02 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
AU2015203065B2 (en) * 2010-01-19 2017-05-11 Dolby International Ab Improved subband block based harmonic transposition
PL3564954T3 (pl) * 2010-01-19 2021-04-06 Dolby International Ab Ulepszona transpozycja harmonicznych oparta na bloku podpasma
EP2362375A1 (en) * 2010-02-26 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using harmonic locking
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
ES2719102T3 (es) * 2010-04-16 2019-07-08 Fraunhofer Ges Forschung Aparato, procedimiento y programa informático para generar una señal de banda ancha que utiliza extensión de ancho de banda guiada y extensión de ancho de banda ciega
EP2581905B1 (en) * 2010-06-09 2016-01-06 Panasonic Intellectual Property Corporation of America Bandwidth extension method, bandwidth extension apparatus, program, integrated circuit, and audio decoding apparatus
US12002476B2 (en) 2010-07-19 2024-06-04 Dolby International Ab Processing of audio signals during high frequency reconstruction
US9117459B2 (en) 2010-07-19 2015-08-25 Dolby International Ab Processing of audio signals during high frequency reconstruction
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
CA2827482C (en) * 2011-02-18 2018-01-02 Ntt Docomo, Inc. Speech decoder, speech encoder, speech decoding method, speech encoding method, speech decoding program, and speech encoding program
DE102011106034A1 (de) * 2011-06-30 2013-01-03 Zte Corporation Verfahren und Vorrichtung zur Spektralbandreplikation und Verfahren und System zur Audiodecodierung
AU2012276367B2 (en) * 2011-06-30 2016-02-04 Samsung Electronics Co., Ltd. Apparatus and method for generating bandwidth extension signal
US20130006644A1 (en) * 2011-06-30 2013-01-03 Zte Corporation Method and device for spectral band replication, and method and system for audio decoding
CN103035248B (zh) * 2011-10-08 2015-01-21 华为技术有限公司 音频信号编码方法和装置
CN103918029B (zh) 2011-11-11 2016-01-20 杜比国际公司 使用过采样谱带复制的上采样
KR101816506B1 (ko) 2012-02-23 2018-01-09 돌비 인터네셔널 에이비 고 주파수 오디오 콘텐트의 효율적인 복구를 위한 방법들 및 시스템들
EP2682941A1 (de) 2012-07-02 2014-01-08 Technische Universität Ilmenau Vorrichtung, Verfahren und Computerprogramm für frei wählbare Frequenzverschiebungen in der Subband-Domäne
EP2704142B1 (en) * 2012-08-27 2015-09-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing an audio signal, apparatus and method for generating a coded audio signal, computer program and coded audio signal
EP2709106A1 (en) 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
US9258428B2 (en) 2012-12-18 2016-02-09 Cisco Technology, Inc. Audio bandwidth extension for conferencing
MY172752A (en) * 2013-01-29 2019-12-11 Fraunhofer Ges Forschung Decoder for generating a frequency enhanced audio signal, method of decoding encoder for generating an encoded signal and method of encoding using compact selection side information
CN103971693B (zh) * 2013-01-29 2017-02-22 华为技术有限公司 高频带信号的预测方法、编/解码设备
AU2014211479B2 (en) 2013-01-29 2017-02-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for providing an encoded audio information, method for providing a decoded audio information, computer program and encoded representation using a signal-adaptive bandwidth extension
ES2688134T3 (es) 2013-04-05 2018-10-31 Dolby International Ab Codificador y decodificador de audio para codificación de forma de onda intercalada
CN104217727B (zh) * 2013-05-31 2017-07-21 华为技术有限公司 信号解码方法及设备
JP6305694B2 (ja) 2013-05-31 2018-04-04 クラリオン株式会社 信号処理装置及び信号処理方法
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
US9875746B2 (en) 2013-09-19 2018-01-23 Sony Corporation Encoding device and method, decoding device and method, and program
EP3063761B1 (en) * 2013-10-31 2017-11-22 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung E.V. Audio bandwidth extension by insertion of temporal pre-shaped noise in frequency domain
EP2881943A1 (en) 2013-12-09 2015-06-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal with low computational resources
CA3162763A1 (en) 2013-12-27 2015-07-02 Sony Corporation Decoding apparatus and method, and program
KR102244612B1 (ko) * 2014-04-21 2021-04-26 삼성전자주식회사 무선 통신 시스템에서 음성 데이터를 송신 및 수신하기 위한 장치 및 방법
EP2963649A1 (en) * 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using horizontal phase correction
KR102306537B1 (ko) 2014-12-04 2021-09-29 삼성전자주식회사 소리 신호를 처리하는 방법 및 디바이스.
TWI758146B (zh) * 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
WO2016149085A2 (en) * 2015-03-13 2016-09-22 Psyx Research, Inc. System and method for dynamic recovery of audio data and compressed audio enhancement
JP6611042B2 (ja) * 2015-12-02 2019-11-27 パナソニックIpマネジメント株式会社 音声信号復号装置及び音声信号復号方法
EP3483878A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
CN109036457B (zh) 2018-09-10 2021-10-08 广州酷狗计算机科技有限公司 恢复音频信号的方法和装置
TWI742486B (zh) * 2019-12-16 2021-10-11 宏正自動科技股份有限公司 輔助歌唱系統、輔助歌唱方法及其非暫態電腦可讀取記錄媒體
GB202203733D0 (en) * 2022-03-17 2022-05-04 Samsung Electronics Co Ltd Patched multi-condition training for robust speech recognition

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5127054A (en) 1988-04-29 1992-06-30 Motorola, Inc. Speech quality improvement for voice coders and synthesizers
US5455888A (en) 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
JPH10124088A (ja) 1996-10-24 1998-05-15 Sony Corp 音声帯域幅拡張装置及び方法
SE9700772D0 (sv) 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6549884B1 (en) 1999-09-21 2003-04-15 Creative Technology Ltd. Phase-vocoder pitch-shifting
US7742927B2 (en) 2000-04-18 2010-06-22 France Telecom Spectral enhancing method and device
US6584438B1 (en) * 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
SE0001926D0 (sv) 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
US20020016698A1 (en) * 2000-06-26 2002-02-07 Toshimichi Tokuda Device and method for audio frequency range expansion
JP2002082685A (ja) 2000-06-26 2002-03-22 Matsushita Electric Ind Co Ltd 音声帯域拡張装置及び音声帯域拡張方法
SE0004818D0 (sv) * 2000-12-22 2000-12-22 Coding Technologies Sweden Ab Enhancing source coding systems by adaptive transposition
US20020128839A1 (en) 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
JP2003108197A (ja) * 2001-07-13 2003-04-11 Matsushita Electric Ind Co Ltd オーディオ信号復号化装置およびオーディオ信号符号化装置
CN1272911C (zh) 2001-07-13 2006-08-30 松下电器产业株式会社 音频信号解码装置及音频信号编码装置
US6895375B2 (en) 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US6988066B2 (en) 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech
CN100395817C (zh) 2001-11-14 2008-06-18 松下电器产业株式会社 编码设备、解码设备和解码方法
JP3926726B2 (ja) * 2001-11-14 2007-06-06 松下電器産業株式会社 符号化装置および復号化装置
WO2003046891A1 (en) 2001-11-29 2003-06-05 Coding Technologies Ab Methods for improving high frequency reconstruction
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
TWI288915B (en) * 2002-06-17 2007-10-21 Dolby Lab Licensing Corp Improved audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
US20040138876A1 (en) 2003-01-10 2004-07-15 Nokia Corporation Method and apparatus for artificial bandwidth expansion in speech processing
KR100917464B1 (ko) 2003-03-07 2009-09-14 삼성전자주식회사 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
FI119533B (fi) 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
KR101220621B1 (ko) 2004-11-05 2013-01-18 파나소닉 주식회사 부호화 장치 및 부호화 방법
JP2006243041A (ja) 2005-02-28 2006-09-14 Yutaka Yamamoto 高域補間装置及び再生装置
US7953605B2 (en) * 2005-10-07 2011-05-31 Deepen Sinha Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension
KR20070115637A (ko) 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
US8417532B2 (en) 2006-10-18 2013-04-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
EP1970900A1 (en) 2007-03-14 2008-09-17 Harman Becker Automotive Systems GmbH Method and apparatus for providing a codebook for bandwidth extension of an acoustic signal
CN101276587B (zh) * 2007-03-27 2012-02-01 北京天籁传音数字技术有限公司 声音编码装置及其方法和声音解码装置及其方法
DK3591650T3 (da) * 2007-08-27 2021-02-15 Ericsson Telefon Ab L M Fremgangsmåde og indretning til udfyldning af spektrale huller
CN101393743A (zh) * 2007-09-19 2009-03-25 中兴通讯股份有限公司 一种可配置参数的立体声编码装置及其编码方法
JP5098569B2 (ja) 2007-10-25 2012-12-12 ヤマハ株式会社 帯域拡張再生装置
EP2212884B1 (en) 2007-11-06 2013-01-02 Nokia Corporation An encoder
CN101896968A (zh) 2007-11-06 2010-11-24 诺基亚公司 音频编码装置及其方法
AU2008339211B2 (en) 2007-12-18 2011-06-23 Lg Electronics Inc. A method and an apparatus for processing an audio signal
RU2491658C2 (ru) 2008-07-11 2013-08-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Синтезатор аудиосигнала и кодирующее устройство аудиосигнала
US8831958B2 (en) 2008-09-25 2014-09-09 Lg Electronics Inc. Method and an apparatus for a bandwidth extension using different schemes
EP2380172B1 (en) 2009-01-16 2013-07-24 Dolby International AB Cross product enhanced harmonic transposition
EP2211339B1 (en) 2009-01-23 2017-05-31 Oticon A/s Listening system
US8781844B2 (en) 2009-09-25 2014-07-15 Nokia Corporation Audio coding
CN103854651B (zh) * 2009-12-16 2017-04-12 杜比国际公司 Sbr比特流参数缩混

Also Published As

Publication number Publication date
TWI416507B (zh) 2013-11-21
KR101248321B1 (ko) 2013-03-27
JP2011520146A (ja) 2011-07-14
BR122021012290A2 (pt) 2023-01-03
ES2396686T3 (es) 2013-02-25
CA2734973A1 (en) 2010-10-14
JP2012504781A (ja) 2012-02-23
US20130090934A1 (en) 2013-04-11
CN102027537A (zh) 2011-04-20
KR20110081292A (ko) 2011-07-13
TW201044378A (en) 2010-12-16
MY153798A (en) 2015-03-31
BR122021012125A2 (pt) 2023-01-03
PL2269189T3 (pl) 2012-04-30
BR122021012115A2 (pt) 2023-01-03
BRPI1001239A2 (pt) 2022-11-22
EP2351025B1 (en) 2012-11-14
KR20110005865A (ko) 2011-01-19
WO2010115845A1 (en) 2010-10-14
TW201044379A (en) 2010-12-16
ATE534119T1 (de) 2011-12-15
BR122021012145A2 (pt) 2023-01-03
AR097531A2 (es) 2016-03-23
MX2011002419A (es) 2011-04-05
KR101207120B1 (ko) 2012-12-03
BR122021012137A2 (pt) 2023-01-03
EP2239732A1 (en) 2010-10-13
AU2010230129A1 (en) 2010-10-07
EG26400A (en) 2013-10-09
AU2010230129B2 (en) 2011-09-29
CA2721629A1 (en) 2010-10-07
AU2010233858A1 (en) 2010-10-14
BRPI1003636A2 (pt) 2019-07-02
CO6311123A2 (es) 2011-08-22
US9076433B2 (en) 2015-07-07
CA2721629C (en) 2015-10-13
SG174113A1 (en) 2011-10-28
AU2010233858B9 (en) 2013-05-30
CA2734973C (en) 2016-10-18
HK1159842A1 (en) 2012-08-03
MY151346A (en) 2014-05-15
EP2269189A1 (en) 2011-01-05
MX2010012343A (es) 2011-02-23
CN102027537B (zh) 2012-10-03
EP2351025A1 (en) 2011-08-03
JP5227459B2 (ja) 2013-07-03
AU2010233858B2 (en) 2013-05-16
BRPI1003636B1 (pt) 2020-11-24
RU2011109670A (ru) 2012-09-27
RU2501097C2 (ru) 2013-12-10
EP2269189B1 (en) 2011-11-16
AR076199A1 (es) 2011-05-26
US9697838B2 (en) 2017-07-04
WO2010112587A1 (en) 2010-10-07
PL2351025T3 (pl) 2013-04-30
JP5165106B2 (ja) 2013-03-21
CN102177545B (zh) 2013-03-27
TWI492222B (zh) 2015-07-11
US20120010880A1 (en) 2012-01-12
CN102177545A (zh) 2011-09-07
AR076237A1 (es) 2011-05-26

Similar Documents

Publication Publication Date Title
ES2377551T3 (es) Aparato, método y programa informático para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada usando una combinación de una ampliación de ancho de banda armónica y una ampliación de ancho de banda no armónica
ES2593072T3 (es) Aparato y método para la reproducción de una señal de audio, aparato y método para la generación de una señal de audio codificada y programa de ordenador correspondiente
ES2935637T3 (es) Reconstrucción de alta frecuencia de una señal de audio de entrada usando bancos de filtros en cascada
US10909994B2 (en) Apparatus, method and computer program for generating a representation of a bandwidth-extended signal on the basis of an input signal representation using a combination of a harmonic bandwidth-extension and a non-harmonic bandwidth-extension
BRPI1010165B1 (pt) codificador de extensão de largura de banda, decodificador de extensão de largura de banda e codificador de voz de fase
BR112012009249B1 (pt) Aparelho e método para gerar um sinal de áudio de alta frequência usando sobreamostragem conformável
ES2965741T3 (es) Aparato para codificar o decodificar una señal multicanal codificada mediante una señal de relleno generada por un filtro de banda ancha
AU2014201331B2 (en) Bandwidth extension encoder, bandwidth extension decoder and phase vocoder
BR122021012290B1 (pt) Equipamento, mídia não transitória e método para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada usando uma combinação de uma extensão de largura de banda harmônica e uma extensão de largura de banda não harmônica
BRPI1001239B1 (pt) Equipamento, mídia não transitória e método para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada usando uma combinação de uma extensão de largura de banda harmônica e uma extensão de largura de banda não harmônica
BR122021012137B1 (pt) Equipamento, mídia não transitória e método para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada usando uma combinação de uma extensão de largura de banda harmônica e uma extensão de largura de banda não harmônica
BR122021012115B1 (pt) Equipamento, mídia não transitória e método para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada usando uma combinação de uma extensão de largura de banda harmônica e uma extensão de largura de banda não harmônica
BR122021012125B1 (pt) Equipamento, mídia não transitória e método para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada usando uma combinação de uma extensão de largura de banda harmônica e uma extensão de largura de banda não harmônica
BR122021012145B1 (pt) Equipamento, mídia não transitória e método para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada usando uma combinação de uma extensão de largura de banda harmônica e uma extensão de largura de banda não harmônica
BR122021019078B1 (pt) Aparelho e método para processar um sinal de áudio de entrada usando bancos de filtro em cascata