ES2659177T3 - Codificador de audio, descodificador de audio, método para proveer una información de audio codificada, método para proveer una información de audio descodificada, programa informático y representación codificada utilizando una ampliación de ancho de banda adaptable a la señal - Google Patents
Codificador de audio, descodificador de audio, método para proveer una información de audio codificada, método para proveer una información de audio descodificada, programa informático y representación codificada utilizando una ampliación de ancho de banda adaptable a la señal Download PDFInfo
- Publication number
- ES2659177T3 ES2659177T3 ES16162697.3T ES16162697T ES2659177T3 ES 2659177 T3 ES2659177 T3 ES 2659177T3 ES 16162697 T ES16162697 T ES 16162697T ES 2659177 T3 ES2659177 T3 ES 2659177T3
- Authority
- ES
- Spain
- Prior art keywords
- bandwidth extension
- information
- audio
- audio information
- portions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 72
- 238000004590 computer program Methods 0.000 title claims description 20
- 230000003044 adaptive effect Effects 0.000 title description 2
- 230000003595 spectral effect Effects 0.000 claims abstract description 117
- 238000011002 quantification Methods 0.000 description 11
- 230000011664 signaling Effects 0.000 description 11
- 238000009527 percussion Methods 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 239000012634 fragment Substances 0.000 description 7
- 230000007704 transition Effects 0.000 description 7
- 238000009499 grossing Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000013459 approach Methods 0.000 description 4
- 238000013016 damping Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000003321 amplification Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
- G10L19/265—Pre-filtering, e.g. high frequency emphasis prior to encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Un codificador de audio (100; 200) para proveer una información de audio codificada (112; 212) sobre la base de una información de audio de entrada (110; 210), comprendiendo el codificador de audio: un codificador de baja frecuencia (120; 220) configurado para codificar una porción de baja frecuencia de la información de audio de entrada para obtener una representación codificada (122; 222) de la porción de baja frecuencia; y un proveedor de información de ampliación de ancho de banda (130; 230) configurado para proveer información de ampliación de ancho de banda (132; 232) sobre la base de la información de audio de entrada; en donde el codificador de audio está configurado para incluir selectivamente información de ampliación de ancho de banda en la información de audio codificada de una manera adaptable a la señal; caracterizado porque el codificador de audio comprende un detector (240) configurado para determinar una inclinación espectral de porciones de la información de audio de entrada, y para identificar porciones de la información de audio de entrada en función de si la inclinación espectral determinada es mayor que o igual a un valor umbral de inclinación fijo o variable; y en donde el codificador de audio está configurado para incluir selectivamente información de ampliación de ancho de banda en la información de audio codificada para porciones de la información de audio de entrada identificadas por el detector.
Description
5
10
15
20
25
30
35
40
45
50
55
60
Codificador de audio, descodificador de audio, método para proveer una información de audio codificada, método para proveer una información de audio descodificada, programa informático y representación codificada utilizando
una ampliación de ancho de banda adaptable a la señal
DESCRIPCIÓN
Campo técnico
Algunas formas de realización de acuerdo con la invención están relacionadas con un codificador de audio para proveer una información de audio codificada sobre la base de una información de audio de entrada.
Algunas formas de realización adicionales de acuerdo con la invención están relacionadas con un descodificador de audio para proveer una información de audio descodificada sobre la base de una información de audio codificada.
Algunas formas de realización adicionales de acuerdo con la invención están relacionadas con un método para proveer una información de audio codificada sobre la base de una información de audio de entrada.
Algunas formas de realización adicionales de acuerdo con la invención están relacionadas con un método para proveer una información de audio descodificada sobre la base de una información de audio codificada.
Algunas formas de realización adicionales de acuerdo con la invención están relacionadas con un programa informático para llevar a cabo uno de dichos métodos.
Algunas formas de realización adicionales de acuerdo con la invención están relacionadas con una representación de audio codificada que representa una información de audio.
Algunas formas de realización de acuerdo con la invención están relacionadas con una ampliación de ancho de banda de audio genérica con velocidad de información colateral adaptable a la señal para la codificación de audio de velocidad de bits muy baja.
Antecedentes de la invención
En los últimos años se ha desarrollado una demanda creciente de una codificación y descodificación de contenidos de audio. Si bien las velocidades de bits y las capacidades de almacenamiento disponibles para la transmisión y almacenamiento de contenidos de audio codificados han aumentado considerablemente, sigue existiendo una demanda de una codificación, transmisión, almacenamiento y descodificación, eficientes en cuanto a la velocidad de bits, de contenidos de audio con una calidad razonable, especialmente de señales de habla en escenarios de comunicación.
Los sistemas de codificación de habla modernos son capaces de codificar contenido de audio digital de banda ancha (WB, wideband), es decir, señales con frecuencias de hasta 7 - 8 kHz, con velocidades de bits tan bajas como 6 kbps. Los ejemplos más ampliamente analizados son las recomendaciones de ITU-T G.722.2 (véase, por ejemplo, la referencia [1]), así como la norma G.718, más recientemente desarrollada (véanse, por ejemplo, las referencias [4] y [10]) y el códec unificada de habla y de audio de MPEG xHE-AAC (véase, por ejemplo, la referencia [8]). Tanto la norma G.722.2, también conocida como AMR-WB, como la norma G.718 emplean tecnologías de ampliación de ancho de banda (BWE, bandwidth extensión) de entre 6,4 y 7 kHz para permitir que el codificador básico ACELP subyacente se “centre” en las frecuencias más bajas perceptivamente más relevantes (en particular aquellas en las que el sistema auditivo humano es sensible a la fase), y de este modo logran un nivel suficiente de calidad, especialmente con velocidades de bits muy bajas. En el xHE-AAC, se utiliza el aumento de la replicación de banda espectral (eSBR, enhanced spectral band replication) para la ampliación de ancho de banda (BWE). En términos generales, el proceso de la ampliación de ancho de banda puede dividirse en dos enfoques conceptuales:
• BWE “a ciegas” o “artificial”, en el que los componentes de alta frecuencia (HF, high frequency) son reconstruidos solo a partir de la señal de codificador de canal de baja frecuencia (LF, low frequency), es decir, sin necesidad de requerir información colateral transmitida desde el codificador. Este esquema es utilizado por las normas AMR-WB y G.718 a 16 kbps y menos, así como por algunos sistemas de post-procesamiento de ampliación de ancho de banda compatibles con versiones anteriores que operan en el habla telefónica de banda angosta tradicional (véanse, por ejemplo, las referencias [5] y [9]).
• BWE “guiada”, que difiere de la ampliación de ancho de banda a ciegas por el hecho de que algunos de los parámetros utilizados para la reconstrucción del contenido de alta frecuencia (HF) son transmitidos al descodificador como información colateral en lugar de ser estimados a partir de la señal básica descodificada. Este enfoque es utilizado por las normas AMR-WB, G.718, xHE-AAC, así como por algunos otros códecs (véanse, por ejemplo, las referencias [2], [7] y [11]), pero no con velocidades de bits muy bajas.
5
10
15
20
25
30
35
40
45
50
55
60
El artículo “A scalable bandwidth extensión algorithm’’ de V. Berisha y A. Spanias (publicado en IEEE International Conference on Acoustics, Speech and Signal processing, del 15 al 20 de abril de 2007, Honolulu, EE. UU.) describe un algoritmo de ampliación de ancho de banda escalonable. En el artículo, se propone un método de codificación de habla escalonable sobre la base de los principios de ampliación de ancho de banda. Una selección de velocidad se basa en criterios psicoacústicos explícitos, mientras que la ampliación de ancho de banda se lleva a cabo usando una técnica de estimación de MMSE restringida. Entre otras cosas, se describen una determinación de velocidad, un método de ampliación de envolvente y un método de ampliación de excitación.
Sin embargo, se ha encontrado que es difícil proveer una ampliación de ancho de banda adecuada con velocidades de bits bajas que prevea una calidad suficientemente buena en la reconstrucción del contenido de audio.
Por lo tanto, hay una necesidad de un concepto de ampliación de ancho de banda que aporte una compensación recíproca mejorada entre la velocidad de bits y la calidad de audio.
Sumario de la invención
Algunas formas de realización de acuerdo con la invención se definen por medio de las reivindicaciones adjuntas.
Una forma de realización de acuerdo con la invención crea un codificador de audio para proveer una información de audio codificada sobre la base de una información de audio de entrada. El codificador de audio comprende un codificador de baja frecuencia configurado para codificar una porción de baja frecuencia de la información de audio de entrada para obtener una representación codificada de la porción de baja frecuencia. El codificador de audio comprende también un proveedor de información de ampliación de ancho de banda configurado para proveer información de ampliación de ancho de banda sobre la base de la información de audio de entrada. El codificador de audio está configurado para incluir selectivamente información de ampliación de ancho de banda en la información de audio codificada de una manera adaptable a la señal.
Esta forma de realización de acuerdo con la invención se basa en el hallazgo de que, para algunos tipos de contenido de audio, e incluso para algunas porciones de un fragmento contiguo de contenido de audio, puede lograrse una ampliación de ancho de banda de buena calidad sobre la base de la representación codificada de la porción de baja frecuencia sin información colateral de ampliación de ancho de banda alguna, o solo con una pequeña cantidad de información colateral de ampliación de ancho de banda (por ejemplo, un pequeño número de parámetros de ampliación de ancho de banda, que se incluyen en una información de audio codificada). Sin embargo, el concepto también se basa en el hallazgo de que, para otros tipos de contenido de audio, e incluso para otras porciones de un fragmento contiguo de contenido de audio, puede ser necesario (o al menos muy deseable) incluir una información colateral de ampliación de ancho de banda (por ejemplo, parámetros de ampliación de ancho de banda dedicados), o una mayor cantidad de información colateral de ampliación de ancho de banda (por ejemplo, en comparación con el caso mencionado anteriormente) dentro de la información de audio codificada, debido a que, de lo contrario, una ampliación de ancho de banda en el lado del descodificador no provee una calidad de audio satisfactoria.
Mediante la inclusión selectiva de información colateral de ampliación de ancho de banda en la información de audio codificada (por ejemplo, variando selectivamente una cantidad de información de ampliación de ancho de banda o de parámetros de ampliación de ancho de banda incluidos en la información de audio codificada, o mediante la conmutación selectiva entre una inclusión de información de ampliación de ancho de banda en la información de audio codificada y una omisión de dicha inclusión de información de ampliación de ancho de banda en la información de audio codificada), se puede evitar que una información de ampliación de ancho de banda “innecesaria” consuma velocidades de bits valiosas en el caso en el que una ampliación de ancho de banda en el lado del descodificador realmente no requiera información de ampliación de ancho de banda, y no obstante, se pueda asegurar que la información de ampliación de ancho de banda (o un aumento de la cantidad de información de ampliación de ancho de banda) sea incluida en la información de audio codificada si la información de ampliación de ancho del banda es realmente requerida para una ampliación de ancho de banda en el lado del descodificador, es decir, para una reconstrucción en el lado del descodificador del contenido de audio.
Por lo tanto, mediante la inclusión selectiva de información de ampliación de ancho de banda en la información de audio codificada de una manera adaptable a la señal, es decir, cuando la información de ampliación de ancho de banda es realmente necesaria para alcanzar una calidad suficientemente buena de una representación de la señal de audio descodificada, es posible reducir la velocidad de bits promedio al tiempo que se sigue manteniendo la posibilidad de obtener una buena calidad de audio.
En otras palabras, el codificador de audio puede, por ejemplo, conmutar entre una provisión de una información de ampliación de ancho de banda, lo que permite una ampliación de ancho de banda guiada por parámetros en el lado de un descodificador de audio, y una omisión de la provisión de la información de ampliación de ancho de banda, lo que requiere la utilización de una ampliación de ancho de banda a ciegas en el lado de un descodificador de audio.
5
10
15
20
25
30
35
40
45
50
55
60
Por lo tanto, mediante el concepto anteriormente descrito es posible lograr una compensación recíproca particularmente buena entre la velocidad de bits y la calidad de audio.
En una forma de realización preferida, el codificador de audio comprende un detector configurado para identificar porciones de la información de audio de entrada que no pueden ser descodificadas con una calidad suficiente o deseada (por ejemplo, en términos de una medida de calidad predeterminada) sobre la base de la representación codificada de la porción de baja frecuencia, y mediante la utilización de una ampliación de ancho de banda a ciegas. En este caso, el codificador de audio está configurado para incluir selectivamente información de ampliación de ancho de banda en la información de audio codificada para porciones de la información de audio de entrada identificadas por el detector. Mediante la determinación, o la estimación (por ejemplo, sobre la base de rasgos de la información de audio de entrada, o sobre la base de una reconstrucción parcial o completa de la información de audio en el lado del codificador de audio), de qué porciones de la información de audio de entrada no pueden ser descodificadas con una calidad suficiente (o deseada) sobre la base de la representación codificada de la porción de baja frecuencia, y mediante la utilización de una ampliación de ancho de banda a ciegas, se obtiene un criterio significativo para decidir si incluir, o no, información de ampliación de ancho de banda en la información de audio codificada para porciones (por ejemplo, tramas) de la información de audio de entrada (o de forma equivalente, para tramas o porciones de la información de audio codificada). En otras palabras, el criterio anteriormente mencionado, que es evaluado por el detector, permite una buena compensación recíproca entre la impresión de audición, que puede lograrse mediante la descodificación de la información de audio codificada, y la velocidad de bits de la información de audio codificada.
En una forma de realización preferida, el codificador de audio comprende un detector configurado para identificar porciones de la información de audio de entrada para las que los parámetros de ampliación de ancho de banda no se pueden estimar sobre la base de la porción de baja frecuencia con una exactitud suficiente o deseada. En este caso, el codificador de audio está configurado para incluir selectivamente información de ampliación de ancho de banda en la información de audio codificada para porciones de la información de audio de entrada identificadas por el detector. Esta forma de realización de acuerdo con la invención se basa en el hallazgo de que una determinación en cuanto a si los parámetros de ampliación de ancho de banda se pueden estimar, o no, sobre la base de una parte de baja frecuencia con la exactitud suficiente o deseada, constituye un criterio que puede ser evaluado con un esfuerzo computacional moderado y que, sin embargo, constituye un buen criterio para decidir si incluir, o no, información de ampliación de ancho de banda en la información de audio codificada.
En una forma de realización preferida, el codificador de audio comprende un detector configurado para identificar porciones de la información de audio de entrada en función de si las porciones son porciones temporalmente estacionarias y en función de si las porciones tienen un carácter de paso bajo. Además, el codificador de audio está configurado para omitir selectivamente una inclusión de información de ampliación de ancho de banda en la información de audio codificada para porciones de la información de audio de entrada identificadas por el detector como porciones temporalmente estacionarias que tienen un carácter de paso bajo.
Esta forma de realización de acuerdo con la invención se basa en el hallazgo de que típicamente no es necesario incluir información de ampliación de ancho de banda en la información de audio codificada para porciones de la información de audio de entrada que son temporalmente estacionarias y que comprenden un carácter de paso bajo, ya que una ampliación de ancho de banda a ciegas (que no se basa en información de ampliación de ancho de banda ni en parámetros del flujo de bits) típicamente permite una reconstrucción suficientemente buena de tales porciones de la señal. En consecuencia, hay un criterio que puede ser evaluado, de una manera eficiente desde el punto de vista de la computación y que, sin embargo, permite obtener buenos resultados (en términos de una compensación recíproca entre la velocidad de bits y la calidad de audio).
En una forma de realización preferida, el detector está configurado para identificar porciones de la información de audio de entrada en función de si las porciones comprenden habla vocalizada, y/o en función de si las porciones comprenden ruido ambiental (por ejemplo, de un automóvil), y/o en función de si las porciones comprenden música sin instrumentos de percusión. Se ha encontrado que tales porciones, que comprenden habla vocalizada, o que comprenden ruido ambiental, o que comprenden música sin instrumentos de percusión, por lo general pueden ser reconstruidas utilizando una ampliación de ancho de banda a ciegas con suficiente calidad de audio, de tal manera que es recomendable omitir la inclusión de información de ampliación de ancho de banda en la información de audio codificada para tales porciones.
En una forma de realización preferida, el codificador de audio comprende un detector configurado para identificar porciones de la información de audio de entrada en función de si una diferencia entre una envolvente espectral de una porción de baja frecuencia y una envolvente espectral de una porción de alta frecuencia es mayor que o igual a una medida de diferencia predeterminada. En este caso, el codificador de audio está configurado para incluir selectivamente información de ampliación de ancho de banda en la información de audio codificada para porciones de la información de audio de entrada identificadas por el detector.
5
10
15
20
25
30
35
40
45
50
55
60
Se ha encontrado que porciones de la información de audio de entrada, que comprenden una gran diferencia entre una envolvente espectral de una porción de baja frecuencia y una envolvente espectral de una porción de alta frecuencia, típicamente no se pueden reconstruir bien mediante una ampliación de ancho de banda a ciegas, dado que una ampliación de ancho de banda a ciegas a menudo provee envolventes espectrales similares en la porción de alta frecuencia (es decir, en la señal de ampliación de ancho de banda) en comparación con la respectiva porción de baja frecuencia. Por lo tanto, se ha encontrado que una evaluación de la diferencia entre la envolvente espectral de la porción de baja frecuencia y la envolvente espectral de la porción de alta frecuencia constituye un buen criterio para decidir si incluir, o no, información de ampliación de ancho de banda en la información de audio codificada.
En una forma de realización preferida, el detector está configurado para identificar porciones de la información de audio de entrada en función de si las porciones comprenden habla no vocalizada, y/o en función de si las porciones comprenden sonidos de percusión. Se ha encontrado que las porciones que comprenden habla no vocalizada y las porciones que comprenden sonidos de percusión típicamente comprenden espectros en los que la envolvente espectral de la porción de baja frecuencia difiere sustancialmente de la envolvente espectral de la porción de alta frecuencia. Por lo tanto, la detección de habla no vocalizada y/o de sonidos de percusión ha demostrado ser un buen criterio para decidir si incluir, o no, información de ampliación de ancho de banda en la información de audio codificada.
En una forma de realización preferida, el codificador de audio comprende un detector configurado para determinar una inclinación espectral de porciones de la información de audio de entrada, y para identificar porciones de la información de audio de entrada en función de si la inclinación espectral determinada es mayor que o igual a un valor umbral de inclinación fijo o variable. En este caso, el codificador de audio está configurado para incluir selectivamente información de ampliación de ancho de banda en la información de audio codificada para porciones de la información de audio de entrada identificadas por el detector. Se ha encontrado que es posible derivar una inclinación espectral con un esfuerzo computacional moderado y sigue proveyendo un buen criterio para la decisión de si incluir, o no, información de ampliación de ancho de banda en la información de audio codificada. Por ejemplo, si la inclinación espectral alcanza o supera un valor umbral de inclinación, se puede concluir que el espectro tiene un carácter de paso alto y que no se puede reconstruir bien mediante la ampliación de ancho de banda a ciegas. En particular, la ampliación de ancho de banda a ciegas típicamente no puede reconstruir espectros que comprenden una inclinación positiva (en la que se hace énfasis en una porción de alta frecuencia con respecto a una porción de baja frecuencia) con una buena exactitud. Además, dado que una porción de alta frecuencia es de particular relevancia perceptiva en el caso de una inclinación espectral positiva, es recomendable en tales casos incluir la información de ampliación de ancho de banda en la representación de audio codificada.
En una forma de realización preferida, el detector está configurado además para determinar una velocidad de paso por cero de porciones de la información de audio de entrada, y para identificar porciones de la información de audio de entrada también en función de si la velocidad de paso por cero determinada es mayor que o igual a un valor umbral de velocidad de paso por cero fijo o variable. Se ha encontrado que la velocidad de paso por cero es también un buen criterio para detectar porciones de la entrada de información de audio que no se pueden reconstruir bien mediante una ampliación de ancho de banda a ciegas, de tal manera que tiene sentido (en términos de lograr una buena compensación recíproca entre la velocidad de bits y la calidad del audio) incluir la información de ampliación de ancho de banda en la información de audio codificada.
En una forma de realización preferida, el detector está configurado para aplicar una histéresis para la identificación de porciones de la información de entrada de audio, para reducir un número de transiciones entre porciones de señal identificadas (para las que la información de ampliación de ancho de banda se incluye en la representación de audio codificada) y porciones de señal no identificadas (para las que la información de ampliación de ancho de banda no se incluye en la representación de audio codificada). Se ha encontrado que es ventajoso para evitar una conmutación excesiva entre una inclusión de información de ampliación de ancho de banda en la información de audio codificada y una omisión de la inclusión de la información de ampliación de ancho de banda en la representación de audio codificada, ya que tales transiciones pueden presentarse junto con algunos artefactos, en particular si el número de transiciones es muy alto. En consecuencia, la utilización de una histéresis, que puede, por ejemplo, ser aplicado al valor umbral de inclinación (que es entonces un valor umbral de inclinación variable) o al valor umbral de velocidad de paso por cero (que es entonces un valor umbral de velocidad de paso por cero variable), permite lograr este objetivo.
En una forma de realización preferida, el codificador de audio está configurado para incluir selectivamente parámetros que representan una envolvente espectral de una porción de alta frecuencia de la información de audio de entrada en la información de audio codificada de una manera adaptable a la señal. Esta forma de realización se basa en la idea de que los parámetros que representan la envolvente espectral de la porción de alta frecuencia son particularmente importantes en una ampliación de ancho de banda guiada por parámetros, de tal manera que la inclusión de dichos parámetros que representan la envolvente espectral de la porción de alta frecuencia de la
5
10
15
20
25
30
35
40
45
50
55
60
información de audio de entrada permite lograr una ampliación de ancho de banda de buena calidad sin causar una velocidad de bits alta.
En una forma de realización preferida, el codificador de baja frecuencia está configurado para codificar una porción de baja frecuencia de la información de audio de entrada que comprende frecuencias hasta una frecuencia máxima que se encuentra en un intervalo de entre 6 kHz y 7 kHz. Además, el codificador de audio está configurado para incluir selectivamente en la representación de audio codificada entre tres y cinco parámetros que describen las intensidades de porciones de señal de alta frecuencia o subporciones (por ejemplo, porciones de señal que tienen frecuencias por encima de aproximadamente 6 a 7 kHz) que tienen anchos de banda entre 300 Hz y 500 Hz. Se ha encontrado que un concepto de este tipo tiene como resultado una buena calidad de audio sin poner sustancialmente en peligro un esfuerzo de velocidad de bits.
En una forma de realización preferida, el codificador de audio está configurado para incluir selectivamente en la representación de audio codificada 3 - 5 parámetros cuantificados escalarmente que describen intensidades de cuatro porciones (o subporciones) de la señal de alta frecuencia, en donde las porciones (o subporciones) de la señal de alta frecuencia cubren rangos de frecuencia por encima de la parte de baja frecuencia. Se ha encontrado que la utilización de 3 - 5 parámetros cuantificados escalarmente que describen intensidades de cuatro porciones de la señal de alta frecuencia es típicamente suficiente para lograr una ampliación de ancho de banda guiada por parámetro que supera una calidad de audio relativamente baja obtenible mediante una ampliación de ancho de banda a ciegas en la misma porción de señal. Por lo tanto, no hay grandes diferencias de calidad entre las porciones de señal de audio reconstruidas, independientemente de si las porciones de la señal de audio reconstruidas se reconstruyen utilizando una ampliación de ancho de banda a ciegas o una ampliación de ancho de banda guiada. Por lo tanto, el concepto anteriormente mencionado está bien adaptado al concepto que permite una conmutación entre una ampliación de ancho de banda a ciegas y una ampliación de ancho de banda guiada por parámetros.
En una forma de realización preferida, el codificador de audio está configurado para incluir selectivamente en la representación de audio codificada una pluralidad de parámetros que describen una relación entre las energías de porciones de frecuencia espectralmente adyacentes, en donde uno de los parámetros describe una relación entre una energía de una primera porción de alta frecuencia de ampliación de ancho de banda y una porción de baja frecuencia, y en donde otro de los parámetros describe relaciones entre energías de (pares de) otras porciones de alta frecuencia de ampliación de ancho de banda. Se ha encontrado que un concepto de este tipo que describe relaciones (o diferencias) entre las energías (o, lo que es equivalente, las intensidades) de diferentes porciones de frecuencia (preferiblemente adyacentes) permite una codificación eficiente de la información de ampliación de ancho de banda. También se ha encontrado que los parámetros de este tipo que describen una relación entre las energías de porciones de frecuencia espectralmente adyacentes típicamente pueden ser cuantificados solo con una pequeña cantidad de bits sin poner sustancialmente en peligro una calidad de audio alcanzable por una ampliación de ancho de banda.
Otra forma de realización de acuerdo con la invención crea un descodificador de audio para proveer una información de audio descodificada sobre la base de una información de audio codificada. El descodificador de audio comprende un descodificador de baja frecuencia configurado para descodificar una representación codificada de una porción de baja frecuencia (de un contenido de audio), para obtener una representación descodificada de la porción de baja frecuencia. El descodificador de audio también comprende una ampliación de ancho de banda configurada para obtener una señal de la ampliación de ancho de banda mediante una ampliación de ancho de banda a ciegas para porciones de un contenido de audio para las que no hay parámetros de ampliación de ancho de banda incluidos en la información de audio codificada, y para obtener la señal de la ampliación de ancho de banda mediante una ampliación de ancho de banda guiada por parámetros para porciones del contenido de audio para las que hay parámetros de ampliación de ancho de banda incluidos en la información de audio codificada.
Este codificador de audio se basa en la idea de que es posible lograr una buena compensación recíproca entre la calidad de audio y la velocidad de bits si es posible conmutar entre una ampliación de ancho de banda a ciegas y una ampliación de ancho de banda guiada por parámetros incluso dentro de un fragmento contiguo de contenido de audio, ya que se ha encontrado que muchos fragmentos típicos de contenido de audio comprenden ambas secciones para las que se puede obtener una buena calidad de audio utilizando una ampliación de ancho de banda a ciegas y secciones para las que se requiere una ampliación de ancho de banda guiada por parámetros con el fin de alcanzar la suficiente calidad de audio. Además, debería ser evidente que las mismas consideraciones explicadas anteriormente con respecto al codificador de audio también se aplican al descodificador de audio.
En una forma de realización preferida, el descodificador de audio está configurado para decidir si obtener la señal de ampliación de ancho de banda utilizando una ampliación de ancho de banda a ciegas o utilizar una ampliación de ancho de banda guiada por parámetros de una forma trama a trama. Se ha encontrado que dicha conmutación de grano fino (trama a trama) entre una ampliación de ancho de banda a ciegas y una ampliación de ancho de banda guiada por parámetros ayuda a mantener la velocidad de bits razonablemente baja, incluso si regularmente hay
5
10
15
20
25
30
35
40
45
50
55
60
algunas tramas en las que se requiere una ampliación de ancho de banda guiada por parámetros para evitar una degradación excesiva del contenido de audio.
En una forma de realización preferida, el descodificador de audio está configurado para conmutar entre una utilización de una ampliación de ancho de banda a ciegas y una ampliación de ancho de banda guiada por parámetros dentro de un fragmento contiguo de contenido de audio. Esta forma de realización se basa en el hallazgo de que incluso un solo fragmento (contiguo) de contenido de audio a menudo comprende pasajes (o porciones, o tramas) de diferentes tipos, algunos de los cuales deberían ser codificados (y, en consecuencia, descodificados) utilizando una ampliación de ancho de banda guiada por parámetros, mientras que otros pasajes o tramas pueden ser descodificados utilizando una ampliación de ancho de banda a ciegas sin una degradación sustancial de la calidad de audio.
En una forma de realización preferida, el descodificador de audio está configurado para evaluar banderas incluidos en la información de audio codificada para diferentes porciones (por ejemplo, tramas) del contenido de audio, para decidir si utilizar una ampliación de ancho de banda a ciegas o una ampliación de ancho de banda guiada por parámetros (por ejemplo, para la trama a la que está asociada la bandera). En consecuencia, la decisión de si debería utilizarse una ampliación de ancho de banda a ciegas o una ampliación de ancho de banda guiada por parámetros, se mantiene simple, y el descodificador de audio no necesita tener una inteligencia sustancial para decidir si utilizar una ampliación de ancho de banda a ciegas o una ampliación de ancho de banda guiada por parámetros.
Sin embargo, en otra forma de realización preferida, el descodificador de audio está configurado para decidir si utilizar una ampliación de ancho de banda a ciegas o una ampliación de ancho de banda guiada por parámetros sobre la base de la representación codificada de la porción de baja frecuencia sin evaluar una bandera de señalización del modo de ampliación de ancho de banda. Por lo tanto, por el hecho de proveer inteligencia en el descodificador de audio, es posible omitir una bandera de señalización del modo de ampliación de ancho de banda, lo que reduce la velocidad de bits.
En una forma de realización preferida, el descodificador de audio está configurado para decidir si debe utilizar una ampliación de ancho de banda a ciegas o una ampliación de ancho de banda guiada por parámetros sobre la base de uno o más rasgos de la representación descodificada de la porción de baja frecuencia (del contenido de audio). Se ha encontrado que los rasgos de la representación descodificada de la porción de baja frecuencia constituyen cantidades que pueden ser utilizadas, con buena exactitud, para decidir si utilizar una ampliación de ancho de banda a ciegas o una ampliación de ancho de banda guiada por parámetros. Esto es particularmente cierto si se utilizan los mismos rasgos en el lado de un codificador de audio. Por consiguiente, ya no es necesario evaluar una bandera de señalización de modo de ampliación de ancho de banda, lo que a su vez permite una reducción de la velocidad de bits, ya que no es necesario incluir una bandera de señalización de modo de ampliación de ancho de banda en la representación de audio codificada en el lado de un codificador de audio.
En una forma de realización preferida, el descodificador de audio está configurado para decidir si utilizar una ampliación de ancho de banda a ciegas o una ampliación de ancho de banda guiada por parámetros, sobre la base de coeficientes de predicción lineales cuantificados y/o estadísticas del dominio del tiempo de la representación descodificada de la porción de baja frecuencia (del contenido de audio). Se ha encontrado que los coeficientes de predicción lineal cuantificados son fáciles de obtener en el lado de un descodificador de audio, y por el hecho de derivar una inclinación espectral, pueden por lo tanto servir como una buena indicación de si utilizar una ampliación de ancho de banda a ciegas o una ampliación de ancho de banda guiada por parámetros. Además, los coeficientes de predicción lineal cuantificados también son fácilmente accesibles en el lado de un codificador de audio, de tal manera que es fácilmente posible coordinar una conmutación entre una ampliación de ancho de banda a ciegas y una ampliación de ancho de banda guiada por parámetros en el lado de un codificador de audio y en el lado de un descodificador de audio. De manera similar, las estadísticas de dominio de tiempo de la representación descodificada de la porción de baja frecuencia, tales como una velocidad de paso por cero, han demostrado ser una cantidad fiable para decidir si utilizar una ampliación de ancho de banda a ciegas o una ampliación de ancho de banda guiada por parámetros guiada en el lado de un descodificador de audio.
En una forma de realización preferida, la ampliación de ancho de banda está configurada para obtener la señal de ampliación de ancho de banda utilizando uno o más rasgos de la representación descodificada de la porción de baja frecuencia y/o utilizando uno o más parámetros del descodificador de baja frecuencia para porciones temporales de la información (o contenido) de audio de entrada para la que no hay parámetros de ampliación de ancho de banda incluidos en la información de audio codificada. Se ha encontrado que una ampliación de ancho de banda a ciegas de este tipo tiene como resultado una buena calidad de audio.
En una forma de realización preferida, la ampliación de ancho de banda está configurada para obtener la señal de ampliación de ancho de banda utilizando una información de centroide espectral y/o utilizando una información de energía y/o utilizando una información de inclinación (espectral) y/o utilizando coeficientes de filtro codificados por
5
10
15
20
25
30
35
40
45
50
55
60
porciones temporales de la información (o contenido) de audio de entrada para la que no hay parámetros de ampliación de ancho de banda incluidos en la información de audio codificada. Se ha encontrado que la utilización de estas cantidades permite obtener una forma eficaz de obtener una ampliación de ancho de banda de buena calidad.
En una forma de realización preferida, la ampliación de ancho de banda está configurada para obtener la señal de ampliación de ancho de banda utilizando parámetros del flujo de bits que describen una envolvente espectral de una porción de alta frecuencia para porciones temporales del contenido de audio para las que hay parámetros de ampliación de ancho de banda incluidos en la información de audio codificada. Se ha encontrado que la utilización de parámetros de flujo de bits que describen una envolvente espectral de la porción de alta frecuencia permite obtener una ampliación de ancho de banda guiada por parámetros con una velocidad de bits eficiente con una buena calidad, en donde los parámetros del flujo de bits que describen la envolvente espectral típicamente no requieren una velocidad de bits elevada, pero pueden ser codificados solo con un número relativamente pequeño de bits por trama de audio. En consecuencia, incluso la conmutación hacia la ampliación de ancho de banda guiada por parámetros no da lugar a un aumento sustancial de la velocidad de bits.
En una forma de realización preferida, la ampliación de ancho de banda está configurada para evaluar entre tres y cinco parámetros de flujo de bits que describen intensidades de porciones de señal de alta frecuencia que tienen anchos de banda de entre 300 Hz y 500 Hz con el fin de obtener la señal de ampliación de ancho de banda. Se ha encontrado que un número comparativamente pequeño de parámetros de flujo de bits es suficiente para obtener una ampliación de ancho de banda en un intervalo perceptivamente importante, de tal manera que es posible obtener una buena calidad de audio con un pequeño aumento en la velocidad de bits.
En una forma de realización preferida, los entre tres y cinco parámetros de flujo de bits que describen intensidades de porciones de señal de alta frecuencia que tienen anchos de banda de entre 300 Hz y 500 Hz son cuantificados escalarmente con una resolución de 2 o 3 bits de tal manera que hay entre 6 y 15 bits de ampliación de parámetros de conformación espectral de ampliación de ancho de banda por trama de audio. Se ha encontrado que una opción de este tipo permite una eficiencia muy alta de la velocidad de bits de la ampliación de ancho de banda guiada por parámetros, mientras que una calidad de la ampliación de ancho de banda es típicamente comparable con la calidad de ampliación de ancho de banda obtenible utilizando la ampliación de ancho de banda a ciegas para porciones “no críticas” del contenido de audio, en donde la ampliación de ancho de banda a ciegas ofrece buenos resultados. En consecuencia, hay una calidad equilibrada tanto en el caso de que se aplique la ampliación de ancho de banda a ciegas como en el caso en el que se aplica la ampliación de ancho de banda guiada por parámetros.
En una forma de realización preferida, la ampliación de ancho de banda está configurada para llevar a cabo un alisamiento de las energías de la señal de ampliación de ancho de banda cuando se conmuta desde la ampliación de ancho de banda a ciegas a la ampliación de ancho de banda guiada por parámetros y/o cuando se conmuta desde la ampliación de ancho de banda parámetro guiada por parámetros a la ampliación de ancho de banda a ciegas. En consecuencia, es posible evitar los chasquidos o “artefactos de bloqueo” que podrían ser causados por las diferentes propiedades de la ampliación de ancho de banda a ciegas y la ampliación de ancho de banda guiada por parámetros.
En una forma de realización preferida, la ampliación de ancho de banda está configurada para amortiguar una porción de alta frecuencia de la señal de ampliación de ancho de banda para una porción del contenido de audio a la que se aplica una ampliación de ancho de banda guiada por parámetros después de una porción del contenido de audio a la que una ampliación de ancho de banda a ciegas. Además, la ampliación de ancho de banda está configurada para reducir una amortiguación para una porción de alta frecuencia de la señal de ampliación de ancho de banda para una porción del contenido de audio a la que se aplica una ampliación de ancho de banda a ciegas después de una porción del contenido de audio a la que se aplica la ampliación de ancho de banda guiada por parámetros. Por lo tanto, el efecto de que típicamente la ampliación de ancho de banda muestra típicamente una característica de paso bajo, si bien este no es necesariamente el caso para la ampliación de ancho de banda guiada por parámetros, puede ser compensado hasta cierto punto. En consecuencia, los artefactos en las transiciones entre porciones del contenido de audio descodificado utilizando una ampliación de ancho de banda a ciegas y la utilización de una ampliación de ancho de banda guiada por parámetros se reducen.
Otra forma realización de acuerdo con la invención crea un método para proveer una información de audio codificada sobre la base de una información de audio de entrada. El método comprende codificar una porción de baja frecuencia de la información de audio de entrada para obtener una representación codificada de la porción de baja frecuencia. El método también comprende proveer información de ampliación de ancho de banda sobre la base de la información de audio de entrada. La información de ampliación de ancho de banda se incluye selectivamente en la información de audio codificada de una manera adaptable a la señal. Este método se basa en las mismas consideraciones que el codificador de audio descrito anteriormente.
5
10
15
20
25
30
35
40
45
50
55
60
Otra forma de realización de acuerdo con la invención crea un método para proveer una información de audio descodificada sobre la base de una información de audio codificada. El método comprende la descodificación de una representación codificada de una porción de baja frecuencia para obtener una representación descodificada de la porción de baja frecuencia. El método comprende además obtener una señal de ampliación de ancho de banda utilizando una ampliación de ancho de banda a ciegas para porciones de un contenido de audio para las que no hay parámetros de ampliación de ancho de banda incluidos en la información de audio codificada. El método comprende además la obtención de la señal de ampliación de ancho de banda utilizando una ampliación de ancho de banda guiada por parámetros para porciones de contenido de audio para las que hay parámetros de ampliación de ancho de banda incluidos en la información de audio codificada. Este método se basa en las mismas consideraciones que el descodificador de audio descrito anteriormente.
Otra forma de realización de acuerdo con la invención crea un programa informático para llevar a cabo uno de los métodos mencionados anteriormente cuando el programa informático se ejecuta en un ordenador.
Otra forma de realización de acuerdo con la invención crea una representación de audio codificada que representa una información de audio. La representación de audio codificada comprende una representación codificada de una porción de baja frecuencia de una información de audio y una información de ampliación de ancho de banda. La información de ampliación de ancho de banda se incluye en la representación de audio codificada de una manera adaptable a la señal, para algunas pero no para todas las porciones de la información de audio. Esta información de audio codificada es provista por el codificador de audio descrito anteriormente, y puede ser evaluada por el descodificador de audio descrito anteriormente.
Breve descripción de las figuras
A continuación se describirán algunas formas de realización de acuerdo con la invención, haciendo referencia a las
figuras adjuntas, en las que:
la figura 1 muestra un diagrama esquemático de bloques de un codificador de audio, de acuerdo con una forma de realización de la presente invención;
la figura 2 muestra un diagrama esquemático de bloques de un codificador de audio, de acuerdo con otra forma de realización de la presente invención;
la figura 3 muestra una representación gráfica de porciones de frecuencia y la información de audio codificada asociada con la misma;
la figura 4 muestra un diagrama esquemático de bloques de un descodificador de audio, de acuerdo con una forma de realización de la presente invención;
la figura 5 muestra un diagrama esquemático de bloques de un descodificador de audio, de acuerdo con otra forma de realización de la presente invención;
la figura 6 muestra un diagrama de flujo de un método para proveer una representación de audio codificada, de acuerdo con una forma de realización de la presente invención;
la figura 7 muestra un diagrama de flujo de un método para proveer una representación de audio descodificada, de acuerdo con una forma de realización de la presente invención; y
la figura 8 muestra una ilustración esquemática de una representación de audio codificada, de acuerdo con una forma de realización de la presente invención.
Descripción detallada de las formas de realización
Codificador de audio de acuerdo con la figura 1
La figura 1 muestra un diagrama esquemático de bloques de un codificador de audio, de acuerdo con una forma de realización de la presente invención.
El codificador de audio 100 de acuerdo con la figura 1 recibe una información de audio de entrada 110 y provee, sobre la base de esta, una información de audio codificada 112. El codificador de audio 100 comprende un codificador de baja frecuencia 120, que está configurado para codificar una porción de baja frecuencia de la información de audio de entrada 110, para obtener una representación codificada 122 de la porción de baja frecuencia. El codificador de audio 100 comprende también un proveedor de información de ampliación de ancho de banda 130 configurado para proveer información de ampliación de ancho de banda 132 sobre la base de la
5
10
15
20
25
30
35
40
45
50
55
60
información de audio de entrada 110. El codificador de audio 100 está configurado para incluir selectivamente información de ampliación de ancho de banda 132 en la información de audio codificada 112 de una manera adaptable a la señal.
En cuanto a la funcionalidad del codificador de audio 100, se puede decir que el codificador de audio 100 provee una codificación eficiente de la velocidad de bits de la información de audio de entrada 110. Una porción de baja frecuencia, por ejemplo en un intervalo de frecuencias de aproximadamente 6 o 7 kHz, se codifica mediante el codificador de baja frecuencia 120, en donde es posible utilizar cualquiera de los conceptos de codificación de audio conocidos. Por ejemplo, el codificador de baja frecuencia 120 puede ser un codificador “de audio en general” (como, por ejemplo, un codificador de audio AAC) o un codificador de audio de tipo de voz (como, por ejemplo, un codificador de audio basado en predicción lineal, un codificador CELP de audio, un codificador de audio ACELP, o similares). Por consiguiente, la porción de baja frecuencia de la información de audio de entrada se codifica utilizando cualquiera de los conceptos convencionales. Sin embargo, la velocidad de bits de la representación codificada 122 de la porción de baja frecuencia se mantiene razonablemente pequeña, ya que solo se codifican los componentes de frecuencia de hasta aproximadamente 6 a 7 kHz. Además, el codificador de audio 100 es capaz de proveer una información de ampliación de ancho de banda, por ejemplo, en forma de parámetros de ampliación de ancho de banda que describen una porción de alta frecuencia de la información de entrada de audio 110, como, por ejemplo, una región de frecuencia que comprende frecuencias más altas que la región de frecuencia codificada por el codificador de baja frecuencia 120. Por lo tanto, el proveedor de la información de ampliación de ancho de banda 130 es capaz de proveer una información colateral de la información de audio codificada 112, que puede controlar una ampliación de ancho de banda llevado a cabo en el lado de un descodificador de audio que no se muestra en la figura. 1. La información de ampliación de ancho de banda (o la información colateral de ampliación de ancho de banda) pueden, por ejemplo, representar una forma espectral (o envolvente espectral) de la porción de alta frecuencia de la información de audio de entrada, es decir, un intervalo de frecuencias de la información de audio de entrada que no es cubierta por el codificador de baja frecuencia 120.
Sin embargo, el codificador de audio 100 está configurado para decidir, de una manera adaptable a la señal, si la información de ampliación de ancho de banda se debería incluir en la información de audio codificada 112. Por lo tanto, el codificador de audio 100 es capaz de incluir solo la información de ampliación de ancho de banda en la información de audio codificada 112 si se requiere la información de ampliación de ancho de banda (o al menos es deseable) para una reconstrucción de la información de audio en el lado de un descodificador de audio. En este contexto, el codificador de audio también puede controlar si la información de ampliación de ancho de banda 132 es provista por el proveedor de ampliación de ancho de banda de información 130 para una porción de la información de audio de entrada (o, lo que es equivalente, para una porción de la información de audio codificada), ya que naturalmente no es necesaria para proveer información de ampliación de ancho de banda para una porción de la información de audio de entrada (o de la información de audio codificada) si la información de ampliación de ancho de banda no se incluirá en la información de audio codificada. En consecuencia, el codificador de audio 100 es capaz de mantener la velocidad de bits de la información de audio codificada 112 tan pequeña como sea posible, por el hecho de evitar la inclusión de la información de ampliación de ancho de banda 132 en la información de audio codificada 112, si se comprueba, sobre la base de algún proceso de análisis y/o proceso de decisión llevado a cabo por el codificador de audio 100, que la información de ampliación de ancho de banda no es necesaria para obtener cierta calidad de audio cuando se reconstruya una porción correspondiente del contenido de audio en el lado de un descodificador de audio.
Por lo tanto, el codificador de audio 100 solo incluye la información de ampliación de ancho de banda en la información de audio codificada si es necesario (para obtener una cierta calidad de audio) en el lado de un descodificador de audio, que, por un lado, ayuda a reducir la velocidad de bits de la información de audio codificada 112 y que, por otro lado, asegura de que una adecuada información de ampliación de ancho de banda 132 esté incluida en la información de audio codificada 112, si esto es necesario para evitar una mala calidad de audio cuando se descodifica la información de audio codificada en el lado de un descodificador de audio. Por lo tanto, se logra una compensación recíproca mejorada entre la velocidad de bits y la calidad de audio por el codificador de audio 100 en comparación con las soluciones convencionales.
Por ejemplo, el descodificador de audio puede decidir, por trama de audio, si la información de ampliación de ancho de banda se debería incluir en la información de audio codificada 112 (o incluso si debería determinarse la información de ampliación de ancho de banda). Sin embargo, como alternativa, el descodificador de audio puede decidir, por “cada entrada” (por ejemplo, por archivo de audio o por flujo de audio), si debería incluirse información de ampliación de ancho de banda en la información de audio codificada 112 Para este propósito, la entrada se puede analizar (por ejemplo, antes de la codificación), de tal manera que la decisión se toma de una manera adaptable a la señal.
2. Codificador de audio de acuerdo con la figura 2
5
10
15
20
25
30
35
40
45
50
55
60
La figura 2 muestra un diagrama esquemático de bloques de un codificador de audio, de acuerdo con una forma de realización de la presente invención. El codificador de audio 200 recibe una información de audio de entrada 210 y provee, sobre la base del mismo, una información de audio codificada 212. El codificador de audio 200 comprende un codificador de baja frecuencia 220, que puede ser sustancialmente idéntico al codificador de baja frecuencia 120 descrito anteriormente. El codificador de baja frecuencia 220 provee una representación codificada 222 de una porción de baja frecuencia de la información de audio de entrada (o, lo que es equivalente, del contenido de audio representado por la información de audio de entrada 210). El codificador de audio 200 comprende también un proveedor de información de ampliación de ancho de banda 230, que puede ser sustancialmente idéntico al proveedor de información de ampliación de ancho de banda 130 descrito anteriormente. El proveedor de información de ampliación de ancho de banda 230 normalmente recibe la información de audio de entrada 210. Sin embargo, el proveedor de información de ampliación de ancho de banda 230 también puede recibir una información de control (o información intermedia) desde el codificador de baja frecuencia 220, en el que dicha información de control (o información intermedia) puede, por ejemplo, comprender información acerca de un espectro (o de una forma espectral o de una envolvente espectral) de la porción de baja frecuencia de la información de audio de entrada 210. Sin embargo, la información de control (o la información intermedia) también puede comprender parámetros de codificación (por ejemplo, coeficientes de filtro LPC, o valores de dominio de transformada, como coeficientes de MDCT, o coeficientes de QMF) o similares. Además, el proveedor de información de ampliación de ancho de banda 230 puede, opcionalmente, recibir la representación codificada 222 de la porción de baja frecuencia, o al menos una parte de la misma. Además, el codificador de audio 200 comprende un detector 240, que está configurado para decidir si la información de ampliación de ancho de banda se incluye en la información de audio codificada 212 para una porción dada de la información de audio de entrada 210 (o de una porción dada de la información de audio codificada 212). Opcionalmente, el detector 240 también puede determinar si dicha información de ampliación de ancho de banda se determina por el proveedor de la información de ampliación de ancho de banda 230 para dicha porción dada de la información de audio de entrada 210 (o de la información de audio codificada 212). El detector 240 puede, por tanto, recibir la información de audio de entrada 210, y/o información de control y/o información intermedia 224 desde el codificador de baja frecuencia 220 (por ejemplo, como anteriormente descrito) y/o la representación codificada 222 de la porción de baja frecuencia. Además, el detector 240 está configurado para proveer una señal de control 242 que controla una provisión selectiva de la información de ampliación de ancho de banda y/o una inclusión selectiva de la información de ampliación de ancho de banda en la información de audio codificada 212.
En cuanto a la funcionalidad del codificador de audio 200, se hace referencia a las explicaciones anteriores hechas con respecto al codificador de audio 100.
Además, hay que señalar que el detector 240 comprende un papel central, ya que el detector 240 decide si la información de ampliación de ancho de banda se incluye, o no, en la información de audio codificada 212, y por lo tanto decide si un descodificador de audio, que recibe la información de audio codificada 212, reconstruye el contenido de audio, que es descrita por la información de audio de entrada 210, utilizando una ampliación de ancho de banda a ciegas o utilizando una ampliación de ancho de banda guiada por parámetros (en la que la información de ampliación de ancho de banda representa los parámetros que guían la ampliación de ancho de banda guiada por parámetros).
En términos generales, el detector identifica porciones de la información de audio de entrada que no pueden ser descodificadas con la calidad suficiente o deseada sobre la base de la representación codificada 222 de la porción de baja frecuencia utilizando una ampliación de ancho de banda a ciegas. En otras palabras, el detector 240 debería reconocer cuándo la representación codificada de la porción de baja frecuencia 222 por sí sola no permite una ampliación de ancho de banda a ciegas con la calidad suficiente. Dicho con otras palabras, el detector 240 identifica preferentemente porciones de la información de audio de entrada para las que los parámetros ampliación de ancho de banda no se pueden estimar sobre la base de la porción de baja frecuencia con un exactitud suficiente (o deseada), para obtener una calidad de audio aceptable (o deseada). Por lo tanto, el detector 240 puede determinar, mediante la señal de control 242, que la información de ampliación de ancho de banda debería incluirse en la
información de audio codificada para porciones de la información de audio de entrada que no pueden ser
descodificadas con una calidad suficiente o deseada sobre la base de la representación codificada 222 de la parte de baja frecuencia utilizando una ampliación de ancho de banda a ciegas (es decir, sin recibir ninguna información de ampliación de ancho de banda desde el codificador). De manera equivalente, el detector puede determinar,
mediante la señal de control 242, que la información de ampliación de ancho de banda debería incluirse en la
información de audio codificada para aquellas porciones de la información de audio de entrada para las que los parámetros de ampliación de ancho de banda no pueden calcularse sobre la base de la parte de baja frecuencia (o, lo que es equivalente, la representación codificada 222 de la porción de baja frecuencia) con una exactitud suficiente o deseada.
Con el fin de identificar tales porciones, para las que la información de ampliación de ancho de banda debería estar incluida en la información codificada de audio (o, lo que es equivalente, para identificar porciones de la información de audio de entrada para las que no es necesario incluir la información de ampliación de ancho de banda en la
5
10
15
20
25
30
35
40
45
50
55
60
información de audio codificada 212), el detector 240 puede utilizar diferentes estrategias. Como se mencionó anteriormente, el detector 240 puede recibir diferentes tipos de información de entrada. En algunos casos, la decisión del detector de si la información de ampliación de ancho de banda se debería incluir, o no, en la información de audio codificada 212 puede basarse únicamente en la información de audio de entrada 210. En otras palabras, el detector 240 puede, por ejemplo, estar configurado para analizar la información de audio de entrada 210, para descubrir para qué porciones de la información de audio de entrada (que corresponden a porciones de la información de audio codificada 212) es necesario incluir la información de ampliación de ancho de banda de banda 232 en la información de audio codificada 212 para obtener una calidad de audio con un nivel aceptable (o deseable). Sin embargo, como alternativa, la decisión del detector 240, puede estar basada en alguna información de control o información intermedia 224, provista por el codificador de baja frecuencia 200. Como alternativa, o además, la decisión del detector 240 puede estar basada en la representación codificada 222 de la porción de baja frecuencia de la información de audio de entrada 210. Por lo tanto, el detector puede evaluar diferentes cantidades para determinar (o para estimar) si una ampliación de ancho de banda a ciegas en el lado de un descodificador de audio se traducirá en un audio de una calidad suficiente (o es probable que resulte en un audio de una calidad suficiente, o se prevé que resultara en un audio de una calidad suficiente).
Por ejemplo, el detector puede determinar si porciones de la información de audio de entrada 210 son porciones temporalmente estacionarias y si las porciones de la información de audio de entrada 210 tiene un carácter de paso bajo. Por ejemplo, el detector 240 puede llegar a la conclusión de que no es necesario incluir información de ampliación de ancho de banda en la información de audio codificada 212 para aquellas porciones que han demostrado ser porciones temporalmente estacionarios y que tienen un carácter de paso bajo, ya que se ha reconocido que tales porciones de la información de audio de entrada 210 típicamente se pueden reproducir con una calidad suficientemente buena de audio en el lado de un descodificador de audio, incluso utilizando una ampliación de ancho de banda a ciegas. Esto se debe al hecho de que una ampliación de ancho de banda a ciegas típicamente funciona bien para porciones de la información (o contenido) de audio de entrada que no comprenden fuertes cambios del contenido de audio (o que no comprenden ningún transitorios ni otras variaciones fuertes del contenido de audio) y que por lo tanto se pueden considerar como temporalmente estacionarias. Además, se ha encontrado que la ampliación de ancho de banda a ciegas funciona bien para porciones del contenido de audio que comprenden un carácter de paso bajo, es decir, para una porción del contenido de audio para la que una intensidad de una porción de baja frecuencia es mayor que una intensidad de una porción de alta frecuencia, ya que se trata de un supuesto fundamental de la mayoría de los conceptos de ampliación de ancho de banda a ciegas. Por lo tanto, el detector 240 puede señalizar, utilizando la señal de control 242, omitir selectivamente una inclusión de la información de ampliación de ancho de banda en la información de audio codificada 212 para tales porciones temporalmente estacionarias que tienen un carácter de paso bajo.
Por ejemplo el detector 240 puede estar configurado para identificar porciones de la información de audio de entrada que comprenden un habla vocalizada y/o porciones de la información de audio de entrada que comprenden ruido ambiental y/o porciones de la información de audio de entrada que comprenden música sin instrumentos de percusión. Tales porciones de la información de audio de entrada son típicamente temporalmente estacionarias y comprenden un carácter de paso bajo de tal manera que el detector 240 típicamente señala omitir la inclusión de información de ampliación de ancho de banda en la información de audio codificada para tales porciones.
Como alternativa, o adicionalmente, el detector 240 puede analizar si una forma espectral en la porción de alta frecuencia de la información de audio de entrada puede predecirse con una exactitud razonable (por ejemplo, utilizando los conceptos aplicados por ampliación de ancho de banda a ciegas), sobre la base de un envolvente espectral de la porción de baja frecuencia. Por consiguiente, el detector puede, por ejemplo, estar configurado para determinar si una diferencia entre una envolvente espectral de una porción de baja frecuencia (que puede describirse, por ejemplo, por la información intermedia 224, o por la representación codificada 222 de la porción de baja frecuencia) y una envolvente espectral de una porción de alta frecuencia (que puede, por ejemplo, ser determinada por el detector 240 sobre la base de la información de audio de entrada 210) es mayor que o igual a una medida predeterminada de la diferencia. Por ejemplo, el detector 240 puede determinar la diferencia en términos de una diferencia de intensidad, o en términos de una diferencia de forma, o en términos de una variación en la frecuencia, o en términos de otros elementos característicos de las envolventes espectrales. De acuerdo con ello, el detector 240 puede decidir (y señalizar) para que se incluya información de ampliación de ancho de banda 232 en la información de audio de entrada en respuesta a la comprobación de que la diferencia entre la envolvente espectral de la porción de baja frecuencia y la envolvente espectral de la porción de alta frecuencia es mayor que o igual a la medida predeterminada de la diferencia. En otras palabras, el detector 240 puede determinar en qué grado es posible predecir la envolvente espectral de la porción de alta frecuencia sobre la base de la envolvente espectral de la porción de baja frecuencia, y si la predicción no es posible con buenos resultados (lo que es el caso, por ejemplo, si la envolvente espectral predicha de la porción de alta frecuencia difiere demasiado de la envolvente espectral real de la porción de alta frecuencia) se puede concluir que la información de ampliación de ancho de banda 232 será necesaria en el lado del descodificador de audio. Sin embargo, en lugar de comparar la envolvente espectral predicha de la porción de alta frecuencia con la envolvente espectral real de la porción de alta frecuencia, el detector 240 puede, como alternativa, comparar la envolvente espectral de la porción de baja frecuencia con la envolvente
5
10
15
20
25
30
35
40
45
50
55
60
espectral de la porción de alta frecuencia. Esto tiene sentido si se supone que la envolvente espectral de la porción de alta frecuencia es típicamente similar a la envolvente espectral de la porción de baja frecuencia cuando se aplica una estimación a ciegas del ancho de banda.
Como alternativa o de forma adicional, el detector 240 puede identificar porciones que comprenden porciones de habla y/o porciones que comprenden sonidos de percusión sordos. Ya que en tales casos la envolvente espectral de la porción de alta frecuencia típicamente difiere considerablemente de la envolvente espectral de la porción de baja frecuencia, el detector puede señalar para que se incluya la información de ampliación de ancho de banda en la representación de audio codificada para tales porciones de la información de audio de entrada (o de la información de audio codificada) que comprende habla no vocalizada o que comprende sonidos de percusión.
Sin embargo, como alternativa o de forma adicional, el detector 240 puede analizar una inclinación espectral de porciones de la información de audio de entrada 210. Además, el detector 240 puede utilizar una información acerca de la inclinación espectral de porciones de la información de audio de entrada para decidir si la información de ampliación de ancho de banda 232 debe ser incluida en la información de audio codificada 212. Tal concepto se basa en la idea de que la ampliación de ancho de banda a ciegas funciona bien para porciones de un contenido de audio para las que hay más energía (o, en términos generales, intensidad) en el intervalo de bajas frecuencias en comparación con el intervalo de alta frecuencia. En contraste, si la porción de alta frecuencia (también designada como intervalo de alta frecuencia) es “dominante”, es decir, comprende una cantidad sustancial de energía, típicamente la ampliación de ancho de banda a ciegas no puede reproducir bien el contenido de audio, de tal manera que la información de ampliación de ancho de banda debería estar incluida en la información de audio codificada. Por lo tanto, en algunas formas de realización el detector determina si la inclinación espectral (que describe una distribución de las energías, o, en general intensidades, sobre la frecuencia) es mayor que o igual a un valor umbral de inclinación fijo o variable. Si la inclinación espectral es más grande que o igual al valor umbral de inclinación fijo o variable (lo que significa que hay una energía, o intensidad, comparativamente grande, en la porción de alta frecuencia del contenido de audio, por lo menos en comparación con un caso “normal” en el que la energía o la intensidad disminuye al aumentar la frecuencia), el detector puede decidir incluir la información de ampliación de ancho de banda en la información de audio codificada.
Además de algunos rasgos anteriormente mencionados, o de todos ellos, el detector también puede evaluar una velocidad de paso por cero de porciones de la información de audio de entrada. Además, la decisión del detector acerca de si incluir la información de ampliación de ancho de banda también puede estar basada en si la velocidad de paso por cero es mayor que o igual a un valor umbral de velocidad de paso por cero fijo o variable. Este concepto se basa en la consideración de que una velocidad de paso por cero elevada indica normalmente que las frecuencias altas juegan un papel importante en la información de audio de entrada, lo que a su vez indica que se debería utilizar una ampliación de ancho de banda guiada por parámetros en el lado de un descodificador de audio.
Además, debe tenerse en cuenta que el detector 240 puede utilizar preferiblemente alguna histéresis para evitar una conmutación excesiva entre la inclusión de la información de ampliación de ancho de banda 232 en la información de audio codificada y una omisión de dicha inclusión. Por ejemplo, la histéresis se puede aplicar al valor umbral de inclinación variable, al valor umbral de velocidad de paso por cero variable o a cualquier otro valor umbral que se utilice para decidir acerca de una transición desde una inclusión de la información de ampliación de ancho de banda a una evitación de dicha inclusión, o inversamente. Por lo tanto, la histéresis puede variar un valor umbral con el fin de reducir una probabilidad para la conmutación a una omisión de la inclusión de la información de ampliación de ancho de banda cuando se incluye la información de ampliación de ancho de banda para una porción actual de la información de audio de entrada. Análogamente, el valor umbral se puede variar para reducir una probabilidad de la conmutación a la inclusión de la información de ampliación de ancho de banda cuando se evita la inclusión de la información de ampliación de ancho de banda para la porción vigente de la información de audio de entrada. Por lo tanto es posible reducir los artefactos, que pueden ser causados por las transiciones entre los diferentes modos.
En lo que sigue se analizarán algunos detalles acerca del proveedor de la información de ampliación de ancho de banda 230. En particular, se explicará qué información se incluye en la información de audio codificada 212 en respuesta al detector que señaliza que la información de ampliación de ancho de banda 232 debería estar incluida en la información de audio codificada. Para los fines de la explicación, también se hará referencia a la figura 3, que muestra una representación esquemática de porciones de frecuencia de la información de audio de entrada y de los parámetros incluidos en la representación de audio codificada. Un eje de abscisas 310 describe una frecuencia y una eje de ordenadas 312 describe una intensidad (por ejemplo, una intensidad, tal como una amplitud o una energía) de diferentes tolvas espectrales (como, por ejemplo, coeficientes de MDCT, coeficientes de QMF, coeficientes de FFT, o similares). Como se puede ver, una porción de baja frecuencia de la información de audio de entrada puede, por ejemplo, cubrir un intervalo de frecuencias desde un límite de frecuencias más bajo (por ejemplo, 0, o 50 Hz, o 300 Hz, o cualquier otro límite inferior de frecuencia razonable) hasta una frecuencia de aproximadamente 6,4 kHz. Como puede verse, la representación codificada 222 puede ser provista para esta porción de baja frecuencia (por ejemplo, de 300 Hz a 6,4 kHz, o similares). Además, hay una porción de alta frecuencia que, por ejemplo, abarca de 6,4 kHz a 8 kHz. Sin embargo, una porción de alta frecuencia puede cubrir
5
10
15
20
25
30
35
40
45
50
55
60
de forma natural un intervalo de frecuencias diferente, que normalmente está limitado por el intervalo de frecuencias perceptibles por un oyente humano. Sin embargo, se puede observar en la figura 3 que, como un ejemplo, una envolvente espectral mostrada con el número de referencia 320 comprende una forma irregular en la porción de alta frecuencia. Además, puede verse que la envolvente espectral 320 comprende una energía comparativamente grande en la porción de alta frecuencia, e incluso una energía comparativamente alta energía entre 7,2 kHz y 7,6 kHz. A modo de comparación, en la figura 3 se muestra también una segunda envolvente espectral 330, en donde la segunda envolvente espectral 330 muestra un decaimiento de la intensidad o de la energía (por ejemplo, por unidad de frecuencia) en la porción de alta frecuencia. Por lo tanto, la envolvente espectral 320 típicamente hará que el detector decida la inclusión de la información de ampliación de ancho de banda en la representación de audio codificada para la porción que comprende la envolvente espectral 320 mientras que la envolvente espectral 330, típicamente hará que el detector se decida por una omisión de la inclusión de la información de ampliación de ancho de banda para la porción del contenido de audio que comprende la envolvente espectral 330.
Como también se puede observar para una porción del contenido de audio que comprende la envolvente espectral 320 se incluirán cuatro parámetros escalares en la representación de audio codificada como información de ampliación de ancho de banda Un primer parámetro escalar puede por ejemplo describir la envolvente espectral (o un promedio de la envolvente espectral) para la región de frecuencia entre 6,4 kHz y 6,8 kHz, un segundo parámetro escalar puede describir la envolvente espectral 320 (o el promedio de la misma) para la región de frecuencia entre 6,8 kHz y 7,2 kHz, un tercer parámetro escalar puede describir la envolvente espectral 320 (o un promedio de la misma) para la región de frecuencia entre 7,2 kHz y 7,6 kHz, y un cuarto parámetro escalar puede describir la envolvente espectral (o un promedio de la misma) para la región de frecuencias entre 7,6 kHz y 8 kHz. Los parámetros escalares pueden describir la envolvente espectral de una manera absoluta o relativa, por ejemplo, con referencia a un intervalo (o región) de frecuencias espectralmente precedente. Por ejemplo, el primer parámetro escalar puede describir una relación de intensidad (que puede por ejemplo normalizarse en algún grado) entre la envolvente espectral en la región de frecuencias entre 6,4 kHz y 6,8 kHz y la envolvente espectral en una región de frecuencia inferior (por ejemplo, por debajo de 6,4 kHz). Los parámetros escalares segundo, tercero y cuarto pueden, por ejemplo, describir una diferencia (o relación) entre (las intensidades de) la envolvente espectral en intervalos de frecuencia adyacentes de tal manera que, por ejemplo, el segundo parámetro escalar pueda describir una relación entre (un valor promedio de) la envolvente espectral en el intervalo de frecuencias entre 6,8 kHz y 7,2 kHz y la envolvente espectral en el intervalo de frecuencias entre 6,4 kHz y 6,8 kHz.
Además, hay que señalar que una representación codificada de la porción de baja frecuencia, es decir, la porción de frecuencia por debajo de 6,4 kHz puede incluirse en cualquier caso. La parte de frecuencia por debajo de 6,4 kHz (porción de baja frecuencia) puede ser codificada utilizando cualquiera de los conceptos de codificación bien conocidos, por ejemplo, utilizando una codificación de “audio en general” tal como AAC (o un derivado del mismo) o una codificación de voz (como, por ejemplo CELP. ACELP o un derivado del mismo). Por lo tanto, para una porción del contenido de audio que comprende la envolvente espectral 320, tanto una representación codificada de la porción de baja frecuencia como cuatro parámetros de ampliación de ancho de banda escalares (que pueden ser cuantificados utilizando un número relativamente pequeño de bits) se incluirán en el representación codificada de audio En cambio, para una porción del contenido de audio que comprende la envolvente espectral 330, solo la representación codificada de la porción de baja frecuencia estará incluida en la representación de audio codificada, pero no habrá parámetros de ampliación de ancho de banda (escalares) incluidos en la representación de audio codificada (lo que, sin embargo no causa serios problemas ya que la envolvente espectral 330 presenta una característica de decaimiento (paso bajo), que puede reproducirse muy bien utilizando una ampliación de ancho de banda a ciegas).
Para concluir, el codificador de audio 200 está configurado para incluir selectivamente parámetros que representan una envolvente espectral de una porción de alta frecuencia de la información de audio de entrada en la información de audio codificada de una manera adaptable a la señal como una información de ampliación de ancho de banda. Por ejemplo los parámetros de ampliación de ancho de banda escalares mencionados con referencia a la figura 3 pueden ser incluidos en la información de audio codificada de una manera adaptable a la señal. Hablando en términos generales, el codificador de frecuencia más baja 220 puede ser configurado para codificar una porción de baja frecuencia de la información de audio de entrada 210 que comprende frecuencias de hasta una frecuencia máxima que se encuentra en un intervalo de entre 6 y 7 kHz (en el que se ha utilizado un limite de 6,4 kHz en el ejemplo de la figura 3). Además, el codificador de audio puede estar configurado para incluir selectivamente en la representación de audio codificada entre tres y cinco parámetros que describen las intensidades de las porciones de señal de alta frecuencia que tienen anchos de banda de entre 300 Hz y 500 Hz. En el ejemplo de la figura 3 se han mostrado cuatro parámetros escalares que describen las intensidades de las porciones de señal de alta frecuencia que tienen anchos de banda de aproximadamente 400 Hz. En otras palabras, el codificador de audio puede estar configurado para incluir en la representación de audio codificada cuatro parámetros cuantificados escalarmente que describen intensidades de cuatro porciones de la señal de alta frecuencia, en donde las porciones de señal de alta frecuencia cubren intervalos de frecuencia (por ejemplo, como se muestra en donde en la figura 3) por encima de la porción de baja frecuencia (por ejemplo, como se explica con referencia a la figura 3). Por ejemplo, el codificador de audio puede estar configurado para incluir selectivamente en la representación de audio codificada una pluralidad de
5
10
15
20
25
30
35
40
45
50
55
60
parámetros que describen una relación entre las energías o intensidades de porciones de frecuencia espectralmente adyacentes, en donde uno de los parámetros describe una relación entre una energía o intensidad de una primera porción de ampliación de ancho de banda de alta frecuencia y una energía o intensidad de una porción de baja frecuencia, y en donde otro de los parámetros describía relaciones entre energías o intensidades de otras porciones de alta frecuencia de ampliación de ancho de banda (en donde las porciones de alta frecuencia de ampliación de ancho de banda pueden ser las porciones de frecuencia entre 6,4 y 6,8 kHz, entre 6,8 y 7,2 kHz, entre 7,2 kHz y 7,6 kHz, y entre 7,6 kHz y 8 kHz. Como alternativa, los entre tres y cinco parámetros de forma de la envolvente (que describen intensidades de porciones de señal de alta frecuencia) pueden ser cuantificada en vectores. La cuantificación vectorial es típicamente un poco más eficiente que la cuantificación escalar. Por otro lado, la cuantificación vectorial es más compleja que la cuantificación escalar En otras palabras, como alternativa, la cuantificación de los cuatro valores de energía de ampliación de ancho de banda, puede llevarse a cabo mediante una cuantificación vectorial (en lugar de utilizar una cuantificación escalar).
Para concluir, el codificador de audio puede estar configurado para incluir una información de ampliación de ancho de banda, comparativamente simple, en la representación de audio codificada de tal manera que una velocidad de bits de la representación de audio codificada se incrementa solo ligeramente para porciones de la información de audio de entrada (o de la representación de audio codificada) para el que se encuentra, por el detector, que una ampliación de ancho de banda guiada por parámetros, sería deseable.
3. Descodificador de audio de acuerdo con la figura 4
La figura 4 muestra un diagrama esquemático de bloques de un descodificador de audio de acuerdo con una forma de realización de la presente invención. El descodificador de audio 400 de acuerdo con la figura 4 recibe una información de audio codificada 410 (que puede, por ejemplo, ser provista por el codificador de audio 100 o por el codificador de audio 200), y provee, sobre la base de los mismos, información de audio descodificada 412.
El descodificador de audio 400 comprende un descodificador de baja frecuencia 420, que recibe la información de audio codificada 410 (o por lo menos la representación codificada de la porción de baja frecuencia incluida en la misma), descodifica la representación codificada de la porción de baja frecuencia, y obtiene una representación descodificada 422 de la porción de baja frecuencia.
El descodificador de audio 400 también comprende una ampliación de ancho de banda 430 que está configurada para obtener una señal de ampliación de ancho de banda 432 utilizando una ampliación de ancho de banda a ciegas para porciones del contenido de audio (codificado) (representado por la información de audio codificada 410) para las que no hay parámetros de ampliación de ancho de banda incluidos en la información de audio codificada 410, y obtiene la señal de ampliación de ancho de banda 432 utilizando una ampliación de ancho de banda guiada por parámetros (haciendo uso de la información de ampliación de ancho de banda o de parámetros de ampliación de ancho de banda incluidos en la información de audio codificada 410) para porciones del contenido de audio para el las que los parámetros de ampliación de ancho de banda se incluyen en la información de audio codificada (o representación de audio codificada) 410.
En consecuencia, el descodificador de audio 400 es capaz de llevar a cabo una ampliación de ancho de banda, independientemente de si se incluyen, o no, parámetros de ampliación de ancho de banda en la información de audio codificada 410. Por lo tanto, el descodificador de audio se puede adaptar a la información de audio codificada 410 y permite un concepto en el que hay una conmutación entre una ampliación de ancho de banda a ciegas y una ampliación de ancho de banda guiada por parámetros. En consecuencia, el descodificador de audio 400 es capaz de manejar una información de audio codificada 410 en la que los parámetros de ampliación de ancho de banda solo se incluyen para porciones (por ejemplo, tramas) del contenido de audio que no puede ser reconstruidos con suficiente calidad utilizando una ampliación de ancho de banda a ciegas. Por lo tanto, es posible proveer la información de audio descodificada 412, que comprende tanto la representación descodificada de la porción de baja frecuencia como la señal de ampliación de ancho de banda (en donde este último puede, por ejemplo, ser añadido en la representación descodificada 422 de la porción de baja frecuencia para obtener de esta manera la información de audio descodificada 412).
Por lo tanto, el descodificador de audio 400 ayuda a obtener una buena compensación recíproca entre la calidad de audio y la velocidad de bits.
Una mejora adicional opcional del descodificador de audio 400 se describirá a continuación, por ejemplo, haciéndose referencia a la figura. 5.
4. Descodificador de audio de acuerdo con la figura 5
La figura 5 muestra un diagrama esquemático de bloques de un descodificador de audio 500, de acuerdo con otra forma de realización de la presente invención. El descodificador de audio 500 recibe una información de audio
5
10
15
20
25
30
35
40
45
50
55
60
codificada (también designada como representación de audio codificada) 510 y provee, sobre la base del mismo, una información de audio descodificada (también designada como representación de audio descodificada) 512. El descodificador de audio 500 comprende un descodificador de baja frecuencia 520, que puede ser igual al descodificador de baja frecuencia 420 y puede cumplir una funcionalidad comparable. Por lo tanto, el descodificador de baja frecuencia 500 provee una representación descodificada 522 de una porción de baja frecuencia de un contenido de audio representado por la información de audio codificada 510. El descodificador de audio 500 también comprende una ampliación de ancho de banda 530, que puede cumplir la misma funcionalidad que la ampliación de ancho de banda 430.
La ampliación de ancho de banda 530 puede por lo tanto proveer una señal de ampliación de ancho de banda 532, que típicamente se combina con (por ejemplo, se añade a) la representación descodificada 522 de la porción de baja frecuencia, para obtener de este modo la información de audio descodificada 512. La ampliación de ancho de banda 530 puede, por ejemplo, recibir la representación descodificada 522 de la porción de baja frecuencia 522. Sin embargo, como alternativa, la ampliación de ancho de banda 532 puede recibir una información de control (que también se considera como una información auxiliar o como una información intermedia) 524, que es provista por el descodificador de baja frecuencia 520. La información auxiliar o información de control o información intermedia 524 puede, por ejemplo, representar una forma espectral de la porción de baja frecuencia del contenido de audio, una velocidad de paso por cero de la representación descodificada de la porción de baja frecuencia, o cualquier otra cantidad intermedia utilizada por el descodificador de baja frecuencia 520 que es útil en el proceso de la ampliación de ancho de banda. Además, el descodificador de audio comprende un control 540, que está configurado para proveer una información de control 542 que indica si la ampliación de ancho de banda 530 debería llevar a cabo una ampliación de ancho de banda a ciegas o una ampliación de ancho de banda guiada por parámetros. El control 540 puede utilizar diferentes tipos de información para proveer la información de control 542. Por ejemplo, el control 540 puede recibir una bandera de flujo de bits de modo de ampliación de ancho de banda 510, que puede ser incluida en la información de audio codificada 510. Por ejemplo, puede haber una bandera de flujo de bits de modo de ampliación de ancho de banda para cada porción (por ejemplo, trama) de la información de audio codificada, que se puede extraer de la información de audio codificada mediante el control 540, y que se puede utilizar para derivar la información de control 542 (o que pueden constituir de inmediato la información de control 542). Sin embargo, como alternativa, el control 540 puede recibir una información que representa la porción de baja frecuencia, y/o que describe cómo descodificar la porción de baja frecuencia (y que por lo tanto lleva la designación de “información de descodificación de porción de baja frecuencia”. Como alternativa, o adicionalmente, el control 540 puede recibir la información de control o información auxiliar o información intermedia 524 procedente desde el descodificador de baja frecuencia que puede por ejemplo llevar información acerca de una envolvente espectral de la porción de baja frecuencia) y/o una información acerca de la velocidad de paso por cero de la representación descodificada de la porción de baja frecuencia. Sin embargo, la información de control o información auxiliar o información intermedia 524 también puede llevar una información acerca de estadísticas de la representación descodificada 522 de la porción de baja frecuencia, o puede representar cualquier otra información intermedia que se derive mediante el descodificador de baja frecuencia 520, de la representación codificada de la porción de baja frecuencia (también designada como información de descodificación de porción de baja frecuencia).
Como alternativa, o adicionalmente, el control 540 puede recibir la representación descodificada 522 de la porción de baja frecuencia y puede por sí mismo derivar valores de aspectos (por ejemplo, una información de velocidad de paso por cero, una información de envolvente espectral, una información de inclinación espectral, o similares), a partir de la representación descodificada 522 de la porción de baja frecuencia.
Por lo tanto, el control 540 puede evaluar una bandera de flujo de bits para proveer la información de control a ciegas/guiada por parámetros 542, si una bandera de flujo de bits (que señaliza si debería utilizarse una ampliación de ancho de banda a ciegas o una ampliación de ancho de banda guiada por parámetros) se incluye en la información de audio codificada 510. Sin embargo, si no hay tal bandera de flujo de bits incluida en la información de audio codificada 510 (por ejemplo, para ahorrar velocidad de bits) el control 540 típicamente determina si se utiliza una ampliación de ancho de banda a ciegas o una ampliación de ancho de banda guiada por parámetros sobre la base de otra información. Para este fin, la información de descodificación de porción de baja frecuencia (que puede ser igual a la representación codificada de la porción de baja frecuencia, o a un subconjunto de la misma) puede ser evaluada por el control 540. Como alternativa, o adicionalmente, el control puede considerar la representación descodificada 522 de la porción de baja frecuencia para tomar una decisión acerca de si utilizar una ampliación de ancho de banda a ciegas o una ampliación de ancho de banda guiada por parámetros, es decir, para proveer la información de control 542. Además, el control 540 puede, opcionalmente, utilizar la información de control o la información auxiliar o la información intermedia 524 provista por el descodificador de baja frecuencia 520, siempre y cuando el descodificador de baja frecuencia 520 provea cualquier cantidad que sea utilizable por el control 540.
En consecuencia, el control 540 puede conmutar la ampliación de ancho de banda entre la ampliación de ancho de banda a ciegas y la ampliación de ancho de banda guiada por parámetros.
5
10
15
20
25
30
35
40
45
50
55
60
En el caso de una ampliación de ancho de banda a ciegas, la ampliación de ancho de banda 530 puede proveer la señal de ampliación de ancho de banda 532 sobre la base de la representación descodificada 522 de la porción de baja frecuencia sin evaluar ningún parámetro de flujo de bits adicional. En cambio, en el caso de una ampliación de ancho de banda guiada por parámetros, la ampliación de ancho de banda 530 puede proveer la señal de la ampliación de ancho de banda 532 tomando en consideración parámetros de flujo de bits de ancho de banda dedicados, que ayudan a determinar las características de la porción de alta frecuencia del contenido de audio (es decir, las características de la señal de la ampliación de ancho de banda). Sin embargo, la ampliación de ancho de banda 530 también puede utilizar la representación descodificada 522 de la porción de baja frecuencia, y/o la información de control o la información auxiliar o la información intermedia 524 provista por el descodificador de baja frecuencia 520, para proveer la señal 532.
Por lo tanto, la decisión entre la utilización de una ampliación de un ancho de banda a ciegas y una ampliación de ancho de banda guiada por parámetros determina de manera efectiva si los parámetros de ampliación de ancho de banda dedicados (que típicamente no son utilizados por el descodificador de baja frecuencia 520 para proveer la representación descodificada de la porción de baja frecuencia) se aplican para obtener la señal de ampliación de ancho de banda (que típicamente describe la porción de alta frecuencia del contenido de audio representado por la información de audio codificada).
Para resumir lo anterior, el descodificador de audio 500 puede estar configurado para decidir si obtener la señal de 532 utilizando una ampliación de ancho de banda a ciegas o utilizando una ampliación de ancho de banda guiada por parámetros de una forma trama a trama (en donde una “trama” es un ejemplo de una porción del contenido de audio, y en donde una trama puede, por ejemplo, comprender una duración de entre 10 ms y 40 ms, y puede tener preferiblemente una duración de aproximadamente 20 ms ± 2 ms). Por lo tanto, el descodificador de audio puede estar configurado para conmutar entre una ampliación de ancho de banda a ciegas y una ampliación de ancho de banda guiada por parámetros con una granularidad temporal muy fina.
Además, cabe señalar que el descodificador de audio 500 es típicamente capaz de conmutar entre una utilización de una ampliación de ancho de banda a ciegas y una ampliación de ancho de banda guiada por parámetros dentro de un fragmento contiguo de contenido de audio. Por lo tanto, la conmutación entre la ampliación de ancho de banda a ciegas y la ampliación de ancho de banda guiada por parámetros puede realizarse sustancialmente en cualquier momento (considerando naturalmente el enmarcado) dentro de un fragmento contiguo de contenido de audio, para adaptar la ampliación de ancho de banda a las características (cambiantes) de las diferentes porciones de un solo fragmento de contenido de audio.
Tal como se mencionó en lo que antecede, el descodificador de audio (preferiblemente el control 540) puede ser configurado para evaluar banderas (por ejemplo, una bandera de un solo bit por trama) incluidas en la información de audio codificada 510 para diferentes porciones (por ejemplo, tramas) del contenido de audio, para decidir acerca de si utilizar una ampliación de ancho de banda a ciegas o una ampliación de ancho de banda guiada por parámetros. En este caso, el control 540 se puede mantener muy simple, a expensas de que es necesario incluir una bandera de señalización en la información de audio codificada para cada porción del contenido de audio. Sin embargo, como alternativa, el control 540 puede estar configurado para decidir acerca de si utilizar una ampliación de ancho de banda a ciegas o una ampliación de ancho de banda guiada por parámetros sobre la base de la representación codificada de la porción de baja frecuencia (que puede incluir la utilización de la información de control o de la información auxiliar o de la información intermedia 524 derivada por el descodificador de baja frecuencia 520 a partir de dicha representación codificada de la porción de baja frecuencia, y que también puede incluir la utilización de la representación descodificada 522, que se deriva de la representación codificada de la porción de baja frecuencia por el descodificador de baja frecuencia 520) sin evaluar una bandera de señalización (dedicada) del modo de ampliación de ancho de banda. Por lo tanto, es posible llevar a cabo una conmutación entre la ampliación de ancho de banda a ciegas y la ampliación de ancho de banda guiada por parámetros aun sin un encabezamiento de conmutación en el flujo de bits.
El descodificador de audio (o el control 540) pueden estar configurados para decidir acerca de si utilizar una ampliación de ancho de banda a ciegas o una ampliación de ancho de banda guiada por parámetros sobre la base de una o más características de la representación descodificada de la porción de baja frecuencia. Tales características, como, por ejemplo, una información espectral de inclinación, una información de la velocidad de paso por cero, o similares, pueden extraerse de la representación descodificada 522 de la porción de baja frecuencia, o pueden ser señalizadas mediante la información de control/información auxiliar/información intermedia 524. Por ejemplo, el descodificador de audio (o el control 540) pueden estar configurados para decidir acerca de si utilizar una ampliación de ancho de banda a ciegas o una ampliación de ancho de banda guiada por parámetros sobre la base de coeficientes de predicción lineales cuantificados (que pueden, por ejemplo, estar incluidos en la información de control/información auxiliar/información intermedia 524) y/o en función de estadísticas en el dominio del tiempo de la representación descodificada 522 de la porción de baja frecuencia.
A continuación, se describirán algunos conceptos de cómo lograr la ampliación de ancho de banda. Por ejemplo, la ampliación de ancho de banda puede estar configurada para obtenerla señal de ampliación de ancho de banda 532
5
10
15
20
25
30
35
40
45
50
55
60
utilizando uno o más rasgos de la representación descodificada 522 de la porción de baja frecuencia y/o uno o más parámetros del descodificador de baja frecuencia 520 (que puede ser señalizadas mediante la información de control/información auxiliar/información intermedia 524) para porciones temporales del contenido de audio (de entrada) para las que no parámetros de ampliación incluidos en la información de audio codificada. Por lo tanto, la ampliación de ancho de banda 530 puede llevar a cabo una ampliación de ancho de banda a ciegas, que se basa en la idea de concluir a partir de la representación descodificada de la porción de baja frecuencia hacia la porción de alta frecuencia del contenido de audio representado por la información de audio codificada. Por ejemplo, la ampliación de ancho de banda 530 puede estar configurada para obtener la señal de ancho de banda 532 utilizando un centroide espectral, y/o utilizando una información de energía, y/o utilizando coeficientes de filtro (por ejemplo, codificados) para porciones temporales del contenido de audio de entrada para las que no hay parámetros de ampliación incluidos en la información de audio codificada 510 En consecuencia, es posible lograr una buena ampliación de ancho de banda a ciegas.
Sin embargo, por supuesto es también posible aplicar diferentes conceptos para la ampliación de ancho de banda a ciegas.
Sin embargo, la ampliación de ancho de banda puede estar configurada para obtener la señal de ampliación de la señal de banda 532 utilizando los parámetros de flujo de bits que describen una envolvente espectral de una porción de alta frecuencia para porciones temporales del contenido de audio para las que hay parámetros de flujo de bits de ancho de banda incluidos en la información de audio codificada. En otras palabras, es posible lograr la ampliación de ancho de banda guiada mediante parámetros que describen la envolvente espectral de la porción de alta frecuencia. Los parámetros de flujo de bits que describen la envolvente espectral de la porción de alta frecuencia pueden apoyar la ampliación de ancho de banda guiada mediante parámetros (que pueden, sin embargo, adicionalmente basarse en algunas o en la totalidad de las cantidades utilizadas por la ampliación de ancho de banda a ciegas).
Por ejemplo, se ha descubierto la ampliación de ancho de banda debería estar configurada preferiblemente para evaluar entre tres y cinco parámetros de flujo de bits que describen intensidades de porciones de señales de alta frecuencia que tienen anchos de banda entre 300 Hz y 500 Hz, con el fin de obtener la señal de ampliación de ancho de banda. La utilización de un número relativamente pequeño de parámetros de flujo de bits no aumenta sustancialmente la velocidad de bits, pero todavía da origen a una mejora suficiente de la ampliación de ancho de banda guiada en el caso de porciones de señales “difíciles”, de tal manera que la calidad alcanzable mediante la ampliación de ancho de banda así guiada para porciones de señales “difíciles” es comparable a la calidad obtenible para porciones de señales “fáciles” que utilizan la ampliación de ancho de banda guiada a ciegas (en donde las porciones de señales “difíciles” son porciones de señales para las que la ampliación de ancho de banda a ciegas no daría lugar a un audio de una calidad buena o aceptable, mientras que las porciones de señales “fáciles” son porciones de señales para las que la ampliación de ancho de banda a ciegas acarrea resultados suficientes).
En consecuencia, se prefiere que entre tres y cinco parámetros de flujo de bits que describen intensidades de porciones de señales de alta frecuencia que tienen anchos de banda de entre 300 Hz y 500 Hz estén cuantificados escalarmente con una resolución de dos o tres bits, de tal manera que haya entre 6 15 bits de parámetros de conformación espectral de ampliación de ancho de banda por trama. Se ha descubierto que una velocidad de bits baja de este tipo ya es suficiente para obtener un ancho de banda razonablemente bueno en el caso de porciones “difíciles” de contenido de audio.
Opcionalmente, la ampliación de ancho de banda 530 puede estar configurada para llevar a cabo un alisamiento de las energías de la señal de ampliación de ancho de banda cuando se cambia de ampliación de ancho de banda a ciegas a la ampliación de ancho de banda guiada por parámetros y/o cuando se cambia de ampliación de ancho de banda guiada por parámetros a ampliación de ancho de banda a ciegas. En consecuencia, se reducen las discontinuidades en la forma espectral cuando se cambia entre la ampliación de ancho de banda a ciegas y la ampliación de ancho de banda guiada por parámetros. Por ejemplo, la ampliación de ancho de banda a ciegas puede estar configurada para amortiguar una porción de alta frecuencia de la señal del ancho de banda para una porción del contenido de audio a la que se aplica una ampliación de ancho de banda guiada por parámetros después de una porción del contenido de audio a la que se aplica un ancho de banda a ciegas. Además, la ampliación de ancho de banda puede estar configurada para reducir una amortiguación para una porción de alta frecuencia de la señal del ancho de banda (es decir, para enfatizar un tanto una porción de alta frecuencia de la señal de ampliación de ancho de banda) para una porción del contenido de audio a la que se aplica una ampliación de ancho de banda a ciegas después de una porción del contenido de audio a la que se aplica una ampliación de ancho de banda guiada por parámetros. Sin embargo, también es posible llevar a cabo un alisamiento mediante cualquier otra operación que reduzca las discontinuidades de la forma espectral de la porción de alta frecuencia cuando se cambia entre los
modos de ampliación de ancho de banda. Por lo tanto, se mejora una calidad de audio mediante la reducción de
artefactos.
Para concluir, el descodificador de audio 500 permite una buena calidad de descodificación de un contenido de
audio tanto en el caso en el que se provee una información de ampliación de ancho de banda en la información de
5
10
15
20
25
30
35
40
45
50
55
60
audio codificada como en el caso en el que no se provee ninguna información de ampliación de ancho de banda en la información de audio codificada. El descodificador de audio puede cambiar entre una ampliación de ancho de banda a ciegas y una ampliación de ancho de banda guiada por parámetros con una granularidad temporal fina (por ejemplo, de una forma trama a trama) en el que los artefactos se mantienen pequeños.
5. Método para proveer una información de audio codificada sobre la base de una información de audio de entrada, de acuerdo con la figura 6
La figura 6 muestra un diagrama de flujo de un método 600 para proveer una información de audio codificada sobre la base de una información de audio de entrada. El método 600 comprende codificar 610 una porción de baja frecuencia de la información de audio de entrada para obtener una representación codificada de la porción de baja frecuencia. El método 600 también comprende proveer información de ampliación de ancho de banda 620 sobre la base de la información de audio de entrada, en donde la información de ampliación de ancho de banda se incluye selectivamente en la información de audio codificada de una manera adaptable a la señal.
Cabe señalar que el método 600 de acuerdo con la figura 6 se puede complementar con cualquiera de los rasgos y funcionalidades descritos en el presente documento con respecto al codificador de audio (y también con respecto al descodificador de audio).
6. Método para proveer una información de audio descodificada de acuerdo con la figura 7
La figura 7 muestra un diagrama de flujo de un método para proveer una información de audio descodificada, de acuerdo con una forma de realización de la invención. El método 700 comprende la descodificación 710 de una representación codificada de una porción de baja frecuencia para obtener una representación descodificada de la porción de baja frecuencia. El método 700 también comprende la obtención 720 de una señal de ampliación de ancho de banda utilizando una ampliación de ancho de banda a ciegas para porciones de un contenido de audio para las que no hay parámetros de ampliación de ancho de banda incluidos en la información de audio codificada. Además, el método 700 comprende obtener 730 la señal de ampliación de ancho de banda utilizando una ampliación de ancho de banda guiada por parámetros para porciones del contenido de audio para las cuales hay parámetros de ampliación de ancho de banda incluidos en la información de audio codificada.
Cabe observar que el método 700 de acuerdo con la figura 7 puede complementarse mediante cualquiera de los rasgos y funcionalidades descritos en el presente documento con respecto al descodificador de audio (y también con respecto al codificador de audio).
7. Representación de audio codificada de acuerdo con la figura 8
La figura 8 muestra una ilustración esquemática de un audio codificado 800 que representa una información de audio.
La representación de audio codificada (también designada como información de audio codificada) comprende una representación codificada de una porción de baja frecuencia de la información de audio. Por ejemplo, se provee una representación codificada 810 de una porción de baja frecuencia de una información de audio para una primera porción de la información de audio, por ejemplo, para una primera trama de la información de audio. Además, también se provee una representación codificada de una porción de baja frecuencia de la información de audio para una segunda porción (por ejemplo, una segunda trama) de la información de audio. Sin embargo, la representación de audio codificada 800 también comprende una información de ampliación de ancho de banda, en donde la información de ampliación de ancho de banda se incluye en la representación de audio codificada de una manera adaptable a la señal para algunas de, pero no para todas, las porciones de la información de audio. Por ejemplo, se incluye una información de ampliación de ancho de banda 812 para la primera porción de la información de audio. En cambio, no se provee ninguna información de ampliación de ancho de banda para la segunda porción de la información de audio.
Para concluir, la representación de audio codificada 800 típicamente es provista por los codificadores de audio descritos en el presente documento, y evaluada por los descodificadores de audio descritos en el presente documento. Naturalmente, la representación de audio codificada puede almacenarse en un medio legible por ordenador, no transitorio, o similares. Además, hay que señalar que la representación de audio codificada 800 puede complementarse con cualquiera de los rasgos, elementos de información, etc., descritos con respecto al codificador de audio y con respecto al descodificador de audio.
8. Conclusiones y otros aspectos
Algunas formas de realización de acuerdo con la presente invención abordan los problemas de la ampliación de ancho de banda convencional en la codificación de audio con una velocidad de bits muy baja y los inconvenientes de
5
10
15
20
25
30
35
40
45
50
55
60
las técnicas de ampliación de ancho de banda convencionales existentes mediante la propuesta de una ampliación de ancho de banda “mínimamente guiada” como una combinación adaptable a la señal de una ampliación de ancho de banda a ciegas y una guiada por parámetros, que
• utiliza una ampliación de ancho de banda guiada, es decir, transmite unos pocos bits de información colateral por cada 20 ms (por ejemplo, por trama de audio), solo si el contenido de alta frecuencia (por ejemplo, la porción de alta frecuencia) del audio de entrada no puede reconstruirse suficientemente bien a partir del audio de baja frecuencia (por ejemplo, la porción de baja frecuencia del contenido de audio),
• utiliza una ampliación de ancho de banda a ciegas, es decir, una reconstrucción clásica de componentes de alta frecuencia (por ejemplo, de una porción de alta frecuencia) a partir de rasgos básicos de baja frecuencia (por ejemplo, rasgos de una porción de baja frecuencia reconstruida) tales como centroide espectral, energía, inclinación, coeficientes de filtro codificados, de lo contrario;
• presenta una complejidad computacional muy baja gracias al hecho de utilizar la cuantificación escalar en lugar de la cuantificación vectorial y por el hecho de evitar operaciones que involucran grandes cantidades de puntos de datos, tales como las transformadas de Fourier y la autocorrelación y/o cálculos de filtro
• es robusta con respecto a las características de las señales de entrada, es decir, no está optimizada para determinadas señales de entrada, tales como el habla de los adultos en ambientes silenciosos, para poder funcionar bien en todos los tipos de habla, así como de música.
La cuestión de qué parámetro(s) deben transmitirse como información colateral en la parte de la ampliación de ancho de banda guiada de formas de realización de acuerdo con la presente invención, y de cuándo transmitir los parámetros, sigue pendiente de respuesta.
Se comprobó que en los códecs de banda ancha tales como AMR-WB, la envolvente espectral de la región de alta frecuencia por encima de la región del codificador básico representa los datos más críticos necesarios (o deseables) para llevar a cabo la ampliación de ancho de banda con una calidad adecuada. Todos los otros parámetros, tales como la estructura espectral fina y la envolvente temporal se pueden derivar de la señal básica descodificada con bastante exactitud, o son de poca importancia perceptiva. Por ello, la parte guiada de ampliación de ancho de banda mínimamente guiada, descrita aquí, solo transmite la envolvente espectral de alta frecuencia como información colateral (por ejemplo, como información de ampliación de ancho de banda). Esto ayuda a mantener baja la velocidad de información colateral de ampliación de ancho de banda. Además, se descubrió experimentalmente que las ampliaciones de ancho de banda a ciegas, proveen una calidad suficiente, es decir por lo menos aceptable, sobre los pasajes de señales temporalmente estacionarias con un carácter de paso bajo más o menos pronunciado. El habla vocalizada, el ruido ambiental y las secciones de música sin instrumentos de percusión, son ejemplos comunes. De hecho, la mayor entrada en una voz de banda ancha y de un sistema de codificación de audio típicamente recae en esta categoría.
Sin embargo, los segmentos de señal, cuyos espectros instantáneos presentan una envolvente muy diferente en la región de alta frecuencia (por ejemplo, en la porción de alta frecuencia) que en la parte de alta frecuencia (codificador - codificador) (o porción de baja frecuencia) han de ser preferentemente codificados por medio de una ampliación de ancho de banda guiada que transmita una representación cuantificada de la envolvente espectral de alta frecuencia como información colateral (por ejemplo, como información de ampliación de ancho de banda. La razón es que en tales constituciones espectrales, las ampliaciones de ancho de banda a ciegas, son generalmente incapaces de predecir la progresión de la envolvente espectral de alta frecuencia a partir de la envolvente de la señal básica, como se indica mediante los coeficientes de filtro codificados o mediante la señal residual en forma espectral (también conocida como excitación en los codificadores de voz). Ejemplos destacados son el habla no vocalizada, especialmente las fricativas fuertes y las consonantes africadas, tales como la “s” o la “z” alemana, así como determinados sonidos de percusión que se encuentran principalmente en la música moderna. En formas de realización de acuerdo con la presente invención, la ampliación de ancho de banda guiada, por lo tanto se activa solo para tales espectros de alta frecuencia “impredecibles”.
Una ampliación de ancho de banda mínimamente guiada de acuerdo con la presente invención se llevó a cabo en el contexto del LD-USAC, una versión de bajo retardo de xHE-AAC, para ampliar el ancho de banda de señal codificada en banda ancha (codificada en wB), a 13,2 kbits/s de 6,4 a 8,0 kHz. En el lado del codificador, la decisión a ciegas/guiada se calcula por trama de códec de 20 ms a partir de la inclinación espectral señal de entrada en una escala de frecuencia perceptiva (un rasgo existente que también se utiliza en la ruta de acceso de codificación por ACELP), así como rasgos en el dominio del tiempo tales como el cambio en la velocidad de paso por cero de la señal de entrada provista por un detector de transitorios existente (que también se utiliza para otras decisiones de modo de codificación). Más específicamente, si la inclinación espectral es positiva, lo que significa que la energía espectral tiende a aumentar al aumentar la frecuencia, y por encima de un umbral especificado, y al mismo tiempo la velocidad de paso por cero se ha incrementado en una cierta relación o se encuentra por encima de un determinado, lo que significa que la trama actual representa el inicio o se encuentra dentro de un paso de forma de onda de ruido, entonces se elige y señaliza la ampliación de ancho de banda guiada. En caso contrario, se selecciona la ampliación de ancho de banda guiada. En cuanto a los umbrales mencionados anteriormente, se aplica además una simple
5
10
15
20
25
30
35
40
45
50
55
60
histéresis con el fin de reducir la probabilidad de la conmutación de ida y vuelta entre la ampliación de ancho de banda guiada y a ciegas. Una vez adoptado el modo de la ampliación de ancho de banda para una trama, los umbrales de decisión a ser utilizados en tramas sucesivas se bajan un poco para que sea más probable que el códec se mantenga en el modo guiado. Una vez que se ha decidido a cambiar de nuevo al modo a ciegas, los umbrales originales se restauran, lo que hace que sea menos probable que la decisión de la ampliación de ancho de banda oscile de inmediato de nuevo al modo guiado.
El resto del procedimiento de ampliación de ancho de banda por trama se resume como sigue:
1. Si la ampliación de ancho de banda se encuentra en modo a ciegas, transmitir un “0” utilizando un bit en el flujo de bits para señalizar este modo al descodificador. Opcionalmente, no transmitir ningún bit y dejar que el descodificador identifique la trama por ejemplo utilizando el modo de ampliación de ancho de banda a ciegas mediante un análisis en el lado del descodificador de la señal básica.
2. Si la ampliación de ancho de banda está en el modo guiado, transmitir un “1” utilizando un bit en el flujo de bits. Entonces el codificador calcula cuatro índices de ganancia, cada una de las cuales cubre 400 Hz de la señal de entrada, para prever una conformación espectral exacta de la región de ampliación de ancho de banda de 6,4 a 8 kHz. En una forma de realización de USAC de bajo retardo, cada uno de los cuatro índices es el resultado de una cuantificación escalar de una de las cuatro energías de QMF de ampliación de ancho de banda con respecto a la energía de QMF precedente (o con respecto a la energía del espectro de QMF de 4,8 - 6,4 kHz, en el caso de primera ganancia del ampliación de ancho de banda). Dado que se utiliza un cuantificador de elevación media de 2 bits con un tamaño de escalón de 2 dB, las ganancias abarcan un intervalo de valores de -3 a 3 dB y consumen 8 bits por trama. Esto permite obtener una información colateral total de 9 bits por trama de ampliación de ancho de banda guiada u, opcionalmente, de 8 bits si se excluye la señalización como en la etapa 1.
3. En el descodificador correspondiente, se lee el, primer bit de la ampliación de ancho de banda. Si es “0”, se utiliza la ampliación de ancho de banda a ciegas, en caso contrario se llena con 8 bits más y se utiliza la ampliación de ancho de banda guiada. Opcionalmente, la lectura del primer bit de la ampliación de ancho de banda se omite (ya que este bit no se encuentra presente en el flujo de bits), y la decisión a ciegas/guiada se lleva a cabo localmente mediante análisis de señal básica, como se mencionó en la etapa 1.
4. Si en el descodificador se determinó la ampliación de ancho de banda a ciegas, se lleva a cabo una ampliación de ancho de banda utilizando solo rasgos de señal básica descodificada, Esta ampliación de ancho de banda sigue esencialmente el concepto de ampliación de ancho de banda descrito en una de las referencias [2], [3], [6] y [9] pero en el QMF en lugar de en el dominio de DFT y solo con rasgos de baja complejidad derivados del espectro QMF básico, por ejemplo: centroide espectral/inclinación.
5. Si se ha seleccionado el modo de ampliación de ancho de banda guiada en el descodificador, los cuatro índices de ganancia de 2 bits se cuantifican inversamente en ganancias de energía de QMF y se aplican para la conformación espectral de las bandas de región de ampliación de ancho de banda de QMF que se reconstruyen como en la etapa 4. En otras palabras, se emplea una ampliación de ancho de banda a ciegas aquí también, con la salvedad de que la conformación espectral se realiza a través de factores de escala transmitidos en el flujo de bits, en lugar del escalamiento extrapolada a partir de la señal básica (que, como consecuencia, constituye una ampliación de ancho de banda guiada por parámetros).
6. Cuando se pasa de ampliación de ancho de banda guiada y a ciegas, desde una trama a la siguiente, se lleva a cabo un sencillo alisamiento de las energías de alta frecuencia para minimizar los artefactos de conmutación (discontinuidades de energía de alta frecuencia) causados por el comportamiento similar a paso bajo de la ampliación de ancho de banda a ciegas. El alisamiento esencialmente funciona como un encadenador de audio entre las ampliaciones de ancho de banda a ciegas y guiada: una primera trama de ampliación de ancho de banda guiada que sigue a alguna(s) trama(s) de ampliación de ancho de banda a ciegas se amortigua un poco en su región de alta frecuencia, mientras que la amortiguación de una primera trama de ampliación de ancho de banda a ciegas después de alguna ampliación o ampliaciones de ancho de banda guiadas se reduce un poco.
En contenido verbal telefónico típico y en música popular, los experimentos han demostrado que alrededor del 13 % de todas las tramas de 20 ms utilizan la ampliación de ancho de banda guiada en LD-USAC. Por consiguiente, la velocidad de información colateral de ampliación de ancho de banda promedio asciende a aproximadamente 2 bits por trama o 0,1 kbit/s. Esto es mucho menos que las velocidades de (e)SBR (véase, por ejemplo, la referencia [8]), o que cualquiera de las ampliaciones de ancho de banda de codificador de habla guiadas a las que se hace referencia en el presente documento.
Se observará adicionalmente que, como se sugiere como método opcional en la descripción etapa por etapa anteriormente en este capítulo, la señalización de 1 bit de la decisión de modo de ampliación de ancho de banda para el descodificador puede evitarse si tanto el codificador como el descodificador pueden derivar dicha decisión a
5
10
15
20
25
30
35
40
45
50
55
60
partir de la señal codificada básica en un modo de bits exactos. Esto se puede lograr si el codificador selecciona el modo de ampliación de ancho de banda sobre la base de algunos rasgos derivados de la señal básica descodificada localmente, ya que esta es la única señal disponible en el descodificador. Suponiendo que no se produjo ningún error de transmisión en una trama determinada y que tanto el codificador como el descodificador determinan el modo de ampliación de ancho de banda a partir de exactamente los mismos rasgos de señal básica (tales como coeficientes de LPC cuantificados o estadísticas en el dominio del tiempo a partir de la señal residual descodificada como la velocidad de paso por cero, como se señaló anteriormente), la decisión de modo es idéntica en el codificador y el descodificador.
Algunas formas de realización de acuerdo con la invención superan un cierto dilema de calidad en cuanto a los códecs de banda ancha que se pueden observar a velocidades de bits de 9 - 13 kbit/s. Se ha encontrado que, por una parte, dichas velocidades ya son demasiado bajas para justificar la transmisión de incluso cantidades moderadas de datos de ampliación de ancho de banda, descartando los sistemas de ampliación de ancho de banda típicos guiadas con 1 kbit/s o más de información colateral. Por otro lado, se ha encontrado que una ampliación de ancho de banda a ciegas factible tendrá un sonido significativamente peor en al menos algunos tipos de habla o de material de música debido a la incapacidad de una predicción adecuada de parámetros a partir de la señal básica. Se ha encontrado que es por lo tanto deseable reducir la velocidad de información colateral de un esquema de ampliación de ancho de banda guiada a un nivel muy por debajo de 1 kbit/s, lo que permite su adopción incluso en la codificación de velocidad de bits muy baja. El enfoque, que se utiliza en formas de realización de acuerdo con la invención, consiste en identificar los segmentos de las señales de entrada típicos que son más re construidos o reconstruidos de manera inferior a la óptima por la ampliación de ancho de banda a ciegas, y para transmitir solo para estos segmentos la información colateral necesario para mejorar la calidad de la reconstrucción de alta frecuencia a un nivel aceptable (o por lo menos a un nivel que se halle en el intervalo de la calidad de el ancho de banda en dicha señal). En otras palabras: las partes de la señal de entrada de alta frecuencia que se recrean razonablemente bien por una ampliación de ancho de banda a ciegas deberían codificarse con muy poca o ninguna información colateral de ampliación de ancho de banda, y solo los pasajes en los que una ampliación de ancho de banda a ciegas degradaría la impresión general de la calidad del códec deberían tener sus componentes de alta frecuencia reproducidos por una ampliación de ancho de banda guiada. Un diseño de este tipo para la ampliación de ancho de banda, que ajusta la velocidad de información colateral de una manera adaptable a la señal, es el tema de la presente invención y lleva la denominación de “ampliación de ancho de banda mínimamente guiada”.
Algunas formas de realización de acuerdo con la invención superan a múltiples enfoques de ampliación de ancho de banda que se han documentado en los últimos años (véanse, por ejemplo, las referencias [1], [2], [3], [4], [5], [6], [7], [8], [9] y [10]). En general, todos estos o bien son completamente a ciegas o están completamente guiados en un punto de funcionamiento dado, independientemente de las características instantáneas de la señal de entrada. Además, todas las implementaciones de ampliaciones de ancho de banda a ciegas (véase, por ejemplo las referencias [1], [3], [4], [5], [9] y [10]) están optimizadas exclusivamente para señales de voz y como tales es poco probable que provean una calidad satisfactoria en otras entradas tales como música (lo que inclusive fue objeto de comentarios en algunas publicaciones). Por último, la mayoría de las formas de realización de ampliación de ancho de banda convencionales son relativamente complejas, ya que emplean transformadas de Fourier, cálculos de filtros de LPC, o cuantificación vectorial de la información colateral. Esto puede causar una desventaja en la adopción de la nueva tecnología de codificación en los mercados de telecomunicaciones móviles, dado que la mayoría de los dispositivos móviles proveen una potencia de cálculo muy limitada.
Como conclusión adicional, en algunas formas de realización de acuerdo con la invención crean un codificador de audio o de un método para la codificación de audio o un programa informático relacionado, como anteriormente descrito.
En formas de realización adicionales de acuerdo con la invención se crea un descodificador de audio o un método de descodificación de audio o un programa informático relacionado anteriormente descrito.
En formas de realización adicionales de la invención se crea una señal de audio codificada o un medio de almacenamiento en el que se ha almacenado la señal de audio codificada anteriormente mencionada.
9. Alternativas de implementación
Si bien se han descrito algunos aspectos en el contexto de un aparato, es evidente que estos aspectos también representan una descripción del método correspondiente, donde un bloque o dispositivo corresponde a una etapa de procedimiento o un rasgo de una etapa de procedimiento. Análogamente, los aspectos descritos en el contexto de una etapa del método también representan una descripción de un bloque o elemento o aspecto correspondientes de un aparato. Algunas, o todas las etapas del método pueden ser ejecutadas por (o utilizando) un aparato de hardware, tal como por ejemplo un microprocesador, un ordenador programable o un circuito electrónico. En algunas formas de realización, una o más de las etapas más importantes del método pueden ser ejecutadas por un aparato de este tipo.
5
10
15
20
25
30
35
40
45
50
55
60
La señal de audio codificada de la invención puede ser almacenada en un medio de almacenamiento digital o puede ser transmitida en un medio de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión por cable, tal como Internet.
En función de determinados requisitos para la implementación, algunas formas de realización de la invención pueden ser implementadas en hardware o en software. La implementación puede realizarse utilizando un medio de almacenamiento digital, por ejemplo un disquete, un DVD, un Blu-Ray, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tenga señales de control legibles electrónicamente almacenadas en el mismo, que cooperan (o que son capaces de cooperar) con un sistema informático programable de tal manera que se lleva a cabo el método respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible por ordenador.
Algunas formas de realización de acuerdo con la invención comprenden un portador de datos que tiene señales de control legibles electrónicamente, que son capaces de cooperar con un sistema informático programable, de tal manera que se lleva a cabo uno de los métodos descritos en el presente documento.
En general, algunas formas de realización de la presente invención pueden implementarse como un producto de programa con un código de programa, siendo el código de programa operativo para llevar a cabo uno de los métodos, cuando el producto de programa informático se ejecuta en un ordenador. El código de programa puede almacenarse por ejemplo en un soporte legible por máquina.
Otras formas de realización comprenden el programa informático para llevar a cabo uno de los métodos anteriormente descritos, almacenado en un portador legible por máquina.
En otras palabras, una forma de realización del método de acuerdo con la invención consiste por lo tanto en un programa informático que tiene un código de programa para llevar a cabo uno de los métodos descritos en el presente documento cuando el programa informático se ejecuta en un ordenador.
Por lo tanto, otra forma de realización de los métodos de acuerdo con la invención consiste en un portador de datos (o un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para llevar a cabo uno de los métodos descritos en el presente documento. El portador de datos, el medio de almacenamiento digital o el medio grabado, son típicamente tangibles y/o no transitorios.
Otra forma de realización del método de acuerdo con la invención es por lo tanto un flujo de datos o una secuencia de señales que representa el programa informático para llevar a cabo uno de los métodos descritos en el presente documento. El flujo de datos o la secuencia de señal puede, por ejemplo, configurarse para transferirse mediante una conexión de comunicación de datos, por ejemplo por medio de Internet.
Otra forma de realización comprende un medio de procesamiento, por ejemplo un ordenador, o un dispositivo lógico programable, configurado o adaptado para llevar a cabo uno de os métodos descritos en el presente documento.
Otra forma de realización comprende un ordenador que tiene instalado en el mismo el programa informático para llevar cabo uno de los métodos descritos en el presente documento.
Otra forma de realización de acuerdo con la invención comprende un aparato o un sistema configurado para transferir (por ejemplo, por vía electrónica u ópticamente) un programa informático para llevar a cabo uno de los métodos descritos en el presente documento en un receptor. El receptor puede ser, por ejemplo, un ordenador, un dispositivo móvil, un dispositivo de memoria o similares. El aparato o sistema pueden, por ejemplo, comprender un servidor de archivos para transferir el programa informático al receptor.
En algunas formas de realización, es posible utilizar un dispositivo lógico programable (por ejemplo, una disposición de puertas programable en campo) para llevar a cabo algunas o todas las funcionalidades del métodos descritos en el presente documento. En algunas formas de realización, una disposición de puertas programable en campo puede cooperar con un microprocesador para llevar a cabo uno de los métodos descritos en el presente documento. En términos generales, es preferible llevar a cabo los métodos mediante cualquier aparato de hardware.
El aparato descrito en el presente documento puede implementarse mediante un aparato de hardware, o mediante un ordenador, o utilizando una combinación de un aparato de hardware y un ordenador.
Los métodos descritos en el presente documento puede implementarse mediante un aparato de hardware, o utilizando un ordenador, o utilizando una combinación de un aparato de hardware y un ordenador.
5
10
15
20
25
30
35
40
45
50
55
60
Las formas de realización anteriormente descritas son meramente ilustrativas de los principios de la presente invención. Se da por entendido que las modificaciones y variaciones de las disposiciones y de los detalles descritos en el presente documento serán evidentes para otros expertos en la técnica. Por lo tanto, el fin es que se limite solo por los alcances de las reivindicaciones adjuntas y no por los detalles específicos presentados a modo de descripción y explicación de las formas de realización en el presente documento.
De acuerdo con un primer aspecto, un codificador de audio 100; 200 para proveer una información de audio codificada 112; 212 sobre la base de una información de audio de entrada 110; 210 puede comprender: un codificador de baja frecuencia 120; 220 configurado para codificar una porción de baja frecuencia de la información de audio de entrada para obtener una representación codificada 122; 222 de la porción de baja frecuencia; y un proveedor de información de ampliación de ancho de banda 130; 230 configurado para proveer información de ampliación de ancho de banda 132; 232 sobre la base de la información de audio de entrada; en donde el codificador de audio está configurado para incluir selectivamente información de ampliación de ancho de banda en la información de audio codificada de una manera adaptable a la señal.
De acuerdo con un segundo aspecto, cuando se hace referencia de nuevo al primer aspecto, el codificador de audio 100; 200 puede comprender un detector 240 configurado para identificar porciones de la información de audio de entrada que no pueden ser descodificadas con una calidad suficiente o deseada sobre la base de la representación codificada de la porción de baja frecuencia, y utilizando una ampliación de ancho de banda a ciegas; y en donde el codificador de audio está configurado para incluir selectivamente información de ampliación de ancho de banda en la información de audio codificada para porciones de la información de audio de entrada identificadas por el detector.
De acuerdo con un tercer aspecto, cuando se hace referencia de nuevo a cualquiera del primer y el segundo aspectos, el codificador de audio 100; 200 puede comprender un detector 240 configurado para identificar porciones de la información de audio de entrada para las que no se pueden estimar con una exactitud suficiente o deseada parámetros de ampliación de ancho de banda sobre la base de la porción de baja frecuencia; y en donde el codificador de audio está configurado para incluir selectivamente información de ampliación de ancho de banda en la información de audio codificada para porciones de la información de audio de entrada identificadas por el detector.
De acuerdo con un cuarto aspecto, cuando se hace referencia de nuevo a cualquiera del primer al tercer aspectos, el codificador de audio 100; 200 puede comprender un detector 240 configurado para identificar porciones de la información de audio de entrada en función de si las porciones son porciones temporalmente estacionarias y en función de si las porciones tienen un carácter de paso bajo; y en donde el codificador de audio está configurado para omitir selectivamente una inclusión de información de ampliación de ancho de banda en la información de audio codificada para porciones de la información de audio de entrada identificadas por el detector como porciones temporalmente estacionarias que tienen un carácter de paso bajo.
De acuerdo con un quinto aspecto, cuando se hace referencia de nuevo al cuarto aspecto, el detector en el codificador de audio 100; 200 puede estar configurado para identificar porciones de la información de audio de entrada en función de si las porciones comprenden habla vocalizada, y/o en función de si las porciones comprenden ruido ambiental, y/o en función de si las porciones comprenden música sin instrumentos de percusión.
De acuerdo con un sexto aspecto, cuando se hace referencia de nuevo a cualquiera del primer al quinto aspectos, el codificador de audio 100; 200 puede comprender un detector 240 configurado para identificar porciones de la información de audio de entrada en función de si una diferencia entre una envolvente espectral de una porción de baja frecuencia y una envolvente espectral de una porción de alta frecuencia es mayor que o igual a una medida de diferencia predeterminada; y en donde el codificador de audio está configurado para incluir selectivamente información de ampliación de ancho de banda en la información de audio codificada para porciones de la información de audio de entrada identificadas por el detector.
De acuerdo con un séptimo aspecto, cuando se hace referencia de nuevo al sexto aspecto, el detector en el codificador de audio 100; 200 puede estar configurado para identificar porciones en función de si las porciones comprenden habla no vocalizada, y/o donde el detector está configurado para identificar porciones en función de si las porciones comprenden sonidos de percusión.
De acuerdo con un octavo aspecto, cuando se hace referencia de nuevo a cualquiera del primer al séptimo aspectos, el codificador de audio 100; 200 puede comprender un detector 240 configurado para determinar una inclinación espectral de porciones de la información de audio de entrada, y para identificar porciones de la información de audio de entrada en función de si la inclinación espectral determinada es mayor que o igual a un valor umbral de inclinación fijo o variable; y en donde el codificador de audio está configurado para incluir selectivamente información de ampliación de ancho de banda en la información de audio codificada para porciones de la información de audio de entrada identificadas por el detector.
5
10
15
20
25
30
35
40
45
50
55
60
De acuerdo con un noveno aspecto, cuando se hace referencia de nuevo al octavo aspecto, el detector en el codificador de audio 100; 200 puede estar además configurado para determinar una velocidad de paso por cero de porciones de la información de audio de entrada, y para identificar porciones de la información de audio de entrada también en función de si la velocidad de paso por cero determinada es mayor que o igual a un valor umbral de velocidad de paso por cero fijo o variable o en función de si la velocidad de paso por cero comprende un cambio temporal que supera un valor umbral de cambio de velocidad de paso por cero.
De acuerdo con un décimo aspecto, cuando se hace referencia de nuevo a cualquiera del segundo al noveno aspectos, el detector 240 en el codificador de audio 100; 200 puede estar configurado para aplicar una histéresis para identificar porciones de señal de la información de audio de entrada, para reducir una cantidad de transiciones entre porciones de señal identificadas y porciones de señal no identificadas.
De acuerdo con un décimo primer aspecto, cuando se hace referencia de nuevo a cualquiera del primer al décimo aspectos, el codificador de audio 100; 200 puede estar configurado para incluir selectivamente parámetros que representan una envolvente espectral de una porción de alta frecuencia de la información de audio de entrada en la información de audio codificada de una manera adaptable a la señal como la información de ampliación de ancho de banda.
De acuerdo con un décimo segundo aspecto, cuando se hace referencia de nuevo a cualquiera del primer al décimo primer aspectos, el codificador de baja frecuencia en el codificador de audio 100; 200 puede estar configurado para codificar una porción de baja frecuencia de la información de audio de entrada, que comprende frecuencias hasta una frecuencia máxima que se encuentra en un intervalo de entre 6 y 7 kHz, y en donde el codificador de audio está configurado para incluir selectivamente en la representación de audio codificada entre tres y cinco parámetros que describen las intensidades de porciones de señal de alta frecuencia que tienen anchos de banda de entre 300 Hz y 500 Hz.
De acuerdo con un décimo tercer aspecto, cuando se hace referencia de nuevo al décimo segundo aspecto, el codificador de audio 100; 200 puede estar configurado para incluir selectivamente en la representación de audio codificada 4 parámetros cuantificados escalarmente que describen las intensidades de cuatro porciones de señal de alta frecuencia, en donde las porciones de señal de alta frecuencia abarcan intervalos de frecuencia por encima de la porción de baja frecuencia.
De acuerdo con un décimo cuarto aspecto, cuando se hace referencia de nuevo a cualquiera del décimo segundo y el décimo tercer aspectos, el codificador de audio 100; 200 puede estar configurado para incluir selectivamente en la representación de audio codificada una pluralidad de parámetros que describen una relación entre las energías o intensidades de porciones de frecuencia espectralmente adyacentes, en donde uno de los parámetros describe una relación o una diferencia entre una energía o intensidad de una primera porción de alta frecuencia de ampliación de ancho de banda y una porción de baja frecuencia, y en donde otro de los parámetros describe relaciones o diferencias entre las energías o intensidades de otras porciones de alta frecuencia de ampliación de ancho de banda.
De acuerdo con un décimo quinto aspecto, un descodificador de audio 400; 500 para proveer una información de audio descodificada 412; 512 sobre la base de una información de audio codificada 410; 510 puede comprender: un descodificador de baja frecuencia 420; 520 configurado para descodificar una representación codificada de una porción de baja frecuencia para obtener una representación descodificada 422; 522 de la porción de baja frecuencia; y una ampliación de ancho de banda 430; 530 configurada para obtener una señal de ampliación de ancho de banda 432; 532 utilizando una ampliación de ancho de banda a ciegas para porciones de un contenido de audio para las que no hay parámetros de ampliación de ancho de banda incluidos en la información de audio codificada, y para obtener la señal de ampliación de ancho de banda utilizando una ampliación de ancho de banda guiada por parámetros para porciones del contenido de audio para las que hay parámetros de ampliación de ancho de banda incluidos en la información de audio codificada.
De acuerdo con un décimo sexto aspecto, cuando se hace referencia de nuevo al décimo quinto aspecto, el descodificador de audio 400; 500 puede estar configurado para decidir si obtener la señal de ampliación de ancho de banda utilizando una ampliación de ancho de banda a ciegas o utilizando una ampliación de ancho de banda guiada por parámetros de una forma trama a trama.
De acuerdo con un décimo séptimo aspecto, cuando se hace referencia de nuevo a cualquiera del décimo quinto al décimo sexto aspectos, el descodificador de audio 400; 500 puede estar configurado para conmutar entre una utilización de una ampliación de ancho de banda a ciegas y una ampliación de ancho de banda guiada por parámetros dentro de un fragmento contiguo de contenido de audio.
De acuerdo con un décimo octavo aspecto, cuando se hace referencia de nuevo a cualquiera del décimo quinto al décimo séptimo aspectos, el descodificador de audio 400; 500 puede estar configurado para evaluar banderas
5
10
15
20
25
30
35
40
45
50
55
60
incluidas en la información de audio codificada para diferentes porciones del contenido de audio, para decidir si utilizar una ampliación de ancho de banda a ciegas o una ampliación de ancho de banda guiada por parámetros.
De acuerdo con un décimo noveno aspecto, cuando se hace referencia de nuevo a cualquiera del décimo quinto al décimo séptimo aspectos, el descodificador de audio 400; 500 puede estar configurado para decidir si utilizar una ampliación de ancho de banda a ciegas o una ampliación de ancho de banda guiada por parámetros sobre la base de la representación codificada de la porción de baja frecuencia sin evaluar una bandera de señalización del modo de ampliación de ancho de banda.
De acuerdo con un vigésimo aspecto, cuando se hace referencia de nuevo al décimo noveno aspecto, el descodificador de audio 400; 500 puede estar configurado para decidir si desea utilizar una ampliación de ancho de banda a ciegas o una ampliación de ancho de banda guiada por parámetros sobre la base de uno o más rasgos de la representación descodificada de la porción de baja frecuencia.
De acuerdo con un vigésimo primer aspecto, cuando se hace referencia de nuevo a cualquiera del décimo noveno al vigésimo aspectos, el descodificador de audio 400; 500 puede estar configurado para decidir si utilizar una ampliación de ancho de banda a ciegas o una ampliación de ancho de banda guiada por parámetros sobre la base de coeficientes de predicción lineales y/o sobre la base de estadísticas en el dominio del tiempo de la representación descodificada de la porción de baja frecuencia.
De acuerdo con un vigésimo segundo aspecto, cuando se hace referencia de nuevo a cualquiera del décimo quinto al vigésimo primer aspectos, la ampliación de ancho de banda en el descodificador de audio 400; 500 puede estar configurada para obtener la señal de ampliación de ancho de banda utilizando uno o más rasgos de la representación descodificada de la porción de baja frecuencia y/o utilizando uno o más parámetros del descodificador de baja frecuencia para porciones temporales del contenido de audio de entrada para las que no hay parámetros de ampliación de ancho de banda incluidos en la información de audio codificada.
De acuerdo con un vigésimo tercer aspecto, cuando se hace referencia de nuevo a cualquiera del décimo quinto al vigésimo segundo aspectos, la ampliación de ancho de banda en el descodificador de audio 400; 500 puede estar configurada para obtener la señal de ampliación de ancho de banda utilizando una información de centroide espectral y/o utilizando una información de energía, y/o utilizando una información de inclinación, y/o utilizando coeficientes de filtro para porciones temporales del contenido de audio de entrada para las que no hay parámetros de ampliación de ancho de banda incluidos en la información de audio codificada.
De acuerdo con un vigésimo cuarto aspecto, cuando se hace referencia de nuevo a cualquiera del décimo quinto al vigésimo tercer aspectos, la ampliación de ancho de banda en el descodificador de audio 400; 500 puede estar configurada para obtener la señal de ampliación de ancho de banda utilizando parámetros de flujo de bits que describen una envolvente espectral de una porción de alta frecuencia para porciones temporales del contenido de audio para las cuales hay parámetros de ampliación de ancho de banda incluidos en la información de audio codificada.
De acuerdo con un vigésimo quinto aspecto, cuando se hace referencia de nuevo al vigésimo cuarto aspecto, la ampliación de ancho de banda en el descodificador de audio 400; 500 puede estar configurada para evaluar entre tres y cinco parámetros de flujo de bits que describen intensidades de porciones de señales de alta frecuencia que tienen anchos de banda entre 300 Hz y 500 Hz, para obtener la señal de ampliación de ancho de banda.
De acuerdo con un vigésimo sexto aspecto, cuando se hace referencia de nuevo al vigésimo quinto aspecto, en el descodificador de audio 400; 500, los entre tres y cinco parámetros del flujo de bits que describen intensidades de porciones de señales de alta frecuencia, pueden estar cuantificados escalarmente con una resolución de 2 o 3 bits, de tal manera que hay entre 6 y 15 bits de parámetros de conformación espectral de ampliación de ancho de banda por trama de audio.
De acuerdo con un vigésimo séptimo aspecto, cuando se hace referencia de nuevo a cualquiera del décimo quinto al vigésimo sexto aspectos, la ampliación de ancho de banda en el descodificador de audio 400; 500 puede estar configurada para llevar a cabo un alisamiento de energías de la señal de ampliación de ancho de banda cuando se conmuta de ampliación de ancho de banda a ciegas a ampliación de ancho de banda guiada por parámetros y/o cuando se conmuta de ampliación de ancho de banda guiada por parámetros a ampliación de ancho de banda a ciegas.
De acuerdo con un vigésimo octavo aspecto, cuando se hace referencia de nuevo al vigésimo séptimo aspecto, la ampliación de ancho de banda en el descodificador de audio 400; 500 puede estar configurada para amortiguar una porción de alta frecuencia de la señal de ampliación de ancho de banda para una porción del contenido de audio a la que se aplica una ampliación de ancho de banda guiada por parámetros después de una porción del contenido de audio a la que se aplica una ampliación de ancho de banda a ciegas; y en donde la ampliación de ancho de banda
5
10
15
20
25
30
35
40
45
50
55
está configurada para reducir una amortiguación o para aumentar un nivel para una porción de alta frecuencia de la señal de ampliación de ancho de banda para una porción del contenido de audio a la que se aplica una ampliación de ancho de banda a ciegas después de una porción del contenido de audio a la que aplica una ampliación de ancho de banda guiada por parámetros.
De acuerdo con un vigésimo noveno aspecto, un método 600 para proveer una información de audio codificada sobre la base de una información de audio de entrada puede comprender las etapas de: codificar 610 una porción de baja frecuencia de la información de audio de entrada para obtener una representación codificada de la porción de baja frecuencia; y proveer 620 información de ampliación de ancho de banda sobre la base de la información de audio de entrada; en donde la información de ampliación de ancho de banda se incluye selectivamente en la información de audio codificada de una manera adaptable a la señal.
De acuerdo con un trigésimo aspecto, un método 700 para proveer una información de audio descodificada sobre la base de una información de audio codificada puede comprender las etapas de: descodificar 710 una representación codificada de una porción de baja frecuencia para obtener una representación descodificada de la porción de baja frecuencia; y obtener 720 una señal de ampliación de ancho de banda utilizando una ampliación de ancho de banda a ciegas para porciones de un contenido de audio para las que no hay parámetros de ampliación de ancho de banda incluidos en la información de audio codificada; y obtener 730 la señal de ampliación de ancho de banda utilizando una ampliación de ancho de banda guiada por parámetros para porciones del contenido de audio para las que hay parámetros de ampliación de ancho de banda incluidos en la información de audio codificada.
Un trigésimo primer aspecto puede tener un programa informático para llevar a cabo el método de acuerdo con el vigésimo noveno o el trigésimo aspectos cuando el programa informático se ejecuta en un ordenador.
De acuerdo con un trigésimo segundo aspecto, una representación de audio codificada 800 que representa una información de audio puede comprender: una representación codificada 810, 820 de una porción de baja frecuencia de la información de audio; y una información de ampliación de ancho de banda 812; en donde la información de ampliación de ancho de banda se incluye en la representación de audio codificada de una manera adaptable a la señal para algunas pero no para todas las porciones de la información de audio.
Referencias
[1] B. Bessette et al., “The Adaptive Multi-rate Wideband Speech Codee (AMR-WB)’’, IEEE Trans. on Speech and Audio Processing, Vol. 10, n.° 8, noviembre de 2002.
[2] B. Geiser et al., “Bandwidth Extension for Hierarchical Speech and Audio Coding in ITU-T Rec. G.729.1", IEEE Trans. on Audio, Speech, and Language Processing, Vol. 15, n.° 8, noviembre de 2007.
[3] B. Iser, W. Minker, y G. Schmidt, Bandwidth Extension of Speech Signals, Springer Lecture Notes in Electrical Engineering, Vol. 13, Nueva York, 2008.
[4] M. Jelínek y R. Salami, “Wideband Speech Coding Advances in VMR-WB Standard’’, IEEE Trans. on Audio, Speech, and Language Processing, Vol. 15, n.° 4, mayo de 2007.
[5] I. Katsir, I. Cohen, y D. Malah, “Speech Bandwidth Extension Based on Speech Phonetic Content and Speaker Vocal Tract Shape Estimation", en Proc. EUSIPCO 2011, Barcelona, España, septiembre de 2011.
[6] E. Larsen y R. M. Aarts, Audio Bandwidth Extension: Application of Psycho-acoustics, Signal Processing and Loudspeaker Design, Wiley, Nueva York, 2004.
[7] J. Makinen et al., “AMR-WB+: A New Audio Coding Standard for 3rd Generation Mobile Audio Services’’, en Proc. ICASSP 2005, Filadelfia, EE. UU., marzo de 2005.
[8] M. Neuendorf et al., “MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types", en Proc. 132nd AES Convention, Budapest, Hungría, abril de 2012. También aparece en el Journal de la aEs, 2013.
[9] H. Pulakka y P. Alku, “Bandwidth Extension of Telephone Speech Using a Neural Network and a Filter Bank Implementation for Highband Mel Spectrum", IEEE Trans. on Audio, Speech, and Language Processing, Vol. 19, n.° 7, septiembre de 2011.
[10] T. Vaillancourt et al., “ITU-T EV-VBR: A Robust 8-32 kbit/s Scalable Coder for Error Prone Telecommunications Channels", en Proc. EUSIPCO 2008, Lausana, Suiza, agosto de 2008.
[11] L. Miao et al., “G.711.1 Annex D and G.722 Annex B: New ITU-T Superwideband codecs", en Proc. ICASSP 2011, Praga, República Checa, mayo de 2011.
Claims (3)
- 5101520253035REIVINDICACIONES1. Un codificador de audio (100; 200) para proveer una información de audio codificada (112; 212) sobre la base de una información de audio de entrada (110; 210), comprendiendo el codificador de audio:un codificador de baja frecuencia (120; 220) configurado para codificar una porción de baja frecuencia de la información de audio de entrada para obtener una representación codificada (122; 222) de la porción de baja frecuencia; yun proveedor de información de ampliación de ancho de banda (130; 230) configurado para proveer información de ampliación de ancho de banda (132; 232) sobre la base de la información de audio de entrada; en donde el codificador de audio está configurado para incluir selectivamente información de ampliación de ancho de banda en la información de audio codificada de una manera adaptable a la señal; caracterizado porque el codificador de audio comprende un detector (240) configurado para determinar una inclinación espectral de porciones de la información de audio de entrada, y para identificar porciones de la información de audio de entrada en función de si la inclinación espectral determinada es mayor que o igual a un valor umbral de inclinación fijo o variable; yen donde el codificador de audio está configurado para incluir selectivamente información de ampliación de ancho de banda en la información de audio codificada para porciones de la información de audio de entrada identificadas por el detector.
- 2. Un método (600) para proveer una información de audio codificada sobre la base de una información de audio de entrada, comprendiendo el método:codificar (610) una porción de baja frecuencia de la información de audio de entrada para obtener una representación codificada de la porción de baja frecuencia; yproveer (620) información de ampliación de ancho de banda sobre la base de la información de audio de entrada; en donde la información de ampliación de ancho de banda se incluye selectivamente en la información de audio codificada de una manera adaptable a la señal, caracterizado porque el método comprende determinar una inclinación espectral de porciones de la información de audio de entrada, e identificar porciones de la información de audio de entrada en función de si la inclinación espectral determinada es mayor que o igual a un valor umbral de inclinación fijo o variable; yen donde el método comprende incluir selectivamente información de ampliación de ancho de banda en la información de audio codificada para porciones identificadas de la información de audio de entrada.
- 3. Un programa informático para llevar a cabo el método de acuerdo con la reivindicación 2 cuando el programa informático se ejecuta en un ordenador.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361758205P | 2013-01-29 | 2013-01-29 | |
US201361758205P | 2013-01-29 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2659177T3 true ES2659177T3 (es) | 2018-03-14 |
Family
ID=50029037
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES14701755T Active ES2768179T3 (es) | 2013-01-29 | 2014-01-28 | Codificador de audio, decodificador de audio, método para proporcionar una información de audio codificada, método para proporcionar una información de audio decodificada, programa informático y representación codificada utilizando una ampliación de ancho de banda adaptada a la señal |
ES16162697.3T Active ES2659177T3 (es) | 2013-01-29 | 2014-01-28 | Codificador de audio, descodificador de audio, método para proveer una información de audio codificada, método para proveer una información de audio descodificada, programa informático y representación codificada utilizando una ampliación de ancho de banda adaptable a la señal |
ES16162701.3T Active ES2664185T3 (es) | 2013-01-29 | 2014-01-28 | Codificador de audio, decodificador de audio, método para proporcionar una información de audio codificada, método para proporcionar una información de audio decodificada, programa informático y representación codificada utilizando una ampliación de ancho de banda adaptada a la señal |
ES16162696T Active ES2959240T3 (es) | 2013-01-29 | 2014-01-28 | Codificador de audio, decodificador de audio, método para proporcionar una información de audio codificada, método para proporcionar una información de audio decodificada, programa informático y representación codificada utilizando una ampliación de ancho de banda adaptada a la señal |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES14701755T Active ES2768179T3 (es) | 2013-01-29 | 2014-01-28 | Codificador de audio, decodificador de audio, método para proporcionar una información de audio codificada, método para proporcionar una información de audio decodificada, programa informático y representación codificada utilizando una ampliación de ancho de banda adaptada a la señal |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES16162701.3T Active ES2664185T3 (es) | 2013-01-29 | 2014-01-28 | Codificador de audio, decodificador de audio, método para proporcionar una información de audio codificada, método para proporcionar una información de audio decodificada, programa informático y representación codificada utilizando una ampliación de ancho de banda adaptada a la señal |
ES16162696T Active ES2959240T3 (es) | 2013-01-29 | 2014-01-28 | Codificador de audio, decodificador de audio, método para proporcionar una información de audio codificada, método para proporcionar una información de audio decodificada, programa informático y representación codificada utilizando una ampliación de ancho de banda adaptada a la señal |
Country Status (20)
Country | Link |
---|---|
US (1) | US9646624B2 (es) |
EP (4) | EP2951822B1 (es) |
JP (1) | JP6239007B2 (es) |
KR (1) | KR101771828B1 (es) |
CN (2) | CN105264599B (es) |
AR (2) | AR094681A1 (es) |
AU (1) | AU2014211479B2 (es) |
BR (1) | BR112015017753B1 (es) |
CA (4) | CA2898637C (es) |
ES (4) | ES2768179T3 (es) |
HK (1) | HK1218179A1 (es) |
MX (1) | MX347062B (es) |
MY (1) | MY185176A (es) |
PL (4) | PL3070713T3 (es) |
PT (3) | PT3070713T (es) |
RU (1) | RU2641461C2 (es) |
SG (1) | SG11201505912QA (es) |
TW (1) | TWI533288B (es) |
WO (1) | WO2014118185A1 (es) |
ZA (1) | ZA201506312B (es) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9886959B2 (en) * | 2005-02-11 | 2018-02-06 | Open Invention Network Llc | Method and system for low bit rate voice encoding and decoding applicable for any reduced bandwidth requirements including wireless |
KR101261677B1 (ko) * | 2008-07-14 | 2013-05-06 | 광운대학교 산학협력단 | 음성/음악 통합 신호의 부호화/복호화 장치 |
WO2014118156A1 (en) * | 2013-01-29 | 2014-08-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for synthesizing an audio signal, decoder, encoder, system and computer program |
EP2830061A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping |
WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
TWI693594B (zh) | 2015-03-13 | 2020-05-11 | 瑞典商杜比國際公司 | 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流 |
US10049684B2 (en) * | 2015-04-05 | 2018-08-14 | Qualcomm Incorporated | Audio bandwidth selection |
CN106294331B (zh) | 2015-05-11 | 2020-01-21 | 阿里巴巴集团控股有限公司 | 音频信息检索方法及装置 |
EP3288031A1 (en) * | 2016-08-23 | 2018-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding an audio signal using a compensation value |
GB201620317D0 (en) * | 2016-11-30 | 2017-01-11 | Microsoft Technology Licensing Llc | Audio signal processing |
TWI807562B (zh) | 2017-03-23 | 2023-07-01 | 瑞典商都比國際公司 | 用於音訊信號之高頻重建的諧波轉置器的回溯相容整合 |
EP3382703A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and methods for processing an audio signal |
US10650806B2 (en) * | 2018-04-23 | 2020-05-12 | Cerence Operating Company | System and method for discriminative training of regression deep neural networks |
EP3576088A1 (en) | 2018-05-30 | 2019-12-04 | Fraunhofer Gesellschaft zur Förderung der Angewand | Audio similarity evaluator, audio encoder, methods and computer program |
US11570849B2 (en) * | 2018-12-06 | 2023-01-31 | Schneider Electric Systems Usa, Inc. | Wireless instrument area network node with internal force sensor |
WO2020253941A1 (en) * | 2019-06-17 | 2020-12-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs |
KR20210003507A (ko) * | 2019-07-02 | 2021-01-12 | 한국전자통신연구원 | 오디오 코딩을 위한 잔차 신호 처리 방법 및 오디오 처리 장치 |
WO2021261235A1 (ja) * | 2020-06-22 | 2021-12-30 | ソニーグループ株式会社 | 信号処理装置および方法、並びにプログラム |
CN112019282B (zh) * | 2020-08-13 | 2022-10-28 | 西安烽火电子科技有限责任公司 | 一种短波时变信道衰落带宽估计方法 |
CN112669860B (zh) * | 2020-12-29 | 2022-12-09 | 北京百瑞互联技术有限公司 | 一种增加lc3音频编解码有效带宽的方法及装置 |
CN113035211B (zh) * | 2021-03-11 | 2021-11-16 | 马上消费金融股份有限公司 | 音频压缩方法、音频解压缩方法及装置 |
WO2024080597A1 (ko) * | 2022-10-12 | 2024-04-18 | 삼성전자주식회사 | 오디오 비트스트림을 적응적으로 처리하는 전자 장치, 방법, 및 비일시적 컴퓨터 판독가능 저장 매체 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL8901032A (nl) | 1988-11-10 | 1990-06-01 | Philips Nv | Coder om extra informatie op te nemen in een digitaal audiosignaal met een tevoren bepaald formaat, een decoder om deze extra informatie uit dit digitale signaal af te leiden, een inrichting voor het opnemen van een digitaal signaal op een registratiedrager, voorzien van de coder, en een registratiedrager verkregen met deze inrichting. |
JPH0758629B2 (ja) * | 1989-08-24 | 1995-06-21 | 矢崎総業株式会社 | 端子係止具付コネクタ |
US5455888A (en) * | 1992-12-04 | 1995-10-03 | Northern Telecom Limited | Speech bandwidth extension method and apparatus |
SE512719C2 (sv) | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
US6226616B1 (en) * | 1999-06-21 | 2001-05-01 | Digital Theater Systems, Inc. | Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility |
EP1423847B1 (en) * | 2001-11-29 | 2005-02-02 | Coding Technologies AB | Reconstruction of high frequency components |
KR101271069B1 (ko) * | 2005-03-30 | 2013-06-04 | 돌비 인터네셔널 에이비 | 다중채널 오디오 인코더 및 디코더와, 인코딩 및 디코딩 방법 |
JP5129117B2 (ja) * | 2005-04-01 | 2013-01-23 | クゥアルコム・インコーポレイテッド | 音声信号の高帯域部分を符号化及び復号する方法及び装置 |
WO2006116025A1 (en) | 2005-04-22 | 2006-11-02 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor smoothing |
US7610197B2 (en) * | 2005-08-31 | 2009-10-27 | Motorola, Inc. | Method and apparatus for comfort noise generation in speech communication systems |
US7953605B2 (en) | 2005-10-07 | 2011-05-31 | Deepen Sinha | Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension |
US7835904B2 (en) * | 2006-03-03 | 2010-11-16 | Microsoft Corp. | Perceptual, scalable audio compression |
KR20070115637A (ko) * | 2006-06-03 | 2007-12-06 | 삼성전자주식회사 | 대역폭 확장 부호화 및 복호화 방법 및 장치 |
US8260609B2 (en) * | 2006-07-31 | 2012-09-04 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of inactive frames |
JP5266341B2 (ja) * | 2008-03-03 | 2013-08-21 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号処理方法及び装置 |
CN102089814B (zh) * | 2008-07-11 | 2012-11-21 | 弗劳恩霍夫应用研究促进协会 | 对编码的音频信号进行解码的设备和方法 |
PL4231290T3 (pl) * | 2008-12-15 | 2024-04-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Dekoder powiększania szerokości pasma audio, powiązany sposób oraz program komputerowy |
EP2239732A1 (en) | 2009-04-09 | 2010-10-13 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for generating a synthesis audio signal and for encoding an audio signal |
CN101521014B (zh) * | 2009-04-08 | 2011-09-14 | 武汉大学 | 音频带宽扩展编解码装置 |
ES2400661T3 (es) * | 2009-06-29 | 2013-04-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificación y decodificación de extensión de ancho de banda |
EP2502231B1 (en) * | 2009-11-19 | 2014-06-04 | Telefonaktiebolaget L M Ericsson (PUBL) | Bandwidth extension of a low band audio signal |
US8600737B2 (en) * | 2010-06-01 | 2013-12-03 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for wideband speech coding |
JP5743137B2 (ja) | 2011-01-14 | 2015-07-01 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
PL2676264T3 (pl) * | 2011-02-14 | 2015-06-30 | Fraunhofer Ges Forschung | Koder audio estymujący szum tła podczas faz aktywnych |
CN102543086B (zh) * | 2011-12-16 | 2013-08-14 | 大连理工大学 | 一种基于音频水印的语音带宽扩展的装置和方法 |
-
2014
- 2014-01-28 EP EP14701755.2A patent/EP2951822B1/en active Active
- 2014-01-28 PL PL16162701T patent/PL3070713T3/pl unknown
- 2014-01-28 CA CA2898637A patent/CA2898637C/en active Active
- 2014-01-28 ES ES14701755T patent/ES2768179T3/es active Active
- 2014-01-28 MX MX2015009682A patent/MX347062B/es active IP Right Grant
- 2014-01-28 ES ES16162697.3T patent/ES2659177T3/es active Active
- 2014-01-28 ES ES16162701.3T patent/ES2664185T3/es active Active
- 2014-01-28 EP EP16162697.3A patent/EP3067890B1/en active Active
- 2014-01-28 SG SG11201505912QA patent/SG11201505912QA/en unknown
- 2014-01-28 PT PT161627013T patent/PT3070713T/pt unknown
- 2014-01-28 PT PT147017552T patent/PT2951822T/pt unknown
- 2014-01-28 PT PT161626973T patent/PT3067890T/pt unknown
- 2014-01-28 RU RU2015136792A patent/RU2641461C2/ru active
- 2014-01-28 PL PL14701755T patent/PL2951822T3/pl unknown
- 2014-01-28 WO PCT/EP2014/051641 patent/WO2014118185A1/en active Application Filing
- 2014-01-28 CN CN201480019094.5A patent/CN105264599B/zh active Active
- 2014-01-28 PL PL16162696.5T patent/PL3054446T3/pl unknown
- 2014-01-28 BR BR112015017753-0A patent/BR112015017753B1/pt active IP Right Grant
- 2014-01-28 EP EP16162696.5A patent/EP3054446B1/en active Active
- 2014-01-28 KR KR1020157023559A patent/KR101771828B1/ko active IP Right Grant
- 2014-01-28 ES ES16162696T patent/ES2959240T3/es active Active
- 2014-01-28 CN CN201910313032.XA patent/CN110111801B/zh active Active
- 2014-01-28 CA CA2985115A patent/CA2985115C/en active Active
- 2014-01-28 CA CA2985121A patent/CA2985121C/en active Active
- 2014-01-28 CA CA2985105A patent/CA2985105C/en active Active
- 2014-01-28 MY MYPI2015001890A patent/MY185176A/en unknown
- 2014-01-28 JP JP2015555682A patent/JP6239007B2/ja active Active
- 2014-01-28 AU AU2014211479A patent/AU2014211479B2/en active Active
- 2014-01-28 PL PL16162697T patent/PL3067890T3/pl unknown
- 2014-01-28 EP EP16162701.3A patent/EP3070713B1/en active Active
- 2014-01-29 TW TW103103514A patent/TWI533288B/zh active
- 2014-01-29 AR ARP140100297A patent/AR094681A1/es active IP Right Grant
-
2015
- 2015-07-28 US US14/811,727 patent/US9646624B2/en active Active
- 2015-08-28 ZA ZA2015/06312A patent/ZA201506312B/en unknown
-
2016
- 2016-05-30 HK HK16106087.3A patent/HK1218179A1/zh unknown
-
2019
- 2019-07-22 AR ARP190102058A patent/AR115823A2/es active IP Right Grant
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2659177T3 (es) | Codificador de audio, descodificador de audio, método para proveer una información de audio codificada, método para proveer una información de audio descodificada, programa informático y representación codificada utilizando una ampliación de ancho de banda adaptable a la señal | |
ES2774492T3 (es) | Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de error que modifica una señal de excitación de dominio de tiempo | |
ES2746034T3 (es) | Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de error sobre la base de una señal de excitación de dominio de tiempo | |
ES2960089T3 (es) | Procedimiento y aparato para la ocultación de errores de trama y procedimiento y aparato para la decodificación de audio | |
ES2539174T3 (es) | Aparato y método para ocultamiento de error en voz unificada con bajo retardo y codificación de audio (USAC) | |
ES2943588T3 (es) | Decodificador para generar una señal de audio mejorada en frecuencia, procedimiento de decodificación, codificador para generar una señal codificada y procedimiento de codificación que utiliza información lateral de selección compacta | |
BR122020023798B1 (pt) | Método de codificação de um sinal de áudio |