ES2791001T3

ES2791001T3 - Codificación y decodificación de señales de audio mediante el uso de bancos de filtros de valor complejo

Info

Publication number: ES2791001T3
Application number: ES05797747T
Authority: ES
Inventors: Lars F Villemoes; Erik G P Schuijers
Original assignee: Koninklijke Philips NV; Dolby International AB
Current assignee: Koninklijke Philips NV; Dolby International AB
Priority date: 2004-11-02
Filing date: 2005-10-31
Publication date: 2020-10-30
Anticipated expiration: 2025-10-31
Also published as: EP1810281A1; RU2407069C2; BRPI0517234B1; JP4939424B2; CN101053019A; CN102148035A; BRPI0517234A; CN101053019B; CN102148035B; US20090063140A1; WO2006048814A1; KR20070085681A; MX2007005103A; EP1810281B1; US8255231B2; JP2008519290A; RU2007120591A; PL1810281T3; KR101187597B1

Abstract

Un decodificador para generar una señal de audio de dominio de tiempo por la decodificación de la forma de onda, comprendiendo el decodificador: - un medio para recibir (401) una corriente de datos codificados; - un medio para generar (403) una primera señal de subbanda al decodificar valores de datos de la corriente de datos codificados, correspondiendo la primera señal de subbanda a una representación de la señal de dominio de- subbanda muestreada críticamente de la señal de audio de dominio de tiempo; - un medio de conversión (405) para generar una segunda señal de subbanda a partir de la primera señal de subbanda o una versión procesada de la misma por un procesamiento de subbanda, correspondiendo la segunda señal de subbanda a una representación de dominio de subbanda compleja no muestreada críticamente de la señal de audio de dominio de tiempo; un decodificador paramétrico para decodificar de forma paramétrica datos mediante el uso de la segunda señal de subbanda; y - un banco de filtros de síntesis (407) para generar la señal de audio de dominio de tiempo a partir de la segunda señal de subbanda.

Description

DESCRIPCIÓN

Codificación y decodificación de señales de audio mediante el uso de bancos de filtros de valor complejo

[0001] La invención se refiere a la codificación y/o decodificación de señales de audio y, en Particular, a la codificación/decodificación de la forma de la onda de una señal de audio.

[0002] La codificación digital de varias señales fuente ha llegado a ser crecientemente importante durante las últimas décadas por lo que la representación y comunicación de las señales digitales han reemplazado crecientemente la representación y la comunicación analógicas. Por ejemplo, los sistemas de teléfonos móviles, tales como el Sistema Global para la comunicación móvil, están basados en la codificación vocal digital. También la distribución del contenido del medio, tal como las señales de vídeo y de música, está basada crecientemente en la codificación del contenido digital.

[0003] Tradicionalmente, la codificación de señales de audio ha utilizado predominantemente la codificación de la forma de onda en la que la forma de onda subyacente ha sido digitalizada y codificada eficientemente. Por ejemplo, un codificador típico de la forma de onda comprende un banco de filtros que convierte la señal a un dominio de subbanda de la frecuencia. Basado en un modelo psico-acústico, se aplica un umbral de enmascaramiento y los valores de la subbanda resultantes son cuantificados y codificados eficientemente, por ejemplo, mediante el uso de un código de Huffman.

[0004] Los ejemplos de los codificadores de la forma de onda incluyen los esquemas de codificación bien conocidos de la capa 3 de MPEG-1 (frecuentemente referida como MP3) o de AAC (codificación de audio avanzada (por sus siglas en inglés)).

[0005] En los años recientes, se ha propuesto un número de técnicas de codificación, las cuales no codifican directamente la forma de onda subyacente sino más bien caracterizan las señales codificadas por un número de parámetros. Por ejemplo, para la codificación de las señales vocales, el codificador y el decodificador pueden estar basados en un modelo del tracto de la señal vocal humana y en lugar de codificar la forma de onda, se pueden codificar varios parámetros y señales de excitación para el modelo. Tales técnicas son referidas generalmente como técnicas de codificación paramétricas.

[0006] Además, la codificación de la forma de onda y la codificación paramétrica pueden ser combinadas para proporcionar una codificación de calidad elevada y particularmente eficaz. En tales sistemas, los parámetros pueden describir una parte de la señal con referencia a otra parte de la señal que ha sido codificada en forma de onda. Por ejemplo, se han propuesto técnicas de codificación en las que las frecuencias inferiores son codificadas en forma de onda y las frecuencias más elevadas están codificadas por una extensión paramétrica que describe las propiedades de las frecuencias más elevadas con relación a las frecuencias más bajas. Como otro ejemplo, se ha propuesto la codificación de la señal de canales múltiples en la que por ejemplo una señal monofónica es codificada en forma de onda y una extensión paramétrica incluye datos de los parámetros que indican cómo los canales individuales varían desde la señal común.

[0007] Los ejemplos de las técnicas de codificación de la extensión paramétrica incluyen las técnicas de Replicación de la Banda Espectral (SBR (por sus siglas en inglés)), de Señales Estereofónicas Paramétricas (PS (por sus siglas en inglés)) y de Codificación en la Señal de Audio Espacial (SAC (por sus siglas en inglés)).

[0008] Actualmente, la técnica de SAC está siendo desarrollada para codificar eficientemente las señales de audio de canales múltiples. Esta tecnología está basada parcialmente en la técnica de codificación de PS. De manera semejante al paradigma de PS, la SAC está basada en la noción de que una señal de canales múltiples, que consiste en los canales M, puede ser representada eficientemente por una señal que consiste en N canales, con N < M, y una cantidad pequeña de parámetros que representa las hileras espaciales. Una aplicación típica consiste en la codificación de una representación de la señal 5.1 convencional como una señal monofónica o estereofónica codificada en forma de onda más los parámetros espaciales. Los parámetros espaciales pueden estar incluidos en la porción de datos auxiliares de la corriente de bits monofónica o estereofónica del centro para formar una extensión compatible hacia atrás.

[0009] De manera semejante a las técnicas de SBR y PS, la SAC utiliza bancos de Filtros de Espejo Cuadrado (pseudo) complejos (QMF (por sus siglas en inglés)) para transformar las representaciones del dominio del tiempo en representaciones del dominio de la frecuencia (y viceversa). Una característica de estos bancos de filtros es que las señales del dominio de la subbanda de valor complejo son sobremuestreados efectivamente en un factor de dos. Esto hace posible las operaciones de postprocesamiento de las señales de dominio de la subbanda sin introducir una distorsión en la entrada alternativa.

[0010] Otra característica común para las extensiones paramétricas es que, bajo las condiciones típicas, estas técnicas no logran un nivel de calidad de audio transparente, es decir que se introduce algo de deterioro de la calidad.

[0011] Para extender las extensiones paramétricas semejantes a SBR, PS y SAC hacia la calidad de audio transparente, podría ser conveniente codificar ciertas partes, por ejemplo, un cierto número de bandas, de las señales del dominio de subbanda compleja utilizando un codificador de forma de onda.

[0012] Una estrategia directa consiste en transformar primero aquellas partes del dominio de subbanda complejo de vuelta al dominio del tiempo. Un codificador de forma de onda existente (por ejemplo AAC) puede ser aplicado entonces a las señales del dominio del tiempo resultantes. Sin embargo, tal procedimiento está asociado con un número de desventajas.

[0013] La publicación "Codificación estéreo paramétrica de baja complejidad en MPEG-4, actas de la 7a Conferencia Internacional sobre Efectos de Audio Digital (DAFx-04, Nápoles, Italia, 5-8 de octubre de 2004, págs. 163 168) describe la codificación estéreo paramétrica en combinación con un codificador del estado de la técnica para la señal de audio monoaural subyacente. El codificador estéreo paramétrico comprende un bloque de estimación de parámetros estéreo y de mezcla descendente, un bloque codificador de mono audio, una cuantización y un bloque de codificación y un bloque de datos auxiliares de inserción para insertar datos auxiliares en una corriente de bits de salida.

[0014] El decodificador estéreo paramétrico comprende un bloque de extracción de datos auxiliares, un bloque decodificador de mono audio, un bloque de decodificación y descuantización y un bloque de reconstrucción estéreo paramétrica.

[0015] Particularmente, se realiza una síntesis estereofónica en un dominio (sub-)subbanda que tiene bloques de muestreo descendente posteriores de banco de filtros de análisis de 64 bandas, y bancos de filtros de análisis de 4 bandas y un banco de filtros de análisis de 8 bandas para bandas superiores.

[0016] Específicamente, la complejidad del codificador resultante es elevada y tiene una carga de computación elevada a causa de las conversiones repetidas entre la frecuencia y el dominio del tiempo utilizando diferentes agentes de transformación. Por ejemplo, si la extensión paramétrica pudiera hacer uso de la codificación de la señal del dominio del tiempo obtenida después de la síntesis de QMF, el decodificador correspondiente podría consistir en un decodificador de la forma de onda completa (por ejemplo, un decodificador del derivado de AAC) y, adicionalmente, un análisis del banco de QMF. Esto es costoso en términos de la complejidad computacional.

[0017] Además, podría ser beneficioso tener una correlación entre la extensión paramétrica utilizada y la codificación de la forma de onda de los elementos de la señal codificados por la extensión paramétrica.

[0018] Por ejemplo, un sistema puede consistir, por ejemplo, en la codificación de AAC y SBR (HE-AAC) o de AAC y SAC. Si el sistema permite que la extensión de SBR o SAC sea mejorada por medio de la codificación de la forma de onda, podría ser lógico también utilizar AAC para codificar la señal del dominio del tiempo obtenida después de la síntesis de QMF. Sin embargo, otro sistema, que utiliza las mismas extensiones, por ejemplo, la combinación de la capa II de MPEG-1 y SBR podría utilizar preferentemente otro sistema de codificación de la forma de onda: la capa II de MPEG-1. En consecuencia, podría ser ventajoso unir la mejora de la codificación de la forma de onda a la herramienta de la extensión paramétrica en lugar de al codificador central.

[0019] Por consiguiente, un sistema mejorado podría ser ventajoso y, en particular, un sistema de codificación y/o decodificación que permite una flexibilidad incrementada, una complejidad reducida, una carga de computación reducida, una interoperación facilitada entre los diferentes elementos de la codificación aplicada, una calidad de audio mejorada (por ejemplo, escalable) y/o un funcionamiento mejorado, podría ser ventajoso.

[0020] En consecuencia, la invención busca preferentemente mitigar, aliviar o eliminar una o más de las desventajas mencionadas anteriormente de manera única o en cualquier combinación.

[0021] Según un aspecto de la invención, se proporciona un decodificador para generar una señal de audio del dominio del tiempo por la decodificación de la forma de onda, comprendiendo el decodificador: medios para recibir una corriente de datos codificados; medios para generar una primera señal de subbanda por la decodificación de los valores de los datos de la corriente de datos codificados, la primera señal de subbanda que corresponde a una representación de la señal del dominio de la subbanda compleja, muestreada críticamente, de la señal de audio del dominio del tiempo, medios de conversión para generar una segunda señal de subbanda a partir de la primera señal de la subbanda por el procesamiento de la subbanda, la segunda señal de la subbanda que corresponde a una representación del dominio de la subbanda compleja muestreada no críticamente de la señal de audio del dominio del tiempo; y un banco de filtros de síntesis para generar la señal de audio del dominio del tiempo a partir de la segunda señal de subbanda.

[0022] La invención puede permitir un decodificador mejorado. Se puede lograr un decodificador de complejidad reducida y/o se puede reducir el requisito de recursos de computación. En particular, un banco de filtros de síntesis puede ser utilizado tanto para la decodificación de una extensión paramétrica para la señal de audio del dominio del tiempo como para la decodificación de la forma de onda. Un estado común entre la decodificación de la forma de onda y la decodificación paramétrica se puede lograr. En particular, el banco de filtros de síntesis puede ser un banco de filtros de QMF como el que se utiliza típicamente para la decodificación paramétrica en las técnicas de codificación de extensión paramétrica tales como SBR, PS y SAC.

[0023] El procesador de conversión esta dispuesto para generar la segunda señal de la subbanda por el procesamiento de la subbanda sin que se requiera ninguna conversión, por ejemplo, de la primera señal de la subbanda de vuelta al dominio del tiempo.

[0024] El decodificador puede comprender además medios para efectuar el procesamiento de la señal sin distorsión sobre la segunda señal de la subbanda antes de la operación de síntesis del banco de filtros de síntesis.

[0025] Según una característica opcional de la invención, cada subbanda de la primera señal de subbanda comprende una pluralidad de sub-subbandas y los medios de conversión comprenden un segundo banco de filtros de síntesis para generar las subbandas de las segundas señales de subbandas a partir de las sub-subbandas de la primera señal de subbanda.

[0026] Esto puede proporcionar un medio eficaz de conversión de la primera señal de subbanda. La característica puede proporcionar un medio de complejidad eficaz y/o de baja complejidad de compensación para una respuesta de la frecuencia de los filtros de la subbanda del banco de filtros de síntesis.

[0027] Según una característica opcional de la invención, cada subbanda de la segunda señal de subbanda comprende una banda con distorsión y una banda sin distorsión y en la que los medios de conversión comprenden medios de división para dividir una sub-subbanda de la primera señal de subbanda en una sub-subbanda con distorsión de una primera banda de la subbanda de la segunda señal de la subbanda y una subbanda sin distorsión de una segunda subbanda de la segunda señal de subbanda, teniendo la subbanda con distorsión y la subbanda sin distorsión intervalos de frecuencia correspondientes en la señal del dominio del tiempo.

[0028] Esto puede proporcionar un medio eficaz de conversión de la primera señal de la subbanda. En particular, el mismo puede permitir componentes de la señal en diferentes subbandas que se originan desde la misma frecuencia en la señal de audio del dominio del tiempo que va a ser generada a partir de un componente de la señal única.

[0029] Según una característica opcional de la invención, los medios de división comprenden una estructura con forma de mariposa.

[0030] Esto puede permitir una implementación particularmente eficaz y/o un alto rendimiento. La estructura con forma de mariposa puede utilizar una entrada del valor cero y una entrada del valor de datos de sub-subbanda para generar dos valores de salida que corresponden a diferentes subbandas de la segunda subbanda.

[0031] Según otro aspecto de la invención, se proporciona un codificador para codificar una señal de audio del dominio del tiempo, comprendiendo el codificador: medios para recibir la señal de audio del dominio del tiempo; un primer banco de filtros para generar una primera señal de subbanda a partir de la señal de audio del dominio del tiempo, correspondiendo la primera señal de subbanda a una representación del dominio de subbanda compleja muestreada no críticamente de la señal del dominio del tiempo; medios de conversión para generar una segunda señal de subbanda a partir de la primera señal de subbanda por el procesamiento de la subbanda, la segunda señal de subbanda corresponde a una representación del dominio de subbanda compleja, muestreada críticamente, de las señales de audio del dominio del tiempo; y medios para generar una corriente de datos codificados en forma de onda por la codificación de los valores de los datos de la segunda señal de subbanda.

[0032] La invención puede permitir un codificador mejorado. Se puede lograr un codificador de complejidad reducida y/o se puede reducir el requisito de recursos de computación. Un estado común entre la codificación de la forma de onda y la codificación paramétrica se puede lograr. En particular, el primer banco de filtros puede ser un banco de 5 filtros de QMF como se utiliza típicamente para la codificación paramétrica en las técnicas de codificación de extensión paramétrica tales como SBR, PS y SAC.

[0033] Una calidad de audio decodificada, mejorada, se puede lograr. Por ejemplo, la señal de audio del dominio del tiempo puede ser una señal residual de una codificación paramétrica. La señal codificada de la forma de onda puede proporcionar información que conduce a una transparencia incrementada.

[0034] El procesador de conversión esta dispuesto para generar la segunda señal de subbanda por el procesamiento de la subbanda sin que se requiera ninguna conversión, por ejemplo, de la primera señal de subbanda de vuelta al dominio del tiempo.

[0035] Según una característica opcional de la invención, el codificador comprende además medios para codificar paramétricamente la señal de audio del dominio del tiempo utilizando la primera señal de subbanda.

[0036] La invención puede permitir una codificación eficaz y/o de alta calidad de una señal subyacente 25 utilizando la codificación tanto paramétrica como de la forma de onda. La funcionalidad puede ser compartida entre la codificación paramétrica y de la forma de onda. La codificación paramétrica puede ser una codificación de extensión paramétrica tal como una codificación de SBR, PS, o SAC. El codificador puede proporcionar, en particular, la codificación de la forma de onda de algunas o la totalidad de las subbandas de una codificación de extensión paramétrica.

[0037] Según una característica opcional de la invención, los medios de conversión comprenden un segundo banco de filtros para generar una pluralidad de sub-subbandas para cada subbanda de la primera señal de subbanda.

[0038] Esto puede proporcionar un medio eficaz de conversión de la primera señal de subbanda. La característica puede proporcionar un medio de complejidad bajo y/o eficaz de compensación para una respuesta de la frecuencia de los filtros de subbanda de la primera subbanda.

[0039] Según una característica opcional de la invención, el segundo banco de filtros esta apilado de manera impar.

[0040] Esto puede mejorar el funcionamiento y permitir la separación mejorada entre las frecuencias positivas y negativas en el dominio de subbanda complejo.

[0041] Según una característica opcional de la invención, cada subbanda comprende algunas subbandas con distorsión que corresponden a una banda con distorsión de la subbanda y algunas sub-subbandas sin distorsión que corresponden a una banda sin distorsión de la subbanda; y en la que los medios de conversión comprenden medios de combinación para combinar las sub-subbandas con distorsión de una primera banda de la subbanda con subsubbandas sin distorsión de una segunda subbanda, teniendo las sub-subbandas con distorsión y las sub-subbandas sin distorsión intervalos de frecuencias correspondientes en la señal del dominio del tiempo.

[0042] Esto puede proporcionar un medio eficaz de conversión de la primera señal de subbanda. En particular, la misma puede permitir que los componentes de la señal en diferentes subbandas se originen desde la misma frecuencia en la señal de audio del dominio del tiempo para ser combinados en un solo componente de la señal. Esto puede permitir una reducción en la velocidad de transmisión de los datos.

[0043] Según una característica opcional de la invención, los medios de combinación están dispuestos para reducir una energía en la banda con distorsión.

[0044] Esto puede mejorar el funcionamiento y/o puede permitir una reducción de la velocidad de transmisión de los datos. En particular, la energía en la banda con distorsión puede ser minimizada y las bandas con distorsión pueden ser ignoradas.

[0045] En particular, los medios de combinación pueden comprender además medios para compensar las subsubbandas sin distorsión de una primera banda de la subbanda por las sub- bandas con distorsión de una segunda subbanda. En particular, los medios de combinación pueden comprender medios para restar los coeficientes de las subbandas con distorsión de una segunda subbanda, de las sub-subbandas sin distorsión de una primera subbanda.

[0046] Según una característica opcional de la invención, los medios de combinación comprenden medios para generar una señal de suma sin distorsión para una primera sub-subbanda con distorsión en la primera subbanda y una primera sub-subbanda sin distorsión en la segunda subbanda.

[0047] Esto puede permitir una implementación particularmente eficaz y/o un alto rendimiento.

[0048] Según una característica opcional de la invención, los medios de combinación comprenden una estructura con forma de mariposa para generar la señal de suma sin distorsión.

[0049] Esto puede permitir una implementación particularmente eficaz y/o un alto rendimiento. La estructura con forma de mariposa puede ser en particular una estructura con forma de mariposa intermedia en la que solo se genera un valor de salida.

[0050] Según una característica opcional de la invención, al menos un coeficiente de la estructura con forma de mariposa es dependiente sobre una respuesta de la frecuencia de un filtro del primer banco de filtros.

[0051] Esto puede permitir una implementación eficaz y/o un alto rendimiento. Según una característica opcional de la invención, los medios de conversión están dispuestos para que no incluyan valores de datos para la banda con distorsión en la corriente de datos codificados.

[0052] Esto puede permitir una calidad de audio codificada elevada para una velocidad de datos dada. Según una característica opcional de la invención, el codificador comprende además medios para efectuar el procesamiento de la señal sin distorsión sobre la primera señal de subbanda antes de la conversión a la segunda señal.

[0053] Esto puede mejorar el funcionamiento. La invención puede permitir una implementación eficaz de un codificador de la forma de onda que tiene una señal de salida muestreada críticamente mientras que se permite el procesamiento de la señal de las subbandas individuales que se ha efectuado sin introducir errores de distorsión.

[0054] Según una característica opcional de la invención, el codificador comprende además medios para la compensación de fase de la primera señal de subbanda antes de la conversión a la segunda señal.

[0055] Esto puede mejorar el funcionamiento y/o proporcionar una implementación eficaz.

[0056] Según una característica opcional de la invención, el primer banco de filtros es un banco de filtros QMF.

[0057] La invención puede permitir una codificación de la forma de onda eficaz utilizando un filtro de QMF que es utilizado en muchas técnicas de codificación paramétrica, tales como SBR, PS, SAC. Por consiguiente, se puede lograr una compatibilidad mejorada y/o una funcionalidad mejorada que comparten y/o que mejoran la interoperabilidad de las técnicas de codificación paramétricas y de la forma de onda.

[0058] Según otro aspecto de la invención, se proporciona un procedimiento de generación de una señal de audio del dominio del tiempo por la decodificación de la forma de onda, el procedimiento comprende: recibir una corriente de datos codificados; generar una primera señal de subbanda por la decodificación de los valores de los datos de la corriente de datos codificada, correspondiendo la primera señal de subbanda a una representación de la señal del dominio de la subbanda, compleja, muestreada críticamente, de la señal de audio del dominio del tiempo; generar una segunda señal de subbanda a partir de la primera señal de subbanda por el procesamiento de la subbanda, correspondiendo la segunda señal de subbanda a una representación del dominio de la subbanda compleja, muestreada no críticamente, de la señal de audio del dominio del tiempo, y un banco de filtros de síntesis que generan la señal de audio del dominio del tiempo a partir de la segunda señal de subbanda.

[0059] Según otro aspecto de la invención, se proporciona un procedimiento de codificación de una señal de audio del dominio del tiempo, comprendiendo el procedimiento: recibir la señal de audio del dominio del tiempo; un primer banco de filtros que genera una primera señal de subbanda a partir de la señal de audio del dominio del tiempo, correspondiendo la primera señal de subbanda a una representación del dominio de subbanda compleja, muestreada no críticamente, de la señal del dominio del tiempo; generar una segunda señal de subbanda a 15 partir de la primera señal de subbanda por el procesamiento de la subbanda, correspondiendo la segunda señal de subbanda a una representación del dominio de subbanda compleja, muestreada críticamente, de las señales de audio del dominio del tiempo; y generar una corriente de datos codificados de la forma de onda por la codificación de los valores de los datos de la segunda señal de subbanda.

[0060] Según otro aspecto de la invención, se proporciona un receptor para recibir una señal de audio, comprendiendo el receptor: medios para recibir una corriente de datos codificados; medios para generar una primera señal de sub- banda por la codificación de los valores de los datos de la corriente de datos codificados, correspondiendo la primera señal de subbanda a una representación de la señal de dominio de la subbanda compleja, muestreada críticamente, de la señal de audio del dominio del tiempo; medios de conversión para generar una segunda señal de subbanda a partir de la primera señal de subbanda por el procesamiento de la subbanda, correspondiendo la segunda señal de subbanda a una representación del dominio de la subbanda compleja, muestreada no críticamente, de la señal de audio del dominio del tiempo; y un banco de filtros de síntesis para generar una señal de audio del dominio del tiempo a partir de la segunda señal de la subbanda.

[0061] Según otro aspecto de la invención, se proporciona un transmisor para transmitir una señal de audio codificada, comprendiendo el transmisor: medios para recibir una señal de audio del dominio del tiempo; un primer banco de filtros para generar una primera señal de subbanda a partir de la señal de audio del dominio del tiempo, correspondiendo la primera señal de subbanda a una representación del dominio de subbanda compleja, muestreada no críticamente, de la señal del dominio del tiempo; medios de conversión para generar una segunda señal de subbanda a partir de la primera señal de subbanda por el procesamiento de la subbanda, correspondiendo la segunda señal de subbanda a una representación del dominio de subbanda compleja, muestreada críticamente, de las señales de audio del dominio del tiempo; y medios para generar una corriente de datos codificados de la forma de onda por la codificación de los valores de datos de la segunda señal de subbanda, y medios para transmitir la corriente de datos codificados de la forma de onda.

[0062] Según otro aspecto de la invención, se proporciona un sistema de transmisión para transmitir una señal de audio del dominio del tiempo, comprendiendo el sistema de transmisión: un transmisor que comprende: medios para recibir la señal de audio del dominio del tiempo, un primer banco de filtros para generar una primera señal de subbanda a partir de la señal de audio del dominio del tiempo, correspondiendo la primera señal de subbanda a una representación de dominio de subbanda compleja, muestreada no críticamente, de la señal del dominio del tiempo, medios de conversión para generar una segunda señal de subbanda a partir de la primera señal de subbanda por el procesamiento de la subbanda, correspondiendo la segunda señal de subbanda a una representación del dominio de subbanda compleja, muestreada críticamente, de las señales de audio del dominio del tiempo, medios para generar una corriente de datos codificados por la forma de onda, por la codificación de los valores de datos de la segunda señal de subbanda, y medios para transmitir la corriente de datos codificados de la forma de onda; y un receptor que comprende: medios para recibir la corriente de datos codificados de la forma de onda, medios para generar una tercera señal de la subbanda por la decodificación de los valores de datos de la corriente de datos codificados, correspondiendo la tercera señal de subbanda a una representación de la señal del dominio de la subbanda compleja, muestreada críticamente, de la señal de audio del domino del tiempo, medios de conversión para generar una cuarta señal de subbanda a partir de la tercera señal de subbanda por el procesamiento de la subbanda, correspondiendo la cuarta señal de subbanda a una representación del dominio de la subbanda compleja, muestreada no críticamente, de la señal de audio del dominio del tiempo; y un banco de filtros de síntesis para generar una señal de audio del dominio del tiempo a partir de la cuarta señal de la subbanda.

[0063] Según otro aspecto de la invención, se proporciona un procedimiento de recepción de una señal de audio, comprendiendo el procedimiento: recibir una corriente de datos codificados; generar una primera señal de subbanda por la decodificación de los valores de los datos de la corriente de datos codificados, correspondiendo la primera señal de subbanda a una representación de la señal del dominio de subbanda compleja, muestreada críticamente, de la señal de audio del dominio del tiempo; generar una segunda señal de subbanda a partir de la primera señal de subbanda por el procesamiento de la subbanda, correspondiendo la segunda señal de subbanda a una representación del dominio de subbanda compleja, muestreada no críticamente, de la señal de audio del dominio del tiempo; y un banco de filtros de síntesis que genera una señal de audio del dominio del tiempo a partir de la segunda señal de la subbanda.

[0064] Según otro aspecto de la invención, se proporciona un procedimiento de transmisión de una señal de audio codificada, comprendiendo el procedimiento: recibir una señal de audio del dominio del tiempo; un primer banco de filtros que genera una primera señal de subbanda a partir de la señal de audio del dominio del tiempo, correspondiendo la primera señal de subbanda a una representación del dominio de subbanda compleja, muestreada no críticamente, de la señal del dominio del tiempo; generar una segunda señal de subbanda a partir de la primera señal de subbanda por el procesamiento de la subbanda, correspondiendo la segunda señal de subbanda a una representación del dominio de subbanda compleja, muestreada críticamente, de las señales de audio del dominio de tiempo; y generar una corriente de datos codificados de la forma de onda por la codificación de los valores de los datos de la segunda señal de subbanda; y transmitir la corriente de datos codificados de la forma de onda.

[0065] Según otro aspecto de la invención, se proporciona un procedimiento de transmisión y recepción de una señal de audio del dominio del tiempo, comprendiendo el procedimiento: un transmisor, que recibe la señal de audio del dominio del tiempo, un primer filtro de bancos que genera una primera señal de subbanda a partir de la señal de audio del dominio del tiempo, correspondiendo la primera señal de subbanda a una representación del dominio de subbanda compleja, muestreada no críticamente, de la señal del dominio del tiempo, generar una segunda señal de subbanda a partir de la primera señal de subbanda por el procesamiento de la subbanda, correspondiendo la segunda señal de subbanda a una representación del dominio de subbanda compleja, muestreada críticamente, de las señales de audio del dominio del tiempo, generar una corriente de datos codificados de la forma de onda por la codificación de los valores de datos de la segunda señal de la subbanda, y transmitir la corriente de datos codificados de la forma de onda; y un receptor: que recibe la corriente de datos codificados de la forma de onda, generando una tercera señal de la subbanda por la decodificación de los valores de datos de la corriente de datos codificados, correspondiendo la tercera señal de subbanda a una representación de la señal del dominio de la subbanda compleja, muestreada críticamente, de la señal de audio del dominio del tiempo, generando una cuarta señal de subbanda a partir de la tercera señal de subbanda por el procesamiento de la subbanda, correspondiendo la cuarta señal de subbanda a una representación del dominio de subbanda compleja, muestreada no críticamente, de la señal de audio del dominio del tiempo; y un banco de filtros de síntesis que generan una señal de audio del dominio del tiempo a partir de la cuarta señal de la subbanda.

[0066] Según otro aspecto de la invención, se proporciona un producto de programa informático para ejecutar cualquiera de los procedimientos descritos anteriormente.

[0067] Estos y otros aspectos, características y ventajas de la invención serán evidentes a partir de, y serán deducidos con referencia a la(s) realización (es) descrita(s) en esta invención posteriormente.

[0068] Las realizaciones de la invención serán descritas, a modo de ejemplo únicamente, con referencia a las figuras, en las cuales:

La figura 1 ilustra un sistema de transmisión 100 para la comunicación de una señal de audio según algunas realizaciones de la invención;

La figura 2 ilustra un codificador según algunas realizaciones de la invención,

La figura 3 ilustra un ejemplo de algunos elementos de un codificador según algunas realizaciones de la invención; La figura 4 ilustra un decodificador según algunas realizaciones de la invención,

La figura 5 ilustra un codificador según algunas realizaciones de la invención;

La figura 6 ilustra un ejemplo de un banco de filtros de análisis y síntesis;

La figura 7 ilustra un ejemplo de un espectro de un banco de filtros de QMF;

La figura 8 ilustra ejemplos de los espectros de los filtros de subbanda de QMF muestreados descendentemente; La figura 9 ilustra ejemplos de espectros de subbanda de QMF;

La figura 10 ilustra ejemplos de los espectros de un banco de filtros de subbanda; y

La figura 11 ilustra un ejemplo de las estructuras de transformación en forma de mariposa.

[0069] La figura 1 ilustra un sistema de transmisión 100 para la comunicación de una señal de audio según algunas realizaciones de la invención. El sistema de transmisión comprende un transmisor 101 que está acoplado a un receptor 103 por medio de una red 105 que específicamente puede ser Internet.

[0070] En el ejemplo especifico, el transmisor 101 es un dispositivo de registro de la señal y el receptor es un dispositivo reproductor de la señal 103 pero se apreciará que en otras realizaciones se pueden utilizar un transmisor y un receptor en otras aplicaciones y para otros propósitos. Por ejemplo, el transmisor 101 y/o el receptor 103 pueden ser parte de una funcionalidad de transcodificación y pueden proporcionar por ejemplo la interconexión con otras fuentes o destinos de la señal.

[0071] En el ejemplo especifico donde se soporta una función de registro de la señal, el transmisor 101 comprende un digitalizador 107 que recibe una señal analógica que es convertida a una señal de PCM digital por el muestreado y la conversión analógica a digital.

[0072] El transmisor 101 está acoplado al codificador 109 de la figura 1 que codifica la señal de PCM según un algoritmo de codificación. El codificador 100 está acoplado a un transmisor 111 de la red que recibe la señal codificada y se interconecta con Internet 105. El transmisor de la red puede transmitir la señal codificada al receptor 103 por medio de Internet 105.

[0073] El receptor 103 comprende un receptor 113 de la red que se interconecta con Internet 105 y que está dispuesto para recibir la señal codificada desde el transmisor 101.

[0074] El receptor 111 de la red está acoplado a un decodificador 115. El decodificador 115 recibe la señal codificada y la decodifica según un algoritmo de decodificación.

[0075] En el ejemplo especifico donde se soporta una función de reproducción de la señal, el receptor 103 comprende además un reproductor de la señal 117 que recibe la señal de audio decodificada desde el decodificador 115 y presenta esta al usuario. Específicamente, el reproductor 113 de la señal puede comprender un convertidor de digital a analógico, amplificadores y altavoces cuando sean requeridos para hacer salir la señal de audio decodificada.

[0076] La figura 2 ilustra el codificador 109 de la figura 1 con mayor detalle. El codificador 109 comprende un receptor 201 que recibe una señal de audio del dominio del tiempo que va a ser codificada. La señal de audio puede ser recibida desde cualquier fuente externa o interna, tal como desde un almacenamiento de la señal local.

[0077] El receptor está acoplado a un primer banco de filtros 203 que generan una señal de subbanda que comprende una pluralidad de diferentes subbandas. Específicamente, el primer banco de filtros 203 puede ser un banco de filtros de QMF como es conocido a partir de las técnicas de codificación paramétricas tales como SBR, PS y SAC. Por consiguiente, el primer banco de filtros 203 genera una primera señal de la sub- banda que corresponde a una representación del dominio de subbanda compleja, muestreada no críticamente, de la señal del dominio del tiempo. En el ejemplo especifico, la primera señal de subbanda tiene un factor de sobremuestreo de dos como es bien conocido para los filtros de QMF de modulación compleja.

[0078] Puesto que cada banda de QMF es sobremuestreada por un factor de dos, es posible efectuar muchas operaciones de procesamiento de la señal sobre las subbandas individuales sin introducir ninguna distorsión con pérdida de datos. Por ejemplo, cada subbanda individual puede ser escalada por ejemplo, y/u otras subbandas pueden ser agregadas o restadas, etc. Por consiguiente, en algunas realizaciones, el codificador 109 comprende además medios para efectuar operaciones de procesamiento de la señal sin distorsión sobre las subbandas de QMF.

[0079] La primera señal de subbanda corresponde a las señales de subbanda generadas convencionalmente por codificadores de extensión paramétrica tales como SBR, PS y SAC. Por consiguiente, la primera señal de subbanda puede ser utilizada para generar una extensión paramétrica que codifica la señal de dominio del tiempo. Además, la misma señal de subbanda está en el codificador 109 de la figura 2 que también es utilizado para una codificación de la forma de onda de la señal de dominio del tiempo. Por consiguiente, el codificador 109 puede utilizar el mismo banco de filtros 203 para la codificación paramétrica y de la forma de onda de una señal.

[0080] La principal dificultad en la codificación de la forma de onda de la representación del dominio de subbanda de evaluación compleja de la primera señal de subbanda es que la misma no forma una representación compacta, es decir, la misma es sobremuestreada en un factor de dos. El codificador transforma directamente la representación del dominio de subbanda compleja en una representación que se asemeje estrechamente a una representación que podría haber sido obtenida cuando se aplica una Transformada del Coseno Discreto Modificada (MDCT (por sus siglas en inglés)) directamente a la señal de dominio del tiempo original (véase, por ejemplo, H. Malvar, "Signal Processing with Lapped Transforms", Artech House, Boston, Londres, 1992 para una descripción de la MDCT). Esta representación semejante a MDCT es muestreada críticamente. Como tal, esta señal es adecuada para las técnicas de codificación de audio perceptuales conocidas, que pueden ser aplicadas para codificar de manera eficaz la representación resultante que conduce a una codificación de la forma de onda eficaz.

[0081] En particular, el codificador 109 comprende un procesador de conversión 205 que genera una segunda señal de subbanda a partir de la primera señal de subbanda por la aplicación de una transformada compleja a las subbandas individuales de la primera señal de subbanda. La segunda señal de subbanda corresponde a la representación del dominio de subbanda compleja, muestreada críticamente, de las señales de audio del dominio del tiempo.

[0082] Por consiguiente, en el codificador 109, el procesador de conversión 205 convierte la salida del banco de filtros de QMF, la cual es compatible con los codificadores de extensión paramétrica comunes, típicos, a una subbanda semejante a MDCT muestreada críticamente que corresponde estrechamente a las señales de subbanda que son generadas típicamente en los codificadores de la forma de onda convencionales.

[0083] Por consiguiente, en lugar de utilizar los agentes de transformación de QMF y MDCT, la primera señal de subbanda es procesada directamente en el dominio de subbanda para generar una segunda señal de subbanda que puede ser tratada como una señal de MDCT de un codificador de la forma de onda convencional. Por consiguiente, las técnicas conocidas para la codificación de la señal de subbanda pueden ser aplicadas y una codificación de la forma de onda eficaz por ejemplo, de la señal residual a partir de una extensión paramétrica de la codificación, puede ser lograda sin que se requiera una conversión al dominio del tiempo y, por consiguiente, se puede eliminar el requisito de los filtros de síntesis de QMF.

[0084] En el ejemplo, el codificador 109 comprende un procesador de la codificación 207 que es acoplado al procesador de conversión 205. El procesador de codificación 207 recibe la segunda señal de subbanda semejante a MDCT muestreada críticamente desde el procesador de conversión 205 y codifica está utilizando técnicas de codificación de la forma de onda convencionales incluyendo por ejemplo la cuantización, los factores de escala, la codificación de Huffman, etc. Los datos codificados resultantes son intercalados en una corriente de datos codificados. La corriente de datos puede comprender además otros datos codificados tales como, por Ejemplo, los datos de codificación paramétricos.

[0085] Como se describirá con detalle en lo que sigue, el procesador de conversión 205 utiliza la información del filtro fundamental (o prototipo) del primer banco de filtros 203 para combinar los componentes de la señal de las diferentes subbandas en las bandas sin distorsión (o bandas de paso) y para eliminar los componentes de la señal de las bandas con distorsión (o bandas de detención). En consecuencia, los componentes de frecuencia de la banda con distorsión para cada subbanda pueden ser ignorados conduciendo a una señal muestreada críticamente sin sobremuestreo.

[0086] Específicamente, como se describe en lo sucesivo, el procesador de conversión 205 comprende un segundo filtro que genera una pluralidad de subbandas para cada una de las subbandas del banco de filtros de QMF. Por consiguiente, las subbandas son divididas en sub-subbandas adicionales. Debido a la superposición entre los filtros de QMF, un componente dado de la señal, de la señal del dominio del tiempo (digamos una sinusoide a una frecuencia específica), puede conducir a un componente de la señal en dos subbandas diferentes de QMF. El segundo banco de filtros dividirá adicionalmente estas subbandas de tal modo que el componente de la señal será representado en una sub-subbanda de la primera subbanda de QMF y en una sub-subbanda de la segunda subbanda de QMF. Los valores de datos de estas dos señales de sub-subbanda son alimentados al combinador que combina las dos señales para generar un componente de una sola señal. Este componente de una sola señal es codificado entonces por el procesador de codificación 207.

[0087] La figura 3 ilustra un ejemplo de algunos elementos del procesador de conversión 205. En particular, la figura 3 ilustra un primer banco de filtros de conversión 301 para una primera subbanda de QMF y un segundo banco de filtros de conversión 303 para una segunda subbanda de QMF. Las señales de las sub-subbandas que corresponden a las mismas frecuencias son alimentadas entonces al combinador 305 que genera un valor de datos de salida, único, para la sub-subbanda.

[0088] Se apreciará que el decodificador 115 puede efectuar las operaciones inversas del codificador 109. La figura 4 ilustra el decodificador 115 con mayor detalle.

[0089] El decodificador comprende un receptor 401 que recibe la señal codificada por el codificador 109 desde el receptor de la red 113. La señal codificada es pasada a un procesador de decodificación 403 que decodifica la codificación de la forma de onda del procesador de codificación 207 por lo cual, recrea la señal de subbanda muestreada críticamente. Esta señal es alimentada a un procesador de conversión decodificador 405 que recrea la señal de subbanda muestreada no críticamente por la ejecución de la operación inversa del procesador de conversión 205. La señal muestreada no críticamente es alimentada entonces a un filtro de síntesis de QMF 407 que genera una versión decodificada de la señal de codificación de audio del dominio del tiempo original.

[0090] En particular, el procesador de conversión de decodificación 405 comprende un divisor, tal como una estructura en forma de mariposa inversa, que regenera los componentes de la señal en las sub-subbandas incluyendo las bandas de la señal en las bandas tanto con distorsión como sin distorsión. Las señales de sub-subbanda son alimentadas entonces a un banco de filtros de síntesis que corresponde al banco de filtros de conversión 301, 303 del codificador 109. La salida de estos bancos de filtros corresponde a la señal de subbanda muestreada no críticamente.

[0091] Las realizaciones específicas de la invención serán descritas con mayor detalle en lo sucesivo. La descripción de las realizaciones se describirá con referencia a la estructura del codificador de la figura 5. La estructura 500 del codificador puede ser implementada específicamente en el codificador 109 de la figura 1.

[0092] La estructura 500 del codificador comprende un banco de filtros de QMF 501 de análisis de 64 bandas.

[0093] El filtro de subbanda de análisis de QMF puede ser descrito como sigue. Dado un filtro prototipo de fase lineal evaluado realmente p(v), un banco de filtros de análisis modulado complejo de M-bandas puede ser definido por los filtros de análisis

para el índice de subbanda k = 0, 1,..., M-l. El parámetro de la fase 0 tiene importancia para el análisis que sigue. Una elección típica es (N M)/2, donde N es el orden del filtro prototipo.

[0094] Dada una señal de tiempo discreta, evaluada realmente x(v), la señales de subbanda vk(n) son obtenidas por la filtración (convolución) de x(v) con hk(v), y, a continuación, mediante el muestreo de forma descendente del resultado por un factor M como se ilustra por el lado izquierdo de la figura 6 que ilustra la operación de los bancos de filtros de análisis y síntesis de QMF del codificador 109 y el decodificador 115.

[0095] Supongamos que una operación de síntesis consiste en muestrear de forma ascendente primero las señales de subbanda de QMF con un factor M, seguido por la filtración con los filtros modulados complejos del tipo semejante a la ecuación (1), añadiendo los resultados y, finalmente, tomando dos veces la parte real como se ilustra por el lado derecho de la figura 6. En tal caso, una reconstrucción casi perfecta de la señal de entrada evaluada realmente x(v) puede ser obtenida por el diseño adecuado de un filtro prototipo de fase lineal, evaluado realmente p(v), como se muestra en P. Ekstrand, "Bandwidth extension of audio signals by spectral band replication", Proc. 1st IEEE Benelux Workshop on Model based Processing and Coding of Audio (MPCA-2002), pp. 53-58, Leuven, Bélgica, 15 de noviembre del 2002.

[0096] En lo siguiente, tenemos que X ,,_ „.z( ' r)exp ( iníú) es la transformada de Fourier de tiempo discreto de una señal de tiempo discreta z(n).

[0097] Además de la propiedad de reconstrucción casi perfecta del banco de QMF, se supondrá que P(w), la transformada de Fourier de p(v), se desvanece esencialmente fuera del intervalo de frecuencia [-n/M,n/M].

[0098] La transformada de Fourier de las señales de dominio de subbanda compleja muestreada de forma descendente está dada por:

donde k es el índice de la subbanda y M es el número de subbandas. Debido a la suposición de que la respuesta de la frecuencia del filtro prototipo está limitada, la suma en la ecuación (2) contiene solamente un término para cada w.

[0099] Las respuestas de la frecuencia absoluta estilizada correspondientes se muestran en la figura 7 y la figura 8.

[0100] Específicamente, la figura 7 ilustra las respuestas de la frecuencia estilizada para las primeras bandas de frecuencia de un número pequeño del banco de QMF complejo 501 antes del muestreo descendente. La figura 8 ilustra las respuestas de frecuencia estilizadas del banco de QMF complejo, muestreado de forma descendente, para las subbandas k pares (parte superior) e impares (parte inferior). Por consiguiente, como se ilustra en la figura 8, el centro de una banda de filtros de QMF se muestreará de forma descendente después de ser distorsionado con w2 para las subbandas de números pares y con -n2 para las subbandas de números impares.

[0101] La figura 8 ilustra el efecto del sobremuestreo del banco de QMF complejo. Para las bandas con un índice k par y con un índice k impar, respectivamente las partes negativa y positiva del espectro de frecuencia no son requeridas para reconstruir la señal (originalmente evaluada realmente). Estas partes del espectro de frecuencia del banco de filtros muestreado de forma descendente serán referidas como las bandas distorsionadas o las bandas de detención, mientras que las otras partes serán indicadas como la banda de paso o la banda no distorsionada. Se señala que las bandas distorsionadas contienen información que también está presente en las bandas de paso de los espectros de otras subbandas. Esta propiedad particular se utilizará para derivar un mecanismo de codificación eficaz.

[0102] Se apreciará que las bandas con distorsión y sin distorsión comprenden información redundante y que una puede ser determinada a partir de la otra. También se apreciará que la interpretación complementaria de las bandas tanto con distorsión como sin distorsión, puede ser utilizada.

[0103] Como se mostrará en lo sucesivo, las energías correspondientes a las bandas distorsionadas (o bandas de detención) del banco de filtros de análisis de QMF pueden ser reducidas a valores de cero o insignificantes por la aplicación de un cierto tipo de banco de filtros adicional 503 en cada salida del banco de filtros de análisis 501 muestreado de forma descendente y aplicando ciertas estructuras en forma de mariposa 505 entre las salidas de los bancos de filtros adicionales 501.

[0104] Como una consecuencia, la mitad de la información, es decir, la mitad de las salidas del banco de filtros pueden ser descartadas. Como resultado, se obtiene una representación muestreada críticamente. Esta representación es muy semejante a la representación lograda por una transformada de MDCT de las muestras de dominio del tiempo original y, por lo tanto, se asemeja estrechamente a las señales de subbanda que son generadas por los codificadores de la forma de onda, típicos, tales como MP3 o AAC. En consecuencia, las técnicas de codificación de la forma de onda pueden ser aplicadas directamente a la señal muestreada críticamente en el procesador 507 de codificación de la forma de onda y no es necesario ningún requisito para la conversión al dominio del tiempo seguido por una generación de la subbanda de MDCT. Los datos codificados resultantes son incluidos entonces en una corriente de bits por un procesador 509 de la corriente de bits.

[0105] La figura 9 ilustra el efecto de la generación de subbanda de QMF para una señal que consiste de dos sinusoides.

[0106] En el dominio de la frecuencia compleja (tal como, por ejemplo, la obtenida por medio de un FFT), cada sinusoide mostrará hacia arriba en el espectro una frecuencia tanto positiva como negativa. Ahora supongamos un banco de QMF completo de 8 bandas (en el ejemplo de la figura 5, se emplea un banco de 64 bandas). Antes del muestreo descendente, las sinusoides se mostrarán hacia arriba como se ilustra en los espectros A hasta H. Como se ilustró, cada sinusoide está presente en dos subbandas, por ejemplo, la línea espectral de frecuencia baja está presente tanto en el espectro A, que corresponde a la primera subbanda de QMF, así como en el espectro B, que corresponde a la segunda subbanda de QMF.

[0107] El procedimiento de muestreo descendente del banco de QMF es ilustrado en la parte inferior de la figura 9, donde el espectro I muestra el espectro anterior al muestreo descendente. El procedimiento de muestreo descendente puede ser interpretado del siguiente modo. En primer lugar, el espectro es dividido en M espectros A hasta H, donde M es el factor de muestreo descendente (M = 8) como se ilustra en I y K para la primera y segunda subbandas respectivamente. Cada espectro dividido individual es expandido (estirado) de nuevo hasta el intervalo de frecuencia total. A continuación, se añade la totalidad de los espectros expandidos y divididos, individuales, que resultan en los espectros ilustrados en los espectros J y L para la primera y segunda subbandas respectivamente.

[0108] En resumen, debido a que el filtro de cada subbanda individual tiene un ancho de banda que excede el intervalo de frecuencia entre las subbandas, los componentes de la señal de dominio del tiempo conducirán a componentes de la señal en dos subbandas diferentes. Además, uno de estos componentes de la señal caerá en la banda con distorsión de una de las subbandas y uno caerá en la banda sin distorsión de la otra sub- banda.

[0109] De este modo, como se muestra en los espectros J y L, en el espectro de salida final del banco de QMF complejo, los componentes todavía están presentes en dos subbandas, por ejemplo, la línea espectral de frecuencia baja está presente en la banda de paso de la primera subbanda, así como en la banda de detención de la segunda subbanda. La magnitud de la línea espectral en ambos casos está dada por la respuesta de la frecuencia del filtro prototipo (desplazado).

[0110] De conformidad con las realizaciones de la figura 5, un conjunto adicional de transformadas complejas (el banco de filtros 503) se introduce donde cada transformada es aplicada a la salida de una subbanda. Este es utilizado para dividir adicionalmente el espectro de frecuencia de aquellas subbandas en una pluralidad de subsubbandas.

[0111] Cada sub-subbanda en la banda de paso de una subbanda de QMF se combina entonces con las subsubbandas correspondientes de la banda con distorsión en la subbanda de QMF adyacente. En el ejemplo, la subsubbanda que comprende la sinusoide de la frecuencia baja en el espectro J es combinada con la sinusoide de frecuencia baja en el espectro L conduciendo por consiguiente a ambos componentes de la señal que surgen de la misma sinusoide de frecuencia baja de la señal de dominio del tiempo que se combina en un solo componente de la señal.

[0112] Además, para compensar la respuesta de la frecuencia del filtro prototipo de QMF, el valor de cada subsubbanda es compensado por la amplitud relativa de la respuesta de la frecuencia antes de la combinación (se supone que la respuesta de la amplitud del filtro prototipo de QMF es constante dentro de cada sub-subbanda).

[0113] Los componentes de la señal en las bandas de detención pueden ser ignorados o pueden ser compensados por los valores de la banda de paso por lo cual se reduce efectivamente la energía en la banda con distorsión. Por consiguiente, la operación del procesador de conversión 207 puede ser observada como la correspondiente a la concentración de la energía de los dos componentes de la señal que surgen para cada frecuencia en un solo componente de la señal en la banda de paso de una de las subbandas de QMF. Por consiguiente, cuando los valores de la señal en las bandas de detención o con distorsión pueden ser ignorados, un muestreo descendente eficaz por dos puede ser logrado, conduciendo a una señal muestreada críticamente.

[0114] Como se observará en lo sucesivo, la combinación de los componentes de la señal (y la cancelación de los componentes de la señal en las bandas con distorsión) puede ser lograda utilizando una estructura con forma de mari posa.

[0115] En principio, aplicando otra transformada compleja (50% de superposición) (por los bancos de filtros 503) sobre las señales de subbanda, podría dar otro muestreo ascendente de un factor de 2. Sin embargo, las transformadas elegidas poseen una cierta propiedad simétrica que permite una reducción del 50% de los datos. La transformada resultante puede ser considerada equivalente a la aplicación de un MDCT a los datos reales y un MDST a los datos imaginarios. Ambas son transformadas muestreadas críticamente y, por consiguiente, no ocurre un muestreo ascendente.

[0116] Con mayor detalle, los bancos de filtros 503 pueden ser un banco de filtros modulados complejos que consiste en las bandas R = 2Q. Un ejemplo de una respuesta de frecuencia estilizada de los bancos de filtros 503 para cada subbanda se muestra en la figura 10, para cada subbanda k. Como se puede observar, el banco filtrante es apilado de manera impar y no tiene una subbanda centrada alrededor del valor de DC. En lugar de esto, en el ejemplo, las frecuencias centrales de las subbandas son simétricas alrededor de cero con la frecuencia central de la primera subbanda que está alrededor de la mitad del desplazamiento de frecuencia de la subbanda.

[0117] El factor de muestreo descendente en este segundo banco es Q y está definido por los filtros de análisis, para r = -Q, -Q+1,..., Q-1,

g ,(v )=M y)exp \¡^ (r+V 2)(v - in ) [ (3)

donde la ventana prototipo evaluada realmente w(v) es tal que w(v) = w(-v-1-Q). Se sabe bien que esta ventana puede ser diseñada de tal modo que una reconstrucción perfecta pueda ser lograda del análisis en un banco de filtros con los filtros que son iguales ya sea a la parte real de (3) o la parte imaginaria de (3). En estos casos, solamente Q de las R = 2Q subbandas es suficiente, para las frecuencias ya sean positivas o negativas. Un ejemplo destacado es la transformada del coseno discreta, modificada MDCT.

[0118] Sin embargo, en la realización de la figura 5, una señal de valor complejo z(n) es analizada en lugar de esto con los filtros 503, las señales resultantes son muestreadas de forma descendente por un factor Q y la parte real es tomada. La operación de síntesis correspondiente consiste en el muestreo ascendente por un factor Q, y la filtración de síntesis por los filtros modulados complejos,

sumando los resultados sobre las R = 2Q subbandas, r = -Q, -Q+1,..., Q-1, y finalmente dividiendo el resultado entre 2.

[0119] Si la ventana prototipo w(v) está diseñada para dar una reconstrucción perfecta en los bancos evaluados realmente 20 mencionados anteriormente, la operación combinada del análisis y la síntesis en el caso complejo reconstruirá perfectamente la señal evaluada compleja z (n). Para observar esto, se deja que C represente el banco de análisis que tiene los filtros de análisis iguales a la parte real de (3), y se deja que S represente el banco de análisis que tiene los filtros de análisis iguales a menos la parte imaginaria de (3). Entonces, el banco de análisis complejo (3) puede ser escrito como E = C - iS. Escribiendo la señal compleja como z = ^+ ¡n se tiene entonces

[0120] Aquí (5) es evaluado para ambas frecuencias positivas r = 0,..., Q-1, y las frecuencias negativas r = -Q,..., -1. Cabe observar que cambiando r a -1-r en (3) conduce a una conjugación completa del filtro de análisis, de modo que el análisis (5) proporciona acceso a tanto C^ Sn como C - Sn para las frecuencias positivas r = 0,..., Q-1. Para la síntesis, esta información puede ser recombinada fácilmente en C y Sn, a partir de las cuales es posible una reconstrucción perfecta tanto de ^como de n con los bancos de síntesis evaluados realmente correspondientes. Se omiten los detalles directos de demostrar la afirmación de que esta reconstrucción es equivalente a la operación del análisis complejo, la parte real, la síntesis compleja, y la división entre dos.

[0121] Esta estructura de banco de filtros está relacionada con, pero no es idéntica a, los bancos de filtros de DFT modificados (MDFT) como está propuesto en Karp T., Fliege N.J., "Modified DFT Filter Banks with Perfect Reconstruction", IEEE Transactions on Circuits and Systems-II: Analog and Digital Signal Processing, Vol. 46, N. ° 11, noviembre de 1999. Una diferencia principal es que el presente banco de filtros esta apilado de manera impar, un hecho que es ventajoso para el seguimiento propuesto de la estructura hibrida.

[0122] Para cada k = 0, 1,..., M-l y r = -Q, -Q+1,..., Q-1, se deja que v^k,^r(n) sea la señal de sub-subbanda lograda por el análisis de la señal de análisis de QMF compleja y^k(v) con el filtro de análisis 503, el muestreo descendente por un factor Q, y la toma de la parte real. Esto proporciona un total de 2QM señales evaluadas realmente a una velocidad de muestreo de 1/(QM) de la velocidad de muestreo original. Por consiguiente, se obtiene una representación sobremuestreada por un factor de dos. Con referencia a las figuras 8 y 10, es conveniente definir las señales de la banda de paso por

De manera similar, las señales de banda de detención o de "banda con distorsión", anteriormente mencionadas, se definen a partir de

[0123] Cabe observar que ambas de estas señales son muestreadas críticamente.

[0124] La siguiente etapa es aprovechar el hecho de que si la señal del tiempo es una sinusoide pura a la frecuencia w' (2M) < Q < n - n(2M) y si 0 = 0 en (1), entonces

donde C es una constante compleja. Como resultado, las bandas de QMF vecinas contendrán, por consiguiente, sinusoides complejas con la misma frecuencia y fase, pero con diferentes magnitudes, debido a la respuesta del filtro prototipo de QMF de fase lineal modulada. Por consiguiente, como se mencionó anteriormente, dos componentes de la señal surgen - uno en la banda de paso de una subbanda de QMF y uno en la banda con distorsión de una subbanda adyacente.

[0125] La transformación de los pares correspondientes de las muestras de sub-subbanda en las sumas y diferencias compensadas conducirá por lo tanto a diferencias muy pequeñas. Antes de describir los detalles de esta transformada, se debe puntualizar que si la suposición de que 0 = 0 no se satisface, las muestras de QMF deben ser preferentemente compensadas en la fase siendo premultiplicadas (premanipuladas) en un procesador de premanipulación 511 según

yk(n) = cxp(/JT0(í: 1 ! 2) / M) yk(n). (9)

[0126] Alternativamente, un salto de fase adicional de kn en el procesador de premanipulación también podría ser gestionado por la estructura en la forma de mariposa por el signo negativo.

[0127] Para k = 0,..., M-2 las señales de la suma y diferencia están definidas por

[0128] Para la primera y la última banda de QMF, la definición es reemplazada por

[0129] La figura 11 ilustra las estructuras en forma de mariposa de la transformada correspondientes. Estas estructuras en forma de mariposa son semejantes a aquellas utilizadas en la capa III de MPEG-1 (MP3). Sin embargo, una diferencia importante es que las estructuras con forma de mariposa así llamadas de antidistorsión de MP3 son utilizadas para reducir la distorsión en las bandas de paso del banco de filtros evaluados realmente. En un banco de filtros modulado realmente, no es posible distinguir entre las frecuencias positiva y negativa (complejas) en las subbandas. En la etapa de síntesis, una sinusoide en la subbanda ocasionará generalmente, por lo tanto, dos sinusoides en la salida. Una de estas, la sinusoide con distorsión, está localizada a una frecuencia muy lejos de la frecuencia correcta. Las estructuras con forma de mariposa antidistorsión del banco real ayudan a suprimir la sinusoide distorsionada por la dirección del segundo banco de híbridos de la síntesis hacia dos bandas de QMF reales circundantes. El presente procedimiento difiere fundamentalmente de esta situación en que la subbanda de QMF compleja es alimentada con una sinusoide compleja desde el segundo banco de híbridos. Esto ocasiona que solamente una sinusoide localizada correctamente en la salida final, y el problema de la distorsión MP3 nunca ocurra. Las estructuras con forma de mariposa 505 ayudan solamente a corregir la respuesta de la magnitud de la operación de análisis y síntesis combinadas, cuando las diferentes señales d son omitidas.

[0130] Cabe observar en primer lugar que, si los coeficientes de la transformada son fijados en p^k,^r=l y a^k,^r=0, entonces el par de señales (s,d) serán justamente una copia del par (b,a). Esto se puede hacer de una manera selectiva puesto que la estructura de (10) y (11) es tal que los cálculos se pueden hacer en su lugar. Esto tiene importancia para el caso en el que la estructura de bancos filtrantes híbridos sea invocada solamente para un subconjunto de bandas de QMF. La totalidad de las operaciones de suma y diferencia se pueden invertir siempre que p2k, r a2k,r > 0 y la transformación es ortogonal si p2k, r a2k,r = 1.

[0131] Las etapas de síntesis correspondientes son muy semejantes a (10) y (11) y serán claras para una persona experta. Esto también se mantiene para la inversión de la pre-manipulación por el procesador de pre manipulación 511. La presente estrategia muestra que las señales d^k,^r(n) llegan a ser muy pequeñas para la elección donde pk,Q-1-r = pk,r y a^k,Q-1-r = a^k,^r, y

donde K es una constante de normalización.

[0132] Así, bajo la suposición de que el banco de filtros adicionales para cada subbanda k es muestreado críticamente y reconstruido perfectamente, la aproximación de las señales de dominio de la sub-subbanda de la banda con distorsión prácticamente reduce la representación sobremuestreada a una representación muestreada críticamente que se asemeja estrechamente a la MDCT de las muestras del dominio del tiempo originales. Esto permite la codificación eficaz de las señales de dominio de subbanda compleja de un modo semejante a los codificadores de la forma de onda perceptual conocidos. El error de reconstrucción de desecho de los coeficientes de la transformada correspondientes a las bandas de detención o con distorsión es del orden de 34 dB para una longitud de la transformada típica Q = 16.

[0133] Alternativamente, los coeficientes correspondientes a las bandas de detención o las bandas con distorsión pueden ser codificados adicionalmente hasta los coeficientes que corresponden a las bandas de paso para obtener una mejor reconstrucción. Esto puede ser beneficioso en el caso de que Q sea muy pequeño (por ejemplo Q < 8) o en el caso de un escaso rendimiento del banco de QMF.

[0134] En el ejemplo de la figura 5, las estructuras con forma de mariposa de la suma-diferencia de (10) y (11) 505 son aplicadas para obtener el par de señales (s, d) de las cuales en este caso solamente los componentes dominantes son preservados. En una siguiente etapa, las técnicas de codificación de la forma de onda convencionales que utilizan por ejemplo la codificación y cuantificación del factor de escala son aplicadas sobre la(s) señal(es) resultante(s). Los coeficientes codificados son intercalados en una corriente de bits.

[0135] El decodificador sigue el procedimiento inverso. En primer lugar, los coeficientes son demultiplexados de la corriente de bits y decodificados. A continuación, la operación inversa de la estructura en forma de mariposa del codificador se aplica seguida por la filtración de síntesis y la postmanipulación para obtener las señales de dominio de la subbanda compleja. Estas pueden ser transformadas finalmente al dominio del tiempo por medio del banco de síntesis de QMF.

[0136] Se apreciará que la descripción anterior por razones de claridad ha descrito las realizaciones de la invención con referencia a diferentes unidades y procesadores funcionales. Sin embargo, será evidente que cualquier distribución adecuada de la funcionalidad entre diferentes unidades o procesadores funcionales puede ser utilizada sin perjudicar la invención. Por ejemplo, la funcionalidad ilustrada que va a ser efectuada por procesadores o controladores separados puede ser efectuada por los mismos procesadores o controladores. Por consiguiente, las referencias a las unidades funcionales específicas son solamente para que sean observadas como referencias a los medios adecuados para proporcionar la funcionalidad descrita en lugar de que sean indicativas de una estructura u organización lógica o física estricta.

[0137] La invención puede ser implementada en cualquier forma adecuada incluyendo un hardware, software o firmware o cualquier combinación de estos. La invención puede ser implementada opcionalmente de manera al menos parcial como un software informático que funciona en uno o más procesadores de datos y/o procesadores de la señal digital. Los elementos y componentes de una realización de la invención pueden ser implementados de manera física, funcional y lógicamente de cualquier manera adecuada. Realmente, la funcionalidad puede ser implementada en una sola unidad, en una pluralidad de unidades o como parte de otras unidades funcionales. Como tal, la invención puede ser implementada en una sola unidad o puede ser distribuida física y funcionalmente entre diferentes unidades y procesadores.

[0138] Aunque la presente invención ha sido descrita con relación a algunas realizaciones, la misma no esta propuesta para estar limitada a la forma específica descrita en esta invención. En lugar de esto, el alcance de la presente invención está limitado solamente por las reivindicaciones que se adjuntan. Adicionalmente, aunque una característica puede parecer que va a ser descrita con relación a las realizaciones particulares, un experto en la materia podría reconocer que varias características de las realizaciones descritas pueden ser combinadas según la invención. En las reivindicaciones, el término que comprende no excluye la presencia de otros elementos o etapas.

[0139] Además, aunque están listados individualmente, una pluralidad de medios, elementos o etapas del procedimiento puede ser implementada, por ejemplo, por un procesador o unidad única. Adicionalmente, aunque las características individuales pueden ser incluidas en diferentes reivindicaciones, estas pueden ser combinadas posiblemente de manera ventajosa, y la inclusión en diferentes reivindicaciones no implica que una combinación de características no sea factible y/o ventajosa. También, la inclusión de una característica en una categoría de reivindicaciones no implica una limitación para esta categoría, sino que en lugar de esto indica que la característica es aplicable igualmente a otras categorías de reivindicaciones cuando sea apropiado. Además, el orden de las características en las reivindicaciones no implica ningún orden específico en el cual las características deben ser trabajadas y, en particular, el orden de las etapas individuales en una reivindicación del procedimiento no implica que las etapas deban ser efectuadas en este orden. En lugar de esto, las etapas pueden ser efectuadas en cualquier orden adecuado. Además, las referencias similares no excluyen una pluralidad. Por consiguiente, las referencias a "un", "una", "primero", "segundo", etc., no excluyen una pluralidad. Los signos de referencia en las reivindicaciones se proporcionan únicamente como un ejemplo de aclaración que no será interpretado como limitativo del alcance de las reivindicaciones de ningún modo.

Claims

REIVINDICACIONES

1. Un decodificador para generar una señal de audio de dominio de tiempo por la decodificación de la forma de onda, comprendiendo el decodificador:

5

- un medio para recibir (401) una corriente de datos codificados;

- un medio para generar (403) una primera señal de subbanda al decodificar valores de datos de la corriente de datos codificados, correspondiendo la primera señal de subbanda a una representación de la señal de dominio de— subbanda muestreada críticamente de la señal de audio de dominio de tiempo;

10 - un medio de conversión (405) para generar una segunda señal de subbanda a partir de la primera señal de subbanda o una versión procesada de la misma por un procesamiento de subbanda, correspondiendo la segunda señal de subbanda a una representación de dominio de subbanda compleja no muestreada críticamente de la señal de audio de dominio de tiempo;

un decodificador paramétrico para decodificar de forma paramétrica datos mediante el uso de la segunda señal de 15 subbanda; y

- un banco de filtros de síntesis (407) para generar la señal de audio de dominio de tiempo a partir de la segunda señal de subbanda.

2. El decodificador de la reivindicación 1 en el que cada subbanda de la primera señal de subbanda 20 comprende una pluralidad de sub-subbandas y el medio de conversión (405) comprende un segundo banco de filtro de síntesis para generar las subbandas de las segundas señales de subbanda de las sub-subbandas de la primera señal de subbanda.

3. El decodificador de la reivindicación 2 en el que cada subbanda de la segunda señal de subbanda 25 comprende una banda con distorsión y una banda sin distorsión y en el que el medio de conversión (405) comprende un medio de división para dividir una sub-subbanda de la primera señal de subbanda en una sub-subbanda con distorsión de una primera banda de subbanda de la segunda señal de subbanda y una subbanda sin distorsión de la segunda subbanda de la segunda señal de subbanda, teniendo la subbanda con distorsión y la subbanda sin distorsión intervalos de frecuencia correspondientes en la señal de dominio de tiempo generada por el banco de filtros de síntesis.

30

4. El decodificador de la reivindicación 3 en el que el medio de división comprende una estructura con forma de mariposa.

5. Un codificador para codificar una señal de audio de dominio de tiempo, comprendiendo el codificador: 35

- un medio para recibir (201) la señal de audio de dominio de tiempo;

- un primer banco de filtro (203) para generar una primera señal de subbanda a partir de la señal de audio de dominio de tiempo, correspondiendo la primera señal de subbanda a una representación de dominio de subbanda compleja muestreada no críticamente de la señal de dominio de tiempo;

40 un codificador paramétrico para codificar de forma paramétrica la señal de audio de dominio de tiempo mediante el uso de la primera señal de subbanda;

- un medio de conversión (205) para generar una segunda señal de subbanda a partir de la primera señal de subbanda o una versión procesada de la misma por un procesamiento de subbanda, correspondiendo la segunda señal de subbanda a una representación de dominio de subbanda muestreada críticamente de las señales de 45 audio de dominio de tiempo; y

- un medio para generar (207) una corriente de datos codificados de forma de onda al codificar los valores de datos de la segunda señal de subbanda.

6. El codificador de la reivindicación 5 que comprende además un medio para codificar paramétricamente 50 la señal de audio de dominio de tiempo mediante el uso de la primera señal de subbanda.

7. El codificador de la reivindicación 5 en el que el medio de conversión comprende un segundo banco de filtro (301, 303) para generar una pluralidad de sub-subbandas para cada subbanda de la primera señal de subbanda.

55 8. El codificador de la reivindicación 7, en el que el segundo banco de filtro (301, 303) está apilado de manera impar.

9. El codificador de la reivindicación 7 en el que cada subbanda comprende ciertas sub-subbandas con distorsión correspondientes a una banda con distorsión de la subbanda y algunas sub-subbandas sin distorsión 60 correspondientes a una banda sin distorsión de la subbanda, y en el que el medio de conversión (205) comprende un medio de combinación (305) para combinar las sub-subbandas con distorsión de una primera banda de subbanda con las sub-subbandas sin distorsión de la segunda subbanda, teniendo las sub-subbandas con distorsión y las subsubbandas sin distorsión intervalos de frecuencia correspondientes de la señal de dominio de tiempo codificada por el codificador.

65

10. El codificador de la reivindicación 9 en el que el medio de combinación (305) está dispuesto para reducir una energía en la banda con distorsión.

11. El codificador de la reivindicación 9 en el que el medio de combinación (305) comprende un medio para generar una señal de suma sin distorsión para una primera sub-subbanda con distorsión en la primera subbanda y una primera sub-subbanda sin distorsión en la segunda subbanda.

12. El codificador de la reivindicación 11 en el que el medio de combinación (305) comprende una estructura con forma de mariposa para generar una señal de suma sin distorsión.

13. El codificador de la reivindicación 12 en el que al menos un coeficiente de la estructura con forma de mariposa depende de una respuesta de frecuencia de un filtro del primer banco de filtro (203).

14. El codificador de la reivindicación 9 en el que el medio de conversión (205) está dispuesto .para no incluir valores de datos para la banda sin distorsión en la corriente de datos codificados.

15. El codificador de la reivindicación 5 que comprende además un medio para llevar a cabo el procesamiento de señal sin distorsión en la primera señal de subbanda antes de la conversión de la segunda señal de subbanda.

16. El codificador de la reivindicación5 que comprende además un medio para compensar de fase (511) la primera señal de subbanda antes de la conversión de la segunda señal de subbanda.

17. El codificador de la reivindicación 5 en el que el primer banco de filtro (203) es un banco filtro QMF.

18. Un procedimiento para generar una señal de audio de dominio de tiempo por la decodificación de forma de onda, comprendiendo el procedimiento:

- recibir una corriente de datos codificados;

- generar una primera señal de subbanda al decodificar los valores de datos de la corriente de datos codificados, correspondiendo la primera señal de subbanda a una representación de señal de dominio de subbanda muestreada críticamente de la señal de audio de dominio de tiempo;

- generar una segunda señal de subbanda a partir de la primera señal de subbanda o una versión procesada de la misma por procesamiento de subbanda, correspondiendo la segunda señal de subbanda a una representación de dominio de subbanda compleja muestreada no críticamente de la señal de audio de dominio de tiempo; decodificar paramétricamente datos paramétricos mediante el uso de la segunda señal de subbanda; y

- generar, por un banco de filtro de síntesis, la señal de audio de dominio de tiempo a partir de la segunda señal de subbanda.

19. Un procedimiento para codificar una señal de audio de dominio de tiempo, comprendiendo el procedimiento: - recibir la señal de audio de dominio de tiempo;

- un primer banco de filtro que genera una primera señal de subbanda a partir de la señal de audio de dominio de tiempo, correspondiendo la primera señal de subbanda a una representación de dominio de subbanda compleja muestreada no críticamente de la señal de dominio de tiempo;

codificar paramétricamente la señal de audio de dominio de tiempo mediante el uso de la primera señal de subbanda;

- generar una segunda señal de subbanda a partir de la primera señal de subbanda o una versión procesada de la misma por el procesamiento de subbanda, correspondiendo la segunda señal de subbanda a una representación de dominio de sub-banda muestreada críticamente de las señales de audio de dominio de tiempo; y

- generar una corriente de datos codificados de forma de onda al codificar los valores de datos de la segunda señal de subbanda.

20. Un receptor para recibir una señal de audio, comprendiendo el receptor un decodificador de la reivindicación 1.

21. Un transmisor para transmitir la señal de audio codificada, comprendiendo el transmisor: un codificador de la reivindicación 5; y

- un medio para transmitir la corriente de datos codificados de forma de onda.

22. Un sistema de transmisión para transmitir una señal de audio de dominio de tiempo, comprendiendo el sistema de transmisión:

- un transmisor de la reivindicación 21; y

un receptor de la reivindicación 20.

23. Un procedimiento de recepción de una señal de audio, comprendiendo el procedimiento un procedimiento de generación de la reivindicación 18.

24. Un procedimiento de transmisión de una señal de audio codificada, comprendiendo el procedimiento un procedimiento de codificación de la reivindicación 19.

25. Un procedimiento de transmisión y recepción de una señal de audio de dominio de tiempo, comprendiendo el procedimiento un procedimiento de transmisión de la reivindicación 24, y un procedimiento de recepción de la reivindicación 25.

26. Un producto de programa informático para ejecutar el procedimiento de cualquiera de las reivindicaciones 18, 19, 23, 24 o 25.

27. Un dispositivo de reproducción de audio que comprende un decodificador según la reivindicación 1.

28. Un dispositivo de grabación de audio que comprende un codificador según la reivindicación 5..