ES2281795T3 - Sintesis de señal de audio. - Google Patents
Sintesis de señal de audio. Download PDFInfo
- Publication number
- ES2281795T3 ES2281795T3 ES04727357T ES04727357T ES2281795T3 ES 2281795 T3 ES2281795 T3 ES 2281795T3 ES 04727357 T ES04727357 T ES 04727357T ES 04727357 T ES04727357 T ES 04727357T ES 2281795 T3 ES2281795 T3 ES 2281795T3
- Authority
- ES
- Spain
- Prior art keywords
- subband
- signal
- signals
- domain
- transformed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 31
- 230000015572 biosynthetic process Effects 0.000 title claims description 8
- 238000003786 synthesis reaction Methods 0.000 title claims description 8
- 238000000034 method Methods 0.000 claims abstract description 27
- 230000003111 delayed effect Effects 0.000 claims abstract description 12
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 8
- 239000000203 mixture Substances 0.000 claims abstract 4
- 230000001131 transforming effect Effects 0.000 claims abstract 2
- 230000009466 transformation Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000010076 replication Effects 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 230000001934 delay Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000021615 conjugation Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
Abstract
Método para sintetizar una señal de audio de salida sobre la base de una señal de audio de entrada en el dominio de tiempo, comprendiendo el método las etapas de: - transformar la señal de audio de entrada en el dominio de tiempo a una señal de entrada en el dominio de subbanda que comprende una pluralidad de señales de subbanda de entrada; - transformar (T) al menos una señal de subbanda de entrada desde el dominio de subbanda a un dominio de frecuencia de resolución superior para obtener al menos una señal transformada respectiva, - retardar (D0...n) y transformar la al menos una señal de subbanda de entrada al dominio de frecuencia de resolución superior para obtener al menos una señal retardada transformada respectiva; - derivar (P) al menos dos señales procesadas a partir de una mezcla de la al menos una señal transformada y la al menos una señal retardada transformada, - transformar (T-1) a la inversa las señales procesadas desde el dominio de frecuencia de resolución superior al dominio de subbanda para obtener las señales de subbanda procesadas respectivas, y - sintetizar la señal de audio de salida a partir de las señales de subbanda procesadas, incluyendo la sintetización una transformada desde el dominio de subbanda al dominio de tiempo.
Description
Síntesis de señal de audio.
La invención se refiere a sintetizar una señal
de audio y en particular a un aparato que suministra una señal de
audio de salida.
El artículo "Advances in Parametric Coding for
High-Quality Audio", por Eric Schuijers, Werner
Oomen, Bert den Brinker y Jeroen Breebaart, edición preliminar
5852, 114ª convención AES, Ámsterdam, Países Bajos, del 22 al 25 de
marzo de 2003 da a conocer un esquema de codificación paramétrico
que utiliza una representación paramétrica eficaz para la imagen
estéreo. Dos señales de entrada se fusionan en una señal de audio
mono. De manera perceptiva se modelan explícitamente indicaciones
especiales relevantes. La señal fusionada se codifica utilizando un
codificador monoparamétrico. Los parámetros estéreo de la Diferencia
de Intensidad Intercanal (IID, Interchannel Intensity
Difference), la Diferencia de Tiempo Intercanal (ITD,
Interchannel Time Difference) y la Correlación Cruzada
Intercanal (ICC, Interchannel Cross-Correlation) se
cuantifican, codifican y multiplexan en un flujo de bits junto con
la señal de audio mono cuantificada y codificada. En el lado del
descodificador, el flujo de bits se desmultiplexa a una señal mono
codificada y los parámetros estéreo. La señal de audio mono
codificada se descodifica con el fin de obtener una señal m' de
audio mono descodificada (véase la figura 1). A partir de la señal
en el dominio de tiempo mono, se calcula una señal descorrelacionada
utilizando un filtro 10 D que produce la descorrelación perceptiva
óptima. Tanto la señal m' en el dominio de tiempo mono como la
señal d descorrelacionada se transforman al dominio de frecuencia. A
continuación la señal estéreo en el dominio de frecuencia se
procesa con los parámetros de IID, ITD e ICC mediante ajuste a
escala, modificaciones de fase y mezclado, respectivamente, en una
unidad 11 de procesamiento de parámetros con el fin de obtener el
par l' y r' estéreo descodificado. Las representaciones en el
dominio de frecuencia resultantes se transforman de vuelta al
dominio de tiempo.
La solicitud de patente alemana DE 199 00 819 A1
da a conocer un sistema en el que la información espacial se extrae
a partir de una señal de datos y se combina con una señal mono para
proporcionar un sonido de música distribuido espacialmente
artificial mediante la separación de bandas de frecuencia diferentes
y la aplicación de diferentes retardos de tiempo en el domino de
tiempo y niveles de atenuación a diferentes canales.
Es un objeto de la invención sintetizar
ventajosamente una señal de audio de salida basándose en una señal
de audio de entrada. Para este fin, la invención proporciona un
método, un dispositivo, un aparato y un producto de programa
informático tal como se define en las reivindicaciones
independientes. Las realizaciones ventajosas se definen en las
reivindicaciones dependientes.
Según un primer aspecto de la invención, se
proporciona un método para sintetizar una señal de audio de salida
según la reivindicación 1. Proporcionando una transformada de
subbanda a frecuencia en una subbanda, se aumenta la resolución de
frecuencia. Una resolución de frecuencia aumentada de este tipo
tiene la ventaja de que se hace posible conseguir alta calidad de
audio (el ancho de banda de una señal de subbanda única es
normalmente muy superior al de bandas críticas en el sistema
auditivo humano) en una implementación eficaz (porque sólo tienen
que transformarse unas pocas bandas). El sintetizar la señal estéreo
en una subbanda tiene la ventaja adicional de que puede combinarse
fácilmente con los codificadores de audio basados en subbanda
existentes. Los bancos de filtros se utilizan comúnmente en el
contexto de codificación de audio. Todas las capas I, II y III de
MPEG-1/2 hacen uso de un filtro de subbanda
muestreado fundamentalmente de 32 bandas.
Las realizaciones de la invención son de uso
particular para aumentar la resolución de frecuencia de las
subbandas inferiores, utilizando técnicas de replicación de banda
espectral ("SBR", "Spectral Band Replication").
En una realización eficaz, se utiliza un banco
de filtros espejo en cuadratura ("QMF", "Quadrature Mirrow
Filter"). Un banco de filtros de este tipo se conoce en sí
del artículo "Bandwidth extension of audio signals by spectral
band replication", por Per Ekstrand, proc. 1^{er} IEEE Benelux
Workshop on Model based Processing and Coding of Audio
(MPCA-2002), páginas 53 a 58, Lovaina, Bélgica, 15
de noviembre de 2002. El banco de filtros de QMF de síntesis toma
las N señales de subbanda complejas como entrada y genera una señal
de salida PCM de valor real. La idea detrás de SBR es que las
frecuencias superiores pueden reconstruirse a partir de las
frecuencias inferiores utilizando sólo muy poca información de
ayuda. En la práctica, esta reconstrucción se hace por medio de un
banco de filtros espejo en cuadratura (QMF) complejo. Con el fin de
llegar eficazmente a una señal descorrelacionada en el dominio de
subbanda, las realizaciones de la invención utilizan un retardo
dependiente de frecuencia (o índice de subbanda) en el dominio de
subbanda, tal como se da a conocer con más detalle en la solicitud
de patente europea a nombre del solicitante, presentada el 17 de
abril de 2003, titulada "Audio signal generation" (agente nº
PH07NL030447). Puesto que el banco de filtros QMF complejo no se
muestrea fundamentalmente, no necesitan tomarse previsiones
adicionales con el fin de explicar el solapamiento (aliasing).
Obsérvese que en el descodificador SBR tal como se da a conocer por
Ekstrand, el banco de QMF de análisis consiste en sólo 32 bandas,
mientras que el banco de QMF de síntesis consiste en 64 bandas,
puesto que el descodificador central se ejecuta a la mitad de la
frecuencia de muestreo comparado con el descodificador de audio
entero. En el codificador correspondiente, sin embargo, se utiliza
un banco de QMF de análisis de 64 bandas para cubrir todo el
intervalo de frecuencia.
\newpage
La figura 2 es un diagrama de bloques de un
descodificador mejorado en ancho de banda (BWE, Bandwitdth
Enhanced) que utiliza la técnica de replicación de banda
espectral (SBR) tal como se da a conocer en la norma ISO/IEC de
MPEG-4 14496-3:2001/FDAM1,
JTC1/SC29/WG11, Coding of Moving Pictures and Audio, Bandwidth
Extension (Codificación de imágenes en movimiento y audio,
extensión de ancho de banda). La parte central del flujo de bits se
descodifica utilizando el descodificador central, que puede ser por
ejemplo un descodificador de capa III de MPEG-1
(mp3) o AAC. Normalmente, un descodificador de este tipo se ejecuta
a la mitad de la frecuencia de muestreo de salida (fs/2). Con el
fin de sincronizar los datos SBR con los datos centrales, se
introduce un retardo "D" (288 muestras PCM en la norma
MPEG-4). La señal resultante se alimenta a un filtro
espejo en cuadratura (QMF) complejo de 32 bandas. Este filtro emite
32 muestras complejas por 32 muestras de entrada reales y por tanto
se sobremuestrea por un factor de 2. En el generador de alta
frecuencia (HF, High Frequency) (véase la figura 1), las
frecuencias superiores, que no están cubiertas por el codificador
central, se generan replicando (ciertas partes de) las frecuencias
inferiores. La salida del generador de alta frecuencia se combina
con las 23 subbandas inferiores en señales de 64 subbandas
complejas. Posteriormente, el ajustador de envolvente ajusta las
señales de subbanda de alta frecuencia replicadas a la envolvente
deseada y añade componentes de ruido y sinusoidales adicionales tal
como se denota mediante la parte SBR del flujo de bits. El número
total de señales de 64 subbandas se alimenta a través del filtro de
síntesis QMF complejo de 64 bandas para formar la señal de salida
PCM (real).
La aplicación de transformadas adicionales, en
un canal de subbanda, introduce un cierto retardo. En subbandas en
las que no se incluyen transformadas y transformadas inversas,
deberían introducirse los retardos para mantener la alineación de
las señales de subbanda. Sin medidas especiales, el retardo
adicional en las señales de subbanda así introducido, da como
resultado una desalineación (es decir, fuera de sincronización) de
los datos auxiliares o laterales y centrales tales como los datos
SBR o datos estéreo paramétricos. En el caso de las subbandas con
transformada inversa/transformada adicional y subbandas sin
transformada adicional, el retardo adicional debería añadirse a las
subbandas sin transformada. Dentro de SBR, el retardo adicional
provocado mediante la operación de transformación y transformación
inversa podría descontarse del retardo D.
Estos y otros aspectos de la invención son
evidentes y se aclararán con referencia a las realizaciones
descritas posteriormente en el presente documento.
En los dibujos:
la figura 1 es un diagrama de bloques de un
descodificador estéreo paramétrico;
la figura 2 es un diagrama de bloques de un
descodificador de audio que utiliza tecnología SBR;
la figura 3 muestra el procesamiento estéreo
paramétrico en el dominio de subbanda según una realización de la
invención;
la figura 4 es un diagrama de bloques que
ilustra el retardo provocado por la
transformada-transformada inversa TT^{-1} de la
figura 3;
la figura 5 muestra un descodificador de audio
ventajoso según una realización de la invención, que proporciona
estéreo paramétrico, y
la figura 6 muestra un descodificador de audio
ventajoso según una realización de la invención, que combina
estéreo paramétrico con SBR.
Los dibujos sólo muestran aquellos elementos que
son necesarios para entender la invención.
La figura 3 muestra el procesamiento estéreo
paramétrico en el dominio de subbanda según una realización de la
invención. La señal de entrada consiste en N señales de subbanda de
entrada. En realizaciones prácticas, N es 32 ó 64. Las frecuencias
inferiores se transforman, utilizando la transformada T para obtener
una resolución de frecuencia superior, las frecuencias superiores
se retardan, utilizando el retardo D_{T} para compensar el
retardo introducido por la transformada. A partir de cada señal de
subbanda, se crea también una señal de subbanda descorrelacionada
por medio de la secuencia D_{x} de retardo en la que x es el
índice de subbanda. Los bloques P denotan el procesamiento en dos
subbandas a partir de una señal de subbanda de entrada, realizándose
el procesamiento en una versión transformada de la señal de
subbanda de entrada y una versión retardada y transformada de la
señal de subbanda de entrada. El procesamiento puede comprender el
mezclado, por ejemplo mediante matrizado y/o rotación, de la
versión transformada y la versión transformada y retardada. La
transformada T^{-1} denota la transformada inversa. D_{T} puede
dividirse antes y después del bloque P. Las transformadas T pueden
ser de diferente longitud, normalmente la baja frecuencia tiene una
transformada más larga, lo que significa que de manera adicional
debería introducirse también un retardo en los trayectos en los que
la transformada es más corta que la transformada más larga. El
retardo D frente al banco de filtros puede desplazarse después del
banco de filtros. Cuando se coloca después del banco de filtros,
puede eliminarse parcialmente porque las transformadas ya
incorporan un retardo. La transformada es preferiblemente del tipo
de transformada de coseno discreta modificada ("MDCT",
Modified Discrete Cosine Transform), aunque pueden utilizarse
también otras transformadas tales como la transformada rápida de
Fourier. El procesamiento P no ocasiona habitualmente un retardo
adicional.
La figura 4 es un diagrama de bloques que
ilustra el retardo provocado por la
transformada-transformada inversa TT^{-1} de la
figura 3. En la figura 4, se visualizan 18 muestras de subbanda
complejas mediante una ventana h[n]. Las señales complejas
se dividen entonces en la parte real e imaginaria, que se
transforman ambas, utilizando la MDCT en dos veces 9 valores
reales. La transformada inversa de ambos conjuntos de 9 valores
lleva de nuevo a 18 muestras de subbanda complejas que se
visualizan y añaden y superponen con las 18 muestras de subbanda
complejas previas. Tal como se ilustra en esta figura, las últimas 9
muestras de subbanda complejas no están completamente procesadas
(es decir, superpuestas y añadidas), llevando a un retardo eficaz de
la mitad de la longitud de la transformada, es decir 9 muestras (de
subbanda). Por consiguiente, el retardo en un filtro de subbanda
único debería compensarse en todas las demás subbandas en las que no
se aplica transformación. Sin embargo, el introducir un retardo
adicional a las señales de subbanda antes del procesamiento SBR (es
decir la generación de HF y ajuste de envolvente) da como resultado
una desalineación de los datos centrales y SBR. Con el fin de
conservar esta alineación, el retardo D PCM tal como se muestra en
la figura 2 puede colocarse justo después del QMF de análisis
complejo de M bandas, que da como resultado de manera eficaz un
retardo de D/M en cada subbanda. Por tanto, el requisito para la
alineación de los datos centrales y SBR es que el retardo en todas
las subbandas ascienda a D/M. Por lo tanto, mientras el retardo DT
de la transformación añadida sea igual a o menor a D/M, puede
conservarse la sincronización. Obsérvese que los elementos de
retardo en el dominio de subbanda se vuelven del tipo complejo. En
las realizaciones SBR prácticas, M=32. M puede también ser igual a
N.
Obsérvese que en realizaciones prácticas, cada
transformada T comprende dos MDCT y cada transformada T^{-1}
inversa comprende dos IMDCT, tal como se describió
anteriormente.
Las subbandas inferiores, en las que se
introduce la transformación T, están cubiertas por el descodificador
central. Sin embargo, aunque no se procesan mediante el ajustador
de envolvente de la herramienta SBR, el generador de alta
frecuencia de la herramienta SBR puede requerir sus muestras en el
proceso de replicación. Por lo tanto, las muestras de estas
subbandas inferiores también necesitan estar disponibles como "no
transformadas". Esto requiere un retardo adicional (de nuevo
complejo) de muestras de subbanda DT en estas subbandas. La
operación de mezclado realizada sobre los valores reales y sobre
los valores complejos de las muestras complejas puede ser
igual.
La figura 5 muestra un descodificador de audio
ventajoso según una realización de la invención, que proporciona
estéreo paramétrico. Este flujo de bits se divide en
coeficientes/parámetros mono y parámetros estéreo. En primer lugar,
se utiliza un descodificador mono convencional para obtener la señal
mono (compatible de forma retroactiva). Esta señal se analiza por
medio de un banco de filtros de subbanda que divide la señal en un
número de señales de subbanda. Los parámetros estéreo se utilizan
para procesar las señales de subbanda a dos conjuntos de señales de
subbanda, uno para el canal izquierdo y uno para el derecho.
Utilizando dos filtros de síntesis de subbanda, estas señales se
transforman al dominio de tiempo dando como resultado una señal
estéreo (izquierda y derecha). El bloque de procesamiento estéreo se
muestra en la figura 3.
La figura 6 muestra un descodificador de audio
ventajoso según una realización de la invención, que combina
estéreo paramétrico con SBR. El flujo de bits se divide en
coeficientes/parámetros mono, parámetros SBR y parámetros estéreo.
En primer lugar, se utiliza un descodificador mono convencional para
obtener la señal mono (compatible de forma retroactiva). Esta señal
se analiza por medio de un banco de filtros de subbanda que divide
la señal en un número de señales de subbanda. Utilizando los
parámetros SBR, se genera más contenido de HF, que utiliza
posiblemente más subbandas que el bando de filtros de análisis. Los
parámetros estéreo se utilizan para procesar las señales de
subbanda a dos conjuntos de señales de subbanda, uno para el canal
izquierdo y uno para el derecho. Utilizando dos filtros de síntesis
de subbanda, estas señales se transforman al dominio de tiempo
dando como resultado una señal estéreo (izquierda y derecha). El
bloque de procesamiento estéreo se muestra en el diagrama de
bloques de la figura 3.
Debería observarse que las realizaciones
anteriormente mencionadas ilustran más que limitan la invención, y
aquellos expertos en la técnica podrán diseñar muchas realizaciones
alternativas sin salirse del alcance de las reivindicaciones
adjuntas. En las reivindicaciones, ningún signo de referencia entre
paréntesis debe interpretarse como limitativo de la reivindicación.
El uso del artículo indefinido "un" o "una" que precede a
un elemento o etapa no excluye la presencia de una pluralidad de
tales elementos o etapas. El uso del verbo "comprender" y sus
conjugaciones no excluye la presencia de elementos o etapas
distintas a las expuestas en una reivindicación. La invención puede
implementarse por medio de hardware que comprende varios elementos
distintos, y por medio de un ordenador programado adecuadamente. En
una reivindicación de dispositivo que enumera varios medios, varios
de estos medios pueden realizarse por uno y el mismo elemento de
hardware. El mero hecho de que se enumeren ciertas medidas en
reivindicaciones dependientes diferentes entre sí no indica que una
combinación de estas medidas no pueda utilizarse con ventaja.
Claims (18)
1. Método para sintetizar una señal de audio
de salida sobre la base de una señal de audio de entrada en el
dominio de tiempo, comprendiendo el método las etapas de:
- transformar la señal de audio de entrada en el
dominio de tiempo a una señal de entrada en el dominio de subbanda
que comprende una pluralidad de señales de subbanda de entrada;
- transformar (T) al menos una señal de subbanda
de entrada desde el dominio de subbanda a un dominio de frecuencia
de resolución superior para obtener al menos una señal transformada
respectiva,
- retardar (D_{0...n}) y transformar la al
menos una señal de subbanda de entrada al dominio de frecuencia de
resolución superior para obtener al menos una señal retardada
transformada respectiva;
- derivar (P) al menos dos señales procesadas a
partir de una mezcla de la al menos una señal transformada y la al
menos una señal retardada transformada,
- transformar (T^{-1}) a la inversa las
señales procesadas desde el dominio de frecuencia de resolución
superior al dominio de subbanda para obtener las señales de subbanda
procesadas respectivas, y
- sintetizar la señal de audio de salida a
partir de las señales de subbanda procesadas, incluyendo la
sintetización una transformada desde el dominio de subbanda al
dominio de tiempo.
2. Método según la reivindicación 1, en el que
la transformación es una transformación de coseno y la
transformación inversa es una transformación de coseno inversa.
3. Método según la reivindicación 1, en el que
las señales de subbanda de entrada comprenden muestras complejas y
en el que un valor real de una muestra compleja dada se transforma
en una primera transformada y un valor complejo de la muestra
compleja dada se transforma en una segunda transformada.
4. Método según la reivindicación 3, en el que
la primera transformada y la segunda transformada son transformadas
separadas pero iguales.
5. Método según la reivindicación 1, en el que
el procesamiento comprende una operación matricial.
6. Método según la reivindicación 1, en el que
el procesamiento comprende una operación de rotación.
7. Método según la reivindicación 1, en el que
la al menos una señal de subbanda incluye la señal de subbanda que
tiene la frecuencia más baja.
8. Método según la reivindicación 7, en el que
la al menos una señal de subbanda consiste en de 2 a 8 señales de
subbanda.
9. Método según la reivindicación 1, en el que
la etapa de sintetización se realiza en un banco de filtros de
subbanda para sintetizar una versión en el dominio de tiempo de la
señal de audio de salida a partir de las señales de subbanda
procesadas.
10. Método según la reivindicación 9, en el que
el banco de filtros de subbanda es un banco de filtros de subbanda
complejo.
11. Método según la reivindicación 9, en el que
el banco de filtros de subbanda es un banco de filtros espejo en
cuadratura.
12. Método según la reivindicación 1, en el que
la señal de audio de entrada es una señal de audio mono y la señal
de audio de salida es una señal de audio estéreo.
13. Método según la reivindicación 1,
comprendiendo adicionalmente el método la etapa de:
- obtener un parámetro de correlación que es
indicativo de una correlación deseada entre un primer canal y un
segundo canal de la señal de audio de salida, en la que el
procesamiento se dispone para obtener las señales procesadas
combinar la señal transformada y la señal retardada transformada
dependiendo del parámetro de correlación, y en la que el primer
canal se deriva a partir de un primer conjunto de señales procesadas
y el segundo canal a partir de un segundo conjunto de señales
procesadas.
14. Método según la reivindicación 13, en el que
cada señal procesada comprende una pluralidad de señales de
subbanda de salida, y en el que un primer canal de dominio de tiempo
y un segundo canal de dominio del tiempo se sintetizan sobre la
base de las señales de subbanda de salida, respectivamente,
preferiblemente en bancos de filtros de subbanda de síntesis
respectivos.
15. Método según la reivindicación 1, en el que
el método comprende adicionalmente las etapas de:
- derivar M subbandas para generar M señales de
subbanda filtradas sobre la base de una señal de audio de núcleo de
dominio de tiempo,
- generar una componente de señal de alta
frecuencia derivada a partir de M señales de subbanda filtradas,
teniendo la componente de señal de alta frecuencia
N-M señales de subbanda, en la que N>M,
incluyendo las N-M señales de subbanda señales de
subbanda con una frecuencia superior a cualquiera de las subbandas
en las M subbandas, formando juntas las M subbandas filtradas y las
N-M subbandas la pluralidad de señales de subbanda
de entrada.
16. Dispositivo para sintetizar una señal de
audio de salida sobre la base de una señal de audio de entrada de
dominio de tiempo, comprendiendo el dispositivo:
- medios para transformar la señal de audio de
entrada de dominio de tiempo a una señal de entrada de dominio de
subbanda que comprende una pluralidad de señales de subbanda de
entrada;
- medios para transformar (T) al menos una señal
de subbanda de entrada desde el dominio de subbanda a un dominio de
frecuencia de resolución superior para obtener al menos una señal
transformada respectiva,
- medios para retardar (D_{0...n}) y
transformar la al menos una señal de subbanda de entrada al dominio
de frecuencia de resolución superior para obtener al menos una
señal retardada transformada respectiva;
- medios para derivar (P) al menos dos señales
procesadas a partir de una mezcla de la al menos una señal
transformada y la al menos una señal retardada transformada,
- medios para transformar (T^{-1}) a la
inversa las señales procesadas desde el dominio de frecuencia de
resolución superior al dominio de subbanda para obtener las señales
de subbanda procesadas respectivas, y
- medios para sintetizar la señal de audio de
salida a partir de las señales de subbanda procesadas, incluyendo
la sintetización una transformada desde el dominio de subbanda al
dominio del tiempo.
17. Aparato para suministrar una señal de audio
de salida, comprendiendo el aparato:
- una unidad de entrada para obtener una señal
de audio codificada,
- un descodificador para descodificar la señal
de audio codificada para obtener una señal descodificada que
incluye una pluralidad de señales de subbanda,
- un dispositivo según la reivindicación 16 para
obtener la señal de audio de salida sobre la base de la señal
descodificada, y
- una unidad de salida para suministrar la señal
de audio de salida.
18. Producto de programa informático que
incluye un código para ordenar a un ordenador realizar las
siguientes etapas:
- transformar una señal de audio de entrada en
el dominio del tiempo a una señal de entrada de dominio de subbanda
que comprende una pluralidad de señales de subbanda de entrada;
- transformar (T) al menos una señal de subbanda
de entrada desde el dominio de subbanda a un dominio de frecuencia
de resolución superior para obtener al menos una señal transformada
respectiva;
- retardar (D_{0...n}) y transformar la al
menos una señal de subbanda de entrada al dominio de frecuencia de
resolución superior para obtener al menos una señal retardada
transformada respectiva;
- derivar (P) al menos dos señales procesadas a
partir de una mezcla de la al menos una señal transformada y la al
menos una señal retardada transformada,
- transformar (T^{-1}) a la inversa las
señales procesadas desde el dominio de frecuencia de resolución
superior al dominio de subbanda para obtener señales de subbanda
procesadas respectivas, y
- sintetizar la señal de audio de salida a
partir de las señales de subbanda procesadas, incluyendo la
sintetización una transformada desde el dominio de subbanda al
dominio del tiempo.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP03076134 | 2003-04-17 | ||
EP03076134 | 2003-04-17 | ||
EP03076166 | 2003-04-18 | ||
EP03076166 | 2003-04-18 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2281795T3 true ES2281795T3 (es) | 2007-10-01 |
Family
ID=33300979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES04727357T Expired - Lifetime ES2281795T3 (es) | 2003-04-17 | 2004-04-14 | Sintesis de señal de audio. |
Country Status (12)
Country | Link |
---|---|
US (1) | US8311809B2 (es) |
EP (1) | EP1618763B1 (es) |
JP (1) | JP4834539B2 (es) |
KR (2) | KR101200776B1 (es) |
CN (2) | CN1774957A (es) |
AT (1) | ATE355590T1 (es) |
BR (1) | BRPI0409337A (es) |
DE (1) | DE602004005020T2 (es) |
ES (1) | ES2281795T3 (es) |
PL (1) | PL1618763T3 (es) |
RU (1) | RU2005135650A (es) |
WO (1) | WO2004093495A1 (es) |
Families Citing this family (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7240001B2 (en) * | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US6934677B2 (en) | 2001-12-14 | 2005-08-23 | Microsoft Corporation | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands |
US7502743B2 (en) | 2002-09-04 | 2009-03-10 | Microsoft Corporation | Multi-channel audio encoding and decoding with multi-channel transform selection |
EP1618763B1 (en) | 2003-04-17 | 2007-02-28 | Koninklijke Philips Electronics N.V. | Audio signal synthesis |
US7460990B2 (en) * | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
KR100707177B1 (ko) * | 2005-01-19 | 2007-04-13 | 삼성전자주식회사 | 디지털 신호 부호화/복호화 방법 및 장치 |
WO2006090852A1 (ja) * | 2005-02-24 | 2006-08-31 | Matsushita Electric Industrial Co., Ltd. | データ再生装置 |
WO2007004828A2 (en) | 2005-06-30 | 2007-01-11 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
US8494667B2 (en) | 2005-06-30 | 2013-07-23 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
US8443026B2 (en) | 2005-09-16 | 2013-05-14 | Dolby International Ab | Partially complex modulated filter bank |
US7917561B2 (en) * | 2005-09-16 | 2011-03-29 | Coding Technologies Ab | Partially complex modulated filter bank |
US7716043B2 (en) * | 2005-10-24 | 2010-05-11 | Lg Electronics Inc. | Removing time delays in signal paths |
US7953604B2 (en) * | 2006-01-20 | 2011-05-31 | Microsoft Corporation | Shape and scale parameters for extended-band frequency coding |
US7831434B2 (en) * | 2006-01-20 | 2010-11-09 | Microsoft Corporation | Complex-transform channel coding with extended-band frequency coding |
US8190425B2 (en) * | 2006-01-20 | 2012-05-29 | Microsoft Corporation | Complex cross-correlation parameters for multi-channel audio |
JP2007221445A (ja) * | 2006-02-16 | 2007-08-30 | Sharp Corp | サラウンドシステム |
KR100754220B1 (ko) | 2006-03-07 | 2007-09-03 | 삼성전자주식회사 | Mpeg 서라운드를 위한 바이노럴 디코더 및 그 디코딩방법 |
MY148913A (en) | 2006-12-12 | 2013-06-14 | Fraunhofer Ges Forschung | Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream |
FR2910752B1 (fr) * | 2006-12-22 | 2009-03-20 | Commissariat Energie Atomique | Procede de codage spatio-temporel pour systeme de communication multi-antenne de type uwb impulsionnel |
MY148040A (en) | 2007-04-26 | 2013-02-28 | Dolby Int Ab | Apparatus and method for synthesizing an output signal |
KR101411900B1 (ko) * | 2007-05-08 | 2014-06-26 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 장치 |
KR101411901B1 (ko) * | 2007-06-12 | 2014-06-26 | 삼성전자주식회사 | 오디오 신호의 부호화/복호화 방법 및 장치 |
US7885819B2 (en) | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
CA2697920C (en) * | 2007-08-27 | 2018-01-02 | Telefonaktiebolaget L M Ericsson (Publ) | Transient detector and method for supporting encoding of an audio signal |
GB2453117B (en) * | 2007-09-25 | 2012-05-23 | Motorola Mobility Inc | Apparatus and method for encoding a multi channel audio signal |
DE102007048973B4 (de) * | 2007-10-12 | 2010-11-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung |
US8527282B2 (en) | 2007-11-21 | 2013-09-03 | Lg Electronics Inc. | Method and an apparatus for processing a signal |
US8548615B2 (en) * | 2007-11-27 | 2013-10-01 | Nokia Corporation | Encoder |
AU2008339211B2 (en) | 2007-12-18 | 2011-06-23 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
KR101253278B1 (ko) * | 2008-03-04 | 2013-04-11 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 복수의 입력 데이터 스트림을 믹싱하는 장치 및 방법 |
EP2124486A1 (de) * | 2008-05-13 | 2009-11-25 | Clemens Par | Winkelabhängig operierende Vorrichtung oder Methodik zur Gewinnung eines pseudostereophonen Audiosignals |
AU2009267394B2 (en) * | 2008-07-11 | 2012-10-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder and decoder for encoding frames of sampled audio signals |
RU2492530C2 (ru) | 2008-07-11 | 2013-09-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Устройство и способ кодирования/декодирования звукового сигнала посредством использования схемы переключения совмещения имен |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
EP2154911A1 (en) | 2008-08-13 | 2010-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus for determining a spatial output multi-channel audio signal |
JP5555707B2 (ja) * | 2008-10-08 | 2014-07-23 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | マルチ分解能切替型のオーディオ符号化及び復号化スキーム |
CN102934161B (zh) * | 2010-06-14 | 2015-08-26 | 松下电器产业株式会社 | 音频混合编码装置以及音频混合解码装置 |
US8762158B2 (en) * | 2010-08-06 | 2014-06-24 | Samsung Electronics Co., Ltd. | Decoding method and decoding apparatus therefor |
BR122021003886B1 (pt) | 2010-08-12 | 2021-08-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V | Reamostrar sinais de saída de codecs de áudio com base em qmf |
EP2523473A1 (en) * | 2011-05-11 | 2012-11-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating an output signal employing a decomposer |
CN103889335B (zh) * | 2011-10-28 | 2016-06-22 | 皇家飞利浦有限公司 | 用于处理针对听诊的心音的设备与方法 |
EP2704142B1 (en) * | 2012-08-27 | 2015-09-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for reproducing an audio signal, apparatus and method for generating a coded audio signal, computer program and coded audio signal |
US9478224B2 (en) * | 2013-04-05 | 2016-10-25 | Dolby International Ab | Audio processing system |
EP2830063A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for decoding an encoded audio signal |
US10510355B2 (en) | 2013-09-12 | 2019-12-17 | Dolby International Ab | Time-alignment of QMF based processing data |
EP4120699A1 (en) * | 2013-09-17 | 2023-01-18 | Wilus Institute of Standards and Technology Inc. | Method and apparatus for processing multimedia signals |
EP3061088B1 (en) | 2013-10-21 | 2017-12-27 | Dolby International AB | Decorrelator structure for parametric reconstruction of audio signals |
US9883308B2 (en) * | 2014-07-01 | 2018-01-30 | Electronics And Telecommunications Research Institute | Multichannel audio signal processing method and device |
WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5235646A (en) * | 1990-06-15 | 1993-08-10 | Wilde Martin D | Method and apparatus for creating de-correlated audio output signals and audio recordings made thereby |
GB9107011D0 (en) * | 1991-04-04 | 1991-05-22 | Gerzon Michael A | Illusory sound distance control method |
JP3127600B2 (ja) * | 1992-09-11 | 2001-01-29 | ソニー株式会社 | ディジタル信号復号化装置及び方法 |
EP0692881B1 (en) * | 1993-11-09 | 2005-06-15 | Sony Corporation | Quantization apparatus, quantization method, high efficiency encoder, high efficiency encoding method, decoder, high efficiency encoder and recording media |
JP2953347B2 (ja) * | 1995-06-06 | 1999-09-27 | 日本ビクター株式会社 | サラウンド信号処理装置 |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US5835375A (en) * | 1996-01-02 | 1998-11-10 | Ati Technologies Inc. | Integrated MPEG audio decoder and signal processor |
DE19632734A1 (de) * | 1996-08-14 | 1998-02-19 | Thomson Brandt Gmbh | Verfahren und Vorrichtung zum Generieren eines Mehrton-Signals aus einem Mono-Signal |
SE512719C2 (sv) | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
US6199039B1 (en) * | 1998-08-03 | 2001-03-06 | National Science Council | Synthesis subband filter in MPEG-II audio decoding |
TW390104B (en) * | 1998-08-10 | 2000-05-11 | Acer Labs Inc | Method and device for down mixing of multi-sound-track compression audio frequency bit stream |
DE19900819A1 (de) * | 1999-01-12 | 2000-07-13 | Bosch Gmbh Robert | Verfahren zum Dekodieren gestörter Funksignale von Mehrkanal-Audiosendungen |
US6487574B1 (en) * | 1999-02-26 | 2002-11-26 | Microsoft Corp. | System and method for producing modulated complex lapped transforms |
US6175631B1 (en) * | 1999-07-09 | 2001-01-16 | Stephen A. Davis | Method and apparatus for decorrelating audio signals |
US7006636B2 (en) * | 2002-05-24 | 2006-02-28 | Agere Systems Inc. | Coherence-based audio coding and synthesis |
JP3776004B2 (ja) * | 2001-05-28 | 2006-05-17 | シャープ株式会社 | ディジタルデータの符号化方法 |
SE0202159D0 (sv) * | 2001-07-10 | 2002-07-09 | Coding Technologies Sweden Ab | Efficientand scalable parametric stereo coding for low bitrate applications |
EP1618763B1 (en) | 2003-04-17 | 2007-02-28 | Koninklijke Philips Electronics N.V. | Audio signal synthesis |
-
2004
- 2004-04-14 EP EP04727357A patent/EP1618763B1/en not_active Expired - Lifetime
- 2004-04-14 CN CNA2004800102851A patent/CN1774957A/zh active Pending
- 2004-04-14 ES ES04727357T patent/ES2281795T3/es not_active Expired - Lifetime
- 2004-04-14 JP JP2006506843A patent/JP4834539B2/ja not_active Expired - Lifetime
- 2004-04-14 KR KR1020117005550A patent/KR101200776B1/ko active IP Right Grant
- 2004-04-14 BR BRPI0409337-2A patent/BRPI0409337A/pt not_active IP Right Cessation
- 2004-04-14 AT AT04727357T patent/ATE355590T1/de active
- 2004-04-14 WO PCT/IB2004/050436 patent/WO2004093495A1/en active IP Right Grant
- 2004-04-14 US US10/552,772 patent/US8311809B2/en active Active
- 2004-04-14 KR KR1020057019770A patent/KR101169596B1/ko active IP Right Grant
- 2004-04-14 PL PL04727357T patent/PL1618763T3/pl unknown
- 2004-04-14 RU RU2005135650/09A patent/RU2005135650A/ru not_active Application Discontinuation
- 2004-04-14 CN CN200480009976XA patent/CN1774956B/zh not_active Expired - Lifetime
- 2004-04-14 DE DE602004005020T patent/DE602004005020T2/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE602004005020T2 (de) | 2007-10-31 |
CN1774956A (zh) | 2006-05-17 |
KR20050122267A (ko) | 2005-12-28 |
US8311809B2 (en) | 2012-11-13 |
BRPI0409337A (pt) | 2006-04-25 |
KR101169596B1 (ko) | 2012-07-30 |
KR20110044281A (ko) | 2011-04-28 |
KR101200776B1 (ko) | 2012-11-13 |
ATE355590T1 (de) | 2006-03-15 |
DE602004005020D1 (de) | 2007-04-12 |
CN1774957A (zh) | 2006-05-17 |
CN1774956B (zh) | 2011-10-05 |
JP2006523859A (ja) | 2006-10-19 |
EP1618763A1 (en) | 2006-01-25 |
RU2005135650A (ru) | 2006-03-20 |
EP1618763B1 (en) | 2007-02-28 |
US20070112559A1 (en) | 2007-05-17 |
WO2004093495A1 (en) | 2004-10-28 |
PL1618763T3 (pl) | 2007-07-31 |
JP4834539B2 (ja) | 2011-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2281795T3 (es) | Sintesis de señal de audio. | |
ES2727462T3 (es) | Aparatos y procedimientos para la codificación o decodificación de una señal multicanal de audio mediante el uso de repetición de muestreo de dominio espectral | |
ES2314706T3 (es) | Metodo y dispositivo para generar señal multicanal o conjunto de datos de parametros. | |
ES2362920T3 (es) | Método mejorado para la conformación de señales en reconstrucción de audio multicanal. | |
ES2452569T3 (es) | Aparato, procedimiento y programa de computación para mezclar en forma ascendente una señal de audio con mezcla descendente utilizando una suavización de valor fase | |
ES2513265T3 (es) | Procedimiento y aparato para procesar una señal de medios | |
EP1899958B1 (en) | Method and apparatus for decoding an audio signal | |
ES2770146T3 (es) | Conformación temporal y espacial de señales de audio multicanal | |
TWI550598B (zh) | 使用聯合編碼殘餘信號之音訊編碼器、音訊解碼器、方法及電腦程式 | |
US7734473B2 (en) | Method and apparatus for time scaling of a signal | |
EP2581905B1 (en) | Bandwidth extension method, bandwidth extension apparatus, program, integrated circuit, and audio decoding apparatus | |
ES2401554T3 (es) | Aparato, procedimiento y programa de computadora para mezclar hacia arriba una señal de audio mezclada hacia abajo | |
TW200926147A (en) | Audio coding using downmix | |
ES2438176T3 (es) | Método para restablecer una señal de audio de múltiples canales usando un decodificador de HE-AAC y un decodificador de MPEG surround | |
KR20050121733A (ko) | 오디오 신호 발생 | |
MX2013003782A (es) | Aparato y metodo para procesar una señal de audio y para otorgar una mayor granularidad temporal para un codificador-decodificador combinado y unificado de voz y audio (usac). | |
US20150088530A1 (en) | Method and Apparatus for Decoding an Audio Signal | |
WO2012058805A1 (en) | Parametric encoder for encoding a multi-channel audio signal | |
BR112015002367B1 (pt) | Decodificador e método para codificação de objeto de áudio espacial multi-instância empregando um conceito paramétrico para caixas multicanal de downmix/upmix | |
KR20060122695A (ko) | 오디오 신호의 디코딩 방법 및 장치 |