ES2286798T3 - Dispositivo y procedimiento para procesar una señal multicanal. - Google Patents
Dispositivo y procedimiento para procesar una señal multicanal. Download PDFInfo
- Publication number
- ES2286798T3 ES2286798T3 ES05715611T ES05715611T ES2286798T3 ES 2286798 T3 ES2286798 T3 ES 2286798T3 ES 05715611 T ES05715611 T ES 05715611T ES 05715611 T ES05715611 T ES 05715611T ES 2286798 T3 ES2286798 T3 ES 2286798T3
- Authority
- ES
- Spain
- Prior art keywords
- prediction
- channel
- similarity
- block
- spectral
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000003595 spectral effect Effects 0.000 claims abstract description 55
- 238000001914 filtration Methods 0.000 claims abstract description 28
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000005236 sound signal Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 2
- 230000006866 deterioration Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 14
- 230000015572 biosynthetic process Effects 0.000 description 12
- 238000011002 quantification Methods 0.000 description 8
- 230000004913 activation Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000009849 deactivation Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 241000282693 Cercopithecidae Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 239000000706 filtrate Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/03—Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Time-Division Multiplex Systems (AREA)
- Stereophonic System (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Stereo-Broadcasting Methods (AREA)
- Color Image Communication Systems (AREA)
- Electrical Discharge Machining, Electrochemical Machining, And Combined Machining (AREA)
- Detergent Compositions (AREA)
- Radio Relay Systems (AREA)
Abstract
Dispositivo para codificar una señal de audio multicanal, estando representada la señal multicanal por un bloque de valores espectrales en cada caso para al menos dos canales con las siguientes características; un dispositivo (12) para determinar una similitud entre un primer de los dos canales y un segundo de los dos canales, estando configurado el dispositivo (12) de determinación para calcular una primera ganancia de predicción a partir de una predicción del bloque del primer canal y una segunda ganancia de predicción a partir de una predicción del bloque del segundo canal o primeros coeficientes de reflexión para un primer filtro de predicción para el primera canal y segundos coeficientes de predicción para un segundo filtro de predicción del segundo canal, y para obtener (12c) la similitud empleando la primera ganancia de predicción y la segunda ganancia de predicción o empleando los primeros coeficientes de predicción y los segundos coeficientes de reflexión; un dispositivo (16) pararealizar un filtrado de predicción, estando configurado el dispositivo de realización para emplear un filtro de predicción común para realizar el filtrado de predicción para el bloque de valores espectrales del primer canal y el bloque de valores espectrales del segundo canal si una similitud es mayor que una similitud de umbral, o para emplear dos filtros de predicción diferentes para realizar el filtrado de predicción si la similitud es menor que una similitud de umbral.
Description
Dispositivo y procedimiento para procesar una
señal multicanal.
La presente invención se refiere a codificadores
de audio y especialmente a codificador de audio basados en
transformaciones, es decir, en los que al comienzo del conducto del
codificador se realiza una conversión de una representación
temporal a una representación espectral.
Un codificador de audio conocido basado en
transformaciones se muestra en la figura 3. El codificador mostrado
en la figura 3 está representado en la norma internacional ISO/IEC
14496-3; 2001(E) apartado 4, página 4 y se
conoce en la técnica como codificador AAC.
A continuación se representa el codificador
conocido. En una entrada 1000 se alimenta una señal de audio que va
a codificarse. Ésta se alimenta en primer lugar a una etapa 1002 de
ajuste a escala en la que ese realiza un denominado control de
amplificación AAC para fijar el nivel de la señal de audio. Se
alimenta información secundaria a partir del ajuste a escala a un
formateador 1004 de flujo de bits, tal como se representa mediante
la flecha entre el bloque 1002 y el bloque 1004. La señal de audio
ajustada a escala se alimenta a continuación a un banco 1006 de
filtros MDCT. En el caso del codificador AAC el banco de filtros
implementa una transformación de coseno discreta modificada con
ventanas que se solapan un 50%, determinándose la longitud de
ventana mediante un bloque 1008.
Dicho en general, el bloque 1008 está presente
para que a las señales transitorias se les aplique funciones de
ventana con ventanas más cortas, y para que a las señales más bien
estacionarias se les aplique funciones de ventana con ventanas más
largas. Esto sirve para que debido a las ventanas más cortas para
señales transitorias se consiga una resolución en tiempo mayor (a
expensas de la resolución en frecuencia), mientras que para señales
más bien estacionarias se consiga una resolución en frecuencia mayor
(a expensas de la resolución en tiempo) mediante ventanas más
largas, prefiriéndose por tendencia las ventanas más largas dado que
prometen una ganancia de codificación mayor. En la salida del banco
1006 de filtros, desde un punto de vista temporal, se presentan
bloques de valores espectrales consecutivos que según la forma de
realización del banco de filtro pueden ser coeficientes MDCT,
coeficientes de Fourier o también señales de subbanda, presentando
cada subbanda un ancho de banda limitado determinado, que se fija
mediante el canal de subbanda correspondiente en el banco 1006 de
filtros y presentando cada señal de subbanda un número determinado
de valores de muestreo de subbanda.
A continuación se representa a modo de ejemplo
el caso en el que el banco de filtros emite bloques consecutivos
desde un punto de vista temporal de coeficientes espectrales MDCT,
que dicho de manera general, representan en la salida 1000
espectros de corta duración consecutivos de la señal de audio que va
a codificarse. Un bloque de valores espectrales MDCT se alimenta
entonces en un bloque 1010 de procesamiento TNS en el que tiene
lugar una formación de ruido temporal (TNS= formación de ruido
temporal). La técnica TNS se emplea para formar la forma temporal
del ruido de cuantificación dentro de cada ventana de la
transformación. Con ello se consigue que un proceso de filtro se
aplique en partes de los datos espectrales de cada canal. La
codificación se realiza sobre una base de ventanas. Especialmente
se ejecutan las siguientes etapas para aplicar la herramienta TNS
en una ventana de datos espectrales, es decir en un bloque de
valores espectrales.
En primer lugar se selecciona una gama de
frecuencia para la herramienta TNS. Una selección adecuada consiste
en cubrir con un filtro una gama de frecuencia de 1,5 kHz hasta la
banda de factor de escala lo más alta posible. Ha de señalarse que
esta gama de frecuencia depende de la velocidad de muestreo, tal
como está especificado en la norma AAC (ISO/IEC
14496-3; 2001(E).
A continuación se realiza un cálculo LPC (LPC =
linear predictive coding, codificación predictiva lineal), y
concretamente con los coeficientes MDCT espectrales que se
encuentran en la gama de frecuencia de destino seleccionada. Para
un aumento de la estabilidad se descartan de este proceso
coeficientes que corresponden a frecuencias por debajo de 2,5 kHz.
Pueden emplearse para este cálculo LPC procedimientos LPC
habituales, tal como se conocen del procesamiento de voz, por
ejemplo el conocido algoritmo de Levinson-Durbin.
El cálculo se realiza para la ordenación máxima permitida del
filtro de formación de ruido.
Como resultado del cálculo LPC se obtiene la
ganancia de predicción esperada PG. Además se obtienen los
coeficientes de reflexión o coeficientes Parcor.
Cuando la ganancia de predicción no supera un
umbral determinado, la herramienta TNS no se aplica. En este caso
se escribe una información de control en el flujo de bits para que
un codificador sepa que no se ha realizado ningún procesamiento
TNS.
Sin embargo, si la ganancia de predicción supera
un umbral se aplica el procesamiento TNS.
En una etapa siguiente los coeficientes de
reflexión se cuantifican. La ordenación del filtro de formación de
ruido empleado se determina mediante la eliminación de todos los
componentes de reflexión con un valor absoluto menor que un umbral
desde la "cola" del arreglo de coeficientes de reflexión. El
número de los coeficientes de reflexión restantes se sitúa en el
orden de magnitud del filtro de formación de ruido. Un umbral
adecuado se sitúa en 0,1.
Los coeficientes de reflexión restantes se
transforman normalmente en coeficientes de predicción lineales,
siendo conocida esta técnica también como proceso
"step-up".
Los coeficientes LPC calculados se emplean
entonces como coeficientes de filtro de formación de ruido de
codificación, es decir como coeficientes de filtro de predicción.
Este filtro FIR se lleva a través de la gama de frecuencia de
destino especificada. En la decodificación se emplea un filtro
autoregresivo mientras que en la codificación se emplea un
denominado filtro de promedio móvil
(moving-average). Finalmente la información
secundaria se alimenta al formateador de flujo de bits para la
herramienta TNS, tal como se muestra mediante la flecha que se
muestra entre el bloque 1010 de procesamiento TNS y el formateador
1004 de flujo de bits en la figura 3.
A continuación se ejecutan varias herramientas
opcionales no mostradas en la figura 3, tal como por ejemplo una
herramienta de predicción de larga duración, una herramienta de
intensidad/acoplamiento, una herramienta de predicción, una
herramienta de sustitución de ruido hasta que se llega finalmente a
un codificador 1012 central/lateral. El codificador 1012
central/lateral está entonces activo cuando la señal de audio que va
a codificarse es una señal multicanal, es decir, una señal estéreo
con un canal izquierdo y un canal derecho. Hasta ahora, es decir,
en la dirección de procesamiento antes del bloque 1012 en la figura
3 se procesaban el canal estéreo izquierdo y el derecho separados
uno de otro, es decir, ajustados a escala, transformados mediante
el banco de filtro, sometidos al procesamiento TNS o no.
En el codificador central/lateral se comprueba
en primer lugar si es útil una codificación central/lateral, es
decir si realmente trae consigo una ganancia de codificación. Una
codificación central/lateral trae consigo una ganancia de
codificación si el canal izquierdo y el derecho son más bien
similares, dado que entonces el canal central, es decir, la suma
del canal izquierdo y el derecho es casi igual al canal izquierdo o
el derecho, independientemente del ajuste a escala mediante el
factor ½, mientras que el canal lateral sólo presenta valores muy
pequeños dado que es igual a la diferencia entre el canal izquierdo
y el derecho. Con ello puede verse que entonces, si el canal
izquierdo y el derecho son aproximadamente iguales, la diferencia es
aproximadamente cero o bien solamente comprende valores muy
pequeños que, así se espera, se cuantifican a cero en un
cuantificador 1014 subsiguiente y por lo tanto pueden transmitirse
de manera muy eficiente, dado que al cuantificador 1014 está
conectado aguas abajo un codificador 1016 de entropía.
Al cuantificador 1014 se alimenta por un modelo
1020 psicoacústico una perturbación permitida por cada banda de
factor de escala. El cuantificador trabaja iterativamente, es decir,
se llama primero a un bucle de iteración externo que llama después
a un bucle de iteración interno. Dicho en general, partiendo de
valores iniciales de incrementos de cuantificador, se lleva a cabo
en primer lugar una cuantificación de un bloque de valores en la
entrada del cuantificador 1014. Especialmente el bucle interno
cuantifica los coeficientes MDCT, necesitándose un determinado
número de bits. El bucle externo calcula la distorsión y la energía
modificada de los coeficientes empleando el factor de escala para
de nuevo llamar a un bucle interno. Este proceso se itera hasta que
se cumple una oración condicional determinada. Para cada iteración
en el bucle de iteración externo se reconstruye a la vez la señal
para calcular la perturbación introducida por la cuantificación y
compararla con la perturbación permitida proporcionada por el
modelo 1020 psicoacústico. Además, los factores de escala aumentan
un nivel de iteración a iteración, y concretamente para cada
iteración del bucle de iteración externo.
Entonces cuando se ha llegado a una situación en
la que la perturbación de cuantificación introducida por la
cuantificación está por debajo de la perturbación permitida
determinada mediante el modelo psicoacústico, y cuando al mismo
tiempo se cumplen requisitos de bits, concretamente, que no se
supere una velocidad de transmisión máxima de bits, la iteración,
es decir, el procedimiento de análisis por síntesis finaliza y se
codifican los factores de escala obtenidos, tal como está realizado
en el bloque 1014 y se alimenta en forma codificada al
transformador 1004 de flujo de bits, tal como se indica mediante la
flecha que está situada entre el bloque 1014 y el bloque 1004. Los
valores cuantificados se alimentan entonces al codificador 1016 de
entropía, que normalmente realiza una codificación de entropía
empleando varias tablas de código Huffman para diferentes bandas de
factores de escala para transmitir los valores cuantificados en un
formato binario. Tal como se conoce, en la codificación de entropía
en forma de codificación de Huffman se accede a tablas de códigos
que se crean en función de una estadística de señales esperada, y
en las que los valores que aparecen a menudo reciben palabras de
código más cortas que los valores que aparecen con menos frecuencia.
Los valores codificados por entropía se alimentan entonces también
como información principal real al formateador 1004 de flujo de
bits, que emite entonces según una sintaxis de flujo de bits
determinada la señal de audio codificada en el lado de salida.
Tal como ya se ha expuesto, en el bloque 1010 de
procesamiento TNS para la formación temporal del ruido de
cuantificación dentro de una trama de codificador se emplea un
filtrado de predicción.
En particular, la formación temporal del ruido
de cuantificación se realiza mediante el filtrado de los
coeficientes espectrales a través de la frecuencia en el
codificador antes de la cuantificación y del filtrado inverso
subsiguiente en el decodificador. El procesamiento TNS provoca que
la envolvente del ruido de cuantificación se desplace temporalmente
por debajo de la envolvente de la señal, para evitar artefactos de
eco previo. La aplicación del TNS se produce de una estimación de
la ganancia de predicción del filtrado, tal como se expone
anteriormente. Los coeficientes de filtro para cada trama de
codificador se determinan mediante una medida de correlación. El
cálculo de los coeficientes de filtro se realiza separadamente para
cada canal. Asimismo se transmiten separadamente en el flujo de
bits codificado.
Lo desventajoso en la activación/desactivación
del concepto TNS es el hecho de que para cada canal estéreo, cuando
se ha activado una vez un procesamiento TNS debido a la buena
ganancia de codificación esperada tiene lugar el filtrado TNS para
cada canal de manera separada. Así esto no es problema todavía en el
caso de canales relativamente diferentes. Sin embargo si el canal
izquierdo y el derecho son relativamente similares, o sea el canal
izquierdo y el derecho tienen en un ejemplo extremo exactamente la
misma información útil, que por ejemplo un hablante y se
diferencian solamente con vistas al ruido obtenido inevitablemente
en los canales, así no obstante en el estado de la técnica para
cada canal se emplea y se calcula un filtro TNS propio. Después de
que el filtro TNS depende directamente del canal izquierdo o el
derecho, y especialmente reacciona de manera relativamente sensible
a los datos espectrales del canal izquierdo y del derecho, también
en el caso de una señal en la que el canal izquierdo y el derecho
son muy similares, es decir en el caso de una denominada "señal
casi mono" se ejecuta para cada canal un procesamiento TNS con un
filtro de predicción propio. Esto lleva a que debido a los
diferentes coeficientes de filtro también tiene lugar una formación
de ruido temporal diferente en los dos canales estéreos.
Lo desventajoso de este efecto es que puede
llevar a artefactos audibles, dado que por ejemplo la imagen
acústica de tipo mono original recibe un carácter estéreo no
deseado mediante estas diferencias temporales.
El proceso conocido tiene sin embargo otra
desventaja posiblemente todavía más seria. Mediante el procesamiento
TNS, los valores de salida TNS, es decir los valores residuales
espectrales se someten a una codificación central/lateral en el
codificador 1002 central/lateral de la figura 3. Mientras que antes
del procesamiento TNS los dos canales eran todavía relativamente
iguales, esto ya no puede decirse después del procesamiento TNS.
Mediante el efecto estéreo descrito, que se ha introducido mediante
el procesamiento TNS separado, los valores residuales espectrales
de los dos canales se hacen más desemejantes de lo que realmente
serían. Esto lleva a una caída directa de la ganancia de
codificación debido a la codificación central/lateral, lo que
especialmente es desventajoso para aplicaciones en las que es
necesaria una velocidad de transmisión de bits baja.
Resumiendo, la activación TNS conocida es por lo
tanto problemática para señales estéreo que en ambos canales
utilizan información de señal similar aunque no exactamente
idéntica, tal como por ejemplo señales de voz similares a mono.
Siempre que en la detección TNS se determinen para ambos canales
coeficientes de filtro diferentes esto lleva a una formación
temporalmente diferente del ruido de cuantificación en los canales.
Esto puede llevar a artefactos audibles, dado que por ejemplo la
imagen acústica de tipo mono original recibe mediante estas
diferencias temporales un carácter estéreo no deseado. Además, tal
como ya se ha expuesto, el espectro TNS modificado se somete en una
etapa subsiguiente a una codificación central/lateral. Los filtros
diferentes en ambos canales reducen adicionalmente la similitud de
los coeficientes espectrales y con ello la ganancia
central/lateral.
El documento DE 19829284 C2 da a conocer un
procedimiento y un dispositivo para procesar una señal estéreo
temporal y un procedimiento y un dispositivo para decodificar un
flujo de bits de audio codificado empleando una predicción a través
de la frecuencia. En función de la implementación, el canal
izquierdo, el derecho y el mono pueden someterse a una predicción
propia a través de la frecuencia, es decir a un procesamiento TNS.
Así para cada canal puede realizarse una predicción propia completa.
Alternativamente, en el caso de una predicción incompleta puede
realizarse un cálculo de los coeficientes de predicción para el
canal izquierdo que se emplean entonces para filtrar el canal
derecho y el canal mono.
El objetivo de la presente invención consiste en
crear un concepto para procesar una señal multicanal que permita
menos artefactos y no obstante una buena compresión de la
información.
Este objetivo se soluciona mediante un
dispositivo para procesar una señal multicanal según la
reivindicación 1, un procedimiento para procesar una señal
multicanal según la reivindicación 11 o un programa informático
según la reivindicación 12.
La presente invención se basa en el conocimiento
de que entonces, cuando el canal izquierdo y el derecho son
similares, es decir superan una medida de similitud, ha de emplearse
para ambos canales el mismo filtrado TNS. Con ello se garantiza que
mediante el procesamiento TNS no se introduce ningún artefacto
pseudos-estéreo en la señal multicanal, dado que
mediante el empleo del mismo filtro de predicción para ambos canales
se consigue que tenga lugar también la formación temporal del ruido
de cuantificación para ambos canales, es decir que no pueda oírse
ningún artefacto pseudo-estéreo.
Además se garantiza que las señales no se
vuelvan más desemejantes de lo que realmente deberían. La similitud
de la señales después del filtrado TNS, es decir, la similitud de
los valores residuales espectrales corresponde en este caso a la
similitud de las señales de entrada en los filtros, y no como en el
estado de la técnica, a la similitud e las señales de entrada que
todavía se reduce mediante filtros diferentes.
Con ello una codificación central/lateral
subsiguiente no tendrá ninguna pérdida de bits dado que las señales
no se han hecho más desemejantes de lo que realmente son.
Naturalmente mediante el empleo del mismo filtro
de predicción para ambas señales aparecerá una pequeña pérdida de
la ganancia de predicción. Sin embargo esta pérdida no será tan
grande dado que la sincronización del filtrado TNS para ambos
canales de todos modos se utiliza solo cuando los dos canales son
similares entre sí. Sin embargo, esta pequeña pérdida de la
ganancia de predicción, tal como se ha demostrado, se compensará sin
más mediante la ganancia central/lateral dado que mediante el
procesamiento TNS no se introduce ninguna desemejanza adicional
entre el canal izquierdo y el derecho que conduciría a una reducción
de la ganancia de codificación central/lateral.
A continuación se explican detalladamente
ejemplos de realización preferidos de la presente invención con
referencia a los dibujos adjuntos. Muestran:
la figura 1, un diagrama de bloques de un
dispositivo según la invención para procesar una señal
multicanal,
la figura 2, una forma de realización preferida
del dispositivo para determinar una similitud y del dispositivo
para realizar el filtrado de predicción; y
la figura 3, un diagrama de bloques de un
codificador de audio conocido según el estándar AAC.
La figura 1 muestra un dispositivo para procesar
una señal multicanal, estando representada la señal multicanal
mediante un bloque en cada caso de valores espectrales para al menos
dos canales, tal como se muestra mediante L y R. Los bloques de
valores espectrales se determinan, mediante por ejemplo, filtrado
MDCT a través de un banco 10 de filtros MDCT de valores 1(t)
o bien r(t) de muestreo de intervalo de tiempo para cada
canal.
Los bloques de valores espectrales para cada
canal se alimentan en un ejemplo de realización preferido de la
presente invención a un dispositivo 12 para determinar una similitud
entre los dos canales. Alternativamente el dispositivo para
determinar la similitud entre los dos canales también puede
realizarse, como se muestra en la figura 1, empleando valores
1(t) o bien r(t) de muestreo de intervalo de tiempo
para cada canal. Sin embargo se prefiere emplear bloques de valores
espectrales obtenidos del banco 10 de filtro para determinar la
similitud dado que estos están influidos en la misma medida mediante
posibles efectos del filtrado en el banco 10 de filtros.
El dispositivo 12 para determina la similitud
entre el primer y el segundo canal es efectivo para generar una
señal de control en un conducto 14 de control basándose en una
medida de similitud o alternativamente una medida de disimilitud
que al menos presenta dos estados de los cuales uno expresa que los
bloques de valores espectrales de los dos canales son similares, o
que en su otro estado dice que los bloques de valores espectrales
son desemejantes para cada canal. La decisión sobre si domina la
similitud o disimilitud puede tomarse empleando una medida de
similitud preferiblemente numérica.
Así existen diferentes posibilidades para
determinar la similitud entre los dos bloques de valores espectrales
para cada canal, de los cuales una posibilidad es un cálculo de
correlación cruzada que produce un valor que puede compararse
entonces con un umbral de similitud predeterminado. Se conocen
procedimientos de similitud alternativos, describiéndose a
continuación una forma preferida.
Tanto el bloque de valores espectrales para el
canal izquierdo como también el bloque de valores espectrales para
el canal derecho se alimenta a un dispositivo 16 para realizar un
filtrado de predicción. Especialmente un filtrado de predicción se
realiza a través de la frecuencia, estando configurado el
dispositivo para la realización para realizar la predicción a
través de la frecuencia, para emplear un filtro 16a de predicción
común para el bloque de valores espectrales del primer canal y para
el bloque de valores espectrales del segundo canal, cuando la
similitud es mayor que un similitud de umbral. Si por el contrario
al dispositivo 16 para realizar el filtrado de predicción se le
comunica por el dispositivo 12 para determinar una similitud que
los dos bloques de valores espectrales para cada canal son
desemejantes, es decir, tienen una similitud que es menor que una
similitud de umbral, entonces el dispositivo 16 para realizar el
filtrado de predicción aplicará diferentes filtros 16b en el canal
izquierdo y el derecho.
Las señales de salida del dispositivo 16 son por
lo tanto valores residuales espectrales del canal izquierdo en un
salida 18a como también valores residuales espectrales del canal
derecho en una salida 18b, habiéndose generado, según la similitud
del canal izquierdo y del derecho, los valores residuales
espectrales de los dos canales empleando el mismo filtro de
predicción (caso 16a) o empleando diferentes filtros de predicción
(caso 16b).
Según la implementación de codificador real los
valores residuales espectrales del canal izquierdo y el derecho
pueden alimentarse a un codificador de estéreo central/lateral bien
directamente o bien según varios procesamientos, tal como están
previstos por ejemplo en el estándar AAC, que emite en una salida
21a la señal central como mitad de la suma del canal izquierdo y el
derecho, mientras que la señal lateral se emite como mitad de la
diferencia del canal izquierdo y el derecho.
Tal como ya se ha expuesto, ahora la señal
lateral, en el caso que existiera anteriormente una similitud alta
entre los canales, debido a la sincronización del procesamiento TNS
de los dos canales es más pequeña que en el caso en el que para
canales diferentes se emplean diferentes filtros TNS, lo que por lo
tanto, debido al hecho de que la señal lateral es más pequeña deja
entrever una ganancia de codificación más alta.
A continuación se representa un ejemplo de
realización preferido de la presente invención con referencia a la
figura 2, en el que en el dispositivo 12 para determinar una
similitud ya se ejecuta la primera fase del cálculo TNS,
concretamente el cálculo de los coeficientes Parcor o de reflexión y
de la ganancia de predicción para tanto el canal izquierdo como
también el derecho, tal como se representa por los bloques 12a,
12b.
Por tanto este procesamiento TNS proporciona
tanto los coeficientes de filtro para el filtro de predicción que
finalmente va a emplearse como también la ganancia de predicción,
necesitándose para ello en esta ganancia de predicción también para
decidir si realmente debe realizarse un procesamiento TNS o no.
La ganancia de predicción para el primer canal,
izquierdo que está indicado en la figura 2 con PG1, al igual que la
ganancia de predicción para el canal derecho que está indicado en la
figura 2 con PG2, se alimenta en un dispositivo de determinación de
medida de similitud que está indicado en la figura 2 con 12c. Este
dispositivo de determinación de similitud es eficaz para calcular
la cantidad absoluta de la diferencia o la diferencia relativa de
las dos ganancias de predicción y para ver si ésta se sitúa por
debajo de un umbral S de desviación predeterminado. Si la cantidad
absoluta de la diferencia de las ganancias de predicción se sitúa
por debajo del umbral S, entonces se parte del hecho de que las dos
señales son similares y la pregunta en el bloque 12c se responde
con Sí. Si por el contrario se comprueba que la diferencia es mayor
que el umbral S de similitud, entonces la pregunta se responde con
No. En el caso de responder a esta pregunta con Sí en el dispositivo
16 se emplea un filtro común para los dos canales L y R, mientras
que en el caso de responder a la pregunta en el bloque 12c con No
se emplean filtros separados, es decir un procesamiento TNS tal como
puede ejecutarse en el estado de la técnica.
Para ello al dispositivo 16 se alimenta un
conjunto de coeficientes FKL de filtro para el canal izquierdo y un
conjunto de coeficientes FKR para el canal derecho por los
dispositivos 12a o bien 12b.
En un ejemplo de realización preferido de la
presente invención para el filtrado mediante un filtro común se
realiza una selección especial en un bloque 16c. En el bloque 16c se
decide qué canal tiene la mayor energía. Si se comprueba que el
canal izquierdo tiene la mayor energía entonces se emplean los
coeficientes FKL de filtro calculados por el dispositivo 12a para
el canal izquierdo para el filtrado común. Si por el contrario en
el bloque 16c se comprueba que el canal derecho tiene mayor energía,
entonces para el filtrado común se emplea el conjunto de
coeficientes FKR de filtro que se ha calculado para el canal derecho
en el dispositivo 12b.
Tal como se deduce de la figura 2, para la
determinación de la energía pueden emplearse tanto la señal de
tiempo como también la señal espectral. Debido al hecho de que en la
señal espectral están incluidos artefactos de transformación que
posiblemente ya han tenido lugar en la señal espectral, para la
"decisión de la energía" en el bloque 16c se prefiere emplear
las señales espectrales del canal izquierdo y el derecho.
En un ejemplo de realización preferido de la
presente invención se utiliza una sincronización TNS, es decir el
empleo de los mismos coeficientes de filtro para ambos canales, si
las ganancias de predicción para el canal izquierdo y el derecho se
diferencian en menos del tres por ciento. Si ambos canales se
diferencian en más del tres por ciento la pregunta en el bloque 12c
de la figura 2 se responde con "No".
Tal como ya se ha expuesto, en el sentido de una
detección de la similitud sencilla y que requiere poco cálculo las
ganancias de predicción de los dos canales se comparan durante el
filtrado. Si una diferencia de las ganancias de predicción está por
debajo de un umbral determinado, ambos canales se cargan con el
mismo filtrado TNS para evitar los problemas descritos.
Alternativamente puede realizarse también una
comparación de los coeficientes de reflexión de los dos filtros TNS
calculados por separado.
De nuevo de manera alternativa puede conseguirse
la determinación de similitud también empleando otros detalles de
la señal, de manera que entonces, cuando se ha determinado una
similitud, solamente debe calcularse el conjunto de coeficientes de
filtro TNS para el canal que se utiliza para el filtrado de
predicción de ambos canales estéreo. Esto tiene como ventaja que,
cuando se observa la figura 2, y cuando las señales son similares
solamente estará activo u el bloque 12a o el bloque 12b.
Además el concepto según la invención puede
emplearse para los efectos de reducir adicionalmente la velocidad
de transmisión de bits de la señal codificada. Mientras que en el
empleo de dos coeficientes de reflexión diferentes se transmiten
diferente información secundaria TNS para ambos canales, en el
filtrado de los dos canales con el mismo filtro de predicción debe
transmitirse solamente una vez información TNS para ambos canales.
Por lo tanto mediante el concepto según la invención puede
conseguirse también una reducción de la velocidad de transmisión de
bits en el sentido de que se "ahorra" un conjunto de
información secundaria TNS cuando el canal izquierdo y el derecho
son similares.
El concepto según la invención no está limitado
fundamentalmente a señales estéreo sino que podría aplicarse en un
entorno multicanal entre diferentes pares de canales o también
grupos de más de dos canales.
Para determinar la similitud, tal como ya se ha
expuesto puede realizarse una determinación por separado para cada
canal de la medida de correlación cruzada k entre el canal izquierdo
y el derecho o una determinación de la ganancia de predicción TNS y
los coeficientes de filtro TNS.
La decisión de sincronización se realiza, en el
caso de que k supere un umbral (por ejemplo 0,6) y la codificación
de estéreo MS esté activada. El criterio MS puede también
omitirse.
En la sincronización se realiza una
determinación del canal de referencia cuyo filtro TNS debe adoptarse
para el otro canal, por ejemplo se emplea el canal con mayor
energía como canal de referencia. Especialmente entonces se realiza
una copia de los coeficientes de filtro TNS desde el canal de
referencia al otro canal.
Finalmente se realiza una aplicación de los
filtros TNS sincronizados o no sincronizados en el espectro.
Alternativamente se realiza una determinación de
la ganancia de predicción TNS y de los coeficientes de filtro TNS
para cada canal por separado. Después se toma una decisión. En el
caso de que la ganancia de predicción de los dos canales se
diferencie en no más de una determinada medida, por ejemplo 3%, la
sincronización se lleva a cabo. En este caso el canal de referencia
puede seleccionarse también de manera arbitraria cuando se puede
partir de una similitud de los canales. También existe aquí una
copia de los coeficientes de filtro TNS desde el canal de
referencia al otro canal, después de lo cual tiene lugar una
aplicación del filtro sincronizado o no sincronizado en el
espectro.
Diferentes alternativas son las siguientes: si
TNS se activa fundamentalmente en un canal depende de la ganancia
de predicción en este canal. Si ésta supera un determinado umbral,
se activa la TNS para este canal. Alternativamente también se hace
una sincronización TNS para dos canales si solamente la TNS estaba
activada en uno de los dos canales. La condición entonces es que
por ejemplo la ganancia de predicción sea similar, es decir un canal
se sitúa muy poco por encima del límite de activación y un canal
muy poco por debajo del límite de activación. Desde esta
comparación se deriva entonces la activación de TNS para ambos
canales con los mismos coeficientes, o en determinadas
circunstancias también la desactivación para ambos canales.
En función de las circunstancias el
procedimiento según la invención para procesar una señal multicanal
puede implementarse en hardware o en software. La implementación
puede llevarse a cabo en un medio de memoria digital, especialmente
un disquete o CD con señales de control que pueden leerse
electrónicamente que pueden actuar conjuntamente con un sistema
informático programable de manera que se lleva a cabo el
procedimiento. En general la invención existe por lo tanto también
en un producto de programa informático con un código de programa
almacenado en un soporte que puede leerse por ordenador para la
realización del procedimiento según la invención, cuando el
producto de programa informático se ejecuta en un ordenador. Dicho
de otro modo la invención puede realizarse tanto como un programa
informático con un código de programa para llevar a acabo el
procedimiento cuando el programa informático se ejecuta en un
ordenador.
Claims (12)
1. Dispositivo para codificar una señal de audio
multicanal, estando representada la señal multicanal por un bloque
de valores espectrales en cada caso para al menos dos canales con
las siguientes características;
un dispositivo (12) para determinar una
similitud entre un primer de los dos canales y un segundo de los dos
canales, estando configurado el dispositivo (12) de determinación
para calcular una primera ganancia de predicción a partir de una
predicción del bloque del primer canal y una segunda ganancia de
predicción a partir de una predicción del bloque del segundo canal
o primeros coeficientes de reflexión para un primer filtro de
predicción para el primera canal y segundos coeficientes de
predicción para un segundo filtro de predicción del segundo canal,
y para obtener (12c) la similitud empleando la primera ganancia de
predicción y la segunda ganancia de predicción o empleando los
primeros coeficientes de predicción y los segundos coeficientes de
reflexión;
un dispositivo (16) para realizar un filtrado de
predicción, estando configurado el dispositivo de realización
- para emplear un filtro de predicción común para realizar el filtrado de predicción para el bloque de valores espectrales del primer canal y el bloque de valores espectrales del segundo canal si una similitud es mayor que una similitud de umbral, o
- para emplear dos filtros de predicción diferentes para realizar el filtrado de predicción si la similitud es menor que una similitud de umbral.
2. Dispositivo según la reivindicación 1, en el
que el dispositivo (16) de realización está configurado para emitir
valores residuales espectrales como un resultado de la predicción,
y
presentando además el dispositivo las siguientes
características:
un dispositivo (20) para codificar en común
valores residuales espectrales o valores del primer canal derivados
de los valores residuales espectrales y de valores residuales
espectrales o de valores derivados de valores residuales
espectrales del segundo canal, si la similitud es mayor que una
similitud de umbral.
3. Dispositivo según la reivindicación 2, en el
que la codificación común es una codificación central/lateral.
4. Dispositivo según la reivindicación 3, en el
que el dispositivo para la codificación (20) común está configurado
para calcular una señal central basándose en la suma del primer y
del segundo canal, y calcular una señal lateral basándose en la
diferencia del primer y del segundo canal.
5. Dispositivo según una de las reivindicaciones
anteriores en el que el bloque de valores espectrales para un canal
representa un espectro de corta duración de este canal, o en el que
el bloque de valores espectrales comprende una pluralidad de
señales de pasabanda para una pluralidad de subbandas.
6. Dispositivo según una de las reivindicaciones
anteriores en el que el dispositivo (16) de realización está
configurado para realizar un procesamiento TNS.
7. Dispositivo según una de las reivindicaciones
anteriores en el que el dispositivo (12) de determinación está
configurado para calcular una correlación cruzada del primer y del
segundo canal.
8. Dispositivo según la reivindicación 7, en el
que el dispositivo (16) de realización está configurado para
emplear un único filtro de predicción si la primera ganancia de
predicción y la segunda ganancia de predicción se diferencian en
menos o en un tres por ciento.
9. Dispositivo según la reivindicación 7, en el
que el dispositivo (16) de realización está configurado para
emplear un filtro de predicción como filtro de predicción común
cuyos coeficientes se derivan del bloque de valores espectrales que
contiene más energía que el otro bloque de valores espectrales.
10. Dispositivo según una de las
reivindicaciones anteriores en el que el dispositivo (16) de
realización está configurado para realizar un cálculo de
autocorrelación para la predicción a través de la frecuencia y un
cálculo LPC empleando el algoritmo de
Levinson-Durbin con el bloque de valores
espectrales, para obtener coeficientes Parcor o coeficientes de
reflexión así como una ganancia de predicción y para filtrar el
bloque de valores espectrales con los coeficientes Parcor para
obtener valores residuales espectrales.
11. Procedimiento para codificar una señal de
audio multicanal, estando representada la señal multicanal por un
bloque de valores espectrales en cada caso para al menos dos canales
con las siguientes etapas:
determinar (12) una similitud entre un primer de
los dos canales y un segundo de los dos canales,
\newpage
- calculando una primera ganancia de predicción a partir de una predicción del bloque del primer canal y una segunda ganancia de predicción a partir de una predicción del bloque del segundo canal para obtener la similitud a partir de la primera ganancia de predicción y la segunda ganancia de predicción (12c), o
- calculando primeros coeficientes de reflexión para un primer filtro de predicción para el primer canal y segundos coeficientes de reflexión para un segundo filtro de predicción para el segundo canal para obtener la similitud empleando los primeros coeficientes de reflexión y los segundos coeficientes de reflexión;
- realizar un filtrado de predicción con un filtro de predicción común para el bloque de valores espectrales del primer canal y el bloque de valores espectrales del segundo canal si una similitud es mayor que una similitud de umbral, o
- realizar el filtrado de predicción con dos filtros de predicción diferentes para el bloque de valores espectrales del primer canal y el bloque de valores espectrales del segundo canal si la similitud es menor que una similitud de umbral.
12. Programa informático con un código de
programa para realizar todas las etapas del procedimiento para
codificar una señal de audio multicanal según la reivindicación 11
cuando el programa se ejecuta en un ordenador.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102004009954 | 2004-03-01 | ||
DE102004009954A DE102004009954B4 (de) | 2004-03-01 | 2004-03-01 | Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2286798T3 true ES2286798T3 (es) | 2007-12-01 |
Family
ID=34894904
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05715611T Active ES2286798T3 (es) | 2004-03-01 | 2005-02-28 | Dispositivo y procedimiento para procesar una señal multicanal. |
Country Status (18)
Country | Link |
---|---|
US (1) | US7340391B2 (es) |
EP (1) | EP1697930B1 (es) |
JP (1) | JP4413257B2 (es) |
KR (1) | KR100823097B1 (es) |
CN (1) | CN1926608B (es) |
AT (1) | ATE364882T1 (es) |
AU (1) | AU2005217517B2 (es) |
BR (1) | BRPI0507207B1 (es) |
CA (1) | CA2558161C (es) |
DE (2) | DE102004009954B4 (es) |
DK (1) | DK1697930T3 (es) |
ES (1) | ES2286798T3 (es) |
HK (1) | HK1095194A1 (es) |
IL (1) | IL177213A (es) |
NO (1) | NO339114B1 (es) |
PT (1) | PT1697930E (es) |
RU (1) | RU2332727C2 (es) |
WO (1) | WO2005083678A1 (es) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7809579B2 (en) * | 2003-12-19 | 2010-10-05 | Telefonaktiebolaget Lm Ericsson (Publ) | Fidelity-optimized variable frame length encoding |
US7725324B2 (en) * | 2003-12-19 | 2010-05-25 | Telefonaktiebolaget Lm Ericsson (Publ) | Constrained filter encoding of polyphonic signals |
US9626973B2 (en) * | 2005-02-23 | 2017-04-18 | Telefonaktiebolaget L M Ericsson (Publ) | Adaptive bit allocation for multi-channel audio encoding |
KR100718416B1 (ko) | 2006-06-28 | 2007-05-14 | 주식회사 대우일렉트로닉스 | 예측필터를 이용한 채널간 스테레오 오디오 코딩 방법 |
JP4940888B2 (ja) * | 2006-10-23 | 2012-05-30 | ソニー株式会社 | オーディオ信号伸張圧縮装置及び方法 |
KR20080053739A (ko) * | 2006-12-11 | 2008-06-16 | 삼성전자주식회사 | 적응적으로 윈도우 크기를 적용하는 부호화 장치 및 방법 |
US20100100372A1 (en) * | 2007-01-26 | 2010-04-22 | Panasonic Corporation | Stereo encoding device, stereo decoding device, and their method |
US7991622B2 (en) * | 2007-03-20 | 2011-08-02 | Microsoft Corporation | Audio compression and decompression using integer-reversible modulated lapped transforms |
US8086465B2 (en) | 2007-03-20 | 2011-12-27 | Microsoft Corporation | Transform domain transcoding and decoding of audio data using integer-reversible modulated lapped transforms |
ATE547786T1 (de) * | 2007-03-30 | 2012-03-15 | Panasonic Corp | Codierungseinrichtung und codierungsverfahren |
CN101067931B (zh) * | 2007-05-10 | 2011-04-20 | 芯晟(北京)科技有限公司 | 一种高效可配置的频域参数立体声及多声道编解码方法与系统 |
WO2009122757A1 (ja) * | 2008-04-04 | 2009-10-08 | パナソニック株式会社 | ステレオ信号変換装置、ステレオ信号逆変換装置およびこれらの方法 |
CN101770776B (zh) | 2008-12-29 | 2011-06-08 | 华为技术有限公司 | 瞬态信号的编码方法和装置、解码方法和装置及处理系统 |
EP2273493B1 (en) * | 2009-06-29 | 2012-12-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Bandwidth extension encoding and decoding |
EP3779975B1 (en) * | 2010-04-13 | 2023-07-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder and related methods for processing multi-channel audio signals using a variable prediction direction |
EP2707873B1 (en) * | 2011-05-09 | 2015-04-08 | Dolby International AB | Method and encoder for processing a digital stereo audio signal |
CN104269173B (zh) * | 2014-09-30 | 2018-03-13 | 武汉大学深圳研究院 | 切换模式的音频带宽扩展装置与方法 |
RU2765565C2 (ru) | 2015-09-25 | 2022-02-01 | Войсэйдж Корпорейшн | Способ и система для кодирования стереофонического звукового сигнала с использованием параметров кодирования первичного канала для кодирования вторичного канала |
CN107659888A (zh) * | 2017-08-21 | 2018-02-02 | 广州酷狗计算机科技有限公司 | 识别伪立体声音频的方法、装置及存储介质 |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
EP3483880A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
WO2019091573A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
CN108962268B (zh) * | 2018-07-26 | 2020-11-03 | 广州酷狗计算机科技有限公司 | 确定单声道的音频的方法和装置 |
CN112151045B (zh) | 2019-06-29 | 2024-06-04 | 华为技术有限公司 | 一种立体声编码方法、立体声解码方法和装置 |
CN111654745B (zh) * | 2020-06-08 | 2022-10-14 | 海信视像科技股份有限公司 | 多声道的信号处理方法及显示设备 |
CN112053669B (zh) * | 2020-08-27 | 2023-10-27 | 海信视像科技股份有限公司 | 一种人声消除方法、装置、设备及介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5488665A (en) * | 1993-11-23 | 1996-01-30 | At&T Corp. | Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels |
US5812971A (en) * | 1996-03-22 | 1998-09-22 | Lucent Technologies Inc. | Enhanced joint stereo coding method using temporal envelope shaping |
US5913187A (en) * | 1997-08-29 | 1999-06-15 | Nortel Networks Corporation | Nonlinear filter for noise suppression in linear prediction speech processing devices |
DE19747132C2 (de) * | 1997-10-24 | 2002-11-28 | Fraunhofer Ges Forschung | Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms |
DE19829284C2 (de) * | 1998-05-15 | 2000-03-16 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Verarbeiten eines zeitlichen Stereosignals und Verfahren und Vorrichtung zum Decodieren eines unter Verwendung einer Prädiktion über der Frequenz codierten Audiobitstroms |
US6771723B1 (en) * | 2000-07-14 | 2004-08-03 | Dennis W. Davis | Normalized parametric adaptive matched filter receiver |
US6622117B2 (en) * | 2001-05-14 | 2003-09-16 | International Business Machines Corporation | EM algorithm for convolutive independent component analysis (CICA) |
KR100443405B1 (ko) * | 2001-07-05 | 2004-08-09 | 주식회사 이머시스 | 멀티채널 스피커용 오디오 신호를 멀티 채널 헤드폰용 오디오 신호로 변환하여 재분배 하는 장치 |
GB0124352D0 (en) * | 2001-10-11 | 2001-11-28 | 1 Ltd | Signal processing device for acoustic transducer array |
US7359522B2 (en) * | 2002-04-10 | 2008-04-15 | Koninklijke Philips Electronics N.V. | Coding of stereo signals |
JP2007009804A (ja) * | 2005-06-30 | 2007-01-18 | Tohoku Electric Power Co Inc | 風力発電施設の出力電力制御スケジュールシステム |
JP2007095002A (ja) * | 2005-09-30 | 2007-04-12 | Noritsu Koki Co Ltd | 写真処理装置 |
-
2004
- 2004-03-01 DE DE102004009954A patent/DE102004009954B4/de not_active Expired - Lifetime
-
2005
- 2005-02-28 AU AU2005217517A patent/AU2005217517B2/en active Active
- 2005-02-28 CN CN2005800068249A patent/CN1926608B/zh active Active
- 2005-02-28 CA CA2558161A patent/CA2558161C/en active Active
- 2005-02-28 PT PT05715611T patent/PT1697930E/pt unknown
- 2005-02-28 EP EP05715611A patent/EP1697930B1/de active Active
- 2005-02-28 ES ES05715611T patent/ES2286798T3/es active Active
- 2005-02-28 WO PCT/EP2005/002110 patent/WO2005083678A1/de active IP Right Grant
- 2005-02-28 BR BRPI0507207A patent/BRPI0507207B1/pt active IP Right Grant
- 2005-02-28 DE DE502005000864T patent/DE502005000864D1/de active Active
- 2005-02-28 JP JP2007501191A patent/JP4413257B2/ja active Active
- 2005-02-28 DK DK05715611T patent/DK1697930T3/da active
- 2005-02-28 AT AT05715611T patent/ATE364882T1/de active
- 2005-02-28 KR KR1020067016991A patent/KR100823097B1/ko active IP Right Grant
- 2005-02-28 RU RU2006134641/09A patent/RU2332727C2/ru active
-
2006
- 2006-08-01 IL IL177213A patent/IL177213A/en active IP Right Grant
- 2006-08-14 US US11/464,315 patent/US7340391B2/en active Active
- 2006-09-29 NO NO20064431A patent/NO339114B1/no unknown
-
2007
- 2007-02-12 HK HK07101657A patent/HK1095194A1/xx unknown
Also Published As
Publication number | Publication date |
---|---|
PT1697930E (pt) | 2007-09-25 |
BRPI0507207A8 (pt) | 2018-06-12 |
EP1697930B1 (de) | 2007-06-13 |
JP4413257B2 (ja) | 2010-02-10 |
NO20064431L (no) | 2006-09-29 |
BRPI0507207B1 (pt) | 2018-12-26 |
RU2006134641A (ru) | 2008-04-10 |
CA2558161A1 (en) | 2005-09-09 |
JP2007525718A (ja) | 2007-09-06 |
US20070033056A1 (en) | 2007-02-08 |
DE502005000864D1 (de) | 2007-07-26 |
US7340391B2 (en) | 2008-03-04 |
CN1926608B (zh) | 2010-05-05 |
KR100823097B1 (ko) | 2008-04-18 |
DE102004009954A1 (de) | 2005-09-29 |
CN1926608A (zh) | 2007-03-07 |
RU2332727C2 (ru) | 2008-08-27 |
ATE364882T1 (de) | 2007-07-15 |
NO339114B1 (no) | 2016-11-14 |
IL177213A0 (en) | 2006-12-10 |
AU2005217517B2 (en) | 2008-06-26 |
DE102004009954B4 (de) | 2005-12-15 |
AU2005217517A1 (en) | 2005-09-09 |
BRPI0507207A (pt) | 2007-06-12 |
DK1697930T3 (da) | 2007-10-08 |
IL177213A (en) | 2011-10-31 |
WO2005083678A1 (de) | 2005-09-09 |
CA2558161C (en) | 2010-05-11 |
EP1697930A1 (de) | 2006-09-06 |
HK1095194A1 (en) | 2007-04-27 |
KR20060121982A (ko) | 2006-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2286798T3 (es) | Dispositivo y procedimiento para procesar una señal multicanal. | |
JP3623449B2 (ja) | 符号化されたオーディオ信号中のエラーを隠蔽する方法と装置および符号化されたオーディオ信号を復号化する方法と装置 | |
ES2880883T3 (es) | Codificador, decodificador y métodos para la adaptación dinámica compatible inversamente de resolución de tiempo/frecuencia en la codificación de objetos de audio espacial | |
JP6250071B2 (ja) | パラメトリック・マルチチャネル・エンコードのための方法 | |
JP5883561B2 (ja) | アップミックスを使用した音声符号器 | |
AU716982B2 (en) | Method for signalling a noise substitution during audio signal coding | |
ES2847237T3 (es) | Aparato y método de emisión de un valor estimado | |
JP5163545B2 (ja) | オーディオ復号装置及びオーディオ復号方法 | |
JP2019509511A (ja) | マルチチャネル符号化におけるステレオ充填装置及び方法 | |
KR101798117B1 (ko) | 후방 호환성 다중 해상도 공간적 오디오 오브젝트 코딩을 위한 인코더, 디코더 및 방법 | |
US8886548B2 (en) | Audio encoding device, decoding device, method, circuit, and program | |
KR20180016417A (ko) | 과도 프로세싱을 향상시키기 위한 사후 프로세서, 사전 프로세서, 오디오 인코더, 오디오 디코더, 및 관련 방법 | |
JP5977434B2 (ja) | パラメトリック空間オーディオ符号化および復号化のための方法、パラメトリック空間オーディオ符号器およびパラメトリック空間オーディオ復号器 | |
US20100121632A1 (en) | Stereo audio encoding device, stereo audio decoding device, and their method | |
KR20150043404A (ko) | 공간적 오디오 객체 코딩에 오디오 정보를 적응시키기 위한 장치 및 방법 | |
JP4625709B2 (ja) | ステレオオーディオ信号符号化装置 | |
US11527252B2 (en) | MDCT M/S stereo | |
JP2006126372A (ja) | オーディオ信号符号化装置、方法及びプログラム | |
JP3863706B2 (ja) | 音声符号化方法 | |
EP4229628A1 (en) | Method and device for audio band-width detection and audio band-width switching in an audio codec | |
MXPA06009933A (es) | Aparato y metodo para procesar una señal multicanal |