ES2841302T3 - Aparato y método para procesar una señal de audio multicanal - Google Patents

Aparato y método para procesar una señal de audio multicanal Download PDF

Info

Publication number
ES2841302T3
ES2841302T3 ES17726861T ES17726861T ES2841302T3 ES 2841302 T3 ES2841302 T3 ES 2841302T3 ES 17726861 T ES17726861 T ES 17726861T ES 17726861 T ES17726861 T ES 17726861T ES 2841302 T3 ES2841302 T3 ES 2841302T3
Authority
ES
Spain
Prior art keywords
signals
signal
phase
channel
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES17726861T
Other languages
English (en)
Inventor
Christian Uhle
Michael Kratz
Paul Klose
Timothy Leonard
André Luvizotto
Sebastian Scharrer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2841302T3 publication Critical patent/ES2841302T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/005Reproducing at a different information rate from the information rate of recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)

Abstract

Aparato (1) para procesar una señal de audio multicanal (100) que comprende una pluralidad de señales de canal (x1, x2), en el que el aparato (1) se configura para realizar una modificación en escala de tiempo de la señal de audio multicanal (100), y en el que el aparato (1) comprende: un combinador (4) para proporcionar señales combinadas (Xs, Xd) basándose en las señales de canal (x1, x2), en el que el combinador (4) se configura para proporcionar una señal de suma (Xs) al calcular una suma de dos señales de canal (x1, x2) y para proporcionar una señal de diferencia (Xd) al calcular una diferencia de dichas dos señales de canal (x1, x2); un adaptador de fase (5), en el que el adaptador de fase (5) se configura para proporcionar al menos una señal procesada (Ys) para realizar modificación en escala de tiempo al modificar una fase de la señal de suma (Xs), y opcionalmente una señal de diferencia procesada (Yd) al modificar una fase de la señal de diferencia, en el que el adaptador de fase (5) se configura para modificar la fase al aplicar un método de codificador vocal de fase, en el que el adaptador de fase (5) se configura para modificar la fase al aplicar un bloqueo de fase, o en el que el adaptador de fase (5) se configura para modificar la fase de modo que se mantenga una coherencia de fase horizontal, y un separador (6), en el que el separador (6) se configura para proporcionar señales separadas (Y1, Y2) basándose en la al menos una señal procesada (Ys) y la señal de diferencia (Xd) o la señal de diferencia opcionalmente procesada (Yd), en el que el separador (6) se configura para invertir la combinación de las señales de canal, aplicada por el combinador (4).

Description

DESCRIPCIÓN
Aparato y método para procesar una señal de audio multicanal
La invención se refiere a un aparato para procesar una señal de audio multicanal. La señal de audio multicanal comprende una pluralidad de es decir, al menos dos señales de canal. El aparato realiza una modulación en escala de tiempo de la señal de audio multicanal. La invención también se refiere a un método correspondiente y a un programa informático.
La modificación en escala de tiempo (TSM) se refiere al procesamiento para desacelerar o acelerar la reproducción de una señal de audio sin afectar a su tono. La TSM en combinación con la conversión de la tasa de muestra también permite cambiar el tono sin modificar el ritmo. El reto de la TSM es mantener todas las otras características de la señal de audio (excepto ya sea el ritmo o el tono) y, en particular, la calidad de sonido. El procesamiento no debe producir distorsiones audibles.
Para señales de entrada de canal individual, la característica más importante es el timbre. Para señales que tienen más de un canal, también se necesitan mantener las características espaciales. Las características espaciales comprenden la posición y ancho de la fuente de sonido directo y la difusividad del sonido ambiente. Pueden cuantificarse por diferencias a nivel entre canales (ICLD), diferencias de tiempo entre canales (ICTD), diferencias de fase entre canales (ICPD) y coherencia entre canales (ICC).
Existen dos enfoques fundamentalmente diferentes a la modificación en escala de tiempo. Uno se aplica en el dominio de tiempo y el otro se aplica en el dominio de frecuencia.
El procesamiento en el dominio de tiempo usa un esquema de superposición-adición sincronizadas (SOLA). La señal se corta en tramas de superposición y estas tramas se cambian y combinan para estirar o encoger la señal. La posición de cambio se calcula normalmente al maximizar una medida de similitud, por ejemplo, correlación entre la trama de señal y su copia cambiada.
Este método en el dominio de tiempo es de baja complejidad computacional. Produce buenos resultados para señales monofónicas (en contraste a las polifónicas), por ejemplo, voz o tonos de flauta, debido a que el desplazamiento de cambio puede determinarse como un múltiplo entero del período de la frecuencia fundamental a fin de evitar discontinuidades e interferencias destructivas en la señal de salida. En otras palabras, las tramas de señal cambiadas se añaden de una manera coherente en fase. Para entradas polifónicas con múltiples tonos que tienen diferentes frecuencias fundamentales, el cambio no puede determinarse de manera que se cumpla similaridad de forma de onda para todas las tonalidades (tonos).
Para muchas señales musicales, los mejores resultados en términos de la calidad de sonido se obtienen al aplicar el procesamiento en el dominio de frecuencia. Este método usa, por ejemplo, el esquema de codificador vocal de fase [1] tal como se muestra en el diagrama de bloques mostrado en la figura 1 y explicado brevemente a continuación. La señal de audio de entrada x(n) se transforma al dominio de frecuencia usando una transformada de Fourier de tiempo corto (STFT). De manera equivalente, puede usarse otro tipo de banco de filtros o transformada para lo cual puede aplicarse el procesamiento inverso con error de reconstrucción suficientemente pequeño.
En la realización mencionada, la señal de entrada x(n) se corta en tramas de superposición y se calcula una transformada de Fourier discreta (DFT) para cada trama según la siguiente ecuación (1), produciendo una representación de la señal de transformada de Fourier de tiempo corto (STFT), también denominada coeficientes STFT (o coeficientes espectrales), según
Figure imgf000002_0001
Un índice de trama de tiempo se denota por m, k es un índice de frecuencia discreta con 0 < k < N - 1, y wa es una función de ventana. La frecuencia angular normalizada Qk se da por Qk = 2 n k / N. La DFT tiene tamaño N y Ra es un tamaño de salto de análisis.
Los índices para el tiempo y frecuencia se omiten en la descripción cuando sea posible por brevedad.
La señal de dominio de tiempo de salida y(n) se calcula a partir de los coeficientes espectrales de salida Y(m, k) en la fase de síntesis por medio de la inversa de la STFT que se realiza en dos etapas:
Primero, se calcula una transformada de Fourier discreta inversa para cada una de las M tramas según
Figure imgf000003_0001
Segundo, se aplica un procedimiento de superposición-adición según
Figure imgf000003_0002
Se logra una modificación en escala de tiempo al ajustar el tamaño de salto de síntesis Rs y el tamaño de salto de análisis Ra a diferentes valores: la señal se estira en tiempo si Ra < Rs y se encoje si Ra > Rs.
La ventana de análisis wa y la ventana de síntesis ws se eligen de manera que si Ra = Rs e Y(m,k) = X(m,k), entonces la señal de entrada y de salida son idénticas.
Los coeficientes de transformada de Fourier de tiempo corto X(m,k) para señales de entrada de valor real (que es el caso para señales de audio consideradas en el presente documento) son números de valor complejo que pueden expresarse en coordenadas polares por su magnitud |X| y fase Ox como
X = |X] exp(j<Dx), (4)
Ox = arg X, (5)
donde j = V-1.
Si los dos tamaños de salto Ra y Rs difieren, es decir, si Ra # Rs, entonces las fases de Y(m,k) necesitan modificarse de manera que se logra la “coherencia de fase horizontal”. Esto significa que para una sinusoide de frecuencia constante, se superponen tramas sucesivas coherentemente sin discontinuidades ni cancelación de fase (interferencia destructiva).
El enfoque de codificador vocal de fase es apropiado para entradas polifónicas, por ejemplo, grabaciones musicales. Su desventaja es que la modificación de la fase puede producir una distorsión conocida como “borrosidad transitoria”, es decir, la envoltura temporal de la señal se modifica de manera que se perciben inicios de notas como que tienen menos ataque y sonido menos percusivo. Puede aplicarse procesamiento adicional a la fase de salida para mitigar la borrosidad transitoria, por ejemplo, al aplicar un método llamado “bloqueo de fase” [2] o al reajustar la fase durante períodos de silencio [3].
Después de un procedimiento adecuado para modificar la fase, se obtiene una salida. Los coeficientes espectrales de la salida pueden escribirse con coordenadas polares como Y = |Y| exp(jOy) donde Oy denota la fase modificada. El procedimiento de cálculo de la fase Oy se denomina a continuación adaptación de fase (PA).
Se conocen varias maneras de procesar señales de entrada de audio de dos canales:
Una opción es realizar una mezcla descendente de la señal multicanal a una señal de un solo canal, es decir, añadir versiones a escala de todos los canales y procesar la señal de un solo canal (mono). El procesamiento de una mezcla descendente mono de la señal de entrada tiene la desventaja de que la información estereofónica se pierde y de este modo se reduce la calidad de sonido.
Una opción diferente es procesar de manera independiente las señales de canal de entrada separadas. La principal desventaja del procesamiento de forma separada de cada señal de canal es que se introduce decorrelación arbitraria entre los canales que distorsiona la imagen estéreo. Debido a que la adaptación de fase de la modificación en escala de tiempo es un procesamiento dependiente de la señal, las relaciones entre las fases de los canales individuales no se conservan cuando son diferentes las correspondientes señales de canal. Las distorsiones de la información espacial pueden percibirse como difusión o ampliación de la imagen estéreo de fuentes de sonido directas (cantantes o solistas, por ejemplo).
La solicitud de patente WO 2008/046967 A1, NOKIA CORP [FI], OJALA PASI [FI], LAKANIEMI ARI [FI], VIROLAINEN JUSSI, 24 de abril de 2008, da a conocer el escalamiento de tiempo de señales de audio multicanal, que comprende el almacenamiento temporal de una señal de entrada de audio codificada que comprende al menos una señal de "suma" combinada de una pluralidad de canales de audio, y uno o más conjuntos correspondientes de parámetros de "información secundaria" que describen una imagen de sonido multicanal, es decir, indicaciones espaciales entre canales salientes codificadas de manera compacta como "información secundaria de BCC". La longitud de al menos una trama de audio se cambia añadiendo o eliminando un segmento de la señal combinada, y el uno o más conjuntos de parámetros de información secundaria se modifican en relación con el cambio de longitud de la al menos una trama de audio de la señal combinada.
Un objeto de la invención es mejorar los métodos existentes de modificación en escala de tiempo con respecto a la calidad de las características espaciales --por ejemplo, la imagen estéreo de la señal procesada.
El objeto se logra por un aparato así como por un método.
El objeto se logra por un aparato para procesar una señal de audio multicanal. La señal de audio multicanal comprende una pluralidad de, o al menos dos, señales de canal. El aparato se configura para realizar una modulación en escala de tiempo de la señal de audio multicanal, es decir, la señal de audio multicanal se desacelera o acelera sin afectar a su tono. El aparato comprende un adaptador de fase y un separador. El adaptador de fase se configura para proporcionar al menos una señal procesada al modificar una fase de una señal basada en una combinación de las señales de canal. El separador se configura para proporcionar señales separadas basadas en la al menos una señal procesada.
La invención mejora el procesamiento de señales y especialmente señales de audio o voz. Especialmente se afronta el problema de procesar señales estereofónicas de entrada que tienen dos o más canales.
Una ventaja de la invención es que las características espaciales de la señal de audio de entrada se conservan de manera que no se distorsiona la imagen estéreo percibida. En particular, las posiciones de las fuentes de sonido y la difusividad no se cambian debido al procesamiento TSM.
Por tanto, la invención afronta el problema de que las características espaciales de la señal de salida se distorsionan severamente en el estado de la técnica, que es más perceptible cuando se escuchan fuentes de sonido panoramizadas al centro de la imagen estéreo.
El aparato realiza la modificación en escala de tiempo de la señal de audio multicanal al realizar una adaptación de fase. En el estado de la técnica, se conocen diferentes procedimientos para modificar la fase (incluyendo el bloqueo de fase y otros medios).
Una realización para modificar la fase comprende modificar la fase de manera que la propagación de fase entre tramas adyacentes con el tamaño de salto de síntesis Rs es idéntico a la propagación de fase de la señal de entrada para el tamaño de salto de análisis Ra. Esto asegura que se mantenga la coherencia de fase horizontal (es decir, la evolución temporal de las fases en cada intervalo de frecuencia). Esto se logra al calcular la frecuencia instantánea en la trama de tiempo m dada la fase de entrada de la corriente y la trama de tiempo anterior y el tamaño de salto de análisis Ra y los parámetros STFT (transformada de Fourier de tiempo corto). La propagación de fase deseada se calcula usando la frecuencia instantánea y el tamaño de salto de síntesis Rs.
En una realización adicional, se mejora el método anterior por un método que comprende “bloqueo de fase”. El bloqueo de fase tiene como finalidad mejorar la coherencia de fase vertical, es decir, mantener la relación de la fase entre intervalos adyacentes de frecuencia en cada trama. Esto mejora la calidad de sonido, puesto que se percibe, por ejemplo, cuando se procesan señales musicales que contienen transitorios o notas percusivas.
El adaptador de fase se configura para adaptar la fase de al menos una combinación de las señales de canal comprendidas por la señal de audio multicanal. Para esto, las señales que se van a procesar por el adaptador de fase se dan con coordenadas polares por una magnitud y una fase.
El separador después del adaptador de fase proporciona señales separadas basándose en la señal procesada, es decir, basándose en la señal con una fase modificada. El separador invierte la combinación de señales y extrae o genera señales separadas.
Por lo tanto, el aparato modifica la fase de al menos una combinación de señales de canal y proporciona señales modificadas individuales al separar la combinación adaptada en fase de señales de canal en señales separadas.
La adaptación de fase de la invención es más adecuada como una extensión a la modificación en escala de tiempo que usa el codificador vocal de fase, es decir, procesamiento en el dominio de frecuencia. Sin embargo, también puede aplicarse como una extensión a TSM en el dominio de tiempo. Para este fin, la TSM en el dominio de tiempo se configura para procesar la al menos una señal que se obtiene al combinar las señales de canal comprendidas por la señal de audio multicanal. El separador después de la TSM de dominio de tiempo proporciona señales separadas basadas en la señal procesada.
En una realización, el adaptador de fase se configura para proporcionar N señales procesadas al modificar fases de N señales basándose en combinaciones de N señales de canal. El separador se configura para proporcionar N señales separadas basándose en las señales procesadas. N es un número de señales de canal comprendido por la señal de audio multicanal y es un número entero mayor que o igual a dos. En una realización, N es el número de todas las señales de canal comprendidas por la señal de audio multicanal. Por lo tanto, se convierten N señales de canal en N señales combinadas que, después de la adaptación de fase, se separan en N señales.
Según una realización, las N combinaciones de las señales de canal son combinaciones lineales de las señales de canal. En una realización, el adaptador de fase maneja diversas combinaciones de señales de canal, mientras que las combinaciones son combinaciones lineales, por ejemplo, la suma o la diferencia de señales de canal.
En una realización, N es igual a dos (N = 2) y las dos combinaciones de las dos señales de canal son una señal de diferencia y suma. En una realización diferente, N es mayor que dos.
En una realización adicional, el aparato comprende un transformador. El transformador se configura para proporcionar señales transformadas al transformar señales del dominio de tiempo al dominio de frecuencia. El transformador permite transformar señales del dominio de tiempo al dominio de frecuencia y, posteriormente, procesar estas señales en el dominio de frecuencia. Las señales que se van a transformar son, en una realización, las señales de canal comprendidas por la señal de audio multicanal.
Según una realización, el transformador se configura para proporcionar señales transformadas al aplicar una transformación de Fourier de tiempo corto. La transformada de Fourier de tiempo corto o, de manera alternativa, la transformada de Fourier de término reducido (STFT) es una transformada relacionada con Fourier de secciones locales de una señal conforme cambia con la etapa del tiempo. En la práctica, una señal más larga se divide en segmentos más cortos de igual longitud y la transformada de Fourier se calcula de manera separada en cada segmento.
En una realización adicional, el aparato comprende un combinador, en el que el combinador se configura para proporcionar señales combinadas basándose en las señales de canal. El transformador se configura para proporcionar señales transformadas basándose en las señales combinadas al aplicar una transformación. En el presente documento, las señales de canal se combinan y las combinaciones se transforman en el dominio de frecuencia.
En una realización diferente, la secuencia de combinador y transformador se invierte. En esta realización, el combinador comprendido por el aparato se configura para proporcionar señales combinadas basándose en señales transformadas proporcionadas por el transformador. En esta realización, el combinador recibe señales transformadas del transformador y las combina a fin de proporcionar señales combinadas. De esta manera, las señales de canal se transforman de manera individual en el dominio de frecuencia y se combinan en este dominio por el combinador.
En una realización adicional, el combinador se configura para proporcionar una señal de suma como una señal combinada al calcular una suma de dos señales transformadas. En esta realización, se usa una combinación lineal de las señales de canal mediante sus señales transformadas en la forma de una suma para proporcionar al menos una señal combinada. Si la señal de audio multicanal comprende, por ejemplo, dos señales de canal como señales estéreo, entonces ambas señales de canal se añaden entre sí para obtener una señal combinada que es una señal de suma. En una realización diferente, el combinador calcula una suma de señales de canal de al menos dos señales de canal.
Según una realización, el combinador se configura para proporcionar una señal de diferencia como señal combinada al calcular una diferencia entre dos señales transformadas. En esta realización, la combinación lineal de señales es una diferencia entre dos señales. Las señales que se van a combinar son señales transformadas en el presente documento. En una realización diferente, el combinador calcula una diferencia entre dos señales de canal.
Según una realización, el combinador se configura para proporcionar señales combinadas al aplicar una matriz de mezclado, llamada g , que tiene dimensiones N por N a una señal multicanal que comprende las N señales transformadas, según X = gX
N es un número de señales de canal comprendidas por la señal de audio multicanal y X es la señal multicanal en matriz basada en las señales transformadas y representa, de esta manera, las señales combinadas en una forma general.
En otras palabras: el combinador se configura para proporcionar las señales combinadas al aplicar una matriz de mezclado que tiene dimensiones N por N a las N señales transformadas, preferiblemente en un formato en matriz, en el que las señales transformadas se basan en las N señales de canal que pertenecen a la señal de audio multicanal. Puesto que la matriz de mezclado tiene el mismo número de columnas y filas, el número de señales que se van a combinar es igual al número de señales combinadas, tal como se muestra en la siguiente ecuación:
Figure imgf000006_0001
La aplicación de la matriz de mezclado es equivalente a calcular la k-ésima señal de canal de la señal combinada al sumar todas las señales de canal de la señal de audio multicanal multiplicada por los elementos correspondientes de la k-ésima fila de la matriz, tal como se muestra en la siguiente ecuación:
Figure imgf000006_0002
En una realización diferente, la matriz de mezclado definida se aplica a una señal basándose en las N señales de canal. La matriz de mezclado permite combinar cualquier número dado de señales, ya sean señales transformadas o de canal.
En una realización adicional, el adaptador de fase se configura para modificar las fases al aplicar un método de codificador vocal de fase. Un codificador vocal de fase es un codificador vocal que escala tanto los dominios de frecuencia como de tiempo de las señales de audio al usar información de fase.
Según una realización, el adaptador de fase se configura para proporcionar señales procesadas por sus coordenadas polares que tienen amplitudes y fases modificadas. Por tanto, en una realización con N = 2 señales de canal Ys, Yd, las señales procesadas se dan por: Y s/d = |Ys/d|exp(j0s/d) con Os/d = arg Ys/d y j = V-1.
El separador proporciona señales individuales basándose en las señales procesadas que se basan en las señales combinadas. Las señales proporcionadas por el separador se van a usar como señales de canal modificadas en escala de tiempo. Por lo tanto, según una realización, si las señales de audio multicanal comprenden N señales de canal, entonces el separador proporciona N señales separadas.
Según una realización, el separador se configura para proporcionar una señal separada basándose en una diferencia entre dos de las señales procesadas.
En una realización adicional, el separador se configura para proporcionar una señal separada basándose en una suma de dos de las señales procesadas.
En una realización, el separador aplica un factor (por ejemplo, 0.5) a la amplitud de la combinación respectiva de las señales procesadas.
Según una realización, el separador se configura para proporcionar N señales separadas al aplicar una matriz de mezclado inversa que tiene dimensiones de N por N a una señal en matriz basándose en las N señales procesadas. N es un número de señales de canal comprendido por la señal de audio multicanal. Esta realización permite procesar cualquier número dado de señales procesadas y proporcionar el número correspondiente de señales separadas. La matriz de mezclado inversa es la inversa de la matriz de mezclado usada para obtener las señales combinadas. Según una realización, el aparato comprende un corrector, en el que el corrector se configura para modificar las señales separadas al reemplazar amplitudes de las señales separadas con amplitudes basadas en amplitudes de las señales de canal comprendidas por la señal de audio multicanal.
Esta realización comprende procesar una combinación lineal de las señales de canal y aplicar un procedimiento de corrección de magnitud después de que las señales se han modificado en el dominio de frecuencia.
La novedad del método presentado está, por tanto, en esta realización dos veces:
1) aplicar el procesamiento de TSM a las combinaciones preferiblemente lineales, por ejemplo, a la señal de suma y a la señal de diferencia y
2) aplicar un procesamiento para restaurar la magnitud de la señal de salida en el dominio de tiempo-frecuencia a fin de restaurar las diferencias de nivel entre canales (ICLD).
En una realización adicional, el corrector se configura para reemplazar las amplitudes de las señales separadas con amplitudes de las señales transformadas correspondientes proporcionadas por un transformador, es decir, por las amplitudes de las señales de canal en el dominio de frecuencia.
El corrector, de esta manera, reemplaza las amplitudes de las señales separadas que tienen la fase adaptada por las amplitudes de las correspondientes señales antes de la adaptación. Por lo tanto, se restauran las amplitudes originales.
Las siguientes realizaciones se ocupan de señales en el dominio de frecuencia y permiten procesarlas en el dominio de tiempo.
En una realización, el aparato comprende un transformador inverso. El transformador inverso se configura para proporcionar señales de canal modificadas basándose en las señales separadas al aplicar una transformación inversa. La transformación inversa transforma en una realización señales del dominio de frecuencia al dominio de tiempo. Según otra realización, el aparato comprende un transformador inverso. El transformador inverso se configura para proporcionar señales de canal modificadas y corregidas basándose en señales corregidas proporcionadas por el corrector al aplicar una transformación inversa.
Según una realización diferente, el transformador inverso se configura para aplicar una transformación de Fourier de tiempo corto inversa.
El transformador inverso se configura de esta manera para invertir la clase de transformación realizada en una etapa anterior a la adaptación de fase.
Según una realización, el aparato comprende un extractor, en el que el extractor se configura para proporcionar señales de canal comprendidas por la señal de audio multicanal. En esta realización, el aparato, por ejemplo, recibe la señal de audio multicanal y el extractor proporciona las señales de canal individuales. En una realización diferente, las señales de canal se presentan de manera separada al aparato.
La siguiente realización permite facilitar las etapas computacionales y los requisitos para las unidades.
Según una realización, el aparato se configura para realizar etapas en combinaciones de señales de canal basándose en una diferencia con menos precisión que en diferentes combinaciones de las señales de canal.
El objeto también se logra por un método para procesar una señal de audio multicanal.
El método comprende al menos las siguientes etapas:
proporcionar al menos una señal combinada basándose en señales de canal comprendidas por la señal de audio multicanal,
proporcionar una señal procesada al realizar una modulación en escala de tiempo de la señal combinada, y proporcionar señales de canal modificadas basándose en una separación de las señales procesadas.
La modulación en escala de tiempo se realiza en una realización por una adaptación de fase.
Según una realización, el método comprende además modificar amplitudes de señales de canal modificadas al reemplazar las amplitudes con amplitudes basadas en amplitudes de las correspondientes señales de canal.
En esta realización, se presentan las siguientes etapas: Las señales de canal se combinan en señales combinadas. Las señales combinadas o señales basadas en las señales combinadas experimentan una adaptación de fase a fin de realizar la modificación en escala de tiempo. Las señales adaptadas en fase se separan en señales separadas. Las señales comprenden fases y amplitudes. Las amplitudes/magnitudes de estas señales se reemplazan por amplitudes basadas en las señales de canal.
Las realizaciones del aparato también pueden realizarse por etapas del método y correspondientes realizaciones del método. Por lo tanto, las explicaciones dadas para las realizaciones del aparato también se mantienen para el método. El objeto también se logra por un programa informático para realizar, cuando se ejecuta en un ordenador o un procesador, el método según cualquiera de las realizaciones anteriores.
La invención se explicará a continuación con respecto a las figuras adjuntas y las realizaciones representadas en las figuras adjuntas, en las cuales:
la figura 1 muestra un diagrama de bloques de un método de modificación en escala de tiempo en el dominio de frecuencia según el estado de la técnica,
la figura 2 ilustra un diagrama de bloques del método de modificación en escala de tiempo de la invención para señales de audio de entrada con dos canales,
la figura 3 proporciona esquemáticamente una realización del aparato,
la figura 4 proporciona una realización diferente del aparato y
la figura 5 ilustra una versión general de la realización de la figura 4.
Un diagrama de bloques de una realización del método de la invención se representa en la figura 2 para el ejemplo de señales de entrada que tienen dos canales (por ejemplo, el canal izquierdo y derecho de sonido estéreo).
La señal de audio de entrada es x = [x1 x2]T, donde x1 denota la primera señal de canal y x2 denota la segunda señal de canal. Una representación de transformada de Fourier de tiempo corto (STFT) se calcula para x1 y x2 , produciendo X1 y X2 , respectivamente, en la etapa STFT.
Según la invención, una señal de suma Xs y una señal de diferencia Xd se calculan en la etapa llamada MS a partir de las señales de canal (en el presente documento: las señales de canal transformadas X 1 y X2) de la señal de audio multicanal según
Xs = (X1 + X2), (6)
Xd = (X i-X 2). (7)
En una realización diferente, se cambian el orden de STFT y la combinación de las señales en la etapa MS. Esto tiene en cuenta que el cálculo de las señales de suma y de diferencia también puede realizarse en el dominio de tiempo y que la STFT puede calcularse a partir de las señales de suma y de diferencia del dominio de tiempo. Sin embargo, es ventajoso aplicar el orden tal como se muestra en la figura 2 para reducir la carga computacional.
La señal de suma Xs y la señal de diferencia Xd entonces se procesan por medio de un método de adaptación de fase (PA), por ejemplo, al usar el método de codificador vocal de fase descrito en [2], o cualquier otro método de modificación en escala de tiempo. La señal de suma y la señal de diferencia procesadas se denotan por Ys e Yd, respectivamente.
A esto le sigue una transformación inversa en la etapa MS inversa, por ejemplo, al transformar las señales Ys e Yd por una transformada de Fourier de tiempo corto inversa.
Las señales procesadas para el primero y el segundo canal se obtienen en la realización mostrada al aplicar las siguientes ecuaciones (8) y (9), es decir, el procesamiento inverso de las ecuaciones (6) y (7).
Por tanto, las dos señales separadas Y 1 e Y2 se dan en la realización mostrada por:
Y1 = 0.5 (Ys Yd), ( 8 )
Y2 = 0.5 (Ys - Yd). (9)
En una forma general, el cálculo de la señal de suma y la señal de diferencia (como ejemplos de las señales combinadas) se expresan en la notación de matriz como
x = gX
(10) con coeficientes STFT de la señal de entrada X = [Xi ... Xn]t , un número de canales N, coeficientes STFT de la señal en matriz X = [Xi... Xn]t, y una matriz de mezclado g de tamaño N por N.
Por ejemplo, la señal de suma Xs y la señal de diferencia Xd, tal como se da por las ecuaciones (6) y (7), se obtienen para N = 2 al ajustar
Figure imgf000009_0001
El procesamiento inverso de la operación de matriz, es decir, el cálculo de las señales de canal Y = [Y1 .. Yn]t a partir de la señal en matriz Y = [Y1 ... Yn]t se obtiene a partir de
Figure imgf000009_0002
Donde Y es el resultado del procesamiento de PA aplicado a X y g-1 es la inversa de la matriz g. Con esta generalización, el método propuesto también puede aplicarse a señales que tienen más de dos canales.
Una etapa muy ventajosa de la realización mostrada es corregir la magnitud de los coeficientes espectrales de manera que los coeficientes espectrales de valor complejo resultantes tengan la fase del resultado de la etapa de separación usando las ecuaciones (8) y (9) y la magnitud de X 1 y X2 de las señales de canal transformadas.
Las señales separadas se dan en coordenadas polares como:
Y1/2 = IY1/2 i expG®y,i/2)
con Oy,1/2 = arg Y1/2 y j = V-1.
Por tanto, para las señales de entrada de dos canales mostradas, las señales corregidas Z 1 y Z2 después de la etapa MC se dan por:
Z 1 = ¡Xi| exp(jOy,i), (12) Z2 = |X2| exp(jOy,2). (13) Esta etapa asegura que las diferencias de nivel entre canales (ICLD) de la señal de audio se conserven.
Por lo tanto, en esta etapa, las magnitudes de las señales procesadas se sustituyen por las amplitudes originales de las señales de canal transformadas.
Para el caso general de señales de entrada que tienen más de dos canales, cada señal de salida después de la operación de matriz inversa, es decir, después de la separación en señales separadas después de la adaptación de fase individual, se modifica en una realización de manera que su magnitud se reemplaza por la magnitud de la señal de canal correspondiente, preferiblemente transformada (antes de la formación en matriz, es decir, antes del cálculo de las combinaciones de diferentes señales de canal).
El procesamiento de PA tiene una complejidad computacional considerable. Comprende diversas etapas de procesamiento que pueden implementarse con precisión reducida a fin de reducir la carga computacional.
Por ejemplo, el cálculo de las coordenadas polares (magnitud y fase) de un número complejo dado por sus coordenadas cartesianas (componente real e imaginario) puede implementarse con mayor o menor precisión. Frecuentemente, los cálculos con menor precisión tienen menos costes computacionales pero introducen un error. La carga computacional puede reducirse al aprovecharse del hecho de que para señales de audio típicas (por ejemplo, grabaciones musicales o grabaciones de radiodifusión) la señal de suma tiene mayor energía que la señal de diferencia. Los errores que resultan de las aproximaciones en el cálculo tienen un efecto menor cuando se introducen en la señal de diferencia y mayor efecto cuando se producen en la señal de suma. Esto puede aprovecharse al aplicar métodos con menor precisión para calcular la señal de diferencia Yd y métodos con mayor precisión cuando se calcula la señal de suma Ys.
Otro medio para reducir la carga computacional es saltarse ciertas etapas de procesamiento. Por ejemplo, el bloqueo de fase puede saltarse cuando se calcula la señal de diferencia Yd. El bloqueo de fase se refiere a una etapa de procesamiento adicional para mejorar la calidad de sonido. Para reducir la carga computacional, las fases para la señal de diferencia Yd se calculan de manera que la propagación de fase se mantiene sin aplicar el procesamiento de bloqueo de fase.
Otro medio para reducir la carga computacional es aplicar el procesamiento con alta calidad (gran precisión incluyendo todas las etapas de procesamiento tal como el bloqueo de fase) solo hasta un valor máximo de frecuencia. Para una señal digital muestreada a 48 kHz, por ejemplo, el procesamiento de alta calidad solo se aplica a las bandas de frecuencia hasta un valor máximo de 10 kHz. La frecuencia máxima hasta la cual se aplica el procesamiento con la mejor calidad posible puede reducirse adicionalmente para el cálculo de la señal de diferencia.
La figura 3 muestra una realización del aparato 1 que realiza una modificación en escala de tiempo de una señal de audio multicanal 100. La señal de audio multicanal 100 puede comprender más de dos señales de canal. La modificación en escala de tiempo se logra por una adaptación de fase.
Un extractor 2 recupera las señales de canal X1, X2 comprendidas por la señal de audio multicanal 100. En la realización mostrada, solo hay dos señales de canal. No obstante, la invención no se limita a dos señales de canal. En una realización diferente, y no mostrada, las señales de canal x 1, x2 se proporcionan de manera separada al aparato 1. Por lo tanto, para esta realización no se requiere extractor.
Las señales de canal x1, x2 son señales en el dominio de tiempo y se presentan, en la realización mostrada, a un transformador 3. El transformador 3 transforma las señales de canal x1, x2 en el dominio de frecuencia y de esta manera proporciona señales transformadas X1, X2.
Las señales transformadas X1, X2 se presentan a un combinador 4. El combinador 4 combina las señales transformadas X1, X2 , en el ejemplo dado, al aplicar combinaciones lineales de estas, por ejemplo, al calcular una suma Xs de las señales transformadas y una diferencia Xd entre estas. El número de señales combinadas en una realización es idéntico al número de señales de canal.
En una realización diferente, no mostrada, la secuencia del transformador 3 y el combinador 4 se invierten. Esto implica que el combinador 4 combina las señales de canal y el transformador 3 transforma las señales combinadas en esta realización diferente y no mostrada.
En la realización representada, las señales combinadas, que son señales de canal transformadas combinadas, Xs y Xd se presentan al adaptador de fase 5.
El adaptador de fase 5 modifica las fases de las señales combinadas Xs y Xd y proporciona señales procesadas Ys e Yd. Las señales procesadas Ys e Yd tienen fases adaptadas que reflejan la modificación en escala de tiempo apropiada de las señales combinadas Xs y Xd. Por lo tanto, las señales combinadas o bien se desaceleran o bien se aceleran. A fin de obtener señales de canal modificadas en escala de tiempo, las señales procesadas Ys e Yd se separan por el separador 6, proporcionando señales separadas Y1 e Y2 que experimentan una transformación inversa por un transformador inverso 7. Las señales de canal modificadas resultantes y1 e y2 son señales de tiempo y tienen la escala de tiempo deseada.
La figura 4 muestra una realización diferente del aparato 1.
La estructura del aparato 1 mostrada en la figura 4 es similar a la realización mostrada en la figura 3. La diferencia entre ambas realizaciones se da por las unidades después del separador 6. Para la explicación de los otros elementos, véase la descripción de la figura 3.
El separador 6 en la realización mostrada en la figura 4 también proporciona las señales separadas Y1 e Y2. Estas señales de dominio de frecuencia Y1 e Y2 se presentan en esta realización a un corrector 8 que está aguas arriba del transformador inverso 7.
El corrector 8 reemplaza las amplitudes de las señales separadas Y1 e Y2 por las amplitudes de las correspondientes señales transformadas X1 y X2 , es decir, con las amplitudes o magnitudes antes de la adaptación de fase y especialmente antes de la combinación de las señales de canal.
Las señales modificadas en amplitud o corregidas resultantes Z1 y Z2 (compárense las ecuaciones (12) y (13)) se presentan al transformador inverso 7 y se transforman en el dominio de tiempo como señales de canal modificadas y corregidas z1, z2.
A fin de permitir la corrección, el transformador 3 se conecta al corrector 8.
En una realización adicional, no mostrada, la secuencia del transformador 3 y el combinador 4 se cambia y el transformador 3, de esta manera, transforma las señales combinadas. Para la corrección de las señales separadas Y1, Y2 , el corrector 8 se refiere, por lo tanto, a transformaciones adicionales de las correspondientes señales de canal x1, x2.
La realización de la figura 5 es una versión generalizada de la mostrada en la figura 4.
En el presente documento, la señal de audio multicanal 100 comprende N señales de canal x1, x2 , ... xn donde N es un número entero mayor de dos.
Las señales de canal x1, x2 , ... xn que son señales de tiempo recuperadas por el extractor 2 se presentan al transformador 3, que proporciona las señales transformadas en el dominio de frecuencia X1, X2 , ... Xn, que se dan en el presente documento por un vector X (de manera alternativa dado por X).
El siguiente combinador 4 proporciona un vector de las combinaciones lineales X = [X1 ... X n]t al aplicar la ecuación (10).
Sigue el adaptador de fase 5 que proporciona señales procesadas (en el presente documento dadas por un vector: Y) que están separadas por un separador 6. Las señales separadas Y1, Y2 ,... Yn (en el presente documento dado por un vector Y) se corrigen con respecto a sus amplitudes por el corrector 8. Las señales corregidas Z1, Z2 ,... Zn (dado en el presente documento por un vector Z) se presentan al transformador inverso 7 que produce N señales de canal modificadas y corregidas Z1, Z2 , ...Zn. El cambio de letras mayúsculas a letras minúsculas indica la transformación del dominio de frecuencia al dominio de tiempo.
Aunque algunos aspectos se han descrito en el contexto de un aparato, está claro que estos aspectos también representan una descripción del método correspondiente, donde un bloque o dispositivo corresponde a una etapa de método o una característica de una etapa de método. De manera análoga, los aspectos descritos en el contexto de una etapa de método también representan una descripción de un bloque o elemento o característica correspondiente de un aparato correspondiente. Algunas o todas las etapas del método pueden ejecutarse por (o al usar) un aparato de hardware tal como, por ejemplo, un microprocesador, un ordenador programable o un circuito electrónico. En algunas realizaciones, algunos de unos o más de las etapas de método más importantes pueden ejecutarse por este aparato.
La señal transmitida o codificada de la invención puede almacenarse en un medio de almacenamiento digital o puede transmitirse en un medio de transmisión, tal como un medio de transmisión inalámbrica o un medio de transmisión alámbrica tal como Internet.
Dependiendo de ciertos requisitos de implementación, pueden implementarse realizaciones de la invención en hardware o en software. La implementación puede realizarse usando un medio de almacenamiento digital, por ejemplo, un disco flexible, un DVD, un Blu-Ray, un c D, una ROM, una PROM y EPROM, una EEPROM o una memoria FLASH, que tienen señales de control electrónicamente legibles almacenadas en los mismos, que actúan conjuntamente (o son capaces de actuar conjuntamente) con un sistema informático programable de manera que se realice el método respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible por ordenador.
Algunas realizaciones según la invención comprenden un portador de datos que tiene señales de control electrónicamente legibles, que son capaces de actuar conjuntamente con un sistema informático programable, de manera que se realice uno de los métodos descritos en el presente documento.
En general, las realizaciones de la presente invención pueden implementarse como un producto de programa informático con un código de programa, siendo el código de programa operativo para realizar uno de los métodos cuando el producto de programa informático se ejecuta en un ordenador. El código de programa puede, por ejemplo, almacenarse en un portador legible por máquina.
Otras realizaciones comprenden el programa informático para realizar uno de los métodos descritos en el presente documento, almacenado en un portador legible por máquina.
En otras palabras, una realización del método de la invención es, por lo tanto, un programa informático que tiene un código de programa para realizar uno de los métodos descritos en el presente documento, cuando el programa informático se ejecuta en un ordenador.
Una realización adicional del método de la invención es, por lo tanto, un portador de datos (o un medio de almacenamiento no transitorio, tal como un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para realizar uno de los métodos descritos en el presente documento. El portador de datos, el medio de almacenamiento digital o el medio grabado son normalmente tangibles y/o no transitorios.
Por lo tanto, una realización adicional del método de la invención es un flujo de datos o una secuencia de señales que representa el programa informático para realizar uno de los métodos descritos en el presente documento. El flujo de datos o la secuencia de señales puede, por ejemplo, configurarse para transferirse mediante una conexión de comunicación de datos, por ejemplo, mediante Internet.
Una realización adicional comprende un medio de procesamiento, por ejemplo, un ordenador o un dispositivo lógico programable, configurado para, o adaptado para, realizar uno de los métodos descritos en el presente documento. Una realización adicional comprende un ordenador que tiene instalado en el mismo el programa informático para realizar uno de los métodos descritos en el presente documento.
Una realización adicional según la invención comprende un aparato o un sistema configurado para transferir (por ejemplo, de manera electrónica u óptica) un programa informático para realizar uno de los métodos descritos en el presente documento a un receptor. El receptor puede ser, por ejemplo, un ordenador, un dispositivo móvil, un dispositivo de memoria o similar. El aparato o sistema puede, por ejemplo, comprender un servidor de archivos para transferir el programa informático al receptor.
En algunas realizaciones, puede usarse un dispositivo lógico programable (por ejemplo, una matriz de puertas de campo programable) para realizar algunas o todas las funcionalidades de los métodos descritos en el presente documento. En algunas realizaciones, una matriz de puertas de campo programable puede actuar conjuntamente con un microprocesador con el fin de realizar uno de los métodos descritos en el presente documento. En general, los métodos se realizan preferiblemente por cualquier aparato de hardware.
Las realizaciones descritas anteriormente son meramente ilustrativas de los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descritos en el presente documento serán evidentes para otros expertos en la técnica. Por lo tanto, se propone que se limiten solo por el alcance de las reivindicaciones de patente inminentes y no por los detalles específicos presentados a modo de descripción y explicación de las realizaciones en el presente documento.
Bibliografía
[1] M. Dolson, “The Phase Vocoder: A Tutorial”, Computer Music Journal, vol. 10, páginas 14 - 27, 1986.
[2] J. Laroche y M. Dolson, “Improved Phase Vocoder Time-Scale Modification of Audio”, IEEE Transaction on Speech and Audio Processing, vol. 7, n.° 3, páginas 323 - 332, 1999.
[3] T. Karrer, E. Lee, y J. Borchers, “PhaVoRIT: A Phase Vocoder for Real-Time Interactive Time-Stretching,” en Proc. of ICMC, 2006.

Claims (21)

REIVINDICACIONES
1. Aparato (1) para procesar una señal de audio multicanal (100) que comprende una pluralidad de señales de canal (x1, x2 ), en el que el aparato (1) se configura para realizar una modificación en escala de tiempo de la señal de audio multicanal (100), y en el que el aparato (1) comprende:
un combinador (4) para proporcionar señales combinadas (Xs, Xd) basándose en las señales de canal (x1, x2 ), en el que el combinador (4) se configura para proporcionar una señal de suma (Xs) al calcular una suma de dos señales de canal (x1, x2 ) y para proporcionar una señal de diferencia (Xd) al calcular una diferencia de dichas dos señales de canal (x1, x¿);
un adaptador de fase (5), en el que el adaptador de fase (5) se configura para proporcionar al menos una señal procesada (Ys) para realizar modificación en escala de tiempo al modificar una fase de la señal de suma (Xs), y opcionalmente una señal de diferencia procesada (Yd) al modificar una fase de la señal de diferencia, en el que el adaptador de fase (5) se configura para modificar la fase al aplicar un método de codificador vocal de fase, en el que el adaptador de fase (5) se configura para modificar la fase al aplicar un bloqueo de fase, o en el que el adaptador de fase (5) se configura para modificar la fase de modo que se mantenga una coherencia de fase horizontal, y
un separador (6), en el que el separador (6) se configura para proporcionar señales separadas (Y1, Y2 ) basándose en la al menos una señal procesada (Ys) y la señal de diferencia (Xd) o la señal de diferencia opcionalmente procesada (Yd), en el que el separador (6) se configura para invertir la combinación de las señales de canal, aplicada por el combinador (4).
2. Aparato (1) según la reivindicación 1, en el que el adaptador de fase (5) se configura para proporcionar N señales procesadas (Ys, Yd) al modificar fases de N señales (Xs, Xd) basándose en combinaciones de N señales de canal (x1, x2),
en el que el separador (6) se configura para proporcionar N señales separadas (Y1, Y2 ) basándose en la señal procesada (Ys, Yd), y
en el que N es un número de señales de canal (x1, x2) comprendido por la señal de audio multicanal (100).
3. Aparato (1) según la reivindicación 2, en el que las N combinaciones de las señales de canal (x1, x2) son combinaciones lineales de las señales de canal (x1, x2).
4. Aparato (1) según una cualquiera de las reivindicaciones 1 a 3, en el que el aparato (1) comprende un transformador (3), y
en el que el transformador (3) se configura para proporcionar señales transformadas (X1, X2 ) al transformar señales del dominio de tiempo al dominio de frecuencia.
5. Aparato (1) según la reivindicación 4, en el que el transformador (3) se configura para aplicar una transformación de Fourier de tiempo corto.
6. Aparato (1) según una cualquiera de las reivindicaciones 4 o 5,
en el que el combinador (4) se configura para proporcionar señales combinadas (Xs, Xd) basándose en las señales de canal (x1, x2), y
en el que el transformador (3) se configura para proporcionar señales transformadas basándose en las señales combinadas al aplicar una transformación.
7. Aparato (1) según la reivindicación 4 o 5,
en el que el combinador (4) se configura para proporcionar señales combinadas (Xs, Xd) basándose en señales transformadas (X1, X2 ) proporcionadas por el transformador (3).
8. Aparato (1) según la reivindicación 7, en el que el combinador (4) se configura para proporcionar una señal de suma (Xs) al calcular una suma de dos señales transformadas (X1, X2 ).
9. Aparato (1) según la reivindicación 7 u 8, en el que el combinador (4) se configura para proporcionar una señal de diferencia (Xd) al calcular una diferencia entre dos señales transformadas (X1, X2 ).
10. Aparato (1) según la reivindicación 7, en el que el combinador (4) se configura para proporcionar las señales combinadas (Xs, Xd) al aplicar una matriz de mezclado (g) que tiene dimensiones de N por N a las N señales transformadas (X1, X2 ) basándose en las N señales de canal (x1, x2 ) que pertenecen a la señal de audio multicanal (100), y
en el que N es un número de señales de canal (x1, x2 ) comprendido por la señal de audio multicanal (100).
11. Aparato (1) según una cualquiera de las reivindicaciones 4 o 5, en el que el transformador (3) tiene un tamaño de salto de análisis Ra,
en el que el aparato comprende, además, un transformador inverso (7), en el que el transformador inverso (7) tiene un tamaño de salto de síntesis Rs, y
en el que el tamaño de salto de síntesis Rs y el tamaño de salto de análisis Ra se ajustan a diferentes valores, de modo que la modificación en escala de tiempo es un estiramiento de señal en tiempo, cuando Ra < Rs, o de modo que la modificación en escala de tiempo es un encogimiento de señal en tiempo, cuando Ra > Rs.
12. Aparato (1) según una cualquiera de las reivindicaciones 2 a 11, en el que el separador (6) se configura para proporcionar una señal separada (Y1, Y2 ) basándose en una diferencia entre dos de las señales procesadas (Ys, Yd).
13. Aparato (1) según una cualquiera de las reivindicaciones 2 a 12, en el que el separador (6) se configura para proporcionar una señal separada (Y1, Y2) basándose en una suma de dos de las señales procesadas (Ys, Yd).
14. Aparato (1) según una cualquiera de las reivindicaciones 2 a 13, en el que el separador (6) se configura para proporcionar N señales separadas (Y1, Y2 ) al aplicar una matriz de mezclado inverso (g-1) que tiene dimensiones de N por N a una señal en matriz basada en las N señales procesadas (Ys, Yd), y
en el que N es un número de señales de canal (x1, x¿) comprendido por la señal de audio multicanal (100).
15. Aparato (1) según una cualquiera de las reivindicaciones 1 a 14, en el que el aparato (1) comprende un corrector (8), y
en el que el corrector (8) se configura para modificar las señales separadas (Y1, Y2 ) al reemplazar amplitudes de las señales separadas (Y1, Y2) con amplitudes basadas en amplitudes de las señales de canal (x1, x2 ).
16. Aparato (1) según la reivindicación 15, en el que el corrector (8) se configura para reemplazar las amplitudes de las señales separadas (Y1, Y2) con amplitudes de señales transformadas (X1, X2 ) proporcionadas por un transformador (3).
17. Aparato (1) según una cualquiera de las reivindicaciones 1 a 16, en el que el aparato (1) comprende un transformador inverso (7), y
en el que el transformador inverso (7) se configura para proporcionar señales de canal modificadas (y1, y2 ) basándose en las señales separadas (Y1, Y2 ) al aplicar una transformación inversa.
18. Aparato (1) según la reivindicación 15 o 16, en el que el aparato (1) comprende un transformador inverso (7), y
en el que el transformador inverso (7) se configura para proporcionar señales de canal modificadas y corregidas (z1, z2 ) basándose en señales corregidas (Z1, Z2) proporcionadas por el corrector (8) al aplicar una transformación inversa.
19. Aparato (1) según la reivindicación 17 o 18, en el que el transformador inverso (7) se configura para aplicar una transformación de Fourier de tiempo corto inversa.
20. Aparato (1) según una cualquiera de las reivindicaciones 1 a 19, en el que el aparato (1) comprende un extractor (2), y
en el que el extractor (2) se configura para proporcionar señales de canal (x1, x2 ) comprendidas por la señal de audio multicanal (100).
21. Aparato (1) según una cualquiera de las reivindicaciones 1 a 20, en el que el aparato (1) se configura para realizar etapas en combinaciones de señales de canal (xi, X2 ) basándose en una diferencia entre señales con menos precisión que en diferentes combinaciones de señales.
Método para procesar una señal de audio multicanal (100) que comprende una pluralidad de señales de canal (x1, x2 ), en el que el método se configura para realizar una modificación en escala de tiempo de la señal de audio multicanal (100), comprendiendo el método:
proporcionar señales combinadas (Xs, Xd) basándose en las señales de canal (x1, x2 ), en el que las señales combinadas comprenden una señal de suma (Xs) calculada a partir de una suma de dos señales de canal (x1, x2 ) y una señal de diferencia (Xd) calculada a partir de una diferencia de dichas dos señales de canal (x1, x2),
proporcionar al menos una señal procesada (Ys) para realizar modificación en escala de tiempo al modificar una fase de la señal de suma (Xs), y opcionalmente una señal de diferencia procesada (Yd) al modificar una fase de la señal de diferencia, en el que proporcionar la señal procesada comprende modificar la fase al aplicar un método de codificador vocal de fase, o modificar la fase al aplicar un bloqueo de fase, o modificar la fase de modo que se mantenga una coherencia de fase horizontal, y
proporcionar señales separadas (Y1, Y2 ) basándose en la al menos una señal procesada (Ys) y la señal de diferencia (Xd) o la señal de diferencia opcionalmente procesada (Yd), en el que
proporcionar las señales separadas (Y1, Y2 ) comprende invertir la combinación de las señales de canal, aplicada al proporcionar las señales combinadas (Xs, Xd).
Método según la reivindicación 22, que comprende además:
modificar amplitudes de señales de canal modificadas al reemplazar las amplitudes de señales de canal modificadas con amplitudes basadas en amplitudes de señales de canal correspondientes.
Programa informático para realizar, cuando se ejecuta en un ordenador o un procesador, el método según la reivindicación 22 o 23.
ES17726861T 2016-05-20 2017-05-17 Aparato y método para procesar una señal de audio multicanal Active ES2841302T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP16170723 2016-05-20
EP16179531.5A EP3246923A1 (en) 2016-05-20 2016-07-14 Apparatus and method for processing a multichannel audio signal
PCT/EP2017/061895 WO2017198737A1 (en) 2016-05-20 2017-05-17 Apparatus and method for processing a multichannel audio signal

Publications (1)

Publication Number Publication Date
ES2841302T3 true ES2841302T3 (es) 2021-07-08

Family

ID=56080267

Family Applications (1)

Application Number Title Priority Date Filing Date
ES17726861T Active ES2841302T3 (es) 2016-05-20 2017-05-17 Aparato y método para procesar una señal de audio multicanal

Country Status (13)

Country Link
US (1) US11929089B2 (es)
EP (2) EP3246923A1 (es)
JP (1) JP6728400B2 (es)
KR (1) KR102329707B1 (es)
CN (1) CN109416915B (es)
AU (1) AU2017266294B2 (es)
BR (1) BR112018073894A2 (es)
CA (1) CA3023401C (es)
ES (1) ES2841302T3 (es)
MX (1) MX2018014041A (es)
PL (1) PL3459078T3 (es)
RU (1) RU2713094C1 (es)
WO (1) WO2017198737A1 (es)

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
JP2000049614A (ja) 1998-07-31 2000-02-18 Kobe Steel Ltd 再生装置
US8019598B2 (en) * 2002-11-15 2011-09-13 Texas Instruments Incorporated Phase locking method for frequency domain time scale modification based on a bark-scale spectral partition
US20050137729A1 (en) * 2003-12-18 2005-06-23 Atsuhiro Sakurai Time-scale modification stereo audio signals
US7391870B2 (en) 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
CN101053017B (zh) * 2004-11-04 2012-10-10 皇家飞利浦电子股份有限公司 多通道音频信号的编码和解码
US7957960B2 (en) * 2005-10-20 2011-06-07 Broadcom Corporation Audio time scale modification using decimation-based synchronized overlap-add algorithm
US20070135952A1 (en) 2005-12-06 2007-06-14 Dts, Inc. Audio channel extraction using inter-channel amplitude spectra
WO2007114102A1 (ja) 2006-03-30 2007-10-11 Mitsui Chemicals, Inc. 延伸フィルムの製造方法
US7647229B2 (en) * 2006-10-18 2010-01-12 Nokia Corporation Time scaling of multi-channel audio signals
EP1918911A1 (en) * 2006-11-02 2008-05-07 RWTH Aachen University Time scale modification of an audio signal
CN101079265B (zh) * 2007-07-11 2011-06-08 无锡中星微电子有限公司 一种语音信号处理系统
RU2488896C2 (ru) * 2008-03-04 2013-07-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Микширование входящих информационных потоков и генерация выходящего информационного потока
PL3246919T3 (pl) * 2009-01-28 2021-03-08 Dolby International Ab Ulepszona transpozycja harmonicznych
EP2214165A3 (en) * 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
US8705769B2 (en) * 2009-05-20 2014-04-22 Stmicroelectronics, Inc. Two-to-three channel upmix for center channel derivation
CN101989426B (zh) * 2009-08-05 2012-09-05 立积电子股份有限公司 立体音频解码器以及多工信号解码方法
EP2476113B1 (en) * 2009-09-11 2014-08-13 Nokia Corporation Method, apparatus and computer program product for audio coding
EP2362375A1 (en) * 2010-02-26 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using harmonic locking
RU2559899C2 (ru) * 2010-04-09 2015-08-20 Долби Интернешнл Аб Стереофоническое кодирование на основе mdct с комплексным предсказанием
FR2966634A1 (fr) * 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
EP2705516B1 (en) * 2011-05-04 2016-07-06 Nokia Technologies Oy Encoding of stereophonic signals
EP2710592B1 (en) * 2011-07-15 2017-11-22 Huawei Technologies Co., Ltd. Method and apparatus for processing a multi-channel audio signal
BR122021009022B1 (pt) 2013-04-05 2022-08-16 Dolby International Ab Método de decodificação para decodificar dois sinais de áudio, mídia legível por computador, e decodificador para decodificar dois sinais de áudio
BR112015032013B1 (pt) 2013-06-21 2021-02-23 Fraunhofer-Gesellschaft zur Förderung der Angewandten ForschungE.V. Método e equipamento para a obtenção de coeficientes do espectropara um quadro de substituição de um sinal de áudio, descodificador de áudio,receptor de áudio e sistema para transmissão de sinais de áudio
JP6321181B2 (ja) * 2013-09-12 2018-05-09 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ・コーデックのシステム側面
CN103714847B (zh) * 2013-12-31 2016-05-04 中山大学花都产业科技研究院 一种基于dsp的多通道数字音频处理器

Also Published As

Publication number Publication date
EP3459078A1 (en) 2019-03-27
RU2713094C1 (ru) 2020-02-03
KR102329707B1 (ko) 2021-11-22
KR20190013756A (ko) 2019-02-11
CA3023401C (en) 2022-04-05
CN109416915A (zh) 2019-03-01
AU2017266294A1 (en) 2018-11-29
BR112018073894A2 (pt) 2019-02-26
US11929089B2 (en) 2024-03-12
EP3246923A1 (en) 2017-11-22
US20190066712A1 (en) 2019-02-28
JP2019518988A (ja) 2019-07-04
JP6728400B2 (ja) 2020-07-22
WO2017198737A1 (en) 2017-11-23
CN109416915B (zh) 2020-11-24
MX2018014041A (es) 2019-04-01
PL3459078T3 (pl) 2021-05-04
EP3459078B1 (en) 2020-11-04
CA3023401A1 (en) 2017-11-23
AU2017266294B2 (en) 2019-10-17

Similar Documents

Publication Publication Date Title
ES2677250T3 (es) Calculador y método para determinar datos de corrección de fase para una señal de audio
ES2555579T3 (es) Codificador de audio multicanal y método para codificar una señal de audio multicanal
CA2792449C (en) Device and method for improved magnitude response and temporal alignment in a phase vocoder based bandwidth extension method for audio signals
EP2526550B1 (en) Improved subband block based harmonic transposition
TW201246195A (en) Device and method for manipulating an audio signal having a transient event
ES2673319T3 (es) Control de coherencia de fase para señales armónicas en códecs de audio perceptual
BR122019025142B1 (pt) Sistema e método para gerar um sinal de tempo alongado e/ou um sinal de frequência transposta a partir de um sinal de entrada e meio de armazenamento legível por computador não transitório
ES2841302T3 (es) Aparato y método para procesar una señal de audio multicanal
US9240196B2 (en) Apparatus and method for handling transient sound events in audio signals when changing the replay speed or pitch
ES2693559T3 (es) Aparato y procedimiento para procesar una señal de audio mediante una señal de error de aliasing
BR122019025118B1 (pt) Sistema e método para gerar um sinal de tempo alongado e/ou um sinal de frequência transposta a partir de um sinal de entrada e meio de armazenamento legível por computador
AU2015203065A1 (en) Improved subband block based harmonic transposition