ES2726801T3

ES2726801T3 - Método y aparato para descomponer una grabación estereofónica utilizando el procesamiento del dominio de la frecuencia empleando un sustractor espectral

Info

Publication number: ES2726801T3
Application number: ES12732836T
Authority: ES
Inventors: Christian Uhle; Stefan Finauer; Patrick Gampp; Oliver Hellmuth; Peter Prokein; Christian Stöcklmeier
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2011-07-05
Filing date: 2012-07-03
Publication date: 2019-10-09
Anticipated expiration: 2032-07-03
Also published as: KR20140021055A; RU2014103797A; CA2840132C; EP2730102A1; US20140119545A1; ES2552996T3; EP2730102B1; EP2544466A1; CN103650538A; TR201906465T4; HK1197959A1; JP2014523174A; KR101710544B1; BR112013032824A2; CA2840132A1; PL2730103T3; CN103650538B; WO2013004697A1; PL2730102T3; WO2013004698A1

Abstract

Un aparato para generar una señal lateral estereofónica, que tiene un primer canal lateral y un segundo canal lateral, a partir de una señal de entrada estereofónica, que tiene un primer canal de entrada y un segundo canal de entrada, que comprende: un generador de una información de modificación (110; 610; 710; 810; 910; 1310) para generar la información de modificación, comprendiendo el generador de la información de modificación (110; 610; 710; 810; 910; 1310) un sustractor espectral (116; 615; 715; 815; 915) para generar la información de modificación, generando un primer valor de diferencia que indica una diferencia en un espectro de la magnitud entre una señal media monofónica de la señal de entrada estereofónica y el primer canal de entrada y generando un segundo valor de la diferencia que indica una diferencia en el espectro de la magnitud entre la señal media monofónica de la señal de entrada estereofónica y el segundo canal de entrada, y un manipulador de señal (120; 620; 720; 820; 1320) que está adaptado para manipular el primer canal de entrada, basándose en el primer valor de la diferencia para obtener el primer canal lateral y que está adaptado para manipular el segundo canal de entrada, basándose en el segundo valor de la diferencia para obtener el segundo canal lateral.

Description

DESCRIPCIÓN

Método y aparato para descomponer una grabación estereofónica utilizando el procesamiento del dominio de la frecuencia empleando un sustractor espectral

La presente invención guarda relación con el procesamiento de audio y, en particular, con un método y un aparato para descomponer una grabación estereofónica, utilizando el procesamiento del dominio de la frecuencia.

El procesamiento del audio ha avanzado de muchas formas. En particular, los sistemas de sonido envolventes han cobrado más y más importancia. Sin embargo, la mayoría de las grabaciones musicales todavía son codificadas y transmitidas como una señal estereofónica y no como una señal en múltiples canales. Puesto que los sistemas envolventes comprenden una pluralidad de altavoces, por ejemplo, cuatro o cinco altavoces, ha sido el objeto de muchos estudios, cuyas señales deberían proporcionarse a la pluralidad de altavoces, cuando sólo hay dos señales de entrada disponibles.

En este contexto, la conversión del formato de las señales estereofónicas para su reproducción utilizando sistemas de sonido envolvente, es decir, el mezclado, desempeña un papel importante. La expresión “mezclado m a n”, describe la conversión de una señal de audio del canal m a una señal de audio con n canales, donde n > m. Se conocen ampliamente dos conceptos de mezclado: mezclado con información adicional que guía el proceso de mezclado y mezclado no guiado (“ciego”), sin el uso de ninguna información secundaria, que es en lo que se centra la presente.

En la bibliografía, se reportan dos enfoques diferentes para un proceso de mezclado. Estos conceptos son el enfoque directo/ambiental y el enfoque “en la banda”. El componente central de las técnicas basadas en la dirección/ambiente, es la extracción de una señal ambiental con la que se alimenta a los canales traseros de una señal de sonido envolvente con múltiples canales. Los sonidos ambientales son aquellos que forman una impresión de un ambiente de audición (virtual), incluyendo la reverberación de la sala, sonidos de la audiencia (por ejemplo, aplausos), sonidos ambientales (por ejemplo, lluvia), efectos sonoros con fines artísticos (por ejemplo, crujido del vinilo) y ruido de fondo. La reproducción del ambiente utilizando los canales traseros, evoca en el oyente una impresión envolvente (de estar “inmerso en el sonido”). Además, las fuentes del sonido directo se distribuyen entre los canales frontales de acuerdo con su posición en el panorama estereofónico.

El enfoque “en la banda” está dirigido a colocar todos los sonidos (sonido directo, así como sonidos ambientales) alrededor del oyente, utilizando todos los altavoces disponibles. Las posiciones de las fuentes de sonido percibidas cuando se reproduce el formato mezclado, es idealmente una función de sus posiciones percibidas en la señal de entrada estereofónica. Este enfoque puede implementarse utilizando el procesamiento de la señal propuesto.

Se han desarrollado en el pasado varios enfoques para mezclar en el dominio de la frecuencia [9, 10]. Intentan una descomposición de la señal de entrada y de la componente de la señal directa y ambiental, y una descomposición basada en las posiciones espaciales de las fuentes del sonido. Las componentes de la señal ambiental se identifican basándose en las medidas de la coherencia inter-canal entre el canal izquierdo y derecho. La descomposición basada en la dirección se logra basándose en la similitud de las magnitudes de los coeficientes espectrales. La solicitud de patente US 2009/0080666, describe un método para extraer una señal ambiental utilizando una ponderación espectral.

El documento US 2010/0030563, describe un método para extraer una señal ambiental para la aplicación del mezclado. El método utiliza la sustracción espectral. La representación del dominio tiempo-frecuencia se obtiene de la diferencia entre la representación del dominio tiempo-frecuencia de la señal de entrada y una versión comprimida de la misma, de manera preferida calculada utilizando una factorización de una matriz no negativa.

El documento US 2010/0296672, describe un método de mezclado del dominio de la frecuencia, utilizando una descomposición de la señal basada en el vector. La descomposición tiene por objeto la extracción de un canal centrado, en contraste con una descomposición de la señal directa/ambiental [13]. Se calcula una señal de salida para el canal central, que contiene toda la información que es común para las señales de los canales de entrada izquierdo y derecho. La señal residual de las señales de entrada y las señales del canal central se calculan para las señales del canal de salida izquierdo y derecho.

US 2008/152153 A1 se refiere a un método para producir más de dos señales de sonido temporales eléctricas diferentes a partir de dos señales temporales eléctricas iniciales, comprendiendo el método, en el dominio de la frecuencia, las etapas de producir una señal de sonido frecuencial eléctrica central a partir de las componentes de frecuencia en fase de las señales iniciales; y producir dos señales frontales sustrayendo la señal central de las señales iniciales. Además, se pueden producir dos señales posteriores a partir de las componentes de frecuencia fuera de fase de las señales iniciales. De este modo, el método se puede usar para transformar una señal estereofónica en una señal de tipo 5.1 que comprende cinco señales de sonido diferentes. El documento US 2002/0154783 desvela un sistema de procesamiento de sonido que calcula la diferencia entre las señales audio estereofónicas, izquierda y derecha. Esta diferencia se modifica espectralmente antes de añadirse a la señal izquierda y, con polaridad opuesta, a la señal derecha. Así se puede obtener una calidad de sonido óptima en un sistema de sonido envolvente.

En un objeto de la presente invención proporcionar conceptos mejorados para generar canales adicionales de una señal de entrada estereofónica, que tiene un primer canal de entrada y un segundo canal de entrada. El objeto de la presente invención se soluciona mediante un aparato para generar una señal lateral estereofónica de acuerdo con la reivindicación 1 y un método de acuerdo con la reivindicación 11.

El generador de la información de modificación comprende un sustractor espectral para generar la información de modificación generando un valor de diferencia que indica una diferencia entre una señal media monofónica o una señal lateral monofónica y el primer o el segundo canal de entrada.

La información media-lateral puede ser una señal media monofónica de la señal de entrada estereofónica, una señal lateral monofónica de la señal de entrada estereofónica y/o una relación entre la señal media monofónica y la señal lateral monofónica de la señal de entrada estereofónica. En una realización, el generador de la información de modificación está adaptado para generar la información de modificación basándose en una señal media monofónica de la señal de entrada estereofónica o en una señal lateral monofónica de la señal de entrada estereofónica como información madia-lateral.

De acuerdo con una realización, una grabación estereofónica se descompone en una señal lateral y en una señal media que, en contraste con la descomposición media-lateral (M-S), son ambas señales estereofónicas. Se puede aplicar una separación de señal usando una cancelación de fase como en un procesamiento M-S convencional en combinación con el procesamiento del dominio de la frecuencia, concretamente, una sustracción espectral o una ponderación espectral. Las señales derivadas pueden aplicarse para la reproducción de señales audio con canales adicionales de reproducción.

Un aparato de acuerdo con una realización descompone una grabación estereofónica de 2 canales en una señal lateral estereofónica y una señal media estereofónica. La señal lateral estereofónica tiene dos características principales. Primero, comprende todas las componentes de la señal salvo por aquellas que están agrupadas en el centro. A este respecto, es similar a la señal lateral que es conocida a partir del procesamiento medio-lateral de las señales estereofónicas. De hecho, comprende las mismas componentes de señal que la señal lateral derivada por una descomposición M-S convencional.

La diferencia importante entre la señal lateral estereofónica propuesta en comparación con la señal lateral convencional, se describe por la propiedad estereofónica: la señal lateral estereofónica es una señal estereofónica de 2 canales, en contraste con la señal lateral convencional, que es monofónica. El canal izquierdo de la señal lateral estereofónica comprende todas las componentes de la señal, que están agrupadas en el lado izquierdo de la señal de entrada. El canal derecho de la señal estereofónica comprende todas las componentes de la señal que están agrupadas en el lado derecho.

La señal media estereofónica es una señal estereofónica que comprende todos los componentes que existen en ambos canales de entrada. Es una señal estereofónica de 2 canales y comprende menos información estereofónica, en comparación con la señal de entrada, y en comparación con la señal lateral estereofónica, pero no es una señal monofónica como la señal media convencional. Comprende los mismos componentes de la señal que la señal media convencional, pero con la información estereofónica original.

De acuerdo con una realización, el generador de la información de modificación comprende un sustractor espectral. El sustractor espectral puede estar adaptado para generar la información de modificación sustrayendo un valor de la magnitud o un valor de la magnitud ponderada del primer o del segundo canal de entrada a partir de un valor de la magnitud o de un valor de la magnitud ponderada de la señal media monofónica o de la señal lateral monofónica de la señal de entrada estereofónica. O, el sustractor espectral puede estar adaptado para generar la información de modificación sustrayendo un valor de la magnitud o un valor de la magnitud ponderada de la señal media monofónica o de la señal lateral monofónica de la señal de entrada estereofónica a partir de un valor de la magnitud o de un valor valor de la magnitud ponderada del primer o del segundo canal de entrada.

Asimismo, el generador de la información de modificación puede comprender un determinador de magnitud. El determinador de magnitud puede estar adaptado para recibir al menos uno entre el primer canal de entrada, el segundo canal de entrada, la señal media monofónica o la señal lateral monofónica, que está representado/a en un dominio espectral, como señal de entrada de la magnitud recibida. Además, el determinador de magnitud puede estar adaptado para determinar al menos un valor de la magnitud de cada señal de entrada de la magnitud recibida y puede estar adaptado para alimentar con el al menos un valor de la magnitud de cada señal de entrada de la magnitud recibida al sustractor espectral.

En una realización, el sustractor espectral comprende una primera unidad de sustracción espectral y una segunda unidad de sustracción espectral, en donde el determinador de magnitud está dispuesto para recibir el primer y el segundo canal de entrada y la señal media monofónica, en donde el determinador de magnitud está adaptado para determinar un primer valor de la magnitud del primer canal de entrada, un segundo valor de la magnitud del segundo canal de entrada y un tercer valor de la magnitud de la señal media monofónica, en donde el determinador de magnitud está adaptado para alimentar con el primer, el segundo y el tercer valor de la magnitud al sustractor espectral. La primera unidad de sustracción espectral puede estar adaptada para realizar una primera sustracción espectral basándose en el primer valor de la magnitud del primer canal de entrada y en el tercer valor de la magnitud de la señal media monofónica para obtener un primer valor de la magnitud lateral estereofónica de la primera señal lateral estereofónica, y en donde la segunda unidad de sustracción espectral está adaptada para realizar una segunda sustracción espectral basándose en el segundo valor de la magnitud del segundo canal de entrada y en el tercer valor de la magnitud de la señal media monofónica para obtener un segundo valor de la magnitud lateral estereofónica de la segunda señal lateral estereofónica.

La primera unidad de sustracción espectral puede estar adaptada para realizar la primera sustracción espectral aplicando la fórmula:

en donde

indica un primer especio de la magnitud lateral estereofónica cuando el resultado de la sustracción espectral es positivo, en donde |Xl(f)| indica un primer espectro de la magnitud del primer canal de entrada, en donde |M1(f)| indica un tercer espectro de la magnitud de la señal media monofónica y en donde w indica un factor escalar en el intervalo de 0 < w >1 La segunda unidad de sustracción espectral puede estar adaptada para realizar la segunda sustracción espectral aplicando la fórmula:

A

en donde Sr(f) Indica el espectro de la magnitud lateral estereofónica cuando el resultado de la sustracción espectral es positivo, en donde |Xr(f)| indica el segundo espectro de la magnitud del primer canal de entrada, en donde |M1(f)| indica el tercer espectro de la magnitud de la señal media monofónica, y en donde w indica un factor escalar en el intervalo de 0 < w > 1.

En una realización, el manipulador de la señal puede comprender un extractor de fase y un combinador. El extractor de fase puede disponerse para recibir el primer canal de entrada y el segundo canal de entrada, en donde el extractor de fase está adaptado para determinar un primer valor de fase del primer canal de entrada como un primer valor de fase lateral estereofónica y un segundo valor de fase del segundo canal de entrada como un segundo valor de fase lateral estereofónica. El extractor de fase puede estar adaptado para alimentar con el primer valor de fase lateral estereofónica y el segundo valor de fase lateral estereofónica al combinador, en donde la primera unidad de sustracción espectral está adaptada para alimentar con el primer valor de la magnitud lateral estereofónica al combinador, en donde la segunda unidad de sustracción espectral está adaptada para alimentar con el segundo valor de fase lateral estereofónica al combinador. El combinador puede estar adaptado para combinar el primer valor de la magnitud lateral estereofónica y el primer valor de fase lateral estereofónica para obtener un primer coeficiente complejo de un primer espectro del primer canal lateral. Además, el combinador puede estar adaptado para combinar el segundo valor de la magnitud lateral estereofónica y el segundo valor de fase lateral estereofónica para obtener un segundo coeficiente complejo de un segundo espectro del segundo canal lateral.

De acuerdo con una realización, el generador de la información de modificación comprende un generador de ponderaciones espectrales para generar la información de modificación generando un primer factor de ponderación espectral, en donde el primer factor de ponderación espectral depende de la señal media monofónica y de la señal lateral monofónica de la señal de entrada estereofónica.

El generador de la información de modificación además puede comprender un determinador de magnitud. El determinador de magnitud puede estar adaptado para recibir la señal media monofónica, que está representada en un dominio espectral. El determinador de magnitud puede estar adaptado para recibir la señal lateral monofónica que está representada en un dominio espectral, en donde el determinador de magnitud está adaptado para determinar un valor de la magnitud de la señal lateral monofónica como un valor lateral de la magnitud y en donde el determinador de magnitud está adaptado para determinar un valor de la magnitud de la señal media monofónica como un valor medio de la magnitud. El determinador de magnitud puede estar adaptado para alimentar con el valor lateral de la magnitud y el valor medio de la magnitud al generador de ponderaciones espectrales. El generador de ponderaciones espectrales puede estar adaptado para generar el primer factor de ponderación espectral basándose en una relación de un primer número con respecto a un segundo número, en donde el primer número depende del valor lateral de la magnitud y en donde el segundo número depende del valor medio de la magnitud y del valor lateral de la magnitud.

En una realización adicional el generador de ponderaciones espectrales está adaptado para generar el factor de modificación de acuerdo con la fórmula

en donde |S(f)| indica un valor de la magnitud de la señal lateral monofónica, en donde |M(f)| indica un valor de la ^{magnitud de la señal media monofónica y en donde a, p,}y ^y8 ^{son factores escalares. En una realización, a y p son mayores que 0 (a > 0; p > 0) y}y ^y8 ^{se seleccionan de manera que 0 <}y ^{< 1 y 0 <}8 ^{< 1. Preferentemente, 4 > a >0 y}4 > p > 0.

Asimismo, el generador de ponderaciones espectrales puede estar adaptado para generar el factor de modificación, de acuerdo con la fórmula:

o, en donde el generador de ponderaciones espectrales está adaptado para generar el factor de modificación de acuerdo con la fórmula:

con

en donde |S(f)| indica un espectro de la magnitud de la señal lateral monofónica, en donde |M(f)| indica un espectro de la magnitud de la señal lateral monofónica, en donde |Xl(f)| indica un espectro de la magnitud del primer canal de entrada, en donde |Xr(f)| indica un espectro de la magnitud del primer canal de entrada, en donde M(f) indica la señal ^{media monofónica y en donde a, p,}y^,8 ^y^ ^{son factores escalares.}

De acuerdo con una realización, el generador de la información de modificación está adaptado para generar la información de modificación basándose en la señal media monofónica de la señal de entrada estereofónica o en la señal lateral monofónica de la señal de entrada estereofónica como información media-lateral. La señal media monofónica puede depender de una señal de suma que es el resultado de sumar el primer y el segundo canal de entrada. La señal lateral monofónica puede depender de una señal de la diferencia que resulta de sustraer el segundo canal de entrada del primer canal de entrada.

Además, el aparato también puede comprender un generador de canal, en donde el generador de canal está adaptado para generar la señal media monofónica o la señal lateral monofónica basándose en el primer y en el segundo canal de entrada.

Asimismo, el aparato además puede comprender una unidad de transformación para transformar el primer y el segundo canal de entrada de la señal de entrada estereofónica de un dominio temporal a un dominio espectral y una unidad de transformación inversa. El manipulador de la señal puede estar adaptado para manipular el primer canal de entrada que está representado en el dominio espectral y el segundo canal de entrada que está representado en el dominio espectral para obtener la señal lateral estereofónica, que está representada en el dominio espectral. La unidad de transformación inversa puede estar adaptada para transformar la señal lateral estereofónica, que está representada en el dominio espectral, del dominio espectral al dominio temporal.

En una realización, el aparato puede estar adaptado para generar una señal media estereofónica que tiene un primer canal medio y un segundo canal medio. El primer canal medio se puede generar basándose en una diferencia entre el primer canal de entrada estereofónica y el primer canal lateral. El segundo canal medio puede generarse basándose en una diferencia entre el segundo canal de entrada estereofónica y el segundo canal lateral.

De acuerdo con otra realización, se proporciona un aparato para generar una señal media estereofónica que tiene un primer canal medio y un segundo canal medio a partir de una señal de entrada estereofónica que tiene un primer canal de entrada y un segundo canal de entrada. El aparato comprende un generador de la información de modificación para generar la información de modificación basándose en la información media-lateral y un manipulador de la señal que está adaptado para manipular el primer canal de entrada basándose en la información de modificación para obtener el primer canal medio y que está adaptado para manipular el segundo canal de entrada basándose en la información de modificación para obtener el segundo canal medio.

De acuerdo con una realización el generador de la información de modificación puede comprender un generador de ponderaciones espectrales para generar la información de modificación generando un primer factor de ponderación espectral. El primer factor de ponderación espectral puede depender de una señal media monofónica y de una señal lateral monofónica de la señal de entrada estereofónica. El generador de la información de modificación además puede comprender un determinador de magnitud, en donde el determinador de magnitud está adaptado para determinar un valor de la magnitud de la señal lateral monofónica, que está representada en un dominio espectral, como un valor lateral de la magnitud, y en donde el determinador de magnitud está adaptado para determinar un valor de la magnitud de la señal media monofónica, que está representada en un dominio espectral, como un valor medio de la magnitud. El determinador de magnitud puede estar adaptado para alimentar con el valor lateral de la magnitud y el valor medio de la magnitud al generador de ponderaciones espectrales. El generador de ponderaciones espectrales puede estar adaptado para generar el primer factor de ponderación espectral basándose en una relación de un primer número con respecto a un segundo número, en donde el primer número depende del valor lateral de la magnitud y en donde el segundo número depende del valor medio de la magnitud y del valor lateral de la magnitud.

El generador de ponderaciones espectrales puede estar adaptado para generar el factor de modificación de acuerdo con la fórmula

en donde |M(f)| indica un espectro de la magnitud de la señal media monofónica, en donde |S(f)| indica un espectro ^{de la magnitud de la señal lateral monofónica y en donde}a ^,p^,y ^y8 ^{son factores escalares. En una realización,}a ^yp ^{son mayores que 0 (}a ^{> 0;}p ^{> 0); y}y ^y8 ^{se seleccionan de manera que 0 <}y ^{< 1 y 0 <}8 ^{<1. Preferentemente, 4 > a >0 y 4 >}p ^>0.

Las realizaciones de la presente invención se explican con referencia a los dibujos adjuntos, en los que:

La Fig. 1 ilustra un aparato para generar una señal lateral estereofónica de acuerdo con una realización, La Fig. 1a ilustra un aparato para generar una señal lateral estereofónica de acuerdo con una realización, en donde el generador de la información de manipulación comprende un sustractor espectral, La Fig. 1b ilustra un aparato para generar una señal lateral estereofónica de acuerdo con una realización, en donde el generador de la información de modificación comprende un generador de ponderaciones espectrales,

La Fig. 2 ilustra un sustractor espectral de acuerdo con una realización,

La Fig. 3 ilustra un generador de la información de modificación de acuerdo con una realización,

La Fig. 4 ilustra un aparato para generar una señal lateral estereofónica y una señal media estereofónica para realizar una sustracción espectral de acuerdo con una realización,

La Fig. 5 ilustra un aparato para generar una señal lateral estereofónica y una señal media estereofónica de acuerdo con otra realización,

La Fig. 6 ilustra un aparato para generar una señal lateral estereofónica, en donde el aparato comprende un generador de ponderaciones espectrales de acuerdo con una realización,

La Fig. 7 ilustra un aparato para generar una señal lateral estereofónica, en donde el aparato comprende un generador de ponderaciones espectrales de acuerdo con otra realización,

La Fig. 8 ilustra un aparato para generar una señal lateral estereofónica, en donde el aparato comprende un generador de ponderaciones espectrales de acuerdo con una realización adicional, La Fig. 9 ilustra un generador de información de modificación, en donde el aparato comprende un generador de ponderaciones espectrales y un generador de magnitud de acuerdo con una realización, La Fig. 10 ilustra un aparato para generar una señal media estereofónica de acuerdo con una realización, La Fig. 10a ilustra un aparato para generar una señal media estereofónica de acuerdo con una realización, en donde el generador de la información de manipulación comprende un sustractor espectral, La Fig. 10b ilustra un aparato para generar una señal media estereofónica de acuerdo con una realización, en donde el generador de la información de modificación comprende un generador de ponderaciones espectrales,

La Fig. 11 ilustra las ganancias ejemplares para las señales laterales estereofónicas y las señales medias estereofónicas,

La Fig. 12 ilustra los resultados de la ponderación espectral para las señales laterales estereofónicas y las señales medias estereofónicas,

La Fig. 13 ilustra un aparato para generar una señal lateral estereofónica de acuerdo con una realización adicional,

La Fig. 14 ilustra un aparato para generar una señal lateral estereofónica de acuerdo con una realización adicional,

La Fig. 15 ilustra un mezclador de acuerdo con una realización,

La Fig. 16 ilustra un sistema de reproducción cuadrafónica ejemplar, que utiliza las salidas de un procesamiento de la señal propuesto,

La Fig. 17 describe un diagrama de bloques que ilustra el procesamiento para generar una señal con múltiples canales, adecuada para la reproducción con 5 canales,

La Fig. 18 describe un diagrama de bloques de la descomposición M-S,

La Fig. 19 describe un diagrama de bloques que ilustra la ponderación espectral, y

La Fig. 20 ilustra las ponderaciones espectrales típicas utilizadas en la mejora del habla.

Antecedentes

Antes de describir las realizaciones preferidas de la presente invención, se describirán los conceptos relacionados, en particular el procesamiento M-S, se explicará el fundamento de una sustracción espectral y la ponderación espectral.

Primero, el Procesamiento media-lateral se describe con más detalle. Para explicar cómo se calculan las señales laterales y medias estereofónicas, se revisa brevemente lo básico del procesamiento M-S convencional. Una señal estereofónica de 2 canales x(t) puede representarse por dos señales X^l(t) y X^r(t) para el canal izquierdo y derecho, respectivamente, con un índice de tiempo t. Los términos izquierdo y derecho indican que eventualmente, estas señales son presentadas al oído izquierdo y derecho (utilizando altavoces o auriculares), respectivamente, o se reproducen por el canal izquierdo y derecho en un sistema de reproducción de audio, respectivamente.

Suponiendo que la señal estereofónica es una mezcla de N señales de origen z ⁱ, i=1, ..., N, X^l(t) y X^r(t) pueden escribirse como

en donde hⁱⁱ(t), h^r¡(t) son funciones de transferencia que caracterizan como se mezclan las fuentes en la señal estereofónica, * es la operación de convolución, y n^l(t), n^r(t) son señales ambientales no correlacionadas. En el caso de mezclado utilizando sólo el agrupamiento de la amplitud, que es con frecuencia el caso para las grabaciones de estudio, tanto h^li(t) como h^ri(t) son escalares. El resultado de este proceso de mezclado se conoce en la bibliografía como mezclas instantáneas en contraste con mezclas convolutivas (en los casos en donde h^li(t) y h^ri(t) son de una longitud mayor que uno). Descartando los términos ambientales n^l(t), n^r(t), el modelo de la señal para el mezclado instantáneo puede escribirse como

con el factor de mezclado 0 < aⁱ(t) < 1, que determina la dirección percibida de las señales de origen y la mezcla.

La misma información que la comprendida en la señal x(t)=[x^l(t) x^r(t)], se proporciona cuando se utiliza una representación M-S de la señal, en donde una señal media m-ⁱ(t) (también referida como la señal de suma) y una señal lateral s-ⁱ(t) (también referida como señal de diferencia), se calculan de x^l(t) y x^r(t) de acuerdo con:

¹ m i { t ) = ^- (xi(t) ⁺ x r (t)) ⁽⁵⁾

Los subíndices 1 se utilizan para designar que estas señales son monofónicas. Tal señal M-S es ventajosa para varias aplicaciones, en donde ambas señales lateral y media se procesan, codifican o transmiten de manera separada. Tales aplicaciones son grabación de sonidos, mejora de la imagen estereofónica artificial, codificación del audio para una producción virtual con altavoz, reproducción biaural en altavoces y producción cuadrafónica.

Dada la representación M-S, las señales xl(t) y xr(t) pueden calcularse de acuerdo con:

^{Xi ( t )} = m i(t) -f ^{S í ( t )} (7)

En la Fig. 18, se ilustra la descomposición M-S.

Ambas representaciones comprenden la misma información. Nótese que las ponderaciones de normalización 0,5 en las ecuaciones (5) y (6) son opcionales y otras ponderaciones son posibles, pero la ponderación mostrada aquí garantiza que la aplicación de las ecuaciones (5) a (8), proporciona señales que son idénticas a las señales de entrada. El uso de otras ponderaciones puede proporcionar señales similares o escaladas.

Del modelo de la señal y las ecuaciones (3) y (4), resulta que la señal S¹(t) comprende sólo los componentes de la señal que están agrupados fuera del centro (alguno de ellos con fase negativa), y es una señal monofónica. La señal media mn(t) comprende todas las señales, excepto aquellas en s¹(t). Descrito con las palabras de Michael Gerzon, “M es la señal que contiene la información sobre la mitad de la etapa estereofónica, mientras que S solo contiene la información sobre los lados”. Ambas son señales monofónicas. Aunque los sonidos directos agrupados por la amplitud están atenuados en la señal lateral dependiendo de su posición en el panorama estereofónico, los componentes de la señal no correlacionados como la reverberación y otras señales ambientales, están atenuados en la señal media por 3 dB (para la correlación cero). Estas atenuaciones son causadas por la cancelación de la fase entre los componentes laterales en el canal izquierdo y derecho.

A continuación, se explicarán con más detalle la sustracción espectral y la ponderación espectral.

La sustracción espectral es un método bien conocido para la mejora del habla y la reducción del ruido. Se ha propuesto (probablemente de manera original), por Boll para reducir los efectos del ruido aditivo en la comunicación del habla [2]. El procesamiento se realiza en el dominio de la frecuencia, en donde se procesa el espectro de cuadros cortos de porciones sucesivas (posiblemente superpuestas) de la señal de entrada.

El principio básico es sustraer una estimación del espectro de la magnitud de la señal de ruido de interferencia del espectro de la magnitud de las señales de entrada, que se suponen como una mezcla de una señal del habla deseada y una señal de ruido de interferencia.

La ponderación espectral (o Atenuación Espectral a Corto Plazo [3]), se utiliza comúnmente en varias aplicaciones de procesamiento de la señal de audio, por ejemplo, Mejora del Habla [4] y Separación Ciega de la Fuente. Como en la sustracción espectral, el objeto de este procesamiento es separar una señal deseada d(t) o atenuar una señal de interferencia n(t), en donde la señal de entrada x(t) es una mezcla aditiva de d(t) y n(t),

x(t) ⁼ d(t) ⁺ n(t) ⁽⁹⁾

Este procesamiento se ilustra en la Fig. 19. El procesamiento de la señal se realiza en el dominio de la frecuencia. Por lo tanto, la señal de entrada x(t) se transforma utilizando una Transformada de Fourier a Corto Plazo (STFT), un banco de filtro o cualquier otro medio para derivar una representación de la señal con múltiples bandas de la frecuencia X(f, k), con el índice de la banda de la frecuencia f y el índice del tiempo k. La representación del dominio de la frecuencia de las señales de entrada se procesa de manera que las señales de la subbanda son escaladas con ponderaciones que varían con el tiempo G(f, k),

Y { f , k ) = G ( f , k ) X t f , k ) ⁽¹⁰⁾

Las ponderaciones se calculan de la representación de la señal de entrada X(f, k), de manera que tienen magnitudes grandes para altas relaciones de señal a ruido (SNR), y bajos valores para SNR pequeñas. Para calcular las ponderaciones G(f, k), se requiere una estimación de la ^sN^rtípicamente dependiente del tiempo y la frecuencia, o de N(f, k) o S(f, k). En las aplicaciones de procesamiento del habla, la estimación del ruido se calcula durante la actividad que no es del habla [2, 5], o utilizando estadísticas mínimas [6], es decir, basándose en el rastreo de un mínimo local en cada subbanda, o utilizando un segundo micrófono cerca de la fuente del ruido.

El resultado de la operación de ponderación Y(f, k) es la representación del dominio de la frecuencia de la señal de salida. La señal del tiempo de salida y(t), se calcula utilizando el procesamiento inverso de la transformada del dominio de la frecuencia, por ejemplo, STFT Inversa.

Con frecuencia, las ponderaciones G(f, k) se eligen para tener valores reales, proporcionando el espectro de salida Y, que tiene la misma información de la fase que X. Existen varias reglas de ganancia, por ejemplo, cómo se calculan las ponderaciones G(f, k), por ejemplo, derivadas de la sustracción espectral y del filtrado de Wiener. A continuación, se describirán diferentes métodos para derivar las ponderaciones espectrales. Se supone que s y n son mutuamente ortogonales, es decir

E ^{4 { }}A continuación, la filtración de Wiener se explica con más detalle. Dadas las estimaciones de las densidades espectrales de la potencia (PSD) (por ejemplo, derivadas de los coeficientes STFT) de la señal deseada Pdd y la señal de interferencia Pnn, las ponderaciones espectrales se derivan reduciendo al mínimo el error al cuadrado medio

Se explica ahora la sustracción espectral utilizando la ponderación espectral.

Las ponderaciones espectrales se calculan de manera que Pyy = Pxx-Pnn, es decir

De manera alternativa, las ponderaciones espectrales con valor real pueden derivarse, lo que conduce a |Y| = |X| -|N|, con frecuencia referidos como la sustracción de la magnitud espectral, con ponderaciones

|D| es el espectro de la magnitud de d(t). |N| es el espectro de la magnitud de n(t). Se explica ahora la generalización de la regla de ponderación espectral. La formulación generalizada del filtro STSA se deriva introduciendo tres ^parámetrosa ^,p ^yy^{, en donde}a ^yp ^{son exponentes que controlan la fuerza de atenuación, y}y ^{es el factor de}sobreestimación del ruido.

La ecuación (15) es una formulación generalizada de las reglas de supresión del ruido descritas anteriormente, en ^{donde a = 2,}p ^{= 2 que corresponden a la sustracción espectral, y a = 2,}p ^{= 1 que corresponden a la filtración de Wiener. La sustracción espectral de la magnitud (en lugar de las energías), se realiza fijando a = 1,}p ^{= 1. El parámetro}y ^{controla la cantidad del ruido y se toma en cuenta para los posibles sesgos de un método de estimación}del ruido. Puede elegirse para relacionarse con la SNR estimada o el índice de la frecuencia.

En la Fig. 20, se ilustran ponderaciones espectrales típicas como una función de la SNR, como se utiliza en la mejora del habla.

Puede encontrarse una variedad de otras reglas de ganancia, con las características comunes de que las ponderaciones se incrementan de manera monotónica con la SNR de la subbanda, por ejemplo, el estimador de Ephraim-Malah [7] o el algoritmo de Atenuación de Decisión Programable/Variable (SDVA) [8].

En las implementaciones prácticas, las ponderaciones espectrales se unen típicamente por un valor mínimo mayor que cero con el fin de reducir los artefactos. Pueden aplicarse diferentes reglas de ganancia en diferentes intervalos de la frecuencia [4]. Las ganancias resultantes pueden alisarse a lo largo del eje del tiempo y el eje de la frecuencia, con el fin de reducir los artefactos. Típicamente, se utiliza un filtro de paso bajo de primer orden (integrador con fugas) para el alisamiento a lo largo del eje del tiempo y un filtro de paso bajo de fase cero se aplica a lo largo del eje de la frecuencia.

Realizaciones:

La Fig. 1 ilustra un aparato para generar una señal lateral estereofónica, que tiene un primer canal lateral S^l(f) y un segundo canal lateral S^r(f) de una señal de entrada estereofónica, que tiene un primer canal de entrada X ^l(f) y un segundo canal de entrada X^r(f), de acuerdo con una realización. El aparato comprende un generador de la información de modificación 110, para generar la información de modificación modInf basándose en la información media-lateral midSideInf. Además, el aparato comprende un manipulador de la señal 120 que está adaptado para manipular el primer canal de entrada Xi(f), basándose en la información de modificación modInf para obtener el primer canal lateral S^l(f) y que está adaptado para manipular el segundo canal de entrada X^r(f), basándose en la información de modificación modInf para obtener el segundo canal lateral S^r(f).

Por ejemplo, el generador de la información de modificación 110 puede estar adaptado para generar la información de modificación modInf basándose en la información media-lateral midSideInf que se relaciona con una señal media monofónica de una señal de entrada estereofónica, una señal lateral monofónica de la señal de entrada estereofónica y/o una relación entre la señal media monofónica y la señal lateral monofónica de una señal de entrada estereofónica.

La señal media monofónica puede depender de una señal de suma que resulta de sumar el primer y segundo canales de entrada X^l(f), X^r(f). La señal lateral monofónica puede depender de una diferencia de la señal que resulta de sustraer el segundo canal de entrada del primer canal de entrada. Por ejemplo, la señal media monofónica puede calcularse de acuerdo con la fórmula:

^{Mi(f) =} Vi ^{(X i(f)+ Xr(f)) (15a)}

La señal lateral monofónica puede, por ejemplo, calcularse de acuerdo con la fórmula:

La Fig. 1a ilustra un aparato para generar una señal lateral estereofónica de acuerdo con una realización, en donde el generador de la información de manipulación 110 comprende un sustractor espectral 115. El sustractor espectral 115 está adaptado para generar la información de modificación modInf generando un valor de diferencia, que indica una diferencia entre una señal media monofónica o una señal lateral monofónica de la señal de entrada estereofónica y el primer o segundo canales de entrada. Por ejemplo, el sustractor espectral 115 puede estar adaptado para generar la información de modificación modInf sustrayendo un valor de la magnitud o un valor de la magnitud ponderada del primer o segundo canales de entrada de un valor de la magnitud o un valor de la magnitud ponderada de la señal media monofónica o la señal lateral monofónica de la señal de entrada estereofónica. O, el sustractor espectral 115 puede estar adaptado para generar la información de modificación modInf sustrayendo un valor de la magnitud o un valor de la magnitud ponderada de la señal media monofónica o la señal lateral monofónica de la señal de entrada estereofónica de un valor de la magnitud o un valor de la magnitud ponderada del primer o segundo canales de entrada.

La Fig. 1b ilustra un aparato para generar una señal lateral estereofónica de acuerdo con una realización, en donde el generador de la información de modificación 110 comprende un generador de ponderaciones espectrales 116, para generar la información de modificación modInf, generando un primer factor de ponderación espectral, basándose en una señal media monofónica y en una señal lateral monofónica de la señal de entrada estereofónica.

La Fig. 2 ilustra un sustractor espectral 210 de acuerdo con una realización. Un primer espectro de la magnitud |X¡(f)| del primer canal de entrada, un segundo espectro de la magnitud |Xr(f)| del segundo canal de entrada y un tercer espectro de la magnitud |Mi(f)| de una señal media monofónica de la señal de entrada estereofónica se alimentan al sustractor espectral 210.

Una primera unidad de sustracción espectral 215 del sustractor espectral 210, sustrae el tercer espectro |M-i(f)|, que es ponderado por el factor de ponderación w (w indica un factor escalar en el intervalo de 0 < w < 1), del primer espectro |Xl(f)|, por ejemplo, un primer valor de la magnitud del tercer espectro de la magnitud |Mi(f)| ponderado por el factor de ponderación w, es sustraído espectralmente de un primer valor de la magnitud del primer espectro de la magnitud IXⁱ(f)|; un segundo valor de la magnitud del tercer espectro de la magnitud |M-i(f)| ponderado por el factor de ponderación w, es sustraído espectralmente de un segundo valor de la magnitud del primer espectro de la magnitud |Xi(f)|; etc. Mediante esto, se obtiene una pluralidad de primeros valores laterales de la magnitud como información de modificació An. Los primeros valores laterales de la magnitud son valores de la magnitud de un espectro de la magnitud s t(f)del primer canal lateral de la señal lateral estereofónica, cuando el resultado de la sustracción espectral es positivo. Así, la primera unidad de sustracción espectral 215 está adaptada para aplicar la fórmula:

De manera similar, una segunda unidad de sustracción espectral 218 del sustractor espectral 210 sustrae el tercer espectro |M^-i(f)| que es ponderado por el factor de ponderación w (w indica un factor escalar en el intervalo de 0 < w < 1) del segundo espectro |X^r(f)|, por ejemplo, un primer valor de la magnitud del tercer espectro de la magnitud |M^-i(f)| ponderado por el factor de ponderación w, es sustraído espectralmente de un segundo valor de la magnitud del segundo espectro de la magnitud |X^r(f)|; un segundo valor de la magnitud del tercer espectro de la magnitud |Mⁱ(f)|, ponderado por el factor de ponderación w, es sustraído espectralmente de un segundo valor de la magnitud del segundo espectro de la magnitud |X^r(f)|; etc. Así, se obtiene una pluralidad de segundos valores laterales de la magnitud como la información de modificación, en A donde los segundos valores laterales de la magnitud son valores de la magnitud de un espectro de la magnitud del segundo canal lateral de la señal lateral estereofónica, cuando el resultado de la sustracción espectral es positivo. Mediante esto, la segunda unidad de sustracción espectral 218 está adaptada para aplicar la fórmula:

La Fig. 3 ilustra un generador de la información de modificación de acuerdo con una realización. El generador de la información de modificación comprende un determinador de la magnitud 305 y un sustractor espectral 210. El determinador de la magnitud 305 está arreglado para recibir el primer Xi(f) y el segundo X^r(f) canal de entrada y una señal media monofónica M^-i(f) de la señal de entrada estereofónica. Un primer valor de la magnitud de un primer espectro de la magnitud |X^l(f)| del primer canal de entrada X^l(f), un segundo valor de la magnitud de un segundo espectro de la magnitud |X^r(f)| del segundo canal de entrada X^r(f), y un tercer valor de la magnitud de un tercer espectro de la magnitud |M^-i(f)| de la señal media monofónica M^-i(f), se determina por el determinador de la magnitud. El determinador de la magnitud 305 alimenta con el primer, el segundo y el tercer valor de la magnitud a un sustractor espectral 210. El sustractor espectral puede ser un sustractor espectral de acuerdo con la Fig. 2, q Aue está adaptado para generar un primer valor de la magnitud lateral estereofónica de un espectro de la magnitud si(f) d Ael primer canal lateral Si(f), y un segundo valor de la magnitud lateral estereofónica de un espectro de la magnitud sr(f) del segundo canal lateral S^r(f).

La Fig. 4 ilustra un aparato que realiza una sustracción espectral de acuerdo con una realización Un primer canal de entrada x^l(t) y un segundo canal de entrada x^r(t) que se representan en el dominio temporal, se fijan en una unidad de transformación 405. La unidad de transformación 405 está adaptada para transformar el primer y segundo canales de entrada del dominio temporal x^l(t), x^r(t) del dominio temporal en un dominio espectral, para obtener un primer canal de entrada del dominio espectral X^l(f) y un segundo canal de entrada del dominio espectral X^r(f). Los canales de entrada del dominio espectral X ^l(f), X^r(f), se alimentan a un generador de canal 408. El generador de canal 408 está adaptado para generar una señal media monofónica Mⁱ(f). La señal media monofónica Mⁱ(f) puede generarse de acuerdo con la fórmula:

^{M|(f) =}

ta la señal media generada M Vi ^{X ( i(f)+ X r(f)) (17a)}El generador de canal 408 alimen ¹(f) en un primer extractor de la magnitud 411, que extrae los valores de la magnitud de la señal media generada M¹(f). Además, el primer canal de entrada X^l(f) es alimentado por la unidad de transformación 405 en un segundo extractor de la magnitud 412, que extrae los valores de la magnitud del primer canal de entrada X ^l(f). Además, la unidad de transformación 405 alimenta el segundo canal de entrada X^r(f) a un tercer extractor de la magnitud 413, que extrae los valores de la magnitud del segundo canal de entrada. La unidad de transformación 405 también alimenta el primer canal de entrada x^l(f) a un primer extractor de la fase 421, que extrae los valores de la fase del primer canal de entrada X ^l(f). Además, la unidad de transformación 405 también alimenta el segundo canal de entrada X^r(f) a un segundo extractor de la fase 422, que extrae los valores de la fase del segundo canal de entrada.

Volviendo al primer extractor de la magnitud 411, los valores de la magnitud de la señal media monofónica generada |M¹(f)| se alimentan a un primer sustractor 431. Además, los valores de la magnitud sustraídos |X^l(f)| se alimentan al primer sustractor 431. El primer sustractor 431 genera un valor de la diferencia entre un valor de la magnitud del primer canal de entrada y un valor de la magnitud de la señal media generada. La magnitud de la señal media generada puede ser ponderada. Por ejemplo, el primer sustractor puede calcular el valor de la diferencia de acuerdo con la fórmula 16:

Se(f) = |X!(f)| - w |Mi(f)j (16)

De manera similar, el tercer extractor de la magnitud 413 alimenta los valores de la magnitud |Xr(f)| a un segundo sustractor 432. Además, los valores de la magnitud |M1(f)| también son alimentados al segundo sustractor 432. De manera similar a la primera unidad de sustracción 431, la segunda unidad de sustracción 432 genera un valor de la magnitud del segundo canal lateral, sustrayendo los valores de la magnitud |Xr(f)| y los valores de la magnitud de la señal media generada. La segunda unidad de sustracción 432 puede, por ejemplo, emplear la fórmula:

^A s ^{r(f) = |x r(f)| -} yr ^¡M](f)| ⁽¹⁷⁾

La primera unidad de sustracción 431 alimenta entonces con el valor de la magnitud generado s c(f) a un primer combinador 441. Además, el primer extractor de fase 421 con alimenta con un valor de la fase extraído del primer canal de entrada Xl(f) al primer combinador 441. El primer combinador 441 genera entonces los valores del dominio espectral del primer canal lateral, combinando el valor de la magnitud generado por la primera unidad de sustracción 431 y el valor de la fase suministrado por el primer extractor de fase 421. Por ejemplo, el primer combinador 441 puede emplear la fórmula:

A

^{s í(f) = s<(f)}exp(27i®¿(f)i) ⁽¹⁸⁾

A

Si algunos de los valores de son negativos, la aplicación la fórmula s f(f) = s f(f) exP(27i®í (f)i) ^ resu|ta en una

combinación del valor absoluto de y exp(2jiOí (f)i), en donde está desplazado en fase por n.

De manera similar, la segunda unidad de sustracción 432 alimenta con un valor de la magnitud generado de la segunda señal lateral a un segundo combinador 442. El segundo extractor de la fase 422 alimenta con un valor de la fase extraído del segundo canal de entrada Xr(f) al segundo combinador 442. El segundo combinador está adaptado para combinar el segundo valor de la magnitud suministrado por la segunda unidad de sustracción 432 y el valor de la fase suministrado por el extractor de la fase 422, para obtener un segundo canal lateral. Por ejemplo, el segundo combinador 442 puede emplear la fórmula:

Sr(f) = S,(f) exp(27t<DT(f) í) (19)

Si algunos de los valores de Sr(f) A son negativos, l _a aplicación la fórmula Sr(f) - Sr(f) exp(27r®r(f)¡) resulta en una combinación del valor absoluto de Sr{f) yexp(2ji®r(f)i), en donde ®r(f) está desplazado en fase por7i.

El primer combinador 441 alimenta con la primera señal lateral generada, que está representada en un dominio espectral, a una unidad de transformación inversa 450. La unidad de transformación inversa 450 transforma el primer canal lateral del dominio espectral de un dominio espectral a un dominio temporal, para obtener una primera señal lateral del dominio temporal. Además, la unidad de transformación inversa 450 recibe el segundo canal lateral que es representado en un dominio espectral del segundo combinador 442. La unidad de transformación inversa 450 transforma el segundo canal lateral del dominio espectral de un dominio espectral a un dominio temporal, para obtener un segundo canal lateral del dominio temporal.

Como ya se ha explicado, los valores de la magnitud del primer y del segundo canal lateral pueden ser generados por la primera unidad de sustracción 431 y la segunda unidad de sustracción 432, de acuerdo con las fórmulas:

Sí(í) = píiffil

■S,(f) = |X f^)|-»|M,(Ol (17)

Un factor escalar 0 < w < 1 controla el grado de separación. A El res Aultado de la sustracción espectral son los espectros de la magnitud de las señales laterales estereofónicas y .

La señal del tiempo m(t) = [m^¡(t) m^r(t)], se calcula sustrayendo la señal lateral estereofónica de la señal de entrada.

mi{t) ⁼ Xi(t) - si(t) ⁽²⁰⁾

mr(t) = xr(t) ^- sr(t) ⁽²¹⁾

El hecho de que la señal media se calcule sustrayendo las señales del tiempo, hace que se requieran sólo dos transformadas inversas de la frecuencia. El parámetro w se elige de manera preferida para estar cercano a 1, puede ser dependiente de la frecuencia.

La Fig. 5 ilustra un aparato de acuerdo con una realización que emplea estos conceptos.

El aparato además comprende, una primera unidad de transformación 501 que está adaptada para transformar el primer canal de entrada del dominio temporal X^l(t) del dominio temporal a un dominio espectral, para obtener un primer canal de entrada del dominio espectral X^l(f), y una segunda unidad de transformación 502 que está adaptada para transformar el segundo canal de entrada del dominio temporal x^r(t) del dominio temporal al dominio espectral, para obtener un segundo canal de entrada del dominio espectral X^r(f).

El aparato además comprende, un generador de canal 508, un primer 511, segundo 512 y tercer 513 extractores de la magnitud, un primer 521 y un segundo 522 extractores de la fase, una primera 531 y una segunda 532 unidades de sustracción y un primer 541 y un segundo 542 combinadores, que pueden corresponder al generador de canal 408, el primer 411, segundo 412 y tercer 413 extractores de la magnitud, el primer 421 y segundo 422 extractores de fase, la primera 431 y segunda 432 unidades de sustracción y el primer 441 y un segundo 442 combinadores del aparato de la Fig. 4, respectivamente.

Además, el aparato comprende una primera unidad de transformación inversa 551. La primera unidad de transformación inversa 551 recibe un primer canal lateral generado que está representado en un dominio espectral del primer combinador 541. La primera unidad de transformación inversa 551 transforma un primer canal lateral del dominio espectral generado Si(f) de un dominio espectral a un dominio temporal para obtener un primer canal lateral del dominio temporal s^l(t).

Asimismo, el aparato comprende una segunda unidad de transformación inversa 552. La segunda unidad de transformación inversa 552 recibe un segundo canal lateral generado que está representado en un dominio espectral del segundo combinador 542. La segunda unidad de transformación inversa 552 transforma el segundo canal lateral del dominio espectral Sr(f) de un dominio espectral a un dominio temporal, para obtener un segundo canal lateral del dominio temporal sr(t).

Además, el aparato comprende un primer generador de canal medio 561. El primer generador de canal medio 561 genera un primer canal medio ml(t) de una señal media estereofónica en un dominio temporal aplicando la fórmula 20:

mi(t) = xi(t ^{) -} st(t) ⁽²⁰⁾

Además, el aparato comprende un segundo generador de canal medio 562. El segundo generador de canal medio 562 genera un primer canal medio mr(t) de una señal media estereofónica en un dominio temporal aplicando la fórmula 21:

mr(t ^{) =} xr(t) ^- sr (t) ⁽²¹⁾

Se obtienen resultados idénticos implementando este procesamiento utilizando la ponderación espectral (de manera similar al procesamiento en la sección descrita anteriormente “Antecedentes”), como se muestra de manera ejemplar para el canal izquierdo en la presente. Los espectros con valores complejos X^l(f) se ponderan como se muestra en la siguiente ecuación:

Aunque la ecuación anterior proporciona un resultado idéntico con la ponderación real obtenida con la sustracción espectral (pero con una carga computacional más grande; principalmente debido a la división para calcular las ponderaciones espectrales), el enfoque de la ponderación espectral tiene ventajas, debido a que ofrece más posibilidades para parametrizar el procesamiento, que conduce a diferentes resultados con características similares, como se describe a continuación:

La descomposición de la señal utilizando la ponderación espectral se explica ahora con más detalle. La razón fundamental del concepto de acuerdo con esta reivindicación es aplicar la ponderación espectral a las señales del canal izquierdo y derecho x ^l(t) y x^r(t), en donde las ponderaciones espectrales se derivan de la composición M-S. Un resultado intermedio de la descomposición M-S es la relación de la señal media y lateral por bloque de tiempofrecuencia, a continuación, referido como relación media-lateral (MSR). Esta MSR puede utilizarse para calcular las ponderaciones espectrales, pero nótese que las ponderaciones pueden calcularse de manera alternativa sin la noción de la MSR. En este caso, la MSR sirve principalmente para el propósito de explicar la idea básica del método. Para calcular la señal media estereofónica m(t)=[m^l(t) m^r(t)], las ponderaciones se eligen de manera que están relacionadas de manera monotónica con la MSR. Para calcular la señal lateral estereofónica s(t)=[si(t) s^r(t)], las ponderaciones se eligen de manera que están relacionadas de manera monotónica con el inverso de la MSR. En una realización, un generador de la información de modificación comprende un generador de ponderaciones espectrales. La Fig. 6 ilustra un aparato de acuerdo con tal realización. El aparato comprende un generador de la información de modificación 610 y un manipulador de la señal 620. El generador de la información de modificación comprende un generador de ponderaciones espectrales 615. El manipulador de la señal 620 comprende una primera unidad de manipulación 621 para la manipulación de un primer canal de entrada X ^l(f) de una señal estereofónica y una segunda unidad de manipulación 622 para manipular un segundo canal de entrada X^r(f) de la señal de entrada estereofónica. El generador de ponderaciones espectrales 615 de la Fig. 6 recibe una señal media monofónica M¹(f) y una señal lateral monofónica S¹(f) de la señal de entrada estereofónica. El generador de ponderaciones espectrales 615 está adaptado para determinar un factor de ponderación espectral G^s(f), basándose en la señal media monofónica M¹(f) y en la señal lateral monofónica S¹(f) de la señal de entrada estereofónica. El manipulador de la señal 620 alimenta entonces con el factor de ponderación espectral generado G^s(f) como una información de modificación al generador de la información de modificación 620. La primera unidad de modificación 621 del generador de la información de modificación 620, está adaptada para manipular el primer canal de entrada X ^l(f) de la señal de entrada estereofónica, basándose en el factor de ponderación espectral generado G^s(f), para obtener un primer canal lateral S^l(f) de una señal lateral estereofónica.

Otra realización se ilustra en la Fig. 7. Como el aparato de la Fig. 6, el aparato de la Fig. 7 comprende un generador de la información de modificación 710 y un manipulador de la señal 720. El generador de la información de modificación comprende un generador de ponderaciones espectrales 715. El manipulador de la señal 720 comprende una primera unidad de manipulación 721 para manipular un primer canal de entrada X ^l(f) de una señal estereofónica, y una segunda unidad de manipulación 722 para manipular un segundo canal de entrada X^r(f) de la señal de entrada estereofónica. El manipulador de la señal 720 de la realización de la Fig. 7, está adaptado para manipular un primer canal de entrada X^l(f), así como un segundo canal de entrada X^r(f), basándose en el mismo factor de ponderación espectral generado G^s(f), para obtener un primer S^l(f) y un segundo S^r(f) canal lateral de una señal lateral estereofónica.

Una realización adicional se ilustra en la Fig. 8. Como el aparato de la Fig. 6, el aparato de la Fig. 8 comprende un generador de la información de modificación 810 y un manipulador de la señal 820. El generador de la información de modificación comprende un generador de ponderaciones espectrales 815. El manipulador de la señal 820 comprende una primera unidad de manipulación 821 para manipular un primer canal de entrada X^¡(f) de una señal estereofónica y una segunda unidad de manipulación 822 para manipular un segundo canal de entrada X^r(f) de la señal de entrada estereofónica. El generador de ponderaciones espectrales 815 está adaptado para generar dos o más factores de ponderaciones espectrales. Además, la primera unidad de manipulación 821 del generador de la información de modificación 820, está adaptada para manipular un primer canal de entrada, basándose en un primer factor de ponderación espectral generado. La segunda unidad de manipulación 822 del generador de la información de modificación 820, está adaptada, además, para manipular el segundo canal de entrada, basándose en un segundo factor de ponderación espectral generado.

La Fig. 9 ilustra un generador de la información de modificación 910 de acuerdo con una realización. El generador de la información de modificación 910 comprende un determinador de la magnitud 912 y un generador de ponderaciones espectrales 915. El determinador de la magnitud 912 está adaptado para recibir la señal media monofónica M¹(f), que está representada en un dominio espectral. Además, el determinador de la magnitud 912 está adaptado para recibir la señal lateral monofónica S¹(f), que está representada en un dominio espectral. El determinador de la magnitud 912 está adaptado para determinar un valor de la magnitud de un espectro |S¹(f)| de la señal lateral monofónica S¹(f), como un valor lateral de la magnitud. Además, el determinador de la magnitud 912 está adaptado para determinar un valor de la magnitud de un espectro |M¹(f)| de la señal media monofónica M^l(f) como un valor medio de la magnitud.

El determinador de la magnitud 912 está adaptado para alimentar con el valor lateral de la magnitud y el valor medio de la magnitud al generador de ponderaciones espectrales 915. El generador de ponderaciones espectrales 915 está adaptado para generar el primer factor de ponderación espectral G^s(f), basándose en la relación de un primer número con respecto a un segundo número, en donde el primer número depende del valor lateral de la magnitud, y en donde el segundo número depende del valor medio de la magnitud y el valor lateral de la magnitud. Por ejemplo, el primer factor de ponderación espectral G^s(f) puede calcularse de acuerdo con la fórmula:

^{en donde}a ^,p ^,y^,8 ^yq ^{son factores escalares.}

A continuación, se describe el cálculo de las ponderaciones espectrales en más detalle. Tales ponderaciones espectrales pueden derivarse utilizando una de las reglas de ganancia descritas anteriormente, como se describe en el contexto de la sustracción espectral y la ponderación espectral en la sección anterior “Antecedentes”, sustituyendo la señal deseada d(t) y la señal de interferencia n(t), de acuerdo con la Tabla 1.

Tabla 1. Asi nación de las señales M-S a las señales utilizadas ara calcular las onderaciones espectrales.

Por ejemplo, la señal lateral estereofónica s(t)=[sl(t) sr(t)], puede calcularse de acuerdo con las ecuaciones (23), (24) y (25).

Si(f) = Gs(f)X i(f) (24)

Sr(f) = Gs(f) Xr(f) (25)

^{Un parámetro adicional}8 ^{se introduce para controlar el impacto de los componentes de la señal lateral estereofónica}en el proceso de descomposición.

Nótese que la transformada de la frecuencia sólo necesita calcularse para el par de la señal [x^l(t) X^r(t)] o [m(t) s(t)], y el par superior se deriva mediante la adición y sustracciones de acuerdo con las Ecuaciones (5) y (6).

De una manera similar, la señal media estereofónica m(t)=[mi(t) mr(t)], puede calcularse de acuerdo con las Ecuaciones (26), (27) y (28).

Mi(f) = Gm(f)Xi(f) (27)

Mr(f) = Gm(f) Xr(f) (28)

La Fig. 10 ilustra un aparato para generar una señal media estereofónica que tiene un primer canal medio M f y un segundo canal medio Mr(f) de una señal de entrada estereofónica, que tiene un primer canal de entrada y un segundo canal de entrada. El aparato comprende un generador de la información de modificación 1010 para generar la información de modificación modInf2, basándose en la información media-lateral midSideInf, y un manipulador de la señal 1020 que está adaptado para manipular el primer canal de entrada Xⁱ(f), basándose en la información de modificación, para obtener el primer canal medio M f y está adaptado para manipular el segundo canal de entrada Xr(f), basándose en la información de modificación modInf, para obtener el segundo canal medio Mr(f).

La Fig. 10a ilustra un aparato para generar una señal media estereofónica de acuerdo con una realización, en donde el generador de la información de manipulación 1010 comprende un sustractor espectral 1015. El sustractor espectral 1015 está adaptado para generar la información de modificación modInf2 para generar un valor de la diferencia que indica una diferencia entre una señal media monofónica o una señal lateral monofónica de la señal de entrada estereofónica y el primer o segundo canales de entrada. Por ejemplo, el sustractor espectral 1015 puede estar adaptado para generar la información de modificación modInf2 sustrayendo un valor de la magnitud o un valor de la magnitud ponderada del primer o segundo canales de entrada de un valor de la magnitud o un valor de la magnitud ponderado de la señal media monofónica o la señal lateral monofónica de la señal de entrada estereofónica. O, el sustractor espectral 1015 puede estar adaptado para generar la información de modificación modInf2, sustrayendo un valor de la magnitud o un valor de la magnitud ponderado de la señal media monofónica o la señal lateral monofónica de la señal de entrada estereofónica, de un valor de la magnitud o un valor de la magnitud ponderada del primer o el segundo canales de entrada.

La Fig. 10b ilustra un aparato para generar una señal media estereofónica de acuerdo con una realización, en donde el generador de la información de modificación 1010 comprende un generador de ponderaciones espectrales 1016 para generar la información de modificación modInf2 generando un primer factor de ponderación espectral, basándose en una señal media monofónica y en una señal lateral monofónica de la señal de entrada estereofónica. El generador de la información de modificación puede generar la información de modificación modInf2, por ejemplo, de acuerdo con la fórmula 26:

Una alternativa a las ponderaciones mostradas en la Ecuación 26, es derivar las ponderaciones de un criterio para mezclar la compatibilidad, en donde Gs(f) Gm(f) = 1, conduciendo a

una extensión del método descrito anteriormente es motivada por la observación de que la función de la ganancia (23) no conduce a una ponderación igual a 1, incluso en el caso de que los intervalos de tiempo-frecuencia estén muy agrupados en un lado. Esta es una consecuencia del hecho de que el denominador siempre es mayor que el numerador, puesto que la señal media solo se aproximará a cero si ambos coeficientes espectrales izquierdo y derecho son cero. Para lograr Gs(f)=1 para los componentes de la señal muy agrupada, la ecuación (23) puede modificarse a

La modificación en la ecuación (30) conduce a ganancias unitarias para los componentes muy agrupados. De manera alternativa, las ecuaciones (31) y (32) muestran fórmulas de la ganancia con un parámetro ^, cuyos resultados son iguales a la ecuación (23) para = 0 y (30) para = 1.

con

Q(f) = T] min [ |X ,(f)|, |Xr(f>! ] (1 - r¡) M(f) (32)

Nótese que una ponderación espectral descrita anteriormente no garantiza la compatibilidad de la mezcla en todos los casos, es decir

si mi (33)

sr + m r (34)

Si se desea una separación de la conservación de la energía, las ponderaciones necesitan elegirse de manera que

que puede solucionarse calculando

^{Gs{ f )} o ^{G m if )}

(36)

como se describió anteriormente, y calculando los otros factores de ponderación en consecuencia, por ejemplo, como

Opcionalmente, puede aplicarse un factor de escalamiento constante adicional a una de las funciones de ganancia antes de la sustracción.

Para el ejemplo de la reproducción cuadrafónica con compatibilidad de la mezcla, los parámetros a ser ajustados son

Las ponderaciones espectrales G^s(f) se calculan primero y se escalan por 1,5 dB. Las ganancias de la señal media estereofónica se calculan como G^m(f) = 1 - G^s(f).

Las funciones de la ganancia se ilustran como una función del parámetro de agrupamiento a en la Fig. 11. En la Fig. 11, se ilustran las ganancias ejemplares para las señales laterales estereofónicas (línea continua) y las señales medias estereofónicas (líneas discontinuas). Se muestra que las ganancias son complementarias, es decir, la separación es compatible con la mezcla. Los componentes de la señal que están agrupados en cualquier lado se atenúan en la señal media estereofónica, y los componentes de la señal que están agrupados en el centro, son atenuados en la señal lateral estereofónica. Los componentes de la señal que están agrupados aparecen en ambas señales. Las funciones de la ganancia se ilustran como una función del parámetro de agrupamiento a en la Fig. 12. La Fig. 12 ilustra los resultados de la ponderación espectral para las señales laterales estereofónicas (figura superior) y las señales medias estereofónicas (figura inferior) para el canal izquierdo (línea continua) y derecho (línea discontinua).

La Fig. 13 ilustra un aparato para generar una señal lateral estereofónica de acuerdo con una realización adicional. El aparato comprende una unidad de transformación 1203, un generador de la información de modificación 1310, un manipulador de la señal 1320 y una unidad de transformación inversa 1325. Un primer canal de entrada x^l(t) y un segundo canal de entrada X^r(t) de una señal de entrada estereofónica y una señal media mⁱ(t) y una señal lateral sⁱ(t) de la señal de entrada estereofónica, se alimentan a la unidad de transformación 1305. La unidad de transformación pueden ser una unidad de transformada de Fourier a Corto Plazo (unidad STFT), un banco de filtros, o cualquier otro medio para derivar una representación de la señal con múltiples bandas de frecuencia X(f, k), con el índice de la banda de la frecuencia f y el índice del tiempo k. La unidad de transformación, transforma la señal media mid¹(t), la señal lateral s¹(t), el primer canal de entrada x^l(t) y el segundo canal de entrada x^r(t), que están representados en un dominio temporal a señales del dominio espectral, en particular, en una señal media del dominio espectral M¹(f), una señal lateral del dominio espectral S¹(f), un primer canal de entrada del dominio espectral x^l(f) y un segundo canal de entrada del dominio espectral X^r(f). La señal media del dominio espectral M¹(f) y la señal lateral del dominio espectral S¹(f) se alimentan en el generador de la información de modificación 1310 como información media-lateral.

El generador de la información de modificación 1310 genera la información de modificación modInf basándose en la señal media monofónica del dominio espectral M¹(f) y la señal lateral monofónica S¹(f). El generador de la información de modificación de la Fig. 13 también puede tomar en cuenta el primer canal de entrada X^l(f) y/o el segundo canal de entrada X^r(f), como se indica por las líneas de conexión punteadas 1312 y 1314. Por ejemplo, el generador de la información de modificación 1310 puede generar la información de modificación que se basa en la señal media monofónica M¹(f), el primer canal de entrada X ^l(f) y el segundo canal de entrada X^r(f).

El generador de la modificación 1310 pasa entonces la información de modificación generada modInf al manipulador de la señal 1320. Además, la unidad de transformación 1305 alimenta con el primer canal de entrada del dominio espectral X ^l(f) y el segundo canal de entrada del dominio espectral X^r(f) al manipulador de la señal 1320. El manipulador de la señal 1320 está adaptado para manipular el primer canal de entrada, basándose en la información de modificación modInf, para obtener un primer canal lateral del dominio espectral S^l(f) y un segundo canal lateral del dominio espectral S^r(f), que se alimentan a la unidad de transformación inversa 1325 por el manipulador de la señal 1320.

La unidad de transformación inversa 1325 está adaptada para transformar el primer canal lateral del dominio espectral S^l(f) en un dominio temporal, para obtener un primer canal lateral del dominio temporal s^l(t), y para transformar el segundo canal lateral del dominio espectral S^r(f) en un dominio temporal, para obtener un segundo canal lateral del dominio temporal s^r(t), respectivamente.

La Fig. 14 ilustra un aparato para generar una señal lateral estereofónica de acuerdo con una realización adicional. El aparato ilustrado por la Fig. 14, difiere del aparato de la Fig. 13 en que el aparato de la Fig. 14 además comprende un generador de canal 1307, que está adaptado para recibir el primer canal de entrada X^l(f) y el segundo canal de entrada X^r(f), y para generar una señal media monofónica M¹(f) y/o una señal lateral monofónica S¹(f), del primer y segundo canales de entrada X^¡(f), X^r(f). Por ejemplo, la señal media monofónica M¹(f) puede generarse de acuerdo con la fórmula:

La señal lateral monofónica S¹(f) puede, por ejemplo, generarse de acuerdo con la fórmula:

La razón fundamental del método propuesto es calcular una estimación del espectro de la magnitud de las señales deseadas, en concreto de m(t) = [m^l(t) m^r(t)] y s = [s^l(t) s^r(t)], procesando la señal de entrada x(t)=[x^l(t) x^r(t)], y aprovechando el hecho de que la representación del dominio de la frecuencia de m¹(t) y s¹(t) comprende los componentes deseados de la señal.

En una realización se emplea la sustracción espectral. Los espectros de las señales de entrada se modifican utilizando los espectros de la señal media monofónica. En otra realización, se emplea la ponderación espectral, donde las ponderaciones se derivan utilizando la señal media monofónica y la señal lateral monofónica.

De acuerdo con las realizaciones, las señales deberán calcularse con características similares como la señal media y lateral, pero sin perder la señal estereofónica cuando se escucha cada una de las señales de manera separada. Esto se logra utilizando la sustracción espectral en una realización y utilizando la ponderación espectral en otra realización.

De acuerdo con otra realización, se proporciona un mezclador para generar al menos cuatro canales de mezclado de una señal estereofónica que tiene dos canales de entrada del mezclador.

El mezclador comprende un aparato para generar una señal lateral estereofónica de acuerdo con una de las realizaciones descritas anteriormente, para generar un primer canal lateral como el primer canal de mezclado, y para generar un segundo canal lateral como un segundo canal de mezclado. El mezclador además comprende, una primera unidad de combinación y una segunda unidad de combinación. La primera unidad de combinación está adaptada para combinar el primer canal de entrada y el primer canal lateral, para obtener un primer canal medio como un tercer canal de mezclado. Además, la segunda unidad de combinación está adaptada para combinar el segundo canal de entrada y el segundo canal lateral como un cuarto canal de mezclado.

La Fig. 15 ilustra un mezclador de acuerdo con una realización. El mezclador comprende un aparato para generar una señal lateral estereofónica 1510, un primer generador de canal medio 1520 y un segundo generador de canal medio 1530. Se alimenta con un primer canal de entrada X^l(f) al aparato para generar una señal lateral estereofónica 1510 y en el primer generador de canal medio 1520. Además, se alimenta con un segundo canal de entrada X(f) al aparato para generar una señal lateral estereofónica 1510 y en el segundo generador de canal medio 1530. Además, el aparato para generar una señal lateral estereofónica 1510 alimenta con el primer canal lateral generado S^l(f) al primer generador de canal medio 1520 y alimenta. además, el segundo canal lateral generado S^r(f) en el segundo generador de canal medio 1530. El primer canal lateral S^l(f) es producido como un primer canal del mezclador generado por el mezclador. El segundo canal lateral S^r(f) se produce como un segundo canal del mezclador generado por el mezclador. El primer generador de canal medio 1520 combina el primer canal de entrada X ^l(f) y el primer canal lateral generado S^l(f), para obtener un primer canal de una señal media estereofónica M^l(f). Por ejemplo, el generador de canal medio 1520 puede emplear la fórmula:

Además, la segunda unidad de combinación combina el segundo canal Sr(f) de la señal lateral estereofónica y el segundo canal de entrada Xr(f) mediante el generador de canal medio 1530 para obtener un segundo canal Mr(f) de la señal media estereofónica. Por ejemplo, la segunda unidad de combinación puede emplear la fórmula:

El primer canal de la señal media estereofónica M^l(f) y el segundo canal de la señal media estereofónica M^r(f), se producen como el tercer y cuarto canales del mezclador, respectivamente. Como puede observarse, la existencia de una señal media estereofónica y una señal lateral estereofónica es ventajosa para la aplicación de mezclado de una señal estereofónica, para la reproducción utilizando sistemas de sonido envolvente. Una posible aplicación de la señal lateral estereofónica y media estereofónica es la reproducción del sonido cuadrafónico como se muestra en la Fig. 16. Comprende cuatro canales que se alimentan a las señales medias estereofónicas y las señales laterales estereofónicas.

La aplicación ejemplar de la reproducción cuadrafónica como se describió anteriormente es una buena ilustración para las características de la señal lateral estereofónica y la señal media estereofónica. Nótese que el procesamiento descrito puede extenderse, además, para reproducir la señal de audio con diferentes formatos que el cuadrafónico. Más señales del canal de salida se combinan separando primero la señal lateral estereofónica y la señal media estereofónica, y aplicando el procesamiento descrito nuevamente a una o ambas de ellas. Por ejemplo, una señal para la reproducción utilizando 5 canales de acuerdo con ITU-R BS.775 [1], puede derivarse repitiendo la descomposición de la señal con la señal media estereofónica como la señal de entrada.

La Fig. 17 ilustra un diagrama de bloques del procesamiento para generar una señal con múltiples canales, adecuada para la reproducción con cinco canales, con un canal central C, un izquierdo L, un derecho R, un izquierdo envolvente SL y un derecho envolvente SR.

Los métodos y aparatos descritos anteriormente se han presentado para descomponer una señal de entrada estereofónica en una señal lateral estereofónica y/o una señal media estereofónica. Se aplica la sustracción espectral o la ponderación espectral para la separación espectral. Una descomposición MS proporciona la información basada en la dirección, que es necesaria para calcular el grado al cual cada bloque de tiempofrecuencia contribuye a la señal lateral estereofónica y la señal media estereofónica. Tales señales pueden utilizarse para la aplicación del mezclado de señales estereofónicas para la reproducción por sistemas de sonido envolvente.

Aunque algunos aspectos se han descrito en el contexto de un aparato, está claro que estos aspectos también representan una descripción del método correspondiente, en donde un bloque o un dispositivo corresponde a una etapa del método o una característica de una etapa del método. De manera análoga, los aspectos descritos en el contexto de una etapa del método también representan una descripción de un bloque o punto o característica correspondiente de un aparato correspondiente.

La señal descompuesta inventiva puede almacenarse en un medio de almacenamiento digital, o puede transmitirse en un medio de transmisión, tal como un medio de transmisión inalámbrico o un medio de transmisión cableado, tal como Internet.

Dependiendo de ciertos requisitos de la implementación, las realizaciones de la invención pueden implementarse en hardware o software. La implementación puede realizarse utilizando un medio de almacenamiento digital, por ejemplo, un disco flexible, un DVD, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, que tienen señales de control legibles electrónicamente almacenadas en ellas, que cooperan (o son capaces de cooperar) con un sistema de computadora programable, de manera que se realiza el método respectivo. Algunas realizaciones de acuerdo con la invención comprenden un portador de datos no transitorio, que tiene señales de control legibles electrónicamente, que son capaces de cooperar con un sistema de computadora programable, de manera que se realiza uno de los métodos descritos en la presente.

En general, las realizaciones de la presente invención pueden implementarse como un producto de un programa informático con un código del programa, el código del programa es operativo para realizar uno de los métodos, cuando el producto del programa informático se ejecuta en una computadora. El código del programa puede almacenarse, por ejemplo, en un portador legible por la máquina.

Otras realizaciones comprenden el programa informático para realizar uno de los métodos descritos en la presente, almacenado en un portador legible por la máquina.

En otras palabras, una realización del método inventivo es, por lo tanto, un programa informático que tiene un código del programa para realizar uno de los métodos descritos en la presente, cuando el programa informático se ejecuta en una computadora.

Una realización adicional de los métodos inventivos es, por lo tanto, un portador de datos (o un medio de almacenamiento digital, o un medio legible por computadora), que comprende, grabado en el mismo, el programa informático para realizar uno de los métodos descritos en la presente.

Una realización adicional del método inventivo es, por lo tanto, una corriente de datos o una secuencia de señales que representan el programa informático, para realizar uno de los métodos descritos en la presente. La corriente de datos o la secuencia de señales puede configurarse, por ejemplo, para transferirse mediante una conexión de comunicación de datos, por ejemplo, mediante Internet.

Una realización adicional comprende un medio de procesamiento, por ejemplo, una computadora o un dispositivo lógico programable, configurado para, o adaptado para realizar uno de los métodos descritos en la presente.

Una realización adicional comprende una computadora que tiene instalado en el mismo el programa informático para realizar uno de los métodos descritos en la presente.

En algunas realizaciones, puede utilizarse un dispositivo lógico programable (por ejemplo, un campo de matrices de puertas programables), para realizar una o todas las funcionalidades de los métodos descritos en la presente. En algunas realizaciones, un campo de matrices de puertas programables puede cooperar con un microprocesador, con el fin de realizar uno de los métodos descritos en la presente. Generalmente, los métodos se realizan de manera preferida mediante cualquier aparato de hardware.

Las realizaciones descritas anteriormente son meramente ilustrativas de los principios de la presente invención. Se entenderá que las modificaciones y variaciones de las disposiciones y los detalles descritos en la presente, serán evidentes para los expertos en la materia. Por lo tanto, pretenden estar limitadas sólo por el alcance de las reivindicaciones de la patente a continuación y no por los detalles específicos presentados a manera de descripción y explicación de las realizaciones en la presente.

Bibliografía:

[1] International Telecommunication Union, Radiocommunication Assembly, “Multichannel stereophonic sound system with and without accompanying picture”, Recommendation ITU-R.BS.775-2, 2006, Ginebra, Suiza.

[2] S. Boll, “Suppression of acoustic noise in speech using spectral subtraction”, IEEE Trans. on Accoustics, Speech, and Signal Processing, vol. 27, n.°2, págs. 113-120, 1979

[3] O. Cappé, “Elimination of the musical noise phenomenon with the Ephraim-Malah noise suppressor”, IEEE Trans. On Speech and Audio Processing, vol. 2, págs. 345-349, 1994.

[4] G. Schmidt, “Single-channel noise suppression based on spectral weighting”, Eurasip Newsletter, 2004.

[5] M. Berouti, R. Schwartz y J. Makhoul, “Enhancement of speech corrupted by acoustic noise”, in Proc. of the IEEE Int. Conf. On Acoustics, Speech, and Signal Processing, ICASSP, 1979

[6] R. Martin, “Spectral subtraction based on mínimum statistics”, in Proc. of EUSIPCO, Edinburgh, Reino Unido, 1994

[7] Y. Ephraim y D. Malah, “Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator”, in Proc. of the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP, 1984 [8] E George, “Single-sensor speech enhancement using a soft-decision/variable attenuation algorithm”, in Proc. Of the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP, 1995.

[9] C. Avendano y J.-M. Jot, “A frequency-domain approach to multi-channel upmix”, J. Audio Eng. Soc., vol. 52, 2004.

[10] C. Faller, “Multiple-loudspeaker playback of stereo signals”, J. Audio Eng. Soc., vol. 54, 2006.

[11] C. Uhle, J. Herre, S. Geyersberger, F. Ridderbusch, A. Walter y O. Moser, “Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program”, Solicitud de Patente de Estados Unidos 2009/0080666, 2009.

[12] C. Uhle, J. Herre, A. Walther, O. Hellmuth y C. Janssen, “Apparatus and method for generating an ambient signal from an audio signal, apparatus and method for deriving a multi-channel audio signal from an audio signal and computer program”, Solicitud de Patente de Estados Unidos 2010/0030563, 2010.

[13] E. Vickers, “Two-to-three channel upmix for center channel derivation”, Solicitud de Patente de Estados Unidos 2010/0296672, 2010.

Claims

REIVINDICACIONES

1. Un aparato para generar una señal lateral estereofónica, que tiene un primer canal lateral y un segundo canal lateral, a partir de una señal de entrada estereofónica, que tiene un primer canal de entrada y un segundo canal de entrada, que comprende:

un generador de una información de modificación (110; 610; 710; 810; 910; 1310) para generar la información de modificación, comprendiendo el generador de la información de modificación (110; 610; 710; 810; 910; 1310) un sustractor espectral (116; 615; 715; 815; 915) para generar la información de modificación, generando un primer valor de diferencia que indica una diferencia en un espectro de la magnitud entre una señal media monofónica de la señal de entrada estereofónica y el primer canal de entrada y generando un segundo valor de la diferencia que indica una diferencia en el espectro de la magnitud entre la señal media monofónica de la señal de entrada estereofónica y el segundo canal de entrada, y

un manipulador de señal (120; 620; 720; 820; 1320) que está adaptado para manipular el primer canal de entrada, basándose en el primer valor de la diferencia para obtener el primer canal lateral y que está adaptado para manipular el segundo canal de entrada, basándose en el segundo valor de la diferencia para obtener el segundo canal lateral.

2. Un aparato de acuerdo con la reivindicación 1, en donde generador de la información de modificación (110; 610; 710; 810; 910; 1310) además comprende:

un determinador de magnitud (305) que está adaptado para recibir al menos una señal, que está representada en un dominio espectral, como una señal de entrada de la magnitud recibida,

en donde el determinador de magnitud (305) está adaptado para determinar al menos un valor de la magnitud para cada señal de entrada de la magnitud recibida,

en donde el determinador de magnitud (305) está adaptado para alimentar con el al menos un valor de la magnitud de cada señal de entrada de la magnitud recibida al sustractor espectral (115; 210), y

en donde el determinador de magnitud (305) está dispuesto para recibir al menos uno del primer canal de entrada, el segundo canal de entrada, la señal media monofónica o la señal lateral monofónica como señal de entrada de la magnitud recibida.

3. Un aparato de acuerdo con la reivindicación 2,

en donde el sustractor espectral (115; 210) comprende una primera unidad de sustracción espectral (215; 431) y una segunda unidad de sustracción espectral (218; 432),

en donde el determinador de magnitud (305) está dispuesto para recibir el primer y segundo canal de entrada y la señal media monofónica,

en donde el determinador de magnitud (305) está adaptado para determinar un primer valor de la magnitud del primer canal de entrada, un segundo valor de la magnitud del segundo canal de entrada y un tercer valor de la magnitud de la señal media monofónica,

en donde el determinador de magnitud (305) está adaptado para alimentar con el primer, el segundo y el tercer valor de la magnitud al sustractor espectral (115; 210),

en donde la primera unidad de sustracción espectral (215; 431) está adaptada para realizar una primera sustracción espectral basándose en el primer valor de la magnitud del primer canal de entrada y el tercer valor de la magnitud de la señal media monofónica para obtener un primer valor de la magnitud lateral estereofónica del primer canal lateral, y

en donde la segunda unidad de sustracción espectral (218; 432) está adaptada para realizar una segunda sustracción espectral basándose en el segundo valor de la magnitud del segundo canal de entrada y el tercer valor de la magnitud de la señal media monofónica para obtener un segundo valor de la magnitud lateral estereofónico del segundo canal lateral.

4. Un aparato de acuerdo con la reivindicación 3, en donde la primera unidad de sustracción espectral (215; 431) está adaptada para realizar la primera sustracción espectral aplicando la fórmula:

en donde

indica un primer espectro de la magnitud lateral estereofónica, en donde PWI indica un primer espectro de la magnitud del primer canal de entrada, en donde |M1(f)| indica el tercer espectro de la magnitud de la señal media monofónica y en donde w indica un factor escalar en el intervalo de 0 < w > 1, y

en donde la segunda unidad de sustracción espectral (218; 432) está adaptada para realizar la segunda sustracción espectral aplicando la fórmula:

en donde sr(f> indica un segundo espectro de la magnitud lateral estereofónica, en donde |Xr(f)| indica un segundo espectro de la magnitud del primer canal de entrada, en donde |M1(f)| indica el tercer espectro de la magnitud de la señal media monofónica y en donde w indica un factor escalar en el intervalo de 0 < w > 1.

5. Un aparato de acuerdo con la reivindicación 3 o 4, en donde el manipulador de señal (120; 620; 720; 820; 1320) comprende un extractor de fase (421, 422) y un combinador (441, 442),

en donde el extractor de fase (421, 422) está dispuesto para recibir el primer canal de entrada y el segundo canal de entrada,

en donde el extractor de fase (421, 422) está adaptado para determinar un primer valor de fase del primer canal de entrada como primer valor de fase lateral estereofónica y un segundo valor de fase del segundo canal de entrada como un segundo valor de fase lateral estereofónica,

en donde el extractor de fase (421, 422) está adaptado para alimentar el primer valor de fase lateral estereofónica y el segundo valor de fase lateral estereofónica en el combinador,

en donde la primera unidad de sustracción espectral (215; 431) está adaptada para alimentar con el primer valor de la magnitud lateral estereofónica al combinador (441, 442),

en donde la segunda unidad de sustracción espectral (218; 432) está adaptada para alimentar con el segundo valor de fase lateral estereofónica al combinador (441, 442),

en donde el combinador (441, 442) está adaptado para combinar el primer valor de la magnitud lateral estereofónica y el primer valor de fase lateral estereofónica para obtener un primer coeficiente complejo de un primer espectro del primer canal lateral, y

en donde el combinador (441, 442) está adaptado para combinar el segundo valor de la magnitud lateral estereofónica y el segundo valor de fase lateral estereofónica para obtener un segundo coeficiente complejo de un segundo espectro del segundo canal lateral.

6. Un aparato de acuerdo con una de las reivindicaciones 2 a 5, en donde el generador de la información de modificación (110; 610; 710; 810; 910; 1310) está adaptado para generar la información de modificación, basándose en la señal media monofónica de la señal de entrada estereofónica o en la señal lateral monofónica de la señal de entrada estereofónica, en donde la señal media monofónica depende de una señal de suma que resulta de sumar el primer y el segundo canal de entrada y donde la señal lateral monofónica depende de una señal de la diferencia que resulta de sustraer el segundo canal de entrada del primer canal de entrada.

7. Un aparato de acuerdo con una de las reivindicaciones 2 a 6, en donde el aparato además comprende un generador de canal (561, 562), en donde el generador de canal está adaptado para generar la señal media monofónica o la señal lateral monofónica, basándose en el primer y el segundo canal de entrada.

8. Un aparato de acuerdo con una de las reivindicaciones 2 a 7, en donde el aparato además comprende:

una unidad de transformación (1305) para transformar el primer y el segundo canal de entrada de la señal de entrada estereofónica, de un dominio temporal a un dominio espectral, y

una unidad de transformación inversa (1325),

en donde el manipulador de la señal (120; 620; 720; 820; 1320) está adaptado para manipular el primer canal de entrada, que está representado en el dominio espectral y el segundo canal de entrada que está representado en el dominio espectral, para obtener la señal lateral estereofónica, que está representada en el dominio espectral, y en donde la unidad de transformación inversa (1325) está adaptada para transformar la señal lateral estereofónica, que está representada en el dominio espectral, del dominio espectral al dominio temporal.

9. Un mezclador, que comprende:

un aparato para generar una señal lateral estereofónica (1510) que tiene un primer canal lateral y un segundo canal lateral, de acuerdo con una de las reivindicaciones anteriores, en donde el aparato está adaptado para generar el primer canal lateral como un primer canal mezclador,

y en donde el aparato está adaptado para generar el primer canal lateral como un primer canal mezclador, un primer generador de canal medio (1520) para generar el primer canal medio como un tercer canal mezclador, basándose en una diferencia entre el primer canal de entrada estereofónica y el primer canal lateral, y un segundo generador de canal medio (1530) para generar el segundo canal medio como un cuarto canal mezclador, basándose en una diferencia entre el segundo canal de entrada estereofónica y el segundo canal lateral.

10. Un aparato para generar una señal media estereofónica que tiene un primer canal medio y un segundo canal medio a partir de una señal de entrada estereofónica, que tiene un primer canal de entrada y un segundo canal de entrada, que comprende:

un aparato para generar una señal lateral estereofónica que tiene un primer canal lateral y un segundo canal lateral de acuerdo con una de las reivindicaciones anteriores,

un primer generador de canal medio (561) para generar el primer canal medio m6(t) de la señal media estereofónica en un dominio temporal aplicando la fórmula:

m ( t ) = x i { t ) - s i ( t )

y

un segundo generador de canal medio (562) para generar el segundo canal medio mr(t) de una señal media estereofónica en el dominio temporal aplicando la fórmula

i

en donde xl(t) es el primer canal de entrada,

en donde xr(t) es el segundo canal de entrada,

en donde s/(t) es el primer canal lateral, y

en donde sr(t) es el segundo canal lateral.

11. Método para generar una señal lateral estereofónica, que tiene un primer canal lateral y un segundo canal lateral, a partir de una señal de entrada estereofónica, que tiene un primer canal de entrada y un segundo canal de entrada, que comprende:

generar la información de modificación generando un primer valor de la diferencia que indica una diferencia en un espectro de la magnitud entre una señal media monofónica de la señal de entrada estereofónica y el primer canal de entrada y generando un segundo valor de la diferencia que indica una diferencia en el espectro de la magnitud entre la señal media monofónica de la señal de entrada estereofónica y el segundo canal de entrada, y manipular el primer canal de entrada basándose en el primer valor de la diferencia para obtener el primer canal lateral, y

manipular el segundo canal de entrada basándose en el segundo valor de la diferencia para obtener el segundo canal lateral.

12. Programa informático para implementar un método de acuerdo con la reivindicación 11, cuando se ejecuta en una computadora o un procesador.

13. Método para generar una señal media estereofónica, que tiene un primer canal medio y un segundo canal medio, a partir de una señal de entrada estereofónica, que tiene un primer canal de entrada y un segundo canal de entrada, que comprende:

un método para generar una señal lateral estereofónica que tiene un primer canal lateral y un segundo canal lateral de acuerdo con la reivindicación 11,

en donde el método además comprende:

generar el primer canal medio m€(t) de la señal media estereofónica en un dominio temporal aplicando la fórmula:

y

generar el segundo canal medio mr(t) de una señal media estereofónica en el dominio temporal aplicando la fórmula

TfXf ( í ) — ÍCr (¿ ) S f ( í )

s

en donde x/(t) es el primer canal de entrada,

en donde xr(t) es el segundo canal de entrada,

en donde sl(t) es el primer canal lateral, y

en donde sr(t) es el segundo canal lateral.

14. Programa informático para implementar un método de acuerdo con la reivindicación 13, cuando se ejecuta en una computadora o un procesador.