ES2649481T3 - Procesamiento de señal de audio para generar una señal de mezcla descendente - Google Patents

Procesamiento de señal de audio para generar una señal de mezcla descendente Download PDF

Info

Publication number
ES2649481T3
ES2649481T3 ES14758881.8T ES14758881T ES2649481T3 ES 2649481 T3 ES2649481 T3 ES 2649481T3 ES 14758881 T ES14758881 T ES 14758881T ES 2649481 T3 ES2649481 T3 ES 2649481T3
Authority
ES
Spain
Prior art keywords
signal
input signal
input
scale
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES14758881.8T
Other languages
English (en)
Inventor
Alexander Adami
Emanuel Habets
Jürgen HERRE
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2649481T3 publication Critical patent/ES2649481T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Amplifiers (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Un dispositivo de procesamiento de señales de audio (1) para la mezcla descendente de una primera señal de entrada (X1) y una segunda señal de entrada (X2) a una señal de mezcla descendente ( XD ), en el que la primera señal de entrada (X1) y la segunda señal de entrada (X2) están al menos parcialmente correlacionadas, que comprende: un extractor de disparidad (2) configurado para recibir la primera señal de entrada (X1) y la segunda señal de entrada (X2) así como para sacar una señal extraída ( 2 Û ), que está menos correlacionada con respecto a la primera señal de entrada (X1) que la segunda señal de entrada (X2) y un combinador (3) configurado para combinar la primera señal de entrada (X1) y la señal extraída ( 2 Û ) a fin de obtener la señal de mezcla descendente ( X D ), en el que el extractor de disparidad (2) comprende un estimador de similitud (9) configurado para proporcionar coeficientes de filtro (W, |W|) para obtener partes de señal (WX1, |WX1|) de la primera señal de entrada (X1) que están presentes en la segunda señal de entrada (X2) de la primera señal de entrada (X1), en el que el extractor de disparidad (2) comprende un reductor de similitud (10) configurado para reducir las partes de señal obtenidas (WX1, |WX1|) de la primera señal de entrada que están presentes en la segunda señal de entrada (X2) con base en los coeficientes de filtro (W, |W|), en el que el reductor de similitud (10) comprende una etapa de supresión de señal (10b, 10b') que tiene un dispositivo de supresión de señales (14) configurado para multiplicar la segunda señal de entrada (X2) o una señal (X'2) derivada de la segunda señal de entrada (X2) con un factor de ganancia de supresión (G) a fin de obtener la señal extraída ( 2 Û ), en el que el factor de ganancia de supresión (G) se elige de tal forma que se reduce al mínimo un error cuadrático medio entre la señal extraída ( 2 Û ) y una parte de señal (U2) de la segunda señal de entrada (X2), que no está correlacionada con la primera señal de entrada (X1).

Description

DESCRIPCION
Procesamiento de señal de audio para generar una señal de mezcla descendente
5 [0001] La presente invención se refiere al procesamiento de señales de audio y, en particular, a la mezcla
descendente de una pluralidad de señales de entrada a una señal de mezcla descendente.
[0002] En el procesamiento de señales, a menudo se vuelve necesario mezclar dos o más señales a una
señal de suma. El procedimiento de mezcla por lo general viene junto con algunas deficiencias de señal, 10 especialmente si dos señales, que se van a mezclar, contienen partes de señal similares pero desfasadas. Si se suman aquellas señales, la señal resultante contiene varias distorsiones de filtro de peine. Para impedir aquellas distorsiones, se han sugerido diferentes procedimientos que son ya sea muy costosos en términos de complejidad computacional o están basados en la aplicación de un término o ganancia de corrección a la señal ya deteriorada.
15 [0003] La conversión de señales de audio multi-canal en un número menor de canales normalmente implica
mezclar varios canales de audio. La ITU, por ejemplo, recomienda utilizar una matriz de mezcla pasiva, en el dominio del tiempo con ganancias estáticas para una conversión descendente de una cierta configuración multi- canal a otra [1]. En [2] se propone una estrategia algo similar.
20 [0004] Para incrementar la inteligibilidad de dialogo, se propone en [3] una estrategia combinada de uso de la
mezcla descendente basada en la ITU y una mezcla descendente basada en matriz. También, codificadores de audio utilizan una mezcla descendente pasiva de canales, por ejemplo en algunos módulos paramétricos [4, 5, 6].
[0005] La estrategia descrita en [7] realiza una medición de volumen de cada canal de entrada y salida, es
25 decir de todos los canales antes y después del proceso de mezcla. Al tomar la relación de la suma de las energías de entrada (es decir energía de los canales que se supone que se van a mezclar) y la energía de salida (es decir energía de los canales mezclados), se pueden derivar ganancias de tal forma que se reduce la pérdida de energía de señal y los efectos de coloración.
30 [0006] La estrategia descrita en [8] realiza una mezcla descendente pasiva que se transforma después al
dominio de la frecuencia. La mezcla descendente se analiza entonces por una etapa de corrección espacial que trata de detectar y corregir cualquier inconsistencia espacial a través de modificaciones a las diferencias de nivel inter-canal y diferencias de fase inter-canal. Entonces, se aplica un ecualizador a la señal para asegurar que la señal de mezcla descendente tiene la misma potencia que la señal de entrada. En el último paso, la señal de mezcla 35 descendente se transforma de nuevo al dominio del tiempo.
[0007] Se describe una estrategia diferente en [9, 10], donde dos señales, que se van a someter a mezcla descendente, se transforman al dominio de la frecuencia y se construye un par de valores deseados/reales. El valor deseado se calcula como la raíz de la suma de las energías individuales, mientras el valor real se calcula como la
40 raíz de la energía de la señal de suma. Los dos valores se comparan entonces y dependiendo del valor real que es mayor o menor que el valor deseado, se aplica una corrección diferente al valor real.
[0008] De forma alternativa, existen procedimientos que tienen como objetivo alinear las fases de las señales, de tal forma que no se presentan efectos de cancelación de señales debido a las diferencias de fase. Estos
45 procedimientos se propusieron por ejemplo para codificadores estéreo paramétricos [11, 12, 13].
[0009] Una mezcla descendente pasiva como se hace en [1, 2, 3, 4, 5, 6] es la estrategia más directa para mezclar señales. Pero si no se realiza ninguna acción adicional, las señales de mezcla descendente resultantes pueden sufrir de distorsiones de filtro de peine y pérdida de señal grave.
50
[0010] Las estrategias descritas en [7, 8, 9, 10] realizan una mezcla descendente pasiva, en el sentido de mezclar equitativamente ambas señales, en el primer paso. Después, se aplican algunas correcciones a la señal sometida a mezcla descendente. Esto puede ayudar a reducir los efectos de filtro de peine, pero por otro lado introducirán distorsiones de modulación. Esto se provoca por términos/ganancias de corrección que varían
55 rápidamente con el paso del tiempo. Además, un cambio de fase de 180 grados entre las señales que se van a someter a mezcla descendente resulta aún en una mezcla descendente de valor cero y no se puede compensar al aplicar, por ejemplo, una ganancia de corrección.
[0011] Una estrategia de alineación de fases, tal como se menciona en [11, 12, 13], puede ayudar a evitar
cancelación indeseada de señales; pero debido a que aún se realiza un procedimiento de acumulación simple de las señales alineadas en fase puede presentarse cancelación y efectos de filtro de peine si no se estiman apropiadamente las fases. De forma adicional, la estimación robusta de las relaciones de fase entre dos señales no es una tarea fácil y es computacionalmente intensiva, especialmente si se hace para más de dos señales.
5
[0012] Las estrategias de mezcla descendente mediante el uso de un proceso ortogonal Gram-Schmidt [14] son conocidas también en la bibliografía.
[0013] Es un objeto de la presente invención proporcionar un concepto mejorado para someter a mezcla 10 descendente una pluralidad de señales de entrada a una señal de mezcla descendente.
[0014] Este objeto se logra mediante un dispositivo según la reivindicación 1, un sistema según la reivindicación 16, un procedimiento según la reivindicación 17 o un programa informático de la reivindicación 18. Realizaciones adicionales de acuerdo con la invención son definidas por las reivindicaciones dependientes. El
15 dispositivo se describirá en esta invención en el dominio del tiempo-frecuencia, pero todas las consideraciones también son verdaderas para señales en el dominio del tiempo. Una primera señal de entrada y segunda señal de entrada son las señales que se van a mezclar, donde la primera señal de entrada sirve como señal de referencia. Ambas señales se alimentan en un extractor de disparidad, donde se rechazan partes de señal correlacionadas de la segunda señal de entrada con respecto a la segunda señal de entrada y solamente se pasan las partes de señal 20 no correlacionadas de la segunda señal de entrada a la salida del extractor.
[0015] La mejora del concepto propuesto radica en la forma que se mezclan las señales. En el primer paso, se selecciona una señal para servir como una referencia. Entonces se determina, qué parte de la señal de referencia ya está presente dentro de la otra, y solamente aquellas partes, que no están presentes en la señal de referencia (es
25 decir la señal no correlacionada), se añaden a la referencia para construir la señal de mezcla descendente. Ya que solamente se combinan las partes de señal poco correlacionadas o no correlacionadas con respecto a la referencia con la referencia, se reduce al mínimo el riesgo de introducir efectos de filtro de peine.
[0016] Como un resumen, se propone un concepto novedoso para mezclar dos señales a una señal de 30 mezcla descendente. El procedimiento novedoso tiene como objetivo evitar la creación de distorsiones de mezcla
descendente, como efectos de filtro de peine. Además, el procedimiento propuesto es computacionalmente eficiente.
[0017] En algunas realizaciones de la invención el combinador comprende un sistema modificador de escala de energía configurado de tal forma que en la relación de la energía de la mezcla descendente y las energías
35 sumadas de la primera señal de entrada y la segunda señal de entrada es independiente de la correlación de la primera señal de entrada y la segunda señal de entrada. Tal dispositivo modificador de escala de energía puede asegurar que el proceso de mezcla descendente es conservador de energía (es decir, la señal de mezcla descendente contiene la misma cantidad de energía que la señal estéreo original) o al menos que el sonido percibido permanece igual independientemente de la correlación de la primera señal de entrada y la segunda señal 40 de entrada.
[0018] En realizaciones de la invención el sistema modificador de escala de energía comprende un primer dispositivo modificador de escala de energía configurado para modificar la escala de la primera señal de entrada con base en un primer factor de escala a fin de obtener una señal de entrada a escala.
45
[0019] En algunas realizaciones de la invención el sistema modificador de escala de energía comprende un primer proveedor de factor de escala configurado para proporcionar el primer factor de escala, en el que el primer proveedor de factor de escala se diseña preferentemente como un procesador configurado para calcular el primer factor de escala dependiendo de la primera señal de entrada, la segunda señal de entrada, la señal extraída y/o un
50 factor de escala para la señal extraída. Durante la mezcla descendente, se puede modificar la escala de la señal de referencia (primera señal de entrada) para conservar el nivel de energía total o para mantener el nivel de energía independiente de la correlación de las señales de entrada de forma automática.
[0020] En realizaciones de la invención el sistema modificador de escala de energía comprende un segundo 55 dispositivo modificador de escala de energía configurado para modificar la escala de la señal extraída con base en
un segundo factor de escala a fin de obtener una señal extraída a escala.
[0021] En algunas realizaciones de la invención el sistema modificador de escala de energía comprende un segundo proveedor de factor de escala configurado para proporcionar el segundo factor de escala, en el que el
segundo proveedor de factor de escala se diseña preferentemente como una interfaz de hombre-máquina configurada para introducir de forma manual el segundo factor de escala.
[0022] El segundo factor de escala se puede ver como un ecualizador. En general, éste se puede hacer 5 dependiente de la frecuencia y en realizaciones preferidas de forma manual mediante un ingeniero de sonido. Desde
luego, son posibles varias relaciones de mezcla descendente y éstas dependen en gran medida de la experiencia y/o gusto del ingeniero de sonido.
[0023] De forma alternativa, el segundo proveedor de factor de escala se diseña preferentemente como un 10 procesador configurado para calcular el primer factor de escala dependiendo de la primera señal de entrada, la
segunda señal de entrada y/o la señal extraída.
[0024] En algunas realizaciones de la invención el combinador comprende un dispositivo sumador para sacar la señal de mezcla descendente con base en la primera señal de entrada y con base en la señal extraída. Ya que
15 solamente se añaden a la referencia partes de señal poco correlacionadas o incluso no relacionadas con respecto a la referencia, se reduce al mínimo el riesgo de introducir efectos de filtro de peine. Además, el uso de un dispositivo sumador es computacionalmente eficiente.
[0025] De acuerdo con la invención el extractor de disparidad comprende un estimador de similitud 20 configurado para proporcionar coeficientes de filtro para obtener las partes de señal de la primera señal de entrada
que están presentes en la segunda señal de entrada de la primera señal de entrada y un reductor de similitud configurado para reducir las partes de señal de la primera señal de entrada que están presentes en la segunda señal de entrada con base en los coeficientes de filtro. En tales implementaciones, el extractor de disparidad consiste en dos sub-etapas: un estimador de similitud y un reductor de similitud. La primera señal de entrada y la segunda señal 25 de entrada se alimentan en una etapa de estimación de similitud, donde se estiman las partes de señal de la primera señal de entrada que están presentes dentro de la segunda señal de entrada y se representan por los coeficientes de filtro resultantes. Los coeficientes de filtro, la primera señal de entrada y la segunda señal de entrada se alimentan en el reductor de similitud donde se suprimen y/o cancelan, respectivamente las partes de señal de la segunda señal de entrada que son similares a la primera señal de entrada. Esto da como resultado que la señal 30 extraída sea una estimación para la parte de señal no correlacionada de la segunda señal de entrada con respecto a la primera señal de entrada.
[0026] En algunas realizaciones de la invención el reductor de similitud comprende una etapa de cancelación que tiene un dispositivo de cancelación de señal configurado para sustraer las partes de señal obtenidas de la
35 primera señal de entrada que están presentes en la segunda señal de entrada o una señal derivada de las partes de señal obtenidas de la segunda señal de entrada o de una señal derivada de la segunda señal de entrada. Este concepto está relacionado con un procedimiento que se utiliza en el tema de cancelación adaptativa de ruido pero con la diferencia de que no se utiliza, como se propuso de forma original, para cancelar el ruido o componente no correlacionado sino en su lugar para cancelar la parte de señal correlacionada, que da como resultado la señal 40 extraída.
[0027] En algunas realizaciones de la invención la etapa de cancelación comprende un dispositivo de filtro complejo configurado para filtrar la primera señal de entrada al utilizar coeficientes de filtro de valores complejos. La ventaja de esta estrategia es que se pueden modelar los cambios de fase.
45
[0028] En algunas realizaciones de la invención la etapa de cancelación comprende un dispositivo de cambio de fase configurado para alinear la fase de la segunda señal de entrada con la fase de la primera señal de entrada. Para fases opuestas entre la primera señal de entrada y la segunda señal de entrada además con caídas repentinas de señal de la primera señal de entrada, pueden presentarse saltos de fase y efectos de cancelación de señal dentro
50 de la señal de mezcla descendente. Este efecto se puede reducir de forma drástica al alinear la fase de la segunda señal de entrada hacia la primera señal de entrada. Tal etapa de cancelación puede ser llamada etapa de cancelación inversa de fases alineadas.
[0029] De acuerdo con la invención el reductor de similitud comprende una etapa de supresión de señal que 55 tiene un dispositivo de supresión de señales configurado para multiplicar la segunda señal de entrada con un factor
de ganancia de supresión a fin de obtener la señal extraída. Se ha observado que se pueden reducir distorsiones audibles debido a errores de estimación en los coeficientes de filtro mediante estas características.
[0030] En algunas realizaciones de la invención la etapa de supresión de señal comprende un dispositivo de
cambio de fase configurado para alinear la fase de la segunda señal de entrada con la fase de la primera señal de entrada. Los factores de ganancia de supresión son de valores reales y por lo tanto no tienen influencia en las relaciones de fase de las dos señales de entrada, pero ya que se tienen que estimar de todas formas los coeficientes de filtro de valores complejos, se puede obtener información adicional acerca de la fase relativa entre 5 las señales de entrada. Esta información se puede utilizar para ajustar la fase de la segunda señal de entrada hacia la primera señal de entrada. Esto se puede hacer dentro de la etapa de supresión de señal antes de que se apliquen las ganancias de supresión, en la que se cambia la fase de la segunda señal de entrada mediante la fase estimada de los factores de filtro de valores complejos mencionados anteriormente. Tal etapa de supresión puede ser llamada etapa de supresión inversa de fases alineadas.
10
[0031] En algunas realizaciones de la invención se alimenta una señal de salida de la etapa de cancelación a una entrada de la etapa de supresión de señal a fin de obtener la señal extraída o se alimenta una señal de salida de la etapa de supresión de señal a una entrada de la etapa de cancelación a fin de obtener la señal extraída. Se puede utilizar una estrategia combinada de uso de cancelación así como supresión de componentes de señal
15 coherentes para incrementar de forma adicional la calidad de la señal de mezcla descendente. La señal de mezcla descendente resultante se puede obtener al realizar primero un procedimiento de cancelación y después aplicando un procedimiento de supresión. En otras realizaciones, la señal de mezcla descendente resultante se puede obtener al realizar primero un procedimiento de supresión y después aplicando un procedimiento de cancelación. De esta forma, se pueden reducir de forma adicional las partes de señal en la señal extraída, que están correlacionadas con
20 la primera señal. Se puede modificar la escala de energía de la señal extraída así como de la primera señal de entrada como antes.
[0032] En algunas realizaciones de la invención las partes de señal de la primera señal de entrada que están presentes en la segunda señal de entrada se ponderan antes de que se sustraigan de la segunda señal de entrada
25 dependiendo de un factor de ponderación. Un factor de ponderación puede ser en general dependiente del tiempo y la frecuencia pero también se puede elegir como constante. En algunas realizaciones, aquí también se puede utilizar el módulo de cancelación inversa de fases alineadas con una pequeña modificación: la ponderación con el factor de ponderación se tiene que realizar de forma análoga después del filtrado con el valor absoluto de los coeficientes de filtro.
30
[0033] En algunas realizaciones de la invención el dispositivo de cambio de fases se configura para alinear la fase de la segunda señal de entrada con la fase de la primera señal de entrada dependiendo del factor de ponderación.
35 [0034] En algunas realizaciones de la invención el dispositivo de cambio de fase se configura para alinear la
fase de la segunda señal de entrada con la fase de la primera señal de entrada solamente, si el factor de ponderación es menor o igual a un umbral predefinido. La invención se refiere además a un sistema de procesamiento de señales de audio para la mezcla descendente de una pluralidad de señales de entrada a una señal de mezcla descendente que comprende al menos un primer dispositivo según la invención y un segundo
40 dispositivo según la invención, en el que la señal de mezcla descendente del primer dispositivo se alimenta al segundo dispositivo como una primera señal de entrada o como una segunda señal de entrada. Para someter a mezcla descendente una pluralidad de canales de entrada, se puede utilizar una cascada de una pluralidad de dispositivos de mezcla descendente de dos canales.
45 [0035] Además, la invención se refiere a un procedimiento de procesamiento de señal de audio para la
mezcla descendente de una primera señal de entrada y una segunda señal de entrada a una señal de mezcla descendente y un programa informático, tal como se define en las reivindicaciones 17 y 18, respectivamente. Las realizaciones preferidas se tratan posteriormente con respecto a los dibujos adjuntos, en los que:
50 La Figura 1 ilustra una primera realización de un dispositivo de procesamiento de señales de audio;
La Figura 2 ilustra la primera realización en más detalle;
La Figura 3 ilustra un reductor de similitud y un combinador de la primera realización;
La Figura 4 ilustra un reductor de similitud de una segunda realización;
La Figura 5 ilustra un reductor de similitud y un combinador de una tercera realización;
55 La Figura 6 ilustra un reductor de similitud de una cuarta realización;
La Figura 7 ilustra un reductor de similitud y un combinador de una quinta realización;
La Figura 8 ilustra un reductor de similitud y un combinador de una sexta realización; y
La Figura 9 ilustra una cascada de una pluralidad de dispositivos de procesamiento de señales de audio.
[0036] La Figura 1 muestra una descripción de sistema de alto nivel del dispositivo de mezcla descendente novedoso propuesto 1. El dispositivo se describe en el dominio del tiempo-frecuencia, donde k y m corresponden a índices de frecuencia y tiempo respectivamente, pero todas las consideraciones también son verdaderas para señales en el dominio del tiempo. Una primera señal de entrada Xi(k, m) y segunda señal de entrada X2(k, m) son
5 las señales de entrada que se van a mezclar, donde la primera señal de entrada X1(k, m) puede servir como señal de referencia. Ambas señales X1(k, m) y X2(k, m) se alimentan en un extractor de disparidad 2, donde se rechazan partes de señal correlacionadas con respecto a X1(k, m) y X2(k, m) o al menos se reducen y solamente se extrae y
se pasa la señal no correlacionada o las partes poco correlacionadas a la salida del extractor. Entonces,
la primera señal de entrada X1(k, m) se modifica en escala utilizando un primer dispositivo modificador de escala de 10 energía 4 para cumplir algunas limitaciones de energía predefinidas, que da como resultado una señal de referencia a escala Xv¡(k, m). Los factores de escala necesarios GEx(k,m) se proporcionan por el proveedor de factor de escala
5. La parte de señal extraída ^2 también se puede modificar en escala utilizando un segundo dispositivo
modificador de escala de energía 6, que da como resultado una parte de señal no correlacionada a escala
U2s(krmy Los factores de escala correspondientes GE (k,m) se proporcionan por el segundo proveedor de
15 factor de escala 7. Los factores de escala GE (fe, TTl) se pueden determinar preferentemente de forma manual
mediante un ingeniero de sonido. Ambas señales a escala Xis{k, m) y U2s{k,rn) se suman utilizando un
dispositivo sumador 8 para formar la señal de mezcla descendente deseada XdQí, m).
[0037] La Figura 2 muestra una descripción de sistema de nivel medio del dispositivo propuesto 1. En 20 algunas implementaciones, el extractor de disparidad 2 consiste en dos sub-etapas: un estimador de similitud 9 y un
reductor de similitud 10 como se representa en la Figura 2. La primera señal de entrada X1(k, m) y la segunda señal de entrada X2(k, m) se alimentan en una etapa de estimación de similitud 9, donde las partes de señal de X1(k, m)
que están presentes dentro de X2(k, m) se estiman y representan por los coeficientes de filtro resultantes Wb
imagen1
con l = 0...L - 1 y L que es la longitud de filtro. Los coeficientes de filtro Wk(l), la primera señal de entrada X1 (k, m) 25 y la segunda señal de entrada X2(k, m) se alimentan en el reductor de similitud 10, donde las partes de señal de X2(k, m) que son similares a X1(k, m) se suprimen y/o cancelan al menos parcialmente, respectivamente. Esto da
como resultado la señal residual que es una estimación para la parte de señal no correlacionada de
X¿(k, m) con respecto a X1(k, m).
30 [0038] El modelo de señal asume que la segunda señal de entrada X2(k, m) es una mezcla de una versión
ponderada o filtrada (h m) ¿g \a primera señal de entrada Xi(k, m) y una señal independiente
inicialmente desconocida U2(k, m) con ) = 0. Por lo tanto, X2(k, m) se considera que consiste en la suma
de una parte de señal correlacionada y una parte de señal no correlacionada con respecto a X1(k, m):
35
[0039] Las letras mayúsculas indican señales transformadas en frecuencia y k y m son los índices de
frecuencia y tiempo respectivamente. Ahora la señal de mezcla descendente deseada se puede definir
como:
imagen2
donde ^2es una estimación de L/2^, m) y donde y (feTm) son factores de escala
para ajustar las energías de la señal de referencia Xi(k, m) y la parte de señal extraída kjTTl) de \a otra señal de entrada X2(k, m) según las limitaciones predefinidas. De forma adicional, se pueden utilizar para
5 ecualizar las señales. En algunos escenarios esto puede volverse necesario, especialmente para ^2 (.^>m). En el resto de este documento los índices de tiempo-frecuencia (k, m) se omitirán para claridad.
[0040] El objetivo primordial es obtener el componente de señal U2, que no está correlacionado con X1. Esto se puede hacer al utilizar un procedimiento que se usa en el tema de cancelación adaptativa de ruido pero con la
10 diferencia de que no se utiliza, como se propuso de forma original, para cancelar el ruido o componente no correlacionado, sino en su lugar la parte de señal correlacionada, que da como resultado la estimación Ú2 de U2.
[0041] La Figura 3 representa un reductor de similitud 10 que tiene una etapa de cancelación 10a y un combinador 3 de la primera realización de tal sistema. La ventaja de esta estrategia es que se permite que W sea
15 complejo y por lo tanto se pueden modelar los cambios de fase.
u2=x2- wx,
(3)
[0042] Para determinar Ú2, se necesita una ganancia compleja estimada W para la ganancia compleja
20 inicialmente desconocida W'. Esto se realiza al reducir al mínimo la energía de la señal extraída Ú2 en el sentido de la mínima media cuadrática (MMS):
- WX^2]
imagen3
= El
WX¿
imagen4
imagen5
wXiT]
(4)
25
X2W*Xl - 4 WX,W,X*t]
imagen6
imagen7
[0043]
deseados
30
El ajuste de la derivada parcial de J(W) con respecto a W a cero conduce a los coeficientes de filtro es decir:
d
3\V*
imagen8
l}= O
=> W
(5)
(6)
[0044] En una realización, el módulo de cancelación 10a, destacado por el rectángulo discontinuo gris en la
Figura 3, se puede reemplazar por un bloque de cancelación inversa de fases alineada 10a' como se representa en la Figura 4, en el que la etapa de cancelación 10a' comprende un dispositivo de cambio de fase 13 configurado para 35 alinear la fase de la segunda señal de entrada X2 con la fase de la primera señal de entrada Xi y un dispositivo de filtro absoluto 11' configurado para filtrar una primera señal de entrada alineada (X'2 al utilizar coeficientes de filtro de valor absoluto | W|.
[0045] Para fase opuesta de la primera señal de entrada X1 y la segunda señal de entrada X2 además con
40 caídas repentinas de señal de la primera señal de entrada X1, pueden presentarse saltos de fase y efectos de
cancelación de señal dentro de la señal de mezcla descendente ^d. Este efecto se puede reducir drásticamente al alinear la fase de la segunda señal de entrada X2 hacia la fase de la primera señal de entrada X1. Además, sólo se utiliza el valor absoluto de W para realizar el filtrado de X1 y por lo tanto también la cancelación.
[0046] La Figura 5 ilustra un reductor de similitud 10 y un combinador 3 de una tercera realización, según la
invención, en donde el reductor de similitud 10 comprende una etapa de supresión de señal 10b que tiene un dispositivo de supresión de señal 14 configurado para multiplicar la segunda señal de entrada X2 con un factor de 5 ganancia de supresión (G) a fin de obtener la señal extraída Ú2.
[0047] En la práctica, la señal extraída Ú2 obtenida utilizando (3) podría contener distorsiones audibles debido
a errores de estimación en la ganancia compleja W. Como una alternativa, se puede derivar un estimador 9 (véase la Figura 2) para obtener una estimación Ú2 de U2 en el sentido del error cuadrático medio mínimo (MMSE). La 10 Figura 5 muestra un diagrama de bloques de la estrategia propuesta.
[0048] La señal extraída Ú2 está dada entonces por
G=arg™”E{|i/!-í/2|Ij
G e R
J(G) = E ||tf2 - ¿72|2| = E {|G2 - GX2\2) = E j\U2 - GWXl - GU212}
= E {(U2 - GWXi - GU2)(U2 - GWX\ - GU2)*}
= E {|i72|2} - CE {|G2|2} -i- G2 e{|H\Yi|2} — GE {|f/2|2 } + G2 E {|t/2|2} = ^6.a(l - 2G + G2) + G2ífWXt
(8)
(9)
15 [0049]
El ajuste de la derivada parcial de J(G) con respecto a G a cero conduce a las ganancias deseadas:
,■ =■: (10)
2(I>t.rn(— 1 G) -\- '2G í?h-_Ye = 0 — íffn + 4- G t&vV.’Ci = ^
(11)
G = ÜVi =
4>trs -f
[0050] Según (12), se puede sustituir la energía de X2 por la suma de las energías de la versión filtrada de X1
y la señal no correlacionada U2:
(12)
20 [0051]
imagen9
Para las ganancia G, esto conduce a
imagen10
(13)
con SNRu2(wx1) que es la SNR a priori de X2. Las ganancias de filtro complejas W se determinan
utilizando (6).
[0052] En una realización, el módulo de supresión 10b, destacado por el rectángulo gris discontinuo en la
Figura 5, se puede reemplazar por un módulo de supresión inversa de fases alineada 10b' que comprende un dispositivo de cambio de fase 15 configurado para alinear la fase de la segunda señal de entrada X2 con la fase de la primera señal de entrada X1.
5 [0053] La Figura 6 ilustra un reductor de similitud 10b' que tiene este dispositivo de cambio de fase 15 como
la cuarta realización. Las ganancias de supresión G son de valor real y, por tanto, no tienen ninguna influencia en las relaciones de fase de las dos señales X1 y X2. Pero ya que los coeficientes de filtro W se tienen que estimar de todas formas, se puede adquirir información adicional acerca de la fase relativa entre las señales de entrada. Esta información se puede utilizar para ajustar la fase de X2 hacia la fase de X1. Esto se hace dentro del bloque de 10 supresión inversa de fase alineada 10b'; antes de que se apliquen las ganancias de supresión G, se cambia la fase de X2 por la fase estimada de W. Con una alineación de fases, la señal O2 se puede expresar como
imagen11
(14)
que muestra que el componente residual de X1 dentro de Ü2 está en fase con respecto a X1 siempre que <W se estime correctamente.
15 [0054] Una estrategia combinada de uso de cancelación así como supresión de componentes de señal
coherentes se representa en la Figura 7, en la que una señal de salida Ü'2 de la etapa de cancelación 10a se alimenta a una entrada de la etapa de supresión de señal 10b a fin de obtener la señal extraída Ü2. La etapa de cancelación 10a comprende un dispositivo de ponderación configurado para ponderar las partes de señal obtenidas WX1 de la primera señal de entrada X1 que están presentes en la segunda señal de entrada X2).
20
[0055] Aquí, la señal de mezcla descendente resultante XD se obtiene al realizar un procedimiento de
cancelación ponderada, primero y, después aplicando una ganancia de supresión. La señal resultante Ü2 así como X1 se modifican en escala de energía como antes. Debido al factor de ponderación y, la señal Ü'2 después de la etapa de cancelación contiene aún algunas partes de señal correlacionadas con X1. Para reducir de forma adicional 25 aquellas partes de señal, se deriva la ganancia de supresión Gc para la estrategia combinada:
Gr = arg rninE
G'e
f/n - m
GxR
(15)
imagen12
(16)
(17)
(18)
[0056] El parámetro y es en general dependiente del tiempo y la frecuencia pero también se puede elegir
como constante. Una posibilidad para determinar un y dependiente del tiempo y frecuencia es:
E{A'aJrf)|
(19)
30 [0057] La Figura 8 ilustra un reductor de similitud 10 y un combinador 3 de una sexta realización. Según esta
realización la correlación cruzada normalizada en (19) se alimenta como entrada a una función de asignación cuya salida se puede utilizar para determinar los y-valores reales. Para la asignación, se puede utilizar una función logística que se puede definir como:
imagen13
(20)
donde i define los datos de entrada, Au y Ai la asíntota superior e inferior, R es la velocidad de crecimiento, v > 0 influye en la velocidad de crecimiento máxima cerca de la asíntota, fo especifica el valor de salida para f(0) y M es el punto de datos i de crecimiento máximo. En tal realización, y se determina por
imagen14
1 -/
( |e{x2A7}
\ \f ‘I’ A i 'I\\ 2
imagen15
(21)
5 [0058] En una realización, aquí también se puede utilizar el módulo de cancelación inversa de fases
alineadas 10a' con una pequeña modificación. La ponderación con y se tiene que realizar de forma análoga después del filtrado con el valor absoluto de W.
10
[0059] Una sexta realización mostrada en la Figura 8 comprende una aplicación más sofisticada del
procesamiento de fase inversa. Afecta solamente a los intervalos de tiempo-frecuencia que se asignaron para suprimirse principalmente, es decir y está por debajo de un cierto umbral Tum. Por esa razón, se introduce una bandera F definida por
imagen16
7 < L
de otra forma
(22)
[0060] En una realización, el módulo de cancelación de fase alineada inversa 10a' se puede utilizar aquí
15 también con una pequeña modificación. La ponderación con y se debe realizar de forma análoga después del filtrado con el valor absoluto de W.
[0061] En algunas realizaciones el proveedor de factor de escala 7 proporciona CE , por lo cual se puede controlar la cantidad de energía de la señal no correlacionada Ü2 con respecto a Xi que contribuye a la señal de
A
20 mezcla descendente XD . Estos factores de escala GE se pueden ver como un ecualizador. En general, éste se
puede hacer dependiente de la frecuencia y en la realización preferida de forma manual por un ingeniero de sonido. Desde luego, son posibles muchas relaciones de mezcla diferentes y éstas dependen en gran medida de la
experiencia y/o gusto del ingeniero de sonido. De forma alternativa, los factores de escala GE pueden ser una función de las señales Xi, X2, y Ü2.
25
[0062] En algunas realizaciones el proveedor de factor de escala 4 proporciona GE , mediante lo cual se puede controlar la cantidad de energía de la primera señal de entrada Xi que contribuye a la señal de mezcla
descendente XD. Si el proceso de mezcla descendente debe ser conservador de energía (es decir, la señal de mezcla descendente contiene la misma cantidad de energía que la señal estéreo original) o al menos si el nivel de 30 sonido percibido debe permanecer igual, se requiere procesamiento adicional. Se hace la siguiente consideración con la objeción de mantener constante el nivel de sonido percibido de las partes de señal individuales en la señal de mezcla descendente. En la realización preferida, se modifica la escala de la energía según una consideración de
mezcla descendente-energía óptima derivada. Se pueden considerar dos señales y X% y asumir que van a estar altamente correlacionadas como sería el caso, por ejemplo, para una fuente de toma panorámica de amplitud con
35 =£ 0. La señal se puede expresar como X\ — & • Xl de tal forma que la señal de mezcla
descendente X^ resulta en
imagen17
(23)
[0063] La energía de X¿ está dada por
E {)-V£, |'J} = (1 +<i)2 -Ejpqf}.
(24)
[0064] Ahora se asume que las dos señales van a estar completamente no correlacionadas con
E^X^X^} = 0. La señal de mezcla descendente X%¡ resulta en
XbmM+XZ. (25)
[0065] La energía de X$ es dada por
10
imagen18
(26)
[0066] A partir de estas consideraciones, se puede ver que la energía de una mezcla descendente óptima de
las partes de señal correlacionadas resultaría en
E {= E {|Xi f} + £ {|WJfi|2} .
(27)
con W que corresponde a a en (23) y para las partes de señal no correlacionadas, se tiene que realizar una simple adición de la energía. La energía de mezcla descendente óptima final con respecto al modelo de 15 señal asumido y la señal de mezcla descendente deseada en (1) y (2) resultaría entonces en
(28)
imagen19
5
[0067] A fin de asegurarse de que X$ y XD contengan la misma cantidad de energía, se introdujeron los
factores de modificación de escala de energía GE^ y , donde el último se proporciona por el proveedor de
factor de escala U2. La señal de mezcla descendente real XD se calcula como
imagen20
(29)
[0068]
modo:
Dada la energía de mezcla descendente óptima y CE , ahora se puede derivar GE del siguiente
*Xí + &WXt * = GjL - í’.Yi + £% ■
imagen21
[0069]
Con (12) la parte media de la ecuación (32) se identifica como
"friv.Xj 9i
i Tj ■ cTi ,.
*JÉ,
por lo que se convierte en
imagen22
(30)
(31)
(32)
(33)
5
10 [0070] Para someter a mezcla descendente múltiples canales de entrada X1, X2, X3, se puede utilizar una
cascada de múltiples etapas de mezcla descendente de dos canales 1. En la Figura 9, se muestra un ejemplo para tres señales de entrada X1, X2, X3.
A
[0071] La señal de mezcla descendente final Xd2 para un sistema de dos etapas resulta en
£ = ^ÍDt -V +
(34)
= Xl ^ +
15 [0072] Las características clave de una realización de la invención son:
• Considerar X1 como una señal de referencia y considerar X2 como una mezcla de una versión filtrada de X1 y, por tanto, una parte de señal correlacionada WX1 y una parte de señal no correlacionada U2 con respecto a Xi.
20 • Separación/Descomposición de X2 en sus dos componentes de señal mencionados anteriormente. Extracción de disparidad de X1 y X2 mediante
- estimación de la similitud de X1 y X2, que resulta en un coeficiente de filtro Wy
- reducción de similitud por supresión de partes de señal correlacionadas o una combinación de ambas, que resulta en una parte de señal no correlacionada estimada Ü2.
25
• Modificación de escala de energía de X1 para satisfacer un nivel de energía predefinido.
• Modificación de escala de energía de Ü2.
• Suma de las señales a escala de energía para formar la señal de mezcla descendente deseada XB.
• Procesamiento en bandas de frecuencia.
5 [0073] Las características de implementación opcionales son:
• Supresión inversa de fase alineada o cancelación inversa de fase alineada.
• Cascada de dos o más bloques de mezcla descendente para realizar una mezcla descendente multi-canal.
• Solamente supresión inversa de fase alineada parcialmente aplicada.
10
[0074] Aunque se han descrito algunos aspectos en el contexto de un aparato, es claro que estos aspectos también representan una descripción del procedimiento correspondiente, donde un bloque o dispositivo corresponde a un paso de procedimiento o una característica de un paso de procedimiento. De forma análoga, aspectos descritos en el contexto de un paso de procedimiento también representan una descripción de un bloque o elemento o
15 característica correspondiente de un aparato correspondiente.
[0075] Dependiendo de ciertos requisitos de implementación, las realizaciones de la invención se pueden implementar en hardware o software. La implementación se puede realizar utilizando un medio de almacenamiento no transitorio tal como un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un Blu-Ray, un
20 CD, una ROM, una PROM, una EPROM, una EEPROM, o una memoria FLASH, que tiene señales de control legibles de forma electrónica almacenadas en la misma, que cooperan (o son capaces de cooperar) con un sistema informático programable de tal forma que se realiza el procedimiento respectivo. Por tanto, el medio de almacenamiento digital puede ser legible por ordenador.
25 [0076] Algunas realizaciones según la invención comprenden un soporte de datos que tiene señales de
control legibles de forma electrónica, que son capaces de cooperar con un sistema informático programable, de tal forma que se realiza uno de los procedimientos descritos en esta invención.
[0077] En general, las realizaciones de la presente invención se pueden implementar como un producto de 30 programa informático con un código de programa, el código de programa que es operativo para realizar uno de los
procedimientos cuando el producto de programa informático se ejecuta en un equipo. El código de programa se puede almacenar, por ejemplo, en un soporte legible por máquina.
[0078] Otras realizaciones comprenden el programa informático para realizar uno de los procedimientos 35 descritos en esta invención, almacenado en un soporte legible por máquina.
[0079] En otras palabras, una realización del procedimiento inventivo es, por tanto, un programa informático que tiene un código de programa para realizar uno de los procedimientos descritos en esta invención, cuando el programa informático se ejecuta en un equipo.
40
[0080] Una realización adicional del procedimiento inventivo es, por tanto, un soporte de datos (o un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para realizar uno de los procedimientos descritos en esta invención. El soporte de datos, el medio de almacenamiento digital o el medio grabado son convencionalmente tangibles y/o no transitorios.
45
[0081] Una realización adicional del procedimiento de la invención es, por tanto, un flujo de datos o una secuencia de señales que representan el programa informático para realizar uno de los procedimientos descritos en esta invención. El flujo de datos o la secuencia de señales se pueden configurar, por ejemplo, para que se transfieran mediante una conexión de comunicación de datos, por ejemplo, a través de Internet.
50
[0082] Una realización adicional comprende un medio de procesamiento, por ejemplo, un ordenador o un dispositivo lógico programable, configurado para, o adaptado para, realizar uno de los procedimientos descritos en esta invención.
55 [0083] Una realización adicional comprende un ordenador que tiene instalado en el mismo el programa
informático para realizar uno de los procedimientos descritos en esta invención.
[0084] Una realización adicional según la invención comprende un aparato o un sistema configurado para transferir (por ejemplo, de forma electrónica u óptica) un programa informático para realizar uno de los procedimientos descritos en esta invención a un receptor. El receptor puede ser, por ejemplo, un ordenador, un dispositivo móvil, un dispositivo de memoria o similares. El aparato o sistema, por ejemplo, puede comprender un
5 servidor de archivos para transferir el programa informático al receptor.
[0085] En algunas realizaciones, se puede utilizar un dispositivo lógico programable (por ejemplo, una matriz de puertas programables en el campo) para realizar algunas o todas las funcionalidades de los procedimientos descritos en esta invención. En algunas realizaciones, una matriz de puertas programables en el campo puede
10 cooperar con un microprocesador a fin de realizar uno de los procedimientos descritos en esta invención. En general, los procedimientos se realizan preferentemente mediante cualquier aparato de hardware.
[0086] Las realizaciones descritas anteriormente son simplemente ilustrativas de los principios de la presente invención. Se entiende que serán evidentes modificaciones y variaciones de las disposiciones y detalles descritos en
15 esta invención para otros expertos en la técnica. Por tanto, se propone que sólo se limite por el alcance de las reivindicaciones de patente inminentes y no por los detalles específicos presentados a título de descripción y explicación de las realizaciones en esta invención.
Signos de Referencia:
20
[0087]
1 dispositivo de procesamiento de señal de audio
2 extractor de disparidad
3 combinador
4 primer dispositivo modificador de escala de energía
5 primer proveedor de factor de escala
6 segundo dispositivo modificador de escala de energía
7 segundo proveedor de factor de escala
8 dispositivo sumador
9 estimador de similitud
10 reductor de similitud
10a etapa de cancelación
10a' etapa de cancelación
10b etapa de supresión
10b' etapa de supresión
11 dispositivo de filtro complejo
11' dispositivo de filtro absoluto
12 dispositivo de cancelación de señal
13 dispositivo de cambio de fase
14 dispositivo de supresión
15 dispositivo de cambio de fase
16 dispositivo de ponderación
X1 primera señal de entrada
X2 segunda señal de entrada
señal de mezcla descendente
imagen23
Ü2 señal extraída
g primer factor de escala
Ex
X1s una primera señal de entrada a escala
W coeficientes de filtro
WX1 partes de señal de la primera señal de entrada que están presentes en la segunda señal de
entrada (X2)
X2 señal derivada de la segunda señal de entrada
Y factor de ponderación
YWX1 partes de señal ponderadas de la primera señal de entrada que están presentes en la segunda
señal de entrada (X2)
Referencias:
[0088]
5 [1] ITU-R BS.775-2, “Multichannel Stereophonic Sound System With And Without Accompanying Picture,” 07/2006.
[2] R. Dressler, (05.08.2004) Dolby Surround Pro Logic II Decoder Principles of Operation. Disponible [En línea]:
http://www.dolbv.com/uploadedFiles/Assets/US/Doc/Professional/209 Dolby Surround Pro Logic II Decoder Princ iples of Operation.pdf.
[3] K. Lopatka, B. Kunka, y A. Czyzewski, “Novel 5.1 Downmix Algorithm with Improved Dialogue Intelligibility,” en la 10 134-ta Convención de la AES, 2013.
[4] J. Breebaart, K. S. Chong, S. Disch, C. Faller, J. Herre, J. Hilpert, K. Kjorling, J. Koppens, K. Linzmeier, W. Oomen, H. Purnhagen, y J. Rodén, “MPEG Surround - the ISO/MPEG Standard for Efficient and Compatible Multi- Channel Audio Coding,” J. Audio Eng. Soc, vol. 56, no. 11, pp. 932-955, 2007.
[5] M. Neuendorf, M. Multrus, N. Rellerbach, R. J. Fuchs Guillaume, J. Lecomte, Wilde Stefan, S. Bayer, S. Disch, C. 15 Helmrich, R. Lefebvre, P. Gournay, B. Bessette, J. Lapierre, K. Kjorling, H. Purnhagen, L. Villemoes, W. Oomen, E.
Schuijers, K. Kikuiri, T. Chinen, T. Norimatsu, C. K. Seng, E. Oh, M. Kim, S. Quackenbush, y B. Grill, “MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of all Content Types,” J. Audio Eng. Soc, vol. 132-da Convención, 2012.
[6] C. Faller y F. Baumgarte, “Binaural Cue Coding-Part II: Schemes and Applications,” Speech and Audio 20 Processing, IEEE Transactions en, vol. 11, no. 6, pp. 520-531, 2003.
[7] F. Baumgarte, “Equalization for Audio Mixing,” Patente US 7,039,204 B2, 2003.
[8] J. Thompson, A. Warner, y B. Smith, “An Active Multichannel Downmix Enhancement for Minimizing Spatial and Spectral Distortions”, en la 127-ma Convención de la AES, Octubre 2009.
[9] G. Stoll, J. Groh, M. Link, J. Deigmoller, B. Runow, M. Keil, R. Stoll, M. Stoll, y C. Stoll, “Method for Generating a 25 Downward-Compatible Sound Format,” Patente de Estados Unidos US2012/0 014 526, 2012.
[10] B. Runow y J. Deigmoller, “Optimierter Stereo-Dowmix von 5.1-Mehrkanalproduktionen: An optimized Stereo- Downmix of a 5.1 multichannel audio production,” en 25. Convención Internacional Tonmeistertagung-VDT, 2008.
[11] Samsudin, E. Kurniawati, Ng Boon Poh, F. Sattar, and S. George, “A Stereo to Mono Dowmixing Scheme for MPEG-4 Parametric Stereo Encoder,” in Acoustics, Speech and Signal Processing, 2006. ICASSP 2006
30 Proceedings. 2006 IEEE International Conference en, vol. 5, 2006, p. V. 2.
[12] M. Kim, E. Oh, y H. Shim, “Stereo audio coding improved by phase parameters,” en la 129-na Convención de la AES, 2010.
[13] W. Wu, L. Miao, Y. Lang, y D. Virette, “Parametric Stereo Coding Scheme with a New Downmix Method and Whole Band Inter Channel Time/Phase Differences,” Acoustics, Speech and Signal Processing, IEEE Transactions
35 en, pp. 556-560, 2013.
[14] Der-Pei Chen ET AL: "Gram-Schmidt-based Downmixer and Decorrelator in the MPEG Surround Coding",
128-va AES CONVENTION, Convention Paper 8067, 22 de mayo de 2010 (2010-05-22).

Claims (15)

  1. REIVINDICACIONES
    1. Un dispositivo de procesamiento de señales de audio (1) para la mezcla descendente de una primera
    señal de entrada (X1) y una segunda señal de entrada (X2) a una señal de mezcla descendente (XD), en el que la
    5 primera señal de entrada (X1) y la segunda señal de entrada (X2) están al menos parcialmente correlacionadas, que comprende:
    un extractor de disparidad (2) configurado para recibir la primera señal de entrada (X1) y la segunda señal de entrada (X2) así como para sacar una señal extraída (U2), que está menos correlacionada con respecto a la primera señal 10 de entrada (X1) que la segunda señal de entrada (X2) y
    un combinador (3) configurado para combinar la primera señal de entrada (X1) y la señal extraída (U2) a fin de obtener la señal de mezcla descendente (XD),
    en el que el extractor de disparidad (2) comprende un estimador de similitud (9) configurado para proporcionar coeficientes de filtro (W, |W|) para obtener partes de señal (WX1, |WX1|) de la primera señal de entrada (X1) que 15 están presentes en la segunda señal de entrada (X2) de la primera señal de entrada (X1),
    en el que el extractor de disparidad (2) comprende un reductor de similitud (10) configurado para reducir las partes de señal obtenidas (WX1, |WX1|) de la primera señal de entrada que están presentes en la segunda señal de entrada (X2) con base en los coeficientes de filtro (W, |W|),
    en el que el reductor de similitud (10) comprende una etapa de supresión de señal (10b, 10b') que tiene un 20 dispositivo de supresión de señales (14) configurado para multiplicar la segunda señal de entrada (X2) o una señal (X'2) derivada de la segunda señal de entrada (X2) con un factor de ganancia de supresión (G) a fin de obtener la
    señal extraída (U2),
    en el que el factor de ganancia de supresión (G) se elige de tal forma que se reduce al mínimo un error cuadrático medio entre la señal extraída (U2) y una parte de señal (U2) de la segunda señal de entrada (X2), que no está 25 correlacionada con la primera señal de entrada (X1).
  2. 2. Un dispositivo según la reivindicación anterior, en el que el combinador (3) comprende un sistema modificador de escala de energía (4, 5, 6, 7) configurado de tal forma que la relación de la energía de la mezcla
    descendente (XD) y las energías sumadas de la primera señal de entrada (X1) y la segunda señal de entrada (X2) 30 es independiente de la correlación de la primera señal de entrada (X1) y la segunda señal de entrada (X2).
  3. 3. Un dispositivo según la reivindicación anterior, en el que el sistema modificador de escala de energía
    (4, 5, 6, 7) comprende un primer dispositivo modificador de escala de energía (4) configurado para modificar la
    escala de la primera señal de entrada (X1) con base en un primer factor de escala (GE ) a fin de obtener una señal
    35 de entrada a escala (X1S).
  4. 4. Un dispositivo según la reivindicación anterior, en el que el sistema modificador de escala de energía (4, 5, 6, 7) comprende un primer proveedor de factor de escala (5) configurado para proporcionar el primer factor de
    escala (GE ), en el que el primer proveedor de factor de escala (5) se diseña preferentemente como un procesador 40 (5) configurado para calcular el primer factor de escala (GE ) dependiendo de la primera señal de entrada (X1), la segunda señal de entrada (X2) y/o la señal extraída (U2).
  5. 5. Un dispositivo según una de las reivindicaciones 2 a 4, en el que el sistema modificador de escala de
    energía (4, 5, 6, 7) comprende un segundo dispositivo modificador de escala de energía (6) configurado para
    45 modificar la escala de la señal extraída (U2) con base en un segundo factor de escala (GE ) a fin de obtener una
    2 Eu
    señal extraída a escala (U2S).
  6. 6. Un dispositivo según la reivindicación anterior, en el que el sistema modificador de escala de energía
    (4, 5, 6, 7) comprende un segundo proveedor de factor de escala (7) configurado para proporcionar el segundo factor de escala (GE ), en el que el segundo proveedor de factor de escala (7) se diseña preferentemente como una
    interfaz de hombre-máquina configurada para introducir de forma manual el segundo factor de escala (GE ).
    5 7. Un dispositivo según una de las reivindicaciones anteriores, en el que el combinador (3) comprende un
    dispositivo sumador (8) para sacar la señal de mezcla descendente (XD) con base en la primera señal de entrada
    (X1) y con base en la señal extraída (U2).
  7. 8. Un dispositivo según una de las reivindicaciones anteriores, en el que el reductor de similitud (10)
    10 comprende una etapa de cancelación (10a, 10a') que tiene un dispositivo de cancelación de señal (12) configurado para sustraer las partes de señal obtenidas (WX1, |WX1|) de la primera señal de entrada (X1) que están presentes en la segunda señal de entrada (X2) o una señal (yWX1) derivada de las partes de señal obtenidas (WX1, |WX1|) de la segunda señal de entrada (X2) o de una señal (X'2) derivada de la segunda señal de entrada (X2).
    15 9. Un dispositivo según la reivindicación 8, en el que la etapa de cancelación (10a) comprende un
    dispositivo de filtro complejo (11) configurado para filtrar la primera señal de entrada (X1) al utilizar coeficientes de filtro de valores complejos W.
  8. 10. Un dispositivo según la reivindicación 8 ó 9, en el que la etapa de cancelación (10a') comprende un 20 dispositivo de cambio de fase (13) configurado para alinear la fase de la segunda señal de entrada (X2) con la fase
    de la primera señal de entrada (X1).
  9. 11. Un dispositivo según una de las reivindicaciones 8 a 10, en el que se alimenta una señal de salida (U\) de la etapa de cancelación (10a) a una entrada de la etapa de supresión de señal (10b) a fin de obtener la
    25 señal extraída (U2), o en el que se alimenta una señal de salida de la etapa de supresión de señal (10b) a una entrada de la etapa de cancelación (10a) a fin de obtener la señal extraída (U2).
  10. 12. Un dispositivo según la reivindicación anterior, en el que la etapa de cancelación (10a) comprende un dispositivo de ponderación (16) configurado para ponderar las partes de señal obtenidas (WX1, |WX1|) de la primera
    30 señal de entrada (X1) que están presentes en la segunda señal de entrada (X2) dependiendo de un factor de ponderación (y).
  11. 13. Un dispositivo según una de las reivindicaciones anteriores, en el que la etapa de supresión de señal (10b') comprende un dispositivo de cambio de fase (15) configurado para alinear la fase de la segunda señal de
    35 entrada (X2) con la fase de la primera señal de entrada (X1).
  12. 14. Un dispositivo según la reivindicación 10 y 12, en el que el dispositivo de cambio de fase (13) se configura para alinear la fase de la segunda señal de entrada (X2) con la fase de la primera señal de entrada (X1) dependiendo del factor de ponderación (y).
    40
  13. 15. Un dispositivo según la reivindicación anterior, en el que el dispositivo de cambio de fase (13) se configura para alinear la fase de la segunda señal de entrada (X2) con la fase de la primera señal de entrada (X1) solamente, si el factor de ponderación (y) es menor o igual a un umbral predefinido (r).
    45 16. Un dispositivo de procesamiento de señales de audio para la mezcla descendente de una pluralidad
    de señales de entrada (X1, X2, X3) a una señal de mezcla descendente (XD2) que comprende al menos un primer dispositivo (1) según una de las reivindicaciones anteriores y un segundo dispositivo (1') según una de las reivindicaciones anteriores, en el que la señal de mezcla descendente (XD1) del primer dispositivo se alimenta al
    segundo dispositivo como una primera señal de entrada (Xm ) o como una segunda señal de entrada.
  14. 17. Un procedimiento de procesamiento de señal de audio para la mezcla descendente de una primera señal de entrada (Xi) y una segunda señal de entrada (X2) a una señal de mezcla descendente (XD) que comprende los pasos de:
    extraer una señal extraída (U2) de la segunda señal de entrada (X2), en la que la señal extraída (U2) está menos 5 correlacionada con respecto a la primera señal de entrada (X1) que la segunda señal de entrada (X2)
    sumar la primera señal de entrada (X1) y la señal extraída (U2) a fin de obtener la señal de mezcla descendente
    ( XD )
    proporcionar coeficientes de filtro (W, |W|) para obtener partes de señal (WX1, |WX1|) de la primera señal de entrada (X1) que están presentes en la segunda señal de entrada (X2) de la primera señal de entrada (X1),
    10 reducir las partes de señal obtenidas (WX1, |WX1|) de la primera señal de entrada que están presentes en la segunda señal de entrada (X2) con base en los coeficientes de filtro (W, |W|),
    multiplicar la segunda señal de entrada (X2) o una señal (X'2) derivada de la segunda señal de entrada (X2) con un factor de ganancia de supresión (G) a fin de obtener la señal extraída (U2),
    en el que el factor de ganancia de supresión (G) se elige de tal forma que se reduce al mínimo un error cuadrático 15 medio entre la señal extraída (U2) y una parte de señal (U2) de la segunda señal de entrada (X2), cuya parte de señal (U2) no está correlacionada con la primera señal de entrada (X1).
  15. 18. Un programa informático para implementar el procedimiento de procesamiento de señal de audio de la reivindicación 17 cuando se ejecuta en un ordenador o procesador de señales.
    20
ES14758881.8T 2013-09-27 2014-09-02 Procesamiento de señal de audio para generar una señal de mezcla descendente Active ES2649481T3 (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13186480 2013-09-27
EP13186480 2013-09-27
EP14161059.2A EP2854133A1 (en) 2013-09-27 2014-03-21 Generation of a downmix signal
EP14161059 2014-03-21
PCT/EP2014/068611 WO2015043891A1 (en) 2013-09-27 2014-09-02 Concept for generating a downmix signal

Publications (1)

Publication Number Publication Date
ES2649481T3 true ES2649481T3 (es) 2018-01-12

Family

ID=50442340

Family Applications (1)

Application Number Title Priority Date Filing Date
ES14758881.8T Active ES2649481T3 (es) 2013-09-27 2014-09-02 Procesamiento de señal de audio para generar una señal de mezcla descendente

Country Status (11)

Country Link
US (1) US10021501B2 (es)
EP (2) EP2854133A1 (es)
JP (1) JP6275831B2 (es)
KR (1) KR101833380B1 (es)
CN (1) CN105765652B (es)
BR (1) BR112016006323B1 (es)
CA (1) CA2925230C (es)
ES (1) ES2649481T3 (es)
MX (1) MX359381B (es)
RU (1) RU2661310C2 (es)
WO (1) WO2015043891A1 (es)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6817433B2 (ja) * 2016-11-08 2021-01-20 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 少なくとも2つのチャンネルをダウンミックスするためのダウンミキサおよび方法ならびにマルチチャンネルエンコーダおよびマルチチャンネルデコーダ
WO2019076739A1 (en) * 2017-10-16 2019-04-25 Sony Europe Limited AUDIO PROCESSING
CN110060696B (zh) * 2018-01-19 2021-06-15 腾讯科技(深圳)有限公司 混音方法及装置、终端及可读存储介质
CN110556116B (zh) * 2018-05-31 2021-10-22 华为技术有限公司 计算下混信号和残差信号的方法和装置

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5832840B2 (ja) * 1977-09-10 1983-07-15 日本ビクター株式会社 立体音場拡大装置
US4975954A (en) * 1987-10-15 1990-12-04 Cooper Duane H Head diffraction compensated stereo system with optimal equalization
US4893342A (en) * 1987-10-15 1990-01-09 Cooper Duane H Head diffraction compensated stereo system
WO2004103023A1 (ja) * 1995-09-26 2004-11-25 Ikuichiro Kinoshita 仮想音像定位用伝達関数表作成方法、その伝達関数表を記録した記憶媒体及びそれを用いた音響信号編集方法
DE69631955T2 (de) * 1995-12-15 2005-01-05 Koninklijke Philips Electronics N.V. Verfahren und schaltung zur adaptiven rauschunterdrückung und sendeempfänger
US5715319A (en) * 1996-05-30 1998-02-03 Picturetel Corporation Method and apparatus for steerable and endfire superdirective microphone arrays with reduced analog-to-digital converter and computational requirements
US6243476B1 (en) * 1997-06-18 2001-06-05 Massachusetts Institute Of Technology Method and apparatus for producing binaural audio for a moving listener
JP3526185B2 (ja) * 1997-10-07 2004-05-10 パイオニア株式会社 記録情報再生装置におけるクロストーク除去装置
CA2365529C (en) * 1999-04-07 2011-08-30 Dolby Laboratories Licensing Corporation Matrix improvements to lossless encoding and decoding
US7039204B2 (en) 2002-06-24 2006-05-02 Agere Systems Inc. Equalization for audio mixing
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
CN101197798B (zh) * 2006-12-07 2011-11-02 华为技术有限公司 信号处理系统、芯片、外接卡、滤波、收发装置及方法
GB0704622D0 (en) * 2007-03-09 2007-04-18 Skype Ltd Speech coding system and method
CN101809654B (zh) * 2007-04-26 2013-08-07 杜比国际公司 供合成输出信号的装置和方法
KR101434200B1 (ko) * 2007-10-01 2014-08-26 삼성전자주식회사 혼합 사운드로부터의 음원 판별 방법 및 장치
MX2010004220A (es) * 2007-10-17 2010-06-11 Fraunhofer Ges Forschung Codificacion de audio usando mezcla descendente.
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
DE102008056704B4 (de) 2008-11-11 2010-11-04 Institut für Rundfunktechnik GmbH Verfahren zum Erzeugen eines abwärtskompatiblen Tonformates
EP2214161A1 (en) 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for upmixing a downmix audio signal
EP2214162A1 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
MX2011006248A (es) 2009-04-08 2011-07-20 Fraunhofer Ges Forschung Aparato, metodo y programa de computacion para mezclar en forma ascendente una señal de audio con mezcla descendente utilizando una suavizacion de valor de fase.
KR101697550B1 (ko) * 2010-09-16 2017-02-02 삼성전자주식회사 멀티채널 오디오 대역폭 확장 장치 및 방법
JP5533502B2 (ja) * 2010-09-28 2014-06-25 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
CN103348408B (zh) * 2011-02-10 2015-11-25 杜比实验室特许公司 噪声和位置外信号的组合抑制方法和系统
KR101662680B1 (ko) * 2012-02-14 2016-10-05 후아웨이 테크놀러지 컴퍼니 리미티드 멀티-채널 오디오 신호의 적응적 다운-믹싱 및 업-믹싱을 수행하기 위한 방법 및 장치
JP2013207487A (ja) 2012-03-28 2013-10-07 Nec Corp 携帯端末不正利用防止システム

Also Published As

Publication number Publication date
BR112016006323A2 (pt) 2017-08-01
RU2016116285A (ru) 2017-11-01
CA2925230C (en) 2018-08-14
US20160212561A1 (en) 2016-07-21
MX2016003504A (es) 2016-07-06
CN105765652B (zh) 2019-11-19
JP2016538578A (ja) 2016-12-08
US10021501B2 (en) 2018-07-10
KR20160067099A (ko) 2016-06-13
CN105765652A (zh) 2016-07-13
RU2661310C2 (ru) 2018-07-13
EP3050054A1 (en) 2016-08-03
EP2854133A1 (en) 2015-04-01
JP6275831B2 (ja) 2018-02-07
CA2925230A1 (en) 2015-04-02
BR112016006323B1 (pt) 2021-12-14
MX359381B (es) 2018-09-25
WO2015043891A1 (en) 2015-04-02
EP3050054B1 (en) 2017-10-18
KR101833380B1 (ko) 2018-02-28

Similar Documents

Publication Publication Date Title
JP5358691B2 (ja) 位相値平滑化を用いてダウンミックスオーディオ信号をアップミックスする装置、方法、およびコンピュータプログラム
TWI485699B (zh) 音訊信號訊框中事件槽位的編碼與解碼技術
JP2016525716A (ja) 適応位相アライメントを用いたマルチチャネルダウンミックスにおけるコムフィルタアーチファクトの抑制
ES2649481T3 (es) Procesamiento de señal de audio para generar una señal de mezcla descendente
US10163446B2 (en) Audio encoder and decoder
US10607615B2 (en) Apparatus and method for decoding an encoded audio signal to obtain modified output signals
US10482888B2 (en) Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
JP6248186B2 (ja) オーディオ・エンコードおよびデコード方法、対応するコンピュータ可読媒体ならびに対応するオーディオ・エンコーダおよびデコーダ