ES2877061T3 - Un método y aparato para aumentar la estabilidad de un parámetro de diferencia de tiempo entre canales - Google Patents

Un método y aparato para aumentar la estabilidad de un parámetro de diferencia de tiempo entre canales Download PDF

Info

Publication number
ES2877061T3
ES2877061T3 ES19189961T ES19189961T ES2877061T3 ES 2877061 T3 ES2877061 T3 ES 2877061T3 ES 19189961 T ES19189961 T ES 19189961T ES 19189961 T ES19189961 T ES 19189961T ES 2877061 T3 ES2877061 T3 ES 2877061T3
Authority
ES
Spain
Prior art keywords
ictd
icc
estimate
icclp
reliable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES19189961T
Other languages
English (en)
Inventor
Erik Norvell
Toftgård Tomas Jansson
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Application granted granted Critical
Publication of ES2877061T3 publication Critical patent/ES2877061T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Un método para determinar una histéresis adaptativa para el parámetro de diferencia de tiempo entre canales, ICTD, comprendiendo el método: la obtención (405) de una estimación de ICTD entre un par de canales de una señal de audio multicanal; el método está caracterizado además por que: cuando se obtiene una estimación de ICTD fiable para una trama m, el filtrado de paso bajo (421) de una medida de correlación entre canales, ICC, para obtener una estimación a largo plazo de una estabilidad, ICCLP(m), de un parámetro de ICTD; la utilización (433) de dicha estimación de estabilidad, ICCLP(m), para determinar un período de histéresis, durante el cual se utiliza (437) una estimación de ICTD fiable obtenida previamente, cuando no se obtienen estimaciones de ICTD fiables; y la configuración del ICTD a cero (439) si no se obtienen estimaciones de ICTD fiables dentro del período de histéresis.

Description

DESCRIPCIÓN
Un método y aparato para aumentar la estabilidad de un parámetro de diferencia de tiempo entre canales
Campo técnico
La presente solicitud se refiere a la codificación paramétrica de señales de audio espaciales o estéreo.
Antecedentes
El audio espacial o 3D es una formulación genérica que indica varios tipos de señales de audio multicanal. Dependiendo de los métodos de captura y reproducción, la escena de audio se representa mediante un formato de audio espacial. Los formatos de audio espacial típicos definidos por el método de captura (micrófonos) se denominan, por ejemplo, estéreo, binaural, ambisonics, etc. Los sistemas de reproducción de audio espacial (auriculares o altavoces) son capaces de reproducir escenas de audio espacial con estéreo (canales izquierdo y derecho 2.0) o señales de audio multicanal más avanzadas (2.1,5.1,7.1, etc.).
Las tecnologías recientes para la transmisión y manipulación de tales señales de audio permiten al usuario final tener una experiencia de audio mejorada con una calidad espacial más alta, lo que a menudo resulta en una mejor inteligibilidad, así como en una realidad aumentada. Las técnicas de codificación de audio espacial, tales como sonido envolvente MPEG o Audio MPEG-H 3D, generan una representación compacta de señales de audio espacial que es compatible con aplicaciones de restricción de velocidad de datos tal como la retransmisión por Internet. Sin embargo, la transmisión de señales de audio espaciales está limitada cuando la restricción de la velocidad de datos es fuerte y, por lo tanto, el posprocesamiento de los canales de audio decodificados también se utiliza para mejorar la reproducción de audio espacial. Las técnicas comúnmente utilizadas son, por ejemplo, capaces de mezclar ciegamente señales mono o estéreo decodificadas en audio multicanal (5.1 canales o más).
Con el fin de reproducir de manera eficiente escenas de audio espacial, las tecnologías de codificación y procesamiento de audio espacial hacen uso de las características espaciales de la señal de audio multicanal. En particular, las diferencias de tiempo y nivel entre los canales de la captura de audio espacial se utilizan para aproximar las señales interaurales que caracterizan nuestra percepción de los sonidos direccionales en el espacio. Ya que las diferencias de tiempo y nivel entre canales son solamente una aproximación de lo que el sistema auditivo es capaz de detectar (es decir, el tiempo interaural y las diferencias de nivel en las entradas de los oídos), es de gran importancia que la diferencia de tiempo entre canales es relevante desde un aspecto perceptivo. Las diferencias de tiempo y nivel entre canales se utilizan comúnmente para modelar los componentes direccionales de señales de audio multicanal, mientras que la correlación cruzada entre canales, que modela la correlación cruzada interaural (IACC), se utiliza para caracterizar el ancho de la imagen de audio. Especialmente para frecuencias más bajas, la imagen estéreo también puede modelarse con diferencias de fase entre canales (ICPD).
Debería observarse que las señales binaurales relevantes para la percepción auditiva espacial se denominan diferencia de nivel interaural (ILD), diferencia de tiempo interaural (ITD) y coherencia o correlación interaural (IC o IACC). Cuando se consideran señales multicanal generales, las señales correspondientes relacionadas con los canales son la diferencia de nivel entre canales (ICLD), la diferencia de tiempo entre canales (ICTD) y la coherencia o correlación entre canales (ICC). En la siguiente descripción, los términos "correlación cruzada entre canales", "correlación entre canales" y "coherencia entre canales" se utilizan indistintamente. Ya que el procesamiento de audio espacial opera principalmente en los canales de audio capturados, la "C" a veces se omite y los términos ITD, ILD e IC también se utilizan a menudo cuando se hace referencia a canales de audio. La fig. 1 ofrece una ilustración de estos parámetros. En la fig. 1, se muestra una reproducción de audio espacial con un sistema de sonido envolvente 5.1 (5 efectos discretos 1 de baja frecuencia). Los parámetros entre canales tales como ICTD, ICLD e ICC se extraen de los canales de audio con el fin de aproximar el ITD, ILD e IACC, que modela la percepción humana del sonido en el espacio.
En la fig. 2, se muestra una configuración típica que emplea el análisis de audio espacial paramétrico. La fig. 2 ilustra un diagrama de bloques básico de un codificador 200 estéreo paramétrico. Un par de señales estéreo se introduce en el codificador 201 estéreo . La extracción 202 de parámetros ayuda al proceso de mezclado, donde un mezclador 204 prepara una representación de canal único de los dos canales de entrada que se ha de codificar con un codificador 206 mono . Es decir, los canales estéreo se mezclan en una señal 207 mono que se codifica y se transmite al descodificador 203 junto con los parámetros 205 codificados que describen la imagen espacial. Por lo general, algunos de los parámetros estéreo se representan en subbandas espectrales en una escala de frecuencia de percepción, tal como la escala de ancho de banda rectangular equivalente (ERB). El decodificador realiza una síntesis estéreo basándose en la señal mono decodificada y los parámetros transmitidos. Es decir, el decodificador reconstruye el canal único utilizando un decodificador 210 mono y sintetiza los canales estéreo utilizando la representación paramétrica. La señal mono decodificada y los parámetros codificados recibidos se introducen en una unidad 212 de síntesis paramétrica o proceso que decodifica los parámetros, sintetiza los canales estéreo utilizando los parámetros decodificados y emite un par de señales estéreo sintetizadas.
Ya que los parámetros codificados se utilizan para reproducir audio espacial para el sistema auditivo humano, es importante que los parámetros entre canales se extraigan y codifiquen con consideraciones de percepción para maximizar la calidad percibida. Los siguientes documentos son ejemplos que ilustran los antecedentes pertinentes: La solicitud de patente EP2 381 439A1 describe un aparato de codificación estéreo que utiliza un parámetro de retardo de tiempo suavizado y que comprueba la validez de dicho parámetro de retardo de tiempo. La publicación de Tournery C. y Faller C. "Análisis/Síntesis de Retardo de Tiempo Mejorado para Codificación de Audio Estéreo Paramétrico" (“Improved Time Delay Analysis/Synthesis for Parametric Stereo Audio Coding”), Convención AES 2006, describe el uso de un parámetro de ICTD suavizado, dependiendo el factor de suavizado de la tonalidad y la correlación entre canales, ICC. La solicitud de patente WO2013/149672A1 describe la estimación de un parámetro ITD para una señal de audio multicanal, suavizando el parámetro ITD con dos coeficientes diferentes y seleccionando uno del valor suavizado según un criterio de calidad.
Compendio
Las señales de audio estéreo y multicanal son señales complejas difíciles de modelar, especialmente cuando el entorno es ruidoso o reverberante o cuando varios componentes de audio de las mezclas se superponen en el tiempo y la frecuencia, es decir, habla ruidosa, voz sobre música o hablantes simultáneos, etc.
Cuando la estimación del parámetro de ICTD se vuelve poco fiable, la representación paramétrica de la escena de audio se vuelve inestable y da una calidad de representación espacial deficiente. Además, ya que la compensación de ICTD a menudo se lleva a cabo como parte de la etapa de mezclado , una estimación inestable dará como resultado una señal de mezclado compleja y desafiante que se ha de codificar.
El objeto de las realizaciones es aumentar la estabilidad del parámetro de ICTD, mejorando así tanto la señal de mezclado que está codificada por el códec mono como la estabilidad percibida en la reproducción de audio espacial en el decodificador.
Según un primer aspecto, se proporciona un método según la reivindicación 1.
Según un segundo aspecto, se proporciona un aparato según la reivindicación 6.
Según un tercer aspecto, se proporciona un programa informático según la reivindicación 12.
Breve descripción de los dibujos
Para una comprensión más completa de las realizaciones ejemplares de la presente invención, se hace ahora referencia a las siguientes descripciones tomadas en relación con los dibujos adjuntos en los que:
La fig. 1 ilustra la reproducción de audio espacial con un sistema de sonido envolvente 5.1.
La fig. 2 ilustra un diagrama de bloques básico de un codificador estéreo paramétrico.
La fig. 3 ilustra la situación de retardo puro.
La fig. 4a es una ilustración de diagrama de flujo del procesamiento ICTD/ICC según una realización. La fig. 4b es una ilustración de diagrama de flujo del procesamiento ICTD/ICC en la rama de ICTDest (m) relevante según una realización.
La fig. 4c es una ilustración de diagrama de flujo del procesamiento de ICTD/ICC en la rama de ICTDest (m) no relevante según una realización.
La fig. 5 muestra una función de asignación para determinar un número de tramas de retención según una realización.
La fig. 6 ilustra un ejemplo de cómo se aplica la lógica de retención de ITD según una realización. La fig. 7 ilustra un ejemplo de una unidad de histéresis de parámetros.
La fig. 8 es otra ilustración ejemplar de una unidad de histéresis de parámetros.
La fig. 9 ilustra un aparato para implementar los métodos descritos en la presente memoria.
La fig. 10 ilustra una unidad de histéresis de parámetros según una realización.
Descripción detallada
Un ejemplo de realización de la presente invención y sus ventajas potenciales se comprenden con referencia a las figs. 1 a 10 de los dibujos.
El enfoque paramétrico convencional para estimar el ICTD se basa en la función de correlación cruzada (CCF) rxy que es una medida de similitud entre dos formas de onda x[n] e y[n], y generalmente se define en el dominio del tiempo como
Figure imgf000004_0001
donde t es el parámetro de desfase de tiempo y E[-j el operador de expectativa. Para una trama de señal de longitud N, la correlación cruzada se estima típicamente como
rxy[T] = Eñ=o x[n]y[n t] (2) La ICC se obtiene convencionalmente como el máximo del CCF que se normaliza por las energías de la señal de la siguiente manera
Figure imgf000004_0002
El desfase de tiempo t correspondiente a la ICC se determina como el ICTD entre los canales x e y. Asumiendo que x[n] e y[n] son cero fuera de la trama de la señal, la función de correlación cruzada se puede expresar de manera equivalente como una función del espectro cruzado de los espectros de frecuencia X[k] e Y[k] (con índice de frecuencia discreto k) como
rtylr] = D F r - 'W M r M ) (4) dónde X[k] es la transformada discreta de Fourier (DFT) de la señal en el dominio de tiempo x[n], es decir.
Figure imgf000004_0003
y el DFT'1 (■) o IDFT(-) indica la transformada discreta de Fourier inversa. Y^k] es el complejo conjugado de la DFT de y(n).
Para el caso cuando y[n] es puramente una versión retardada de x[n], la función de correlación cruzada está dada por
Figure imgf000004_0004
donde * indica convolución y <5(r - to) es la función delta de Kronecker, es decir, es igual a uno en to y cero en caso contrario. Esto significa que la función de correlación cruzada entre x e y es la función delta extendida por la convolución con la función de autocorrelación para x[n]. Para tramas de señal con varios componentes de retardo, por ejemplo, varios hablantes, habrá picos en cada retardo presente entre las señales, y la correlación cruzada se vuelve
Figure imgf000004_0005
Las funciones delta podrían entonces extenderse entre sí y dificultar la identificación de los diversos retardos dentro de la trama de la señal. Sin embargo, existen funciones de correlación cruzada generalizada (GCC) que no tienen esta extensión. El CCG se define generalmente como
rxGycc[ t ] = D F T - H m m r m (8) dónde ^[k] es una ponderación de frecuencia. Especialmente para audio espacial, se ha utilizado la transformada de fase (PHAT) debido a su robustez para la reverberación en entornos de bajo ruido. La transformada de fase es básicamente el valor absoluto de cada coeficiente de frecuencia, es decir
Figure imgf000004_0006
Esta ponderación blanqueará por ello el espectro cruzado de tal manera que la potencia de cada componente sea igual. Con retardo puro y ruido no correlacionado en las señales x[n] e y[n] la fase transformada GCC (GCC-PHAT) se convierte simplemente en la función delta de Kronecker 5(t - to), es decir.
Figure imgf000004_0007
La fig. 3 ilustra la situación de retardo pura. En el gráfico superior se muestra una ilustración de la correlación cruzada entre dos señales que se diferencian solamente por un retardo puro. El gráfico del medio muestra la función de correlación cruzada (CCF) de las dos señales. Corresponde a la autocorrelación de la fuente desplazada por una convolución con función delta <5(r - T0). El gráfico inferior muestra el GCC-PHAT de las señales de entrada, lo que produce una función delta para la situación de retardo puro.
El presente método se basa en un tiempo de retención adaptativo, también llamado período de retención, que depende de la estimación a largo plazo de la ICC. En una realización del método, se obtiene una estimación a largo plazo de la estabilidad del parámetro de ICTD promediando una medida de ICC. Cuando no se pueden obtener estimaciones fiables, la estimación de estabilidad se utiliza para determinar un período de histéresis, o tiempo de retención, cuando se utiliza una estimación fiable obtenida previamente. Si no se obtienen estimaciones fiables dentro del período de histéresis, el ICTD se establece a cero.
Considerando un sistema diseñado para obtener parámetros de representación espacial para una entrada de audio que consta de dos o más canales de audio. Cada canal está segmentado en períodos de tiempo m. Para un enfoque multicanal, los parámetros espaciales se obtienen típicamente para pares de canales, y para una configuración estéreo, este par es simplemente el canal izquierdo y derecho. En adelante, se centra en los parámetros espaciales para un solo par de canales x[n, m] e y[n, m], donde n indica el número de muestra y m indica el número de trama.
Se obtiene una medida de correlación cruzada y una estimación de ICTD para cada trama m. Después de que se haya obtenido la ICC(m) e ICTDest (m) para la trama actual, se toma una decisión de si ICTDest (m) es válido, es decir, relevante/útil/fiable, o no.
Si la ICTD se considera válida, la ICC se filtra para obtener una estimación de la envolvente de pico de la ICC. El parámetro de ICTD de salida ICTD(m) se establece a la estimación válida ICTDest (m). A continuación, los términos "medida ICTD", "parámetro de ICTD" y "valor ICTD" se utilizan indistintamente para ICTD(m). Además, el contador de retención Nho se establece a cero para indicar que no hay estado de retención.
Si la ICTD no se considera válido, se determina si se ha encontrado un número suficiente de mediciones de ICTD válidas en las tramas anteriores, es decir, si ICTD_count = ICTD_maxcount. Si se ha encontrado un número suficiente de mediciones de ICTD válidas en las tramas anteriores, se calcula un período de histéresis o tiempo de retención. Si ICTD count < ICTDmaxcount, se ha registrado un número insuficiente de estimaciones de ICTD consecutivas en las tramas pasadas o el estado actual es un estado de retención. A continuación, se determina si un estado actual es un estado de retención. Si el estado actual no es un estado de retención, entonces ICTD(m) se establece a 0. Si el estado actual es un estado de retención, a continuación, se seleccionará el valor ICTD anterior, es decir, ICTD(m) = ICTD(m-1).
Las etapas generales del procesamiento ICTD/ICC se ilustran en la fig.4a. Se pueden mantener estados/memorias internos para facilitar este método. En primer lugar, en el bloque 401, una estimación a largo plazo de la ICC, ICCLP (m), se inicializa a 0. El contador Nho realiza un seguimiento del número de tramas de retención que se han de utilizar y el contador ICTD_count se utiliza para mantener el número de valores ICTD válidos observados consecutivamente. Ambos contadores pueden inicializarse a 0. Debería observarse que la realización con contadores de tramas discretas es solo un ejemplo para implementar una histéresis adaptativa. Por ejemplo, también se puede utilizar un contador de valor real, un contador de coma flotante o un contador de tiempo fraccionario, y el incremento/decremento adaptativo también puede asumir valores fraccionarios.
Como se ilustra en la fig. 4a, las etapas de procesamiento se repiten para cada trama m. Dadas las señales de forma de onda de entrada x[n, m] e y [n, m] de la trama m, se obtiene una medida de correlación cruzada en el bloque 403. En esta realización se utiliza la Correlación Cruzada Generalizada con Transformada de Fase (GCC PH AT) rx y AT \-T> .
ICC(m) = m ax(r£ yAT[T ,m ]) (11)
También se pueden utilizar otras medidas, tales como el pico de la función de correlación cruzada normalizada, es decir,
Figure imgf000005_0001
Además, en el bloque 405, se obtiene una estimación de ICTD, ICTDest (m). Preferiblemente, las estimaciones para ICC e ICTD se obtendrán utilizando el mismo método de correlación cruzada para consumir la menor cantidad de potencia computacional. La t que maximiza la correlación cruzada puede seleccionarse como la estimación de ICTD. Aquí, se utiliza GCC PhAt .
Figure imgf000006_0001
Típicamente, el intervalo de búsqueda para t estaría limitado al intervalo de ICTD que necesita ser representado, pero también está limitado por la longitud de la trama de audio y/o la longitud de la DFT utilizada para el cálculo de correlación (ver N en la ecuación (5)). Esto significa que las ventanas de análisis de longitud de trama de audio y DFT necesitan ser lo suficientemente largas para adaptarse a la diferencia de tiempo más larga Tmax que necesita ser representada, lo que significa que N > 2Tmax. Por ejemplo, para la capacidad de representar una distancia entre un par de micrófonos de 1,5 metros, suponiendo que la velocidad del sonido sea de 340 m/s y utilizando una frecuencia de muestreo de 32000 muestras/segundo, el intervalo de búsqueda sería [-Tmax, Tmax] dónde
1.5 m X32000 muestras / s , . A
i max = ----------------------------— « 141 m uestras 14 mclx 340 m / s V '
Después de que se obtengan la ICC(m) e ICTDes (m) para la trama actual, se toma una decisión en el bloque 407 si lCTDesi (m) es válida o no. Esto se puede hacer comparando la magnitud de pico relativa de una función de correlación cruzada con un umbral ICCthres (m) basado en la función de correlación cruzada, por ejemplo
rx v AT [T< m ] o rxy[T, m ], de tal manera que IC C { m ) > IC C th res {m ) significa que la ICTD es válida.
ValidolCDTest(m)) = ICC(m) > ICCthres(m) (15)
Tal umbral puede estar formado, por ejemplo, por una constante Cthres multiplicado por la desviación estándar estimada de la función de correlación cruzada, donde un valor adecuado puede ser Cthres = 5.
Figure imgf000006_0002
r - H AT
' xy M (17) 2Tti 1 *-‘T— Tmax r P
Otro método es ordenar el intervalo de búsqueda y utilizar el valor en, por ejemplo, el percentil 95 multiplicado por una constante.
Figure imgf000006_0003
, rx y , s l r t e d M = SOVt(r™AT[ t ])
t95 = L(2t 1) -0.95 0.5J (19) \P th r e s 2 ^
dónde sort() es una función que ordena el vector de entrada en orden ascendente.
Si se determina que la ICTD es válida, se llevan a cabo las etapas del bloque 409, descritas en la fig. 4b. En primer lugar, en el bloque 421, la ICC se filtra para obtener una estimación de la envolvente de pico de la ICC. Esto se puede hacer utilizando un filtro IIR de primer orden donde el coeficiente de filtro (factor de olvido/actualización) depende del valor ICC actual en relación con el último valor ICC filtrado.
ICCLP(m) = f{lCC(m),ICCLP(m - 1)) (20)
Figure imgf000006_0004
Si a 1 e [0,1] se establece relativamente alto (por ejemplo, m = 0,9) y a2 e [0,1] se establece relativamente bajo (por ejemplo, a2 = 0,1), la operación de filtrado tenderá a seguir los valores pico de la ICC, formando una envolvente de la señal. La motivación es tener una estimación de las últimas ICC más altas cuando se llega a una situación donde la ICC ha caído a un nivel bajo (y no solo indicar los últimos valores en la transición a una ICC baja). El contador ICTD_count se incrementa para realizar un seguimiento del número de ICTD válidas consecutivas. A continuación, en el bloque 425, el ICTD_count se establece a ICTD_maxcount si se determina en el bloque 423 que la ICTD_maxcount se excede o si el sistema se encuentra actualmente en un estado de retención de ICTD y NHO > 0. El primer criterio está ahí para impedir que el contador se enrolle en un número entero de precisión limitada. El último criterio capturaría el caso de que se encuentre una ICTD válida durante un período de retención. Establecer la ICTD_count a ICTD_maxcount activará un nuevo período de retención, que puede ser deseable en este caso. Finalmente, en el bloque 427, la medida ICTD de salida ICTD{m) se establece a la estimación válida ICTDest (m). El mostrador de retención Nho también se establece a cero para indicar que un estado actual no es un estado de retención.
Si la ICTD no se considera válida, se realizarán las etapas del bloque 411, descritas en la fig. 4c. Si se ha encontrado un número suficiente de mediciones de ICTD válidas en las tramas anteriores, que se determinan en el bloque 431, se calcula un período de histéresis, o tiempo de retención, en el bloque 433. En esta realización ejemplar, el número suficiente de mediciones ICTD válidas se alcanzan cuando ICTD_count = lCTD_maxcount. Aquí, ICTD_maxcount = 2, lo que significa que dos mediciones ICTD válidas consecutivas son suficientes para activar la lógica de retención. Una mayor ICTD_maxcount como 3, 4 o 5 también serían posibles. Esto restringiría aún más la lógica de retención para que se utilice solamente cuando se hayan obtenido secuencias más largas de mediciones de ICTD válidas.
El tiempo de retención Nho es adaptativo y depende de la ICC de tal manera que si las estimaciones recientes de la ICC han sido bajas (correspondientes a bajas ICCi_p (m)), el tiempo de retención debe ser largo y viceversa. Es decir, ICCLp (m) : = ICCíp (m - 1) y
N h o — g { l C C L P ( m ) ) (22)
g ( l C C L P ( m )) = max(0 , m i n ( N ¡ H O m a x , [ c d - IC C L P ( m ) \ ) ) (23) donde las constantes NHOmax, c y d se pueden establecer a, por ejemplo
Figure imgf000007_0001
a = 0.6
= 0.3
y L ■ J indica la función piso que trunca/redondea hacia abajo al número entero más cercano. Las funciones max () y min () toman dos argumentos y devuelven el argumento más grande y más pequeño, respectivamente. Se puede ver una ilustración de esta función en la fig. 5. La fig. 5 ilustra una función de asignación Nho = g(ICCLP(m)) que determina una serie de tramas de retención Nho dada la correlación entre canales filtrada de paso bajo ICCLP(m), que se muestrea para una trama cuando no se puede extraer una ICTD fiable. Como se ilustra en la fig. 5, esta es una función lineal decreciente que asigna NHOmax = 6 tramas de retención para ICCLP(m) < b y 0 tramas de retención para ICCLP(m) > a. Para b < ICCLP(m) < a, la retención se aplica con un número creciente de tramas para disminuir ICCLP(m). La línea de puntos representa la función sin la operación de piso/redondeo hacia abajo. Un valor adecuado para a se ha encontrado que ha de ser a = 0,6, pero se podría considerar, por ejemplo, el intervalo [0,5, 1). Correspondientemente para b, se ha encontrado que un valor adecuado ha de ser b = 0,3, pero el intervalo (0, a) se podría considerar.
En general, cualquier parámetro que indique la correlación, es decir, coherencia o similitud, entre los canales puede utilizarse como parámetro de control ICC(m), pero la función de asignación descrita en la ecuación (22) tiene que adaptarse para dar un número adecuado de tramas de retención para los casos de correlación baja/alta. Experimentalmente, una situación de baja correlación debería dar alrededor de 3-8 tramas de retención, mientras que un caso de alta correlación debería dar 0 tramas de retención.
Si ICTDcount <lCTDmaxcount, esto significa que se ha registrado un número insuficiente de estimaciones de ICTD consecutivas en las tramas pasadas o que el estado actual es un estado de retención. En el bloque 435 se determina si Nho > 0. Si Nho = 0, entonces ICTD(m) se establece a 0 en el bloque 439. Si, por otro lado, Nho > 0, el estado actual es un estado de retención y se seleccionará el valor ICTD anterior, es decir, ICTD(m) = ICTD (m -1), en el bloque 437. En este caso, el contador de retención también se reduce, Nho := Nho - 1. (El operador de asignación ': =' se utiliza para indicar que el antiguo valor de Nho se sobrescribe con el nuevo.) Finalmente, en el bloque 440, ICTD_count e ICCLP(m) se establecen a cero.
La fig. 6 ilustra cómo se aplica la lógica de retención de ITD en un segmento de voz ruidosa seguido de un segmento de voz limpia. El segmento de voz ruidosa activa las tramas de retención de ITD cuando las estimaciones de ICTD ya no son válidas. En el segmento de voz limpia no se agregan tramas de retención. El gráfico superior muestra los canales de entrada de audio, en este caso a la izquierda y a la derecha de una grabación estéreo. El segundo gráfico muestra la ICC(m) y la ICCLP (m) del archivo de ejemplo, y el gráfico inferior muestra el contador de retención de ITD Nh o . Puede verse que para una baja correlación durante el segmento de voz ruidosa al principio del archivo, se activan las tramas de retención de ITD, mientras que el segmento de voz limpia no activa ninguna trama de retención.
El método descrito aquí puede implementarse en un microprocesador o en un ordenador. También se puede implementar en hardware en una unidad lógica de histéresis/retención de parámetros como se muestra en la fig.
7. La fig. 7 muestra una unidad 700 de histéresis de parámetros que toma la ICTDest (m), la ICC(m)(ICTDest (m) Válida) como parámetros de entrada. Después de procesar los parámetros de entrada mediante una unidad 705 de histéresis de parámetro adaptativo según el método descrito, el parámetro final es una decisión sobre si la ICTDest (m) es válida o no. El parámetro de salida es la ICTD{m) seleccionada. Una entrada 701 de la unidad de histéresis de parámetros puede acoplarse comunicativamente a la unidad 202 de extracción de parámetros mostrada en la fig. 2, y una salida 703 de la unidad de histéresis de parámetros puede acoplarse comunicativamente al codificador 208 de parámetros mostrado en la fig. 2. Alternativamente, la unidad de histéresis de parámetros puede estar comprendida en la unidad 202 de extracción de parámetros que se muestra en la fig.
2.
La fig. 8 describe una unidad de histéresis de parámetros, o una unidad 700 de lógica de retención con más detalle. Los parámetros de entrada ICTDest (m), ICC{m), y (ICTDest{m) Válida) se generan preferiblemente, mediante un estimador 802 de ICTD, un estimador 804 de ICC y un validador 806 de ICTD, respectivamente, a partir del mismo análisis de correlación cruzada rxy{f), por ejemplo
r P H A T ( \
>xy y-J realizado por un estimador 801 de correlación . Sin embargo, puede haber beneficios de tener la medida ICC desacoplada de la estimación de ICTD. Además, el método descrito no implica un determinado método para decidir si el parámetro de ICTD es válido {es decir, fiable), pero puede implementarse con cualquier medida que indique una decisión binaria (Si/No) sobre la validez del parámetro. Además, en la fig. 8, la estimación de ICC se filtra mediante un filtro 805 de ICC para formar una estimación a largo plazo de la ICC, preferiblemente sintonizada para seguir los picos de la ICC. Un contador 807 de ICTD realiza un seguimiento del número de estimaciones de ICTD válidas consecutivas ICTD_count, así como el número de tramas de retención en un estado de retención Nh o . La memoria 803 de ICTD recuerda la decisión ICTD que fue la última salida de la unidad de histéresis. Finalmente, el selector 809 de ICTD toma las entradas ICCLP(m), ICTD_count y Nho y selecciona ya sea ICTDest (m), ICTD (m - 1) o 0 como parámetro de ICTD de ICTD(m).
La fig. 9 muestra un ejemplo de un aparato que realiza el método ilustrado en las figs. 4a-4c. El aparato 900 comprende un procesador 910, por ejemplo, una unidad central de procesamiento (CPU) y un producto de programa informático 920 en forma de memoria para almacenar las instrucciones, por ejemplo, un programa informático 930 que, cuando se recupera de la memoria y se ejecuta por el procesador 910, hace que el aparato 900 realice procesos relacionados con realizaciones del presente procesamiento de histéresis de parámetros adaptativos. El procesador 910 está acoplado comunicativamente a la memoria 920. El aparato puede comprender además un nodo de entrada para recibir parámetros de entrada, y un nodo de salida para emitir parámetros procesados. El nodo de entrada y el nodo de salida están ambos acoplados comunicativamente al procesador 910.
A modo de ejemplo, el software o programa informático 930 puede realizarse como un producto de programa informático, que normalmente se transporta o almacena en un medio legible por ordenador, preferiblemente un medio de almacenamiento no volátil legible por ordenador. El medio legible por ordenador puede incluir uno o más dispositivos de memoria extraíbles o no extraíbles que incluyen, entre otros, una Memoria de Solo Lectura (ROM), una Memoria de Acceso Aleatorio (RAM), un Disco Compacto (CD), un Disco Digital Versátil (DVD), un disco Blueray, una memoria de Bus Universal en Serie (USB), un dispositivo de almacenamiento de Unidad de Disco Duro (HDD), una memoria flash, una cinta magnética o cualquier otro dispositivo de memoria convencional.
La fig. 10 muestra un dispositivo 1000 que comprende una unidad de histéresis de parámetros que se ilustra en las figs. 7 y 8. El dispositivo puede ser un codificador, por ejemplo, un codificador de audio. Una señal de entrada es una señal de audio estéreo o multicanal. La señal de salida es una señal mono codificada con parámetros codificados que describen la imagen espacial. El dispositivo puede comprender además un transmisor (no mostrado) para transmitir la señal de salida a un decodificador de audio. El dispositivo puede comprender además un mezclador y una unidad/módulo de extracción de parámetros, y un codificador mono y un codificador de parámetros como se muestra en la fig. 2.
En una realización, un dispositivo comprende unidades de obtención para obtener una medida de correlación cruzada y una estimación de ICTD, y una unidad de decisión para decidir si ICTDest (m) es válida o no. El dispositivo comprende además una unidad de obtención para obtener una estimación de la envolvente de pico de la ICC, y unidades de determinación para determinar si se ha encontrado un número suficiente de mediciones de ICTD válidas en las tramas anteriores y para determinar si un estado actual es un estado de bloqueo. El dispositivo comprende además una unidad de salida para emitir la medida ICTD.
Según realizaciones de la presente invención, el método para aumentar la estabilidad de un parámetro de diferencia de tiempo entre canales (ICTD) en la codificación de audio paramétrica comprende recibir una señal de entrada de audio multicanal que comprende al menos dos canales. La obtención de una estimación de ICTD, ICTDest (m), para una trama m de audio, que determina si la estimación de ICTD obtenida, ICTDest (m), es válida y que obtiene una estimación de estabilidad de dicha estimación de ICTD. Si la ICTDest (m) no se considera válida, y se ha encontrado un número suficiente determinado de estimaciones de ICTD válidas en las tramas anteriores, que determina un tiempo de retención que utiliza la estimación de estabilidad, que selecciona un parámetro de ICTD válido obtenido previamente, ICTD (m - 1), como parámetro de salida, ICTD(m), durante el tiempo de retención; y que configura el parámetro de salida, ICTD(m), a cero si la ICTDest{m) no se considera válida durante el tiempo de retención.
En una realización, la estimación de estabilidad es una medida de correlación entre canales (ICC) entre un par de canales para una trama m de audio.
En una realización, la estimación de estabilidad es una correlación entre canales filtrada de paso bajo, ICCi_p (m). En una realización, la estimación de estabilidad se calcula promediando la medida ICC, ICC(m).
En una realización, el tiempo de retención es adaptativo. Por ejemplo, la retención se aplica con un número creciente de tramas para disminuir ICCi_p (m).
En una realización, se utiliza una Correlación Cruzada Generalizada con Transformada de Fase para obtener la medida ICC para la trama m.
En una realización ICTDest (m) se determina que es válida si la medida de correlación entre canales, ICC(m), es mayor que un umbral ICCthres (m).
Por ejemplo, la validez de la estimación de ICTD obtenida, ICTDest (m), se determina comparando una magnitud pico relativa de una función de correlación cruzada con un umbral, ICCthres (m), basándose en la función de correlación cruzada. ICCthres (m) puede estar formada por una constante multiplicada por un valor de la correlación cruzada en una posición predeterminada en un conjunto ordenado de valores de correlación cruzada para la trama m.
En una realización, el número suficiente de estimaciones de ICTD válidas es 2.
Las realizaciones de la presente invención pueden implementarse en software, hardware, lógica de aplicación o una combinación de software, hardware y lógica de aplicación. El software, la lógica de la aplicación y/o el hardware pueden residir en una memoria, un microprocesador o una unidad central de procesamiento. Si se desea, parte del software, la lógica de la aplicación y/o el hardware pueden residir en un dispositivo anfitrión o en una memoria, un microprocesador o una unidad central de procesamiento del anfitrión. En una realización ejemplar, la lógica de la aplicación, el software o un conjunto de instrucciones se mantienen en cualquiera de los diversos medios convencionales legibles por ordenador.
Abreviaturas
ICC Correlación entre canales
IC Coherencia interaural, también IACC para correlación cruzada interaural
ICTD Diferencia de tiempo entre canales
ITD Diferencia de tiempo interaural
ICLD Diferencia de nivel entre canales
ILD Diferencia de nivel interaural
ICPD Diferencia de fase entre canales
IPD Diferencia de fase interaural

Claims (11)

  1. REIVINDICACIONES
    1 Un método para determinar una histéresis adaptativa para el parámetro de diferencia de tiempo entre canales, ICTD, comprendiendo el método:
    la obtención (405) de una estimación de ICTD entre un par de canales de una señal de audio multicanal; el método está caracterizado además por que: cuando se obtiene una estimación de ICTD fiable para una trama m, el filtrado de paso bajo (421) de una medida de correlación entre canales, ICC, para obtener una estimación a largo plazo de una estabilidad, ICCLP(m), de un parámetro de ICTD;
    la utilización (433) de dicha estimación de estabilidad, ICCLP(m), para determinar un período de histéresis, durante el cual se utiliza (437) una estimación de ICTD fiable obtenida previamente, cuando no se obtienen estimaciones de ICTD fiables; y
    la configuración del ICTD a cero (439) si no se obtienen estimaciones de ICTD fiables dentro del período de histéresis.
  2. 2. - El método de la reivindicación 1, en donde la ICC se filtra utilizando un filtro IIR de primer orden donde el coeficiente de filtro depende del valor ICC actual con respecto al último valor ICC filtrado.
  3. 3. - El método de la reivindicación 1 o 2, en donde el período de histéresis es adaptativo.
  4. 4. - El método de la reivindicación 3, en donde el período de histéresis depende de la estimación de estabilidad, ICCLp(m), de tal manera que cuando b <ICCLp(m) < a, dónde a y b son constantes predeterminadas, se aplica un número creciente de tramas para disminuir ICCLP(m).
  5. 5. - El método de una cualquiera de las reivindicaciones 1 a 4, en donde el período de histéresis Nho se determina como:
    Nho = m ax(0 ,m in (N HOrnax, [c d ■ ICCLP(m )J)),
    dónde ICCLp(m) : = ICCLp(m - 1) es una correlación entre canales filtrada de paso bajo para trama m - 1, y NHOmax, c y d son constantes predeterminadas.
  6. 6. - Un aparato (700) para determinar una histéresis adaptativa para un parámetro de diferencia de tiempo entre canales, ICTD, en una codificación de audio paramétrica, comprendiendo el aparato:
    medios (701) para obtener una estimación de ICTD entre un par de canales de una señal de audio multicanal; el aparato está caracterizado por que además comprende:
    medios (705, 805) de filtrado de paso bajo de una medida de correlación entre canales, ICC, para obtener una estimación a largo plazo de una estabilidad, ICCLp(m), de un parámetro de ICTD cuando una estimación de ICTD fiable se obtiene para una trama m ;
    medios (705, 809) para utilizar dicha estimación de estabilidad, ICCLp(m), para determinar un período de histéresis, durante el cual se utiliza una estimación de ICTD fiable obtenida previamente, cuando no se obtienen estimaciones de ICTD fiables; y
    medios (705, 809) para establecer la ICTD a cero si no se obtienen estimaciones de ICTD fiables dentro del período de histéresis.
  7. 7. - El aparato según la reivindicación 6, en donde el medio para filtrar la ICC comprenden un filtro IIR de primer orden donde el coeficiente de filtro depende del valor ICC actual con respecto al último valor ICC filtrado.
  8. 8. - El aparato de la reivindicación 6 o 7, en donde el período de histéresis es adaptativo.
  9. 9. - El aparato de la reivindicación 8, en donde el período de histéresis depende de la estimación de estabilidad ICCLp(m) de tal manera que cuando b < ICCLp(m) < a, dónde a y b son constantes predeterminadas, se aplica un número creciente de tramas para disminuir ICCLP(m).
  10. 10. - El aparato según cualquiera de las reivindicaciones 6 a 9, en donde el período de histéresis Nho se determina como:
    Nho = max(0, m in {N HOmax, [c d - ICCLP(m ) J)),
    dónde ICCLp(m) : = ICCLp(m - 1) es una correlación entre canales filtrada de paso bajo para la trama m - 1, y NHOmax, c y d son constantes predeterminadas.
  11. 11. - Un codificador de audio multicanal que comprende el aparato según una cualquiera de las reivindicaciones 6 12.- Un programa informático, que comprende instrucciones que, cuando se ejecutan en al menos un procesador, provocan que el al menos un procesador lleve a cabo el método según una cualquiera de las reivindicaciones 1 a 5.
ES19189961T 2016-03-09 2017-03-08 Un método y aparato para aumentar la estabilidad de un parámetro de diferencia de tiempo entre canales Active ES2877061T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US201662305683P 2016-03-09 2016-03-09

Publications (1)

Publication Number Publication Date
ES2877061T3 true ES2877061T3 (es) 2021-11-16

Family

ID=58264521

Family Applications (1)

Application Number Title Priority Date Filing Date
ES19189961T Active ES2877061T3 (es) 2016-03-09 2017-03-08 Un método y aparato para aumentar la estabilidad de un parámetro de diferencia de tiempo entre canales

Country Status (8)

Country Link
US (3) US10832689B2 (es)
EP (2) EP3427259B1 (es)
JP (2) JP6641027B2 (es)
AR (1) AR107842A1 (es)
AU (1) AU2017229323B2 (es)
ES (1) ES2877061T3 (es)
WO (1) WO2017153466A1 (es)
ZA (1) ZA201804224B (es)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107742521B (zh) * 2016-08-10 2021-08-13 华为技术有限公司 多声道信号的编码方法和编码器
CN109215667B (zh) 2017-06-29 2020-12-22 华为技术有限公司 时延估计方法及装置
EP3588495A1 (en) 2018-06-22 2020-01-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Multichannel audio coding
US11606659B2 (en) * 2021-03-29 2023-03-14 Zoox, Inc. Adaptive cross-correlation
EP4356373A1 (en) * 2021-06-15 2024-04-24 Telefonaktiebolaget LM Ericsson (publ) Improved stability of inter-channel time difference (itd) estimator for coincident stereo capture

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05130067A (ja) * 1991-10-31 1993-05-25 Nec Corp 可変閾値型音声検出器
US20110206209A1 (en) * 2008-10-03 2011-08-25 Nokia Corporation Apparatus
EP2381439B1 (en) 2009-01-22 2017-11-08 III Holdings 12, LLC Stereo acoustic signal encoding apparatus, stereo acoustic signal decoding apparatus, and methods for the same
US9424852B2 (en) * 2011-02-02 2016-08-23 Telefonaktiebolaget Lm Ericsson (Publ) Determining the inter-channel time difference of a multi-channel audio signal
CN103339670B (zh) * 2011-02-03 2015-09-09 瑞典爱立信有限公司 确定多通道音频信号的通道间时间差
KR101662681B1 (ko) * 2012-04-05 2016-10-05 후아웨이 테크놀러지 컴퍼니 리미티드 멀티채널 오디오 인코더 및 멀티채널 오디오 신호 인코딩 방법
EP2648418A1 (en) * 2012-04-05 2013-10-09 Thomson Licensing Synchronization of multimedia streams
KR101621287B1 (ko) * 2012-04-05 2016-05-16 후아웨이 테크놀러지 컴퍼니 리미티드 다채널 오디오 신호 및 다채널 오디오 인코더를 위한 인코딩 파라미터를 결정하는 방법
JP5970985B2 (ja) * 2012-07-05 2016-08-17 沖電気工業株式会社 音声信号処理装置、方法及びプログラム

Also Published As

Publication number Publication date
ZA201804224B (en) 2019-11-27
WO2017153466A1 (en) 2017-09-14
US20200286495A1 (en) 2020-09-10
EP3427259B1 (en) 2019-08-07
US10832689B2 (en) 2020-11-10
JP2019511864A (ja) 2019-04-25
JP2020065283A (ja) 2020-04-23
JP6858836B2 (ja) 2021-04-14
EP3582219B1 (en) 2021-05-05
EP3427259A1 (en) 2019-01-16
AR107842A1 (es) 2018-06-13
US11869518B2 (en) 2024-01-09
US20220392463A1 (en) 2022-12-08
AU2017229323A1 (en) 2018-07-05
US11380337B2 (en) 2022-07-05
JP6641027B2 (ja) 2020-02-05
EP3582219A1 (en) 2019-12-18
AU2017229323B2 (en) 2020-01-16
US20210027793A1 (en) 2021-01-28

Similar Documents

Publication Publication Date Title
ES2877061T3 (es) Un método y aparato para aumentar la estabilidad de un parámetro de diferencia de tiempo entre canales
US20180091927A1 (en) Audio signal processing method and device
EP3122073B1 (en) Audio signal processing method and apparatus
ES2808096T3 (es) Método y aparato para el control adaptativo de los filtros de decorrelación
KR100891668B1 (ko) 믹스 신호 처리 방법 및 장치