ES2831409T3

ES2831409T3 - Aparato, método y programa informático para obtener un parámetro que describe una variación de una característica de señal de una señal

Info

Publication number: ES2831409T3
Application number: ES10701639T
Authority: ES
Inventors: Tom Bäckström; Stefan Bayer; Ralf Geiger; Max Neuendorf; Sascha Disch
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2009-01-21
Filing date: 2010-01-11
Publication date: 2021-06-08
Anticipated expiration: 2030-01-11
Also published as: BRPI1005165A2; CA2750037A1; ZA201105338B; TW201108201A; AU2010206229A1; AU2010206229B2; PL2380165T3; EP2211335A1; WO2010084046A1; KR101307079B1; CN102334157A; JP2012515939A; JP5625093B2; KR20110110785A; PT2380165T; EP2380165B1; TWI470623B; SG173083A1; EP2380165A1; US8571876B2

Abstract

Método para la codificación deformada en el tiempo de una señal de audio de entrada, comprendiendo el método: obtener un parámetro que describe una variación temporal de una característica de señal de una señal de audio sobre la base de parámetros del dominio de la transformada real de una representación en el dominio de la transformada de la señal de audio que describe la señal de audio en un dominio de la transformada, que comprende: determinar uno o más parámetros de modelo (140) de un modelo de variación de dominio de la transformada, describiendo el modelo de variación una evolución de parámetros del dominio de la transformada en dependencia del uno o más parámetros de modelo, de manera que un error de modelo, que representa una desviación entre una evolución temporal modelada de los parámetros del dominio de la transformada y una evolución de los parámetros del dominio de la transformada real, se lleva por debajo de un valor umbral predeterminado o se minimiza; en el que se obtienen primera información del dominio de la transformada que comprende un primer conjunto de parámetros del dominio de la transformada y que describe la señal de audio para un primer intervalo de tiempo para una pluralidad de valores diferentes de una variable de la transformada, y segunda información del dominio de la transformada que comprende un segundo conjunto de parámetros del dominio de la transformada y que describe la señal de audio para un segundo intervalo de tiempo para los diferentes valores de la variable de la transformada como los parámetros del dominio de la transformada real; en el que se evalúa una variación temporal entre la primera información del dominio de la transformada y la segunda información del dominio de la transformada para una pluralidad de valores diferentes de la variable de la transformada (k), para obtener información de variación temporal, en el que se estima una variación local de la información del dominio de la transformada con respecto a la variable de la transformada para una pluralidad de valores diferentes de la variable de la transformada, para obtener una información de la variación local; en el que la información de variación temporal y la información de la variación local se combinan, para obtener un parámetro de modelo de variación de tono; en el que el parámetro de modelo de variación de tono se obtiene usando un modelo de variación de dominio de la transformada que comprende el parámetro de modelo de variación de tono y que representa un compresión o expansión de la representación en el dominio de la transformada de la señal de audio con respecto a la variable de la transformada (k) suponiendo una variación de tono uniforme de la señal de audioy en el que el parámetro de modelo de variación de tono se determina de manera que el modelo de variación de dominio de la transformada parametrizado se adapta al primer conjunto de parámetros del dominio de la transformada y el segundo conjunto de parámetros del dominio de la transformada; en el que el parámetro de modelo de variación de tono describe una variación temporal de un tono de la señal de audio de entrada; y realizar un muestreo de señal deformada en el tiempo de la señal de audio de entrada usando el parámetro de variación de tono para un ajuste de la deformación en el tiempo.

Description

DESCRIPCIÓN

Aparato, método y programa informático para obtener un parámetro que describe una variación de una característica de señal de una señal

Antecedentes de la invención

Mientras el alcance principal de la presente invención es análisis de variaciones temporales de señales de audio, el mismo método puede adaptarse fácilmente a cualquier señal digital y las variaciones que tales señales exhiben sobre cualquiera de sus ejes. Tales señales y variaciones incluyen, por ejemplo, variaciones espaciales y temporales en características tales como intensidad y contraste de imágenes y películas, modulaciones (variaciones) en características tales como amplitud y frecuencia de señales de radar y radio, y variaciones en propiedades tales como heterogeneidad de señales de electrocardiograma.

A continuación, se dará una breve introducción relacionada con el concepto de estimación de variación de señal. El procesamiento de señal clásico normalmente empieza con la suposición de señales localmente estacionarias y para muchas aplicaciones esta es una suposición razonable. Sin embargo, reivindicar que señales tales como habla y audio son localmente estacionarias estira la verdad más allá de niveles aceptables en algunos casos. Señales cuyas características cambian rápidamente introducen distorsiones a resultados de análisis que son difíciles de contener mediante enfoques clásicos y por ende requieren metodología especialmente adecuada para señales que varían rápidamente.

Por ejemplo, puede considerarse la codificación de una señal de habla con un codificador basado en transformada. Aquí, la señal de entrada es analizada en ventanas, cuyos contenidos son transformados al dominio espectral. Cuando la señal es una señal armónica cuya frecuencia fundamental cambia rápidamente, las ubicaciones de picos espectrales, correspondientes a los armónicos, cambian con el tiempo. Si, por ejemplo, la longitud de ventana de análisis es relativamente larga en comparación con el cambio en frecuencia fundamental, los picos espectrales son separados a bandejas de frecuencia vecinas. En otras palabras, la representación espectral se hace borrosa. Esta distorsión puede ser especialmente severa en las frecuencias superiores, donde la ubicación de picos espectrales se mueve más rápidamente cuando cambia la frecuencia fundamental.

Si bien existen métodos para compensación de cambios en la frecuencia fundamental, tal como transformada de coseno discreta modificada deformada en el tiempo (TW-MDCT) (véanse las referencias [8] y [3]), la estimación de variación de tono sigue siendo un desafío.

En el pasado, la variación de tono ha sido estimada midiendo el tono y simplemente tomando la derivada temporal. Sin embargo, como la estimación de tono es una tarea dificultosa y a menudo ambigua, las estimaciones de variación de tono están plagadas con errores. La estimación de tono padece, entre otras cosas, dos tipos de errores comunes (véase, por ejemplo, la referencia [2]). Primero, cuando los armónicos tienen mayor energía que la fundamental, los estimadores con frecuencia son desviados a creer que el armónico es realmente la fundamental, con lo cual la salida es un múltiplo de la frecuencia verdadera. Tales errores pueden observarse como discontinuidades en el rastreo de tono y pueden producir un error enorme en términos de la derivada temporal. Segundo, la mayoría de los métodos de estimación de tono se basan en la búsqueda de pico en el/los dominio(s) de auto correlación (o similares) mediante alguna heurística. Especialmente en el caso de señales que varían, estos picos son anchos (planos en la parte superior), con lo cual un pequeño error en la estimación de autocorrelación puede mover significativamente la ubicación estimada de pico. Así, la estimación de tono es una estimación inestable.

Tal como se indicó anteriormente, el enfoque general en procesamiento de señal es suponer que la señal es constante en cortos intervalos de tiempo y estimar las propiedades en tales intervalos. Si, luego, la señal es realmente variable con el tiempo, se supone que la evolución temporal de la señal es suficientemente lenta, para que la suposición de estacionaria en un corto intervalo sea suficientemente precisa y el análisis en intervalos cortos no produzca distorsiones significativas. En vista de lo de anterior, es deseable proporcionar un concepto para obtener un parámetro que describa una variación temporal de una característica de señal con mejor robustez.

Sumario de la invención

La invención se define por las reivindicaciones adjuntas.

La invención se basa en el hallazgo de que típicas variaciones temporales de una señal de audio dan como resultado una evolución temporal característica en el dominio de la transformada, que puede describirse bien usando solo un número limitada de parámetros de modelo. Mientras esto es particularmente cierto para señales de voz, donde la evolución temporal característica está determinada por la típica anatomía de los órganos del habla humana, la suposición se sostiene sobre un amplio intervalo de señales de audio y otras, como típicas señales de música.

Además, la evolución temporal normalmente uniforme de una característica de señal (como, por ejemplo, un tono, una envolvente, una tonalidad, una ruidosidad, y así sucesivamente) puede considerarse mediante el modelo de variación de dominio de la transformada. Por consiguiente, el uso de un modelo de variación de dominio de la transformada parametrizado puede servir incluso para dar fuerza (o para considerar) la uniformidad de la característica de señal estimada. Así, pueden evitarse discontinuidades de la característica de señal estimada, o de la derivada de la misma. Eligiendo el modelo de variación de dominio de la transformada por consiguiente, puede imponerse cualquier restricción típica sobre la variación modelada de las características de señal, como, por ejemplo, una limitada tasa de variación, un limitado intervalo de valores, y así sucesivamente. También, eligiendo apropiadamente el modelo de variación de dominio de la transformada, los efectos de armónicos pueden considerarse, tal que, por ejemplo, puede obtenerse una mejor confiabilidad modelando simultáneamente una evolución temporal de una frecuencia fundamental y el armónico de la misma.

Además, usando una modelación de variación en el dominio de la transformada, puede restringirse el efecto de distorsiones de señal. Con algunos tipos de distorsión (por ejemplo, una demora de señal dependiente de la frecuencia) da como resultado una severa modificación de la forma de onda de la señal, tal distorsión puede tener un impacto limitado sobre la representación en el dominio de la transformada de una señal. Como es naturalmente deseable también estimar precisamente características de señal en presencia de distorsiones, el uso del dominio de la transformada ha mostrado ser una muy buena elección.

Para resumir lo anterior, el uso de un modelo de variación de dominio de la transformada, cuyos parámetros se adaptan para dar el modelo de variación de dominio de la transformada parametrizado (o el resultado de ello) de acuerdo con una evolución temporal real de parámetros del dominio de la transformada real que describen una señal de audio de entrada, permite que las características de señal de una típica señal de audio puedan determinarse con buena precisión y confiabilidad.

Usando la invención, puede hacerse un uso muy eficaz de la información disponible en el dominio de la transformada. Se ha encontrado que una representación en el dominio de la transformada de una señal de audio (por ejemplo, una representación de dominio de la autocorrelación, una representación de dominio de la autocovarianza, una representación de dominio de la transformada de Fourier, una representación en el dominio de la transformada del coseno discreto, y así sucesivamente) se expande o se comprime uniformemente con frecuencia fundamental o tono variable. Modelando esta compresión o expansión uniforme de la representación en el dominio de la transformada, el contenido de información completa de la representación en el dominio de la transformada puede explotarse, ya que pueden emparejarse múltiples muestras de la representación en el dominio de la transformada (para diferentes valores de la variable de transformación).

Usando la invención, puede evaluarse separadamente la información acerca de una variación temporal de correspondientes parámetros del dominio de la transformada real (por ejemplo, parámetros del dominio de la transformada para retardo de autocorrelación idéntica, retardo de autocovarianza o bandeja de frecuencia de transformada de Fourier) para la información concerniente a una dependencia de la representación en el dominio de la transformada, de la variable de transformación. Subsiguientemente, la información calculada separadamente puede combinarse. Así, está disponible una manera particularmente eficiente para estimar la expansión o compresión de la representación en el dominio de la transformada, por ejemplo, comparando múltiples pares de parámetros del dominio de la transformada y teniendo en cuenta un gradiente local estimado de la variación dependiente del parámetro de transformada de la representación en el dominio de la transformada. En otras palabras, puede combinarse la pendiente local de la representación en el dominio de la transformada, en dependencia del parámetro de transformada, y el cambio temporal de la representación en el dominio de la transformada (por ejemplo, a través de ventanas subsiguientes) para estimar una magnitud de la compresión o expansión temporal de la representación en el dominio de la transformada, que a su vez es una medida de una variación de frecuencia temporal o variación de tono.

Breve descripción de las figuras

La figura 1a muestra un diagrama de bloques esquemático de un aparato para obtener un parámetro que describe una variación temporal de un característica de señal de una señal de audio;

la figura 1b muestra un diagrama de flujo de un método para obtener un parámetro que describe una variación temporal de una característica de señal de una señal de audio;

la figura 2 muestra un diagrama de flujo de un método para obtener un parámetro que describe una evolución temporal de una envolvente de señal, según una realización de la invención;

la figura 3a muestra un diagrama de flujo de un método para obtener un parámetro que describe una variación temporal de un tono, según una realización de la invención;

la figura 3b muestra un diagrama de flujo simplificado del método para obtener un parámetro que describe la evolución temporal del tono;

la figura 4 muestra un diagrama de flujo de otro método mejorado para obtener un parámetro que describe una variación temporal de un tono, según una realización de la invención;

la figura 5 muestra un diagrama de flujo de un método para obtener un parámetro que describe una variación temporal de una característica de señal de un señal de audio en un dominio de la autocovarianza;

la figura 6 muestra un diagrama de bloques esquemático de un codificador de señal de audio, según la realización de la invención; y

la figura 7 muestra un diagrama de flujo de un método general para obtener un parámetro que describe una variación de una señal.

Descripción detallada de la realización

A continuación, se describirá el concepto de modelación de variación en general para facilitar la comprensión de la presente invención. Subsiguientemente, se describirá una realización genérica según la invención haciendo referencia a las figuras 1a y 1b. Subsiguientemente, se describirán realizaciones más específicas haciendo referencia a las figuras 2 a 5. Finalmente, se describirá la aplicación del concepto de la invención para una codificación de señal de audio haciendo referencia a la figura 6, y se dará un sumario haciendo referencia a la figura 7.

Para evitar confusión, se usará la siguiente terminología:

• el término “variación” se refiere a un conjunto general de funciones que describe el cambio en características en el tiempo, y

• la derivada (parcial) d/dx se usa como una entidad matemáticamente definida con exactitud.

En otras palabras, “variación” se refiere a características de señal (en un nivel abstracto), mientras que “derivada” se usa siempre que se usa la definición matemática d/dx, por ejemplo, como las derivadas k (retardo de autocorrelación/retardo de autocovarianza) o t (tiempo) de autocorrelación/covarianza.

Cualquier otra medida del cambio será explicada en palabras, normalmente sin usar el término “variación” .

Además, subsiguientemente se describirán realizaciones según la invención para una estimación de variación temporal de señales de audio. Sin embargo, la presente invención no está restringida solo a señales de audio y solo a variaciones temporales. Más bien, realizaciones según la invención pueden aplicarse para estimar variaciones generales de señales, aunque la invención en este momento se usa principalmente para estimar variaciones temporales de señales de audio.

Modelación de variación

Visión general sobre modelación de variación

Hablando en general, realizaciones según la invención usan modelos de variación para el análisis de una señal de audio de entrada. Así, el modelo de variación se usa para proporcionar un método para estimar la variación.

Suposiciones para modelación de variación

A continuación, se discutirán algunas diferencias entre una estimación de característica de señal convencional y el concepto aplicado en las realizaciones según la presente invención.

Mientras los métodos tradicionales suponen que las características de la señal (por ejemplo, una señal de audio) son constantes (o estacionarias) en cortas ventanas de tiempo, es un enfoque primario de la presente invención suponer que la tasa (normalizada) de cambio (por ejemplo, de una característica de señal, (como un tono o una envolvente)) es constante en una corta ventana de tiempo. Por lo tanto, mientras los métodos tradicionales pueden manejar señales estacionarias así como, dentro de un modesto nivel de distorsión, señales que cambian lentamente, algunas realizaciones según la invención pueden manejar señales estacionarias, señales que cambian linealmente (o señales que cambian exponencialmente), así como, con un modesto nivel de distorsión, tales señales que cambian no linealmente donde la tasa de cambio no lineal es lenta.

Tal como se ha indicado anteriormente, uno de los enfoques primarios de la presente invención es suponer que la tasa (normalizada) de cambio es constante en una corta ventana, pero el método y el concepto presentados pueden extenderse fácilmente a un caso más general. Por ejemplo, la tasa normalizada de cambio, la variación, puede modelarse mediante cualquier función, y en tanto el modelo de variación (o dicha función) tenga menos parámetros que el número de puntos de datos, los parámetros de modelo pueden resolverse sin ambigüedad.

En las realizaciones preferidas, el modelo de variación puede, por ejemplo, describir un cambio uniforme de una característica de señal. Por ejemplo, el modelo puede basarse en la suposición de que una característica de señal (o una tasa normalizada de cambio de la misma) sigue la versión ajustada de una función elemental, o una combinación ajustada defunciones elementales (en el que las funciones elementales comprenden: xa; 1/xa; - iW ; 1/x; 1/x2; ex; ax; ln(x); loga(x); sinh x; cosh x; tanh x; coth x; arsenh x; arcosh x; artanh x; arcoth x; senx; cos x; tan x; cot x; sec x; csc x; arcsen x; arccos x; arctan x; arccot x). En algunas realizaciones, se prefiere que la función que describe la evolución temporal de la característica de señal, o de la tasa normalizada de cambio, sea estable y uniforme sobre el intervalo de interés.

Aplicabilidad en diferentes dominios

Uno de los campos principales de aplicación del concepto según la invención es análisis de características de señal donde la magnitud del cambio, la variación, es más informativa que la magnitud de esta característica. Por ejemplo, en términos de tono esto significa que realizaciones según la invención están relacionadas con aplicaciones donde uno está más interesado en el cambio en el tono, que en la magnitud del tono.

Sin embargo, si en una aplicación uno está más interesado en la magnitud de una característica de señal que en su tasa de cambio, uno todavía puede beneficiarse del concepto según la presente invención. Por ejemplo, si hay disponible información a priori acerca de características de señal, tal como el intervalo válido para la tasa de cambio, entonces la variación de señal puede usarse como información adicional para obtener contornos de tiempo exactos y robustos de la característica de señal. Por ejemplo, en términos de tono, es posible estimar el tono mediante métodos convencionales, cuadro por cuadro, y usar la variación de tono para eliminar errores de estimación, valores extremos, saltos de octava y ayudar a hacer de un contorno de tono un rastro continuo en vez de puntos aislados en el centro de cada ventana de análisis. En otras palabras, es posible combinar el parámetro de modelo, parametrizando el modelo de variación de dominio de la transformada, y describiendo la variación de una característica de señal, con uno o más valores discretos que describen un valor instantáneo de una característica de señal.

Asimismo, en una realización según la invención es un enfoque primario modelar la magnitud normalizada del cambio, ya que la magnitud de las características de señal luego se cancela explícitamente a partir de los cálculos. Generalmente, este enfoque hace más tratable las formulaciones matemáticas. Sin embargo, realizaciones según la invención no están restringidas a usar medidas normalizadas de variación, porque no hay razón inherente por la que uno debería restringir el concepto de medidas normalizadas de variación.

Modelo de variación matemática

A continuación, se describirá un modelo de variación matemática que puede aplicarse en algunas realizaciones según la invención. Sin embargo, naturalmente también pueden usarse otros modelos de variación.

Considere una señal con una propiedad tal como tono, que varía con el tiempo y denótela mediante p(t). El cambio en 3_

el tono es su derivada dt y para cancelar el efecto de la magnitud de tono, normalizamos el cambio con p_1(f) y definimos

f )

c-(t) =P (t)^PÍt). (1)

Llamamos a esta medida c(t) la variación de tono normalizado, o simplemente variación de tono, ya que una medida no normalizada de la variación de tono no es significativa en el presente ejemplo.

La longitud de período T(t) de una señal es inversamente proporcional al tono, T(t)=p-1(t), con lo cual podemos obtener fácilmente

Suponiendo que la variación de tono es constante en un intervalo pequeño de t, c(t) = c, la ecuación diferencial parcial de la ecuación 1 puede resolverse fácilmente con lo cual se obtiene

y

T(t) = T0e~ct

donde po y To significan, respectivamente, el tono y la longitud de período en el tiempo t - 0.

Mientras T(t) es la longitud de período en el tiempo t, nos percatamos de que toda característica temporal sigue la misma fórmula. En particular, para el retardo R(k,t) de autocorrelación k en el tiempo t, las características temporales en el dominio k siguen esta fórmula. En otras palabras, una característica de la autocorrelación que aparece en el retardo ko en t = 0, se cambiará como una función de t como

De manera similar, tenemos

En la ecuación 2, consideramos solo variaciones que pueden suponerse constantes en un corto intervalo. Sin embargo, si se desea, podemos usar modelos de orden superior permitiendo que la variación siga alguna forma funcional en un corto intervalo de tiempo. Las polinomiales son de especial interés en este caso ya que la ecuación diferencial resultante puede resolverse fácilmente. Por ejemplo, si definimos la variación para seguir la forma polinomial

entonces

Obsérvese que ahora, la constante po que aparece en la ecuación 2 ha sido asimilada en la exponencial sin pérdida de generalidad, para hacer más clara la presentación.

Esta forma demuestra cómo el modelo de variación puede extenderse fácilmente a casos más complicados. Sin embargo, a menos que se exprese otra cosa, en este documento se considerará solo el caso de primer orden (variación constante), para retener comprensibilidad y accesibilidad. Los expertos en la técnica pueden extender fácilmente los métodos a casos de orden superior.

El mismo enfoque usado aquí para modelación de variación de tono puede usarse sin modificación también para otras medidas para las cuales la derivada normalizada es un dominio bien garantizado. Por ejemplo, la envolvente temporal de una señal, que corresponde a la energía instantánea de la transformada de Hilbert de la señal, es una medida de este tipo. Con frecuencia, la magnitud de la envolvente temporal es de menos importancia que el valor relativo, es decir, la variación temporal de la envolvente. En codificación de audio, el modelado de la envolvente temporal es útil para disminuir la propagación de ruido temporal y usualmente se logra mediante un método conocido como Conformación de Ruido Temporal (CRT), donde la envolvente temporal es modelada mediante un modelo predictivo lineal en el dominio de la frecuencia (véase, por ejemplo, la referencia [4]). La presente invención proporciona una alternativa a CRT para modelar y estimar la envolvente temporal.

Si denotamos la envolvente temporal mediante a(t), entonces, la variación de envolvente (normalizada) h(t) es

y, correspondientemente, la solución de la ecuación diferencial parcial es

Obsérvese que la forma anterior implica que en el dominio logarítmico, la amplitud es una polinomial simple. Esto es conveniente ya que las amplitudes con frecuencia son expresadas en escala decibelimétrica (dB).

Realización genérica de un aparato para obtener un parámetro que describe una variación temporal de una característica de señal

La figura 1 muestra un diagrama de bloques esquemático de un aparato para obtener un parámetro que describe una variación temporal de una característica de señal de una señal de audio sobre la base de parámetros del dominio de la transformada real (por ejemplo, valores de autocorrelación, valores de autocovarianza, coeficientes de Fourier, y así sucesivamente) que describen la señal de audio en un dominio de la transformada. El aparato mostrado en la figura 1a está designado en conjunto con 100. El aparato 100 está configurado para obtener (por ejemplo, recibir o computar) parámetros del dominio de la transformada real 120 que describen la señal de audio en un dominio de la transformada. También el aparato 100 está configurado para proporcionar uno o más parámetros de modelo 140 de un modelo de variación de dominio de la transformada que describe una evolución temporal de parámetros del dominio de la transformada en dependencia de uno o más parámetros de modelo. El aparato 100 comprende un transformador opcional 110 configurado para proporcionar los parámetros del dominio de la transformada real 120 sobre la base de una representación en el dominio del tiempo 118 de la señal de audio, tal que los parámetros del dominio de la transformada real 120 describen la señal de audio en un dominio de la transformada. Sin embargo, el aparato 100 alternativamente puede configurarse para recibir los parámetros del dominio de la transformada real 120 desde una fuente externa de parámetros del dominio de la transformada.

El aparato 100 comprende, además, un determinador de parámetro 130, en el que el determinador de parámetro 130 está configurado para determinar uno o más parámetros de modelo del modelo de variación de dominio de la transformada, tal que un error de modelo, que representa una desviación entre una evolución temporal modelada de los parámetros del dominio de la transformada y una evolución temporal real de los parámetros del dominio de la transformada real, es llevado por debajo de un valor umbral predeterminado o minimizado. Así, el modelo de variación de dominio de la transformada, que describe una evolución temporal de parámetros del dominio de la transformada en dependencia de uno o más parámetros de modelo que representan una característica de señal, se adapta (o ajusta) a la señal de audio, representado por los parámetros del dominio de la transformada real. Así, se logra eficazmente que una variación modelada de los parámetros del dominio de la transformada de señal de audio descritos, implícita o explícitamente, por el modelo de variación de dominio de la transformada, aproxime (dentro de un intervalo de tolerancia predeterminado) la variación real de los parámetros del dominio de la transformada.

Muchos conceptos de implementación diferentes están disponibles para el determinador de parámetro. Por ejemplo, el determinador de parámetro puede comprender, por ejemplo, almacenado en el mismo (o en un soporte de datos externo) ecuaciones de cálculo de parámetro de modelo de variación 130a que describen parámetros del dominio de la transformada de mapeo sobre parámetros de modelo de variación. En este caso, el determinador de parámetro 130 también puede comprender un calculador de parámetro de modelo de variación 130b (por ejemplo, un ordenador programable o un procesador de señal o un FPGA), que puede estar configurado, por ejemplo, hardware o software, para evaluar las ecuaciones de cálculo de parámetro de modelo de variación 130a. Por ejemplo, el calculador de parámetro de modelo de variación 130b puede estar configurado para recibir una pluralidad de parámetros del dominio de la transformada real que describen la señal de audio en un dominio de la transformada y para computar, usando las ecuaciones de cálculo de parámetro de modelo de variación 130a, el uno o más parámetros de modelo 140. Las ecuaciones de cálculo de parámetro de modelo de variación 130a pueden describir, por ejemplo, en forma explícita un mapeo de los parámetros del dominio de la transformada real 120 sobre el uno más parámetros de modelo 140.

Alternativamente, el determinador de parámetro 130 puede realizar, por ejemplo, una optimización iterativa. Para este propósito, el determinador de parámetro 130 puede comprender una representación 130c del modelo de variación de dominio del tiempo, que permite, por ejemplo, una computación de un conjunto subsiguiente de parámetros del dominio de la transformada estimados sobre la base de un conjunto previo de parámetros del dominio de la transformada (que representan la señal de audio), tener en cuenta un parámetro de modelo que describe la evolución temporal supuesta. En este caso, el determinador de parámetro 130 también puede comprender un optimizador de parámetro de modelo 130d, en el que el optimizador de parámetro de modelo 130d puede estar configurado para modificar el uno o más parámetros de modelo del modelo de variación de dominio del tiempo 130c, hasta que el conjunto de parámetros del dominio de la transformada estimados obtenido mediante el modelo de variación de dominio del tiempo parametrizado 130c, usando un conjunto previo de parámetros del dominio de la transformada real, está en concordancia suficientemente buena (por ejemplo, dentro de un umbral de diferencia predeterminado) con los parámetros del dominio de la transformada real actual.

Sin embargo, naturalmente, hay muchos otros métodos para determinar el uno o más parámetros de modelo 140 sobre la base de los parámetros del dominio de la transformada real, porque hay diferentes formulaciones matemáticas de la solución para el problema general para determinar parámetros de modelo tal que el resultado del modelado aproxime los parámetros del dominio de la transformada real (y/o su evolución temporal).

En vista de la discusión anterior, la funcionalidad del aparato 100 puede explicarse haciendo referencia a la figura 1b, que muestra un diagrama de flujo de un método 150 para obtener el parámetro 140 que describe una variación temporal de una característica de señal de una señal de audio. El método 150 comprende una etapa opcional 160 de computar los parámetros del dominio de la transformada real 120 que describen la señal de audio en un dominio de la transformada. El método 150 también comprende una etapa 170 de determinar el uno o más parámetros de modelo 140 de un modelo de variación de dominio de la transformada que describe una evolución temporal de parámetros del dominio de la transformada en dependencia de uno o más parámetros de modelo que representan una característica de señal, tal que un error de modelo, que representa una desviación entre una evolución temporal modelada y los parámetros del dominio de la transformada real, es llevado por debajo de un valor umbral predeterminado o minimizado.

A continuación, se describirán algunas realizaciones según la invención en más detalle para explicar en más detalle el concepto de la invención.

Estimación de variación en el dominio de la autocorrelación

En el presente contexto, la autocorrelación de la señal Xn está definida como

Tk — E \X n $ n k ]

y está estimada por

donde suponemos que Xn es no nulo solo en el intervalo [1,N]. Obsérvese que la estimación converge al valor verdadero cuando N tiende a infinito. Asimismo, generalmente puede aplicarse alguna clase de ventaneo a Xn antes de la estimación de la autocorrelación para dar fuerza a la suposición de que es cero fuera del intervalo [1, N].

Estimación de variación en el dominio de la autocorrelación - Variación de tono

En una realización, nuestro objetivo es estimar la variación de señal, es decir, en el caso de variación de tono, estimar cuánto se estira o se contrae la autocorrelación en función del tiempo. En otras palabras, nuestro objetivo es determinar dk

la derivada temporal del retardo de autocorrelación k, que se denota como st ‘ En interés de claridad, ahora usamos la forma corta k en lugar de k(t) y suponemos que la dependencia de t está implícita.

A partir de la ecuación 4 obtenemos

Un problema convencional, que es superado en algunas realizaciones según la invención, es que la derivada temporal de k no está disponible y se dificulta una estimación directa. Sin embargo, se ha reconocido que puede usarse la regla de la cadena de las derivadas para obtener

Se ha encontrado que, usando una estimación de c, entonces podemos, usando series de Taylor de primer orden, modelar la autocorrelación en el tiempo Í2 usando la autocorrelación en el tiempo ti y la derivada temporal

En una aplicación práctica la derivada dkR^ puede estimarse, por ejemplo, mediante la estimación de segundo orden

Esta estimación es preferida sobre la diferencia de primer orden R(k 1) - R(k) ya que la estimación de segundo orden no padece de cambio de fase de media muestra como la estimación de primer orden. Para mejor exactitud o eficiencia computacional, pueden usarse estimaciones alternativas, tales como segmentos ventaneados de la derivada de la función sinc.

Usando el criterio de error cuadrático medio obtenemos el problema de optimización

N ^ 2

^{n i i n y ;} \jt{k.t-2) - R(k, t2)

' fc=i

cuya solución puede obtenerse fácilmente como

Las mismas derivaciones valen también cuando la variación de tono es estimada a partir de ventanas de autocovarianza consecutivas en lugar de la autocorrelación. Sin embargo, en comparación con la autocorrelación, la autocovarianza contiene información adicional, cuyo uso se describe en la sección titulada “Modelación en el dominio de la autocovarianza”.

Estimación de variación en el dominio de la autocorrelación - Envolvente temporal

Tal como se describirá a continuación, también puede estimarse una evolución temporal de la envolvente en el dominio de la autocorrelación.

A continuación, se ofrece una breve visión general de la determinación de la variación de envolvente temporal haciendo referencia a la figura 2. Subsiguientemente se describirá en detalle un posible algoritmo, según una realización de la invención.

La figura 2 muestra un diagrama de flujo de un método para obtener un parámetro que describe una variación temporal de una envolvente de la señal de audio. El método mostrado en la figura 2 está designado en conjunto con 200. El método 200 comprende determinar 210 valores de energía de corto tiempo para una pluralidad de intervalos de tiempo consecutivos. Determinar los valores de energía de corto tiempo puede comprender, por ejemplo, determinar valores de autocorrelación en un retardo predeterminado común (por ejemplo, retardo 0) para una pluralidad de ventanas de autocorrelación consecutivas (que se superponen temporalmente o que no se superponen temporalmente), para obtener los valores de energía de corto tiempo. Una etapa 220 comprende, además, determinar parámetros de modelo apropiados. Por ejemplo, la etapa 220 puede comprender determinar coeficientes de polinomial de una función polinomial del tiempo, tal que la función polinomial aproxima una evolución temporal de los valores de energía de corto tiempo. A continuación, se describirá un algoritmo a modo de ejemplo para determinar los coeficientes de polinomial. Por ejemplo, la etapa 220 puede comprender una etapa 220a de montar una matriz (por ejemplo, designada con V) que comprende secuencias de potencias de valores de tiempo asociadas con intervalos de tiempo consecutivos (intervalos de tiempo que empiezan o están centrados, por ejemplo, en los tiempos t⁰, ti, t², y así sucesivamente). La etapa 220 también puede comprender la etapa 220b de montar un vector objetivo (por ejemplo, designado con r) cuyas componentes describen los valores de energía de corto tiempo para los intervalos de tiempo consecutivos.

Además, la etapa 220 puede comprender una etapa 220c de resolver un sistema lineal de ecuaciones (por ejemplo, de la forma r = Vh) definido por la matriz (por ejemplo, designada con V) y por el vector objetivo (por ejemplo, designado con r), para obtener una solución de coeficientes de polinomial (por ejemplo, descrita mediante el vector h).

A continuación, se explicarán detalles adicionales con respecto a este procedimiento.

En el dominio de la autocorrelación, el modelado de la envolvente temporal es directo. Podemos probar que la autocorrelación a retardo cero corresponde al promedio del cuadrado de la amplitud. Asimismo, la autocorrelación en todos los otros retardos es ajustada por el promedio del cuadrado de la amplitud. En otras palabras, la misma información está disponible en todos y cada uno de los retardos, con lo cual es suficiente considerar la autocorrelación solo en retardo cero.

Como el modelo de primer orden de la variación de envolvente es trivial, se usa un modelo de orden superior en una realización preferida. Esto también sirve como un ejemplo de cómo proceder con modelos de orden superior, también en el caso de estimación de variación de tono.

Considere un modelo polinomial de M-ésimo orden para la variación de envolvente según la ecuación 5. Entonces podemos tener M 1 incógnitas y así se prefiere usar al menos M 1 ecuaciones para una solución. En otras palabras, se prefiere usar al menos M 1 ventanas de autocorrelación consecutivas (designadas, por ejemplo, mediante tiempo central de ventana de autocorrelación o tiempo de inicio de ventana de autocorrelación th, R(k,th), h e [0,N] y N > M). Entonces, se obtiene el valor de a(t) (que describe, por ejemplo, una potencia promedio de corto tiempo o amplitud promedio de corto tiempo, por ejemplo, en un ajuste lineal o no lineal) en N 1 tiempos diferentes t = th (o para N 1 intervalos de tiempo diferentes que se superponen o no se superponen), es decir, a(th) = R(0,th)1/2 y

Como a(t) es una polinomial (más precisamente: es aproximada por una polinomial), este es el problema clásico de resolver los coeficientes de una polinomial, para lo cual existen numerosos métodos en la bibliografía.

Una alternativa básica para solución es usar una matriz de Vandermonde como sigue.

La matriz de Vandermonde V se define, por ejemplo, como

y puede computarse, por ejemplo, en la etapa 220a. Un vector objetivo r y un vector solución h pueden definirse como

El vector objetivo puede computarse, por ejemplo, en la etapa 220b.

Entonces

r = Vh.

Como los th son distintos y si M = N, entonces existe la inversa V-1 y obtenemos

h = V -1r _r

por ejemplo, en la etapa 220c.

Si M > N, entonces la pseudo-inversa produce la respuesta. Sin embargo, si N y M son grandes, entonces pueden emplearse métodos más refinados conocidos en la técnica para una solución eficiente.

Estimación de variación en el dominio de la autocorrelación - Análisis de sesgo

Mientras el análisis presentado anteriormente estima variación de medidas, hay una etapa donde la suposición de localmente estacionario no es superada en algunas realizaciones. A saber, la estimación de la autocorrelación mediante medios convencionales (por ejemplo, usando una ventana de autocorrelación de longitud finita) hace la suposición de que la señal debe ser localmente estacionaria. A continuación, se mostrará que la variación de señal no introduce sesgo a la estimación, tal que el método puede considerarse como suficientemente exacto.

Para analizar sesgo de la autocorrelación, suponga que la variación de tono es constante en este intervalo de tiempo. Asimismo, suponga que en to tenemos una señal x(t) con longitud de período T(t0)=T0, entonces en un segundo punto ti tiene una longitud de período T(t1)=T0 exp(-c(t1-t0)). La longitud de período promedio sobre el intervalo [to,ti] es

Observe que la última parte de la expresión anterior es una función “sinc hiperbólica”, que será denotada por

Entonces para una ventana de longitud At^ven= fr-fo tenemos

T ^{rr-, m - c —} 2 ^P*- sm ^• ch ^\

^{a í}™ = T0e c

⁽9 ⁾

Por analogía entre T y k, esta expresión también cuantifica cuánto se estira una estimación de autocorrelación debido a variación de señal. Sin embargo, si se aplica ventaneo antes de la estimación de autocorrelación, se reduce el sesgo debido a variación de señal, ya que la estimación entonces se concentra alrededor del punto medio de la ventana de análisis.

Cuando se estima c a partir de dos cuadros de autocorrelación sesgados consecutivos los valores de k para cada cuadro son sesgados y siguen las siguientes fórmulas

í k( i i ) = fcoe'cílsiiich(cAtVen /2)

[fc(fe) = sinch(c A tvcn /2)

donde fi y fc son los puntos medios de cada uno de los cuadros.

El parámetro c puede resolverse definiendo ü= 0 y la distancia entre ventanas At^etapa=f2-ti con lo cual

Infc(ti) - h ik (t‘2.)

A i- etapa

donde observamos que todas instancias de At^ven se han cancelado entre sí. En otras palabras, aunque la variación de señal sesga la estimación de autocorrelación, la estimación de variación extraída de dos autocorrelaciones está no sesgada.

Sin embargo, mientras la variación de señal no sesga la estimación de variación, no pueden evitarse errores de estimación debidos a ventanas de análisis manifiestamente cortas. La estimación de la autocorrelación a partir de una ventana de análisis corta es propensa a errores, ya que depende de la ubicación de la ventana de análisis con respecto a la fase de señal. Ventanas de análisis más largas reducen este tipo de errores de estimación pero para retener la suposición de variación localmente constante, se tiene perseguir un compromiso. Una elección generalmente aceptada en la técnica es tener una longitud de ventana de análisis al menos del doble de la longitud de período más baja esperada. No obstante, pueden usarse ventanas de análisis más cortas si es aceptable un error aumentado.

En términos de variación de envolvente temporal, los resultados son similares. Para un modelo de primer orden, la estimación para variación de envolvente es no sesgada. Asimismo, exactamente la misma lógica puede aplicarse a las estimaciones de autocovarianza, con lo cual el mismo resultado vale para la autocovarianza.

Estimación de variación en el dominio de la autocorrelación - Aplicación

A continuación, se describirá una posible aplicación de la presente invención para la estimación de una variación de tono. En primer lugar, se delineará el concepto general haciendo referencia a la figura 3, que muestra un diagrama de flujo de un método 300 para obtener un parámetro que describe una variación temporal de un tono de una señal de audio, según una realización de la invención. Subsiguientemente, se darán detalles de implementación de dicho método 300.

El método 300 mostrado en la figura 3 comprende, como una primera etapa opcional, realizar 310 un pre procesamiento de señal de audio de una señal de audio de entrada. El pre-procesamiento de audio puede comprender, por ejemplo, un pre-procesamiento que facilita una extracción de las características de señal de audio deseadas, por ejemplo, reduciendo cualquier componente de señal perjudicial. Por ejemplo, la modelación de estructura de formante descrita a continuación puede aplicarse como una etapa de pre-procesamiento de señal de audio 310.

El método 300 también comprende una etapa 320 de determinar un primer conjunto de valores de autocorrelación R (k, ti) de una señal de audio xn para un primer tiempo o intervalo de tiempo ti y para una pluralidad de diferentes valores de retardo de autocorrelación k. Para una definición de los valores de autocorrelación, se hace referencia a la descripción a continuación.

El método 300 también comprende una etapa 322 de determinar un segundo conjunto de valores de autocorrelación R (k, t2) de la señal de audio Xn para un segundo tiempo o intervalo de tiempo t²y para una pluralidad de diferentes valores de retardo de autocorrelación k. Por consiguiente, las etapas 320 y 322 del método 300 pueden proporcionar pares de valores de autocorrelación, comprendiendo cada par de valores de autocorrelación dos valores (resultados) de autocorrelación asociados con diferentes intervalos de tiempo de la señal de audio pero el mismo valor de retardo de autocorrelación k. El método 300 también comprende una etapa 330 de determinar una derivada parcial de la autocorrelación con respecto al retardo de autocorrelación, por ejemplo, para el primer intervalo de tiempo que empieza en ti o para el segundo intervalo de tiempo que empieza en t2. Alternativamente, la derivada parcial con respecto al retardo de autocorrelación también puede computarse para una instancia diferente en el tiempo o intervalo de tiempo que yace o se extiende entre el tiempo ti y el tiempo t2.

Por consiguiente, puede determinarse la variación de la autocorrelación R(k, t) con respecto al retardo de autocorrelación para una pluralidad de los diferentes valores de retardo de autocorrelación k, por ejemplo, para aquellos valores de retardo de autocorrelación para los cuales el primer conjunto de valores de autocorrelación y el segundo conjunto de valores de autocorrelación son determinados en las etapas 320, 322.

Naturalmente, no hay orden temporal fijo con respecto a la ejecución de las etapas 320, 322, 330, tal que las etapas pueden ejecutarse parcial o completamente en paralelo, o en un orden diferente.

El método 300 también comprende una etapa 340 de determinar uno o más parámetros de modelo de un modelo de variación usando el primer conjunto de valores de autocorrelación, el segundo conjunto de valores de autocorrelación

— R(k,t)

y la derivada parcial de la autocorrelación ok. con respecto al retardo de autocorrelación.

Cuando se determina el uno o más parámetros de modelo, puede tenerse en cuenta una variación temporal entre valores de autocorrelación de un par de valores de autocorrelación (tal como se describió anteriormente). La diferencia entre los dos valores de autocorrelación del par de valores de autocorrelación puede ponderarse, por ejemplo, en (J -R(k,k) ) .

dependencia de la variación de la autocorrelación con respecto al retardo ok . En la ponderación de una diferencia entre dos valores de autocorrelación de un par de valores de autocorrelación, el valor de retardo de autocorrelación k (asociado con el par de valores de autocorrelación) también puede considerarse como un factor de ponderación. Por consiguiente, puede usarse un término de suma de la forma

[R{k,h l) - R(k,h)}k^R(k,h)

para la determinación del uno o más parámetros de modelo, en el que dicho término de suma puede asociarse a un valor de retardo de autocorrelación k dado y en el que el término de suma comprende un producto de una diferencia entre dos valores de autocorrelación de un par de valores de autocorrelación de la forma

ñ(fc, h + 1) — R(k, fl

y un factor de ponderación dependiente del retardo, por ejemplo, de la forma

k § - : R ( k , h ) ^

El factor de ponderación dependiente del retardo de autocorrelación permite una consideración del hecho de que la autocorrelación se extiende más intensivamente para valores de retardo de autocorrelación más grandes que para valores de retardo de autocorrelación pequeños, porque el factor de valor de retardo de autocorrelación k está incluido. Además, la incorporación de la variación del valor de autocorrelación con respecto al retardo hace posible estimar la expansión o compresión de la función de autocorrelación sobre la base de pares locales (igual retardo de autocorrelación) de valores de autocorrelación. Así, la expansión o compresión de la función de autocorrelación (con respecto al retardo) puede estimarse sin realizar un ajuste de patrón y funcionalidad de emparejado. En cambio, los términos de suma individuales se basan en contribuciones locales (valor de retardo individual k) R(/c,ft+1), R(k,h),

t7R{Kh).

ok

No obstante, para obtener una gran cantidad de información a partir de la función de autocorrelación, pueden combinarse términos de suma asociados con diferentes valores de retardo k, en el que los términos de suma individuales todavía son términos de suma de valor de retardo individual.

Además, puede realizarse la normalización cuando se determinan los parámetros de modelo del modelo de variación, en el que el factor de normalización puede tomar, por ejemplo, la forma

¿ W E Í L i fc2 [&*(*, A)]2

y puede comprender, por ejemplo, una suma de términos de valor de retardo de autocorrelación individual.

En otras palabras, la determinación del uno o más parámetros de modelo puede comprender una comparación (por ejemplo, formación de diferencia o sustracción) de valores de autocorrelación para un valor de retardo de autocorrelación común dado pero para diferentes intervalos de tiempo y, para la computación de la variación del valor de autocorrelación con respecto al retardo (derivada de la autocorrelación con respecto a k), una comparación de valores de autocorrelación para un intervalo de tiempo común dado pero para diferentes valores de retardo de autocorrelación. Sin embargo, se evita una comparación (o sustracción) de valores de autocorrelación para diferentes intervalos de tiempo y para diferentes valores de retardo de autocorrelación, que conllevaría un considerable esfuerzo. El método 300 puede comprender, además, opcionalmente, una etapa 350 de computar un contorno de parámetro, tal como un contorno de tono temporal, sobre la base del uno o más parámetros de modelo determinados en la etapa 340.

A continuación, se explicará en detalle una posible implementación del concepto descrito con referencia a la figura 3a.

Como aplicación concreta de la presente innovación, a continuación demostraremos una realización de un método de estimar variación de tono a partir de una señal temporal en el dominio de la autocorrelación. El método (360), que está representado esquemáticamente en la figura 3b, comprende (o consiste en) las siguientes etapas:

1. Estimar (320, 322, 370) la autocorrelación R (k, h) de xn para ventana h y h+1 (por ejemplo, ventaneado por la función de ventaneo wn) de longitud Atan, separado por At^etapa.

n = 1

2. Estimar (330, 374) derivada de autocorrelación con respecto a k para ventana (o “cuadro”) h, por ejemplo, mediante

3. Estimar (340, 378) variación de tono Ch entre ventanas o cuadros h y h+1 usando (de la ec.8)

, h. ±^{b - ;‘)i *&*(*.ft>}

Si se desea un contorno de tono (opcionalmente normalizado) en lugar de solo la medida de variación de tono Ch, debe agregarse una etapa adicional:

1

4. Dejar que el punto medio de la ventana o cuadro h sea th. Entonces el contorno de tono entre ventanas o cuadros h y h+1 es

p(t) = p(th)eCht p a r a t £ [th,th+1]

donde p (th) se adquiere del par previo de cuadros o estimaciones reales de la magnitud de tono. Si no hay disponible mediciones de la magnitud de tono, podemos fijar p (0) a un valor inicial elegido arbitrariamente, por ejemplo, p (0) =

1, y calcular un contorno de tono iterativamente para todas las ventanas consecutivas.

Puede usarse un número de etapas de pre-procesamiento (310) conocidas en la técnica para mejorar la exactitud de la estimación. Por ejemplo, las señales de voz generalmente tienen una frecuencia fundamental en el intervalo de 80 a 400 Hz y si se desea estimar el cambio en el tono, es beneficioso intercalar un filtro de paso de banda para la señal de entrada, por ejemplo, en el intervalo de 80 a 1000 Hz de modo que se retenga la fundamental y unos pocos primeros armónicos, pero se atenúen componentes de alta frecuencia que podrían degradar la calidad especialmente de las estimaciones de las derivadas y por ende también la estimación total.

Anteriormente, el método se aplica en el dominio de la autocorrelación pero el método puede implementarse opcionalmente, cambiando lo que se deba cambiar, en otros dominios tales como el dominio de la autocovarianza. De manera similar, anteriormente, el método se presenta para aplicación a estimación de variación de tono, pero el mismo enfoque puede usarse para estimar variaciones en otras características de la señal tales como la magnitud de la envolvente temporal. Asimismo, el/los parámetro(s) de variación pueden estimarse a partir de más de dos ventanas para mayor exactitud o, cuando la formulación de modelo de variación requiere grados adicionales de libertad. La forma general del método presentado está representada en la figura 7.

Si hay disponible información adicional con relación a las propiedades de la señal de entrada, opcionalmente pueden usarse umbrales para quitar estimaciones de variación no factibles. Por ejemplo, el tono (o la variación de tono) de una señal de voz raramente excede 15 octavas/segundo, con lo cual cualquier estimación que exceda este valor normalmente o bien no es voz o bien es un error de estimación, y puede ignorarse. De manera similar, el mínimo error de modelación de la ec.7 puede usarse opcionalmente como indicador de la calidad de la estimación. Particularmente, es posible fijar un umbral para el error de modelación tal que se ignora una estimación basada en un modelo con error de modelación grande, ya que el cambio exhibido en el modelo no está bien descrito mediante el modelo y la propia estimación no es confiable.

Estimación de variación en el dominio de la autocorrelación - Modelación de estructura de formante

A continuación, se describirá un concepto para un pre-procesamiento de señal de audio, que puede usarse para mejorar la estimación de las características (por ejemplo, de la variación de tono) de la señal de audio.

En procesamiento de voz, la estructura de formante generalmente se modela mediante modelos predictivos lineales

(LP) (véase la referencia [6]) y sus derivadas, tales como predicción lineal deformada (WLP) (véase la referencia [5]) o respuesta sin distorsión de varianza mínima (MVDR) (véase la referencia [9]). Asimismo, mientras la voz es constantemente cambiante, el modelo de formante usualmente se interpola en el dominio del Par Espectral de Línea (LSP) (véase la referencia [7]) o de manera equivalente, en el dominio del Par Espectral de Inmitancia (ISP) (véase la referencia [1]), para obtener transiciones uniformes entre ventanas de análisis.

Para modelación LP de formantes, sin embargo, la variación normalizada no es de interés primario, ya que normalizar el modelo LP no trae ventajas relevantes en algunos casos. Específicamente, en procesamiento de voz, la localización de los formantes usualmente es información más importante e interesante que el cambio en sus localizaciones. Por lo tanto, mientras es posible formular modelos de variación normalizada para formantes también, nosotros nos enfocaremos en el tema más interesante de cancelar el efecto de formantes.

En otras palabras, la inclusión de un modelo para cambios en formantes puede usarse para mejorar la exactitud de la estimación de variación de tono y otras características. Es decir, cancelando el efecto de cambios en la estructura de formante de la señal antes de la estimación de la variación de tono, es posible reducir la posibilidad de que un cambio en estructura de formante sea interpretado como un cambio en el tono. Tanto la localización como el tono de formante pueden cambiar con hasta aproximadamente 15 octavas por segundo, lo cual significa que los cambios pueden ser muy rápidos, varían aproximadamente en el mismo intervalo y sus contribuciones podrían confundirse fácilmente.

Para cancelar opcionalmente el efecto de estructura de formante, primero estimamos un modelo LP para cada cuadro, quitamos estructura de formante filtrando y usamos los datos filtrados para la estimación de variación de tono. Para estimación de variación de tono, es importante que la autocorrelación tenga un carácter de paso bajo y por lo tanto es útil para estimar el modelo LP a partir de una señal filtrada por paso alto, pero cancelar la estructura de formante solo de la señal original (es decir, sin filtrado de paso alto), con lo cual los datos filtrados tendrán un carácter de paso bajo. Tal como se conoce bien, el carácter de paso bajo hace más fácil estimar derivadas de la señal. El propio proceso de filtrado puede realizarse en el dominio del tiempo, en el dominio de la autocorrelación o en el dominio de la frecuencia, según los requisitos computacionales de la aplicación.

Específicamente, el método de pre-procesamiento para cancelar estructura de formante de la autocorrelación, puede expresarse como

1. Filtrar la señal con un filtro de paso alto fijo.

2. Estimar modelos LP para cada cuadro de la señal filtrada de paso alto.

3. Quitar la contribución de la estructura de formante filtrando la señal original con el filtro LP.

El filtro de paso alto fijo de la etapa 1, opcionalmente puede reemplazarse por un filtro adaptativo de señal, tal como un modelo LP de bajo orden estimado para cada cuadro, si se requiere un nivel más alto de exactitud. Si se usa filtrado de paso bajo como una etapa de pre-procesamiento en otra fase del algoritmo, esta etapa de filtrado de paso alto puede omitirse, siempre que el filtrado de paso bajo aparezca después de la cancelación de formante.

El método de estimación LP en la etapa 2 puede elegirse libremente según los requisitos de la aplicación. Elecciones bien garantizadas serían, por ejemplo, LP convencional (véase la referencia [6]), LP deformada (véase la referencia [5]) y MVDR (véase la referencia [9]). Deben elegirse orden de modelo y método de modo que el modelo LP no modele la frecuencia fundamental sino solo la envolvente espectral.

En la etapa 3, el filtrado de la señal con los filtros LP puede realizarse o bien sobre la base de ventana por ventana o bien sobre la señal continua original. Si se filtra la señal sin ventanear (es decir, filtrando la señal continua), es útil aplicar métodos de interpolación conocidos en la técnica, tal como LSP o ISP, para disminuir cambios repentinos de las características de señal en transiciones entre ventanas de análisis.

A continuación, se resumirá brevemente el proceso de eliminación (o reducción) de estructura de formante haciendo referencia a la figura 4. El método 400, un diagrama de flujo que se muestra en la figura 4, comprende una etapa 410 de reducir o quitar una estructura de formante de una señal de audio de entrada, para obtener una señal de audio con estructura de formante reducida. El método 400 también comprende una etapa 420 de determinar un parámetro de variación de tono sobre la base de la señal de audio de estructura de formante reducida. En general, la etapa 410 de reducir o quitar la estructura de formante comprende una sub-etapa 410a de estimar parámetros de un modelo predictivo lineal de la señal de audio de entrada sobre la base de una versión filtrada de paso alto o versión filtrada adaptativamente de señal de la señal de audio de entrada. La etapa 410 también comprende una sub-etapa 410b de filtrar una versión de banda ancha de la señal de audio de entrada sobre la base de los parámetros estimados, para obtener la señal de audio de estructura de formante reducida tal que la señal de audio de estructura de formante reducida comprende un carácter de paso bajo.

Naturalmente, el método 400 puede modificarse, tal como se describe anteriormente, por ejemplo, si la señal de audio de entrada ya está filtrada con paso bajo.

Generalmente, puede decirse que una reducción o eliminación de estructura de formante de la señal de audio de entrada puede usarse como pre-procesamiento de señal de audio en combinación con una estimación de diferentes parámetros (por ejemplo, variación de tono, variación de envolvente, y así sucesivamente) y también en combinación con un procesamiento en diferentes dominios (por ejemplo, dominio de la autocorrelación, dominio de la autocovarianza, dominio de la transformada de Fourier, y así sucesivamente).

Modelación en el dominio de la autocovarianza

Modelación en el domino de la autocovarianza: Introducción y visión general

A continuación, se describirá cómo pueden estimarse parámetros de modelo que representan una variación temporal de una señal de audio en un dominio de la autocovarianza. Tal como se mencionó anteriormente, pueden estimarse diferentes parámetros de modelo, como un parámetro de modelo de variación de tono o un parámetro de modelo de variación de envolvente.

La autocovarianza se define como

en el que xn designa muestras de la señal de audio de entrada. Obsérvese que, a diferencia de la autocorrelación, aquí no suponemos que Xn es no nula solo en el intervalo de análisis. Es decir, Xn no necesita ventanearse antes del análisis. Como la autocorrelación, para una señal estacionaria la autocovarianza converge a E[xnXn+k] cuando N ^ «.

En comparación con la autocorrelación, la autocovarianza es un dominio muy similar, pero con alguna información adicional. Específicamente, donde como en el dominio de la autocorrelación, se descarta información de fase de la señal, se retiene en la covarianza. Cuando se miran señales estacionarias, con frecuencia nosotros hallamos que la información de fase no es tan útil, pero para señales que varían rápidamente, puede ser muy útil. La diferencia subyacente viene del hecho de que para una señal estacionaria, el valor esperado es independiente del tiempo

E [X n % n k \ — E [X n % n —k]

pero para una señal no estacionaria esto no se cumple.

Suponga que en el tiempo t (o para un intervalo de tiempo que empieza en el instante t o que está centrado en el tiempo t) estimamos, para señal Xn, la autocovarianza Q(k, t). Entonces, fácilmente podemos ver que se cumple que E[Q(k, t)] = E[Q(-k, t+k)]. A continuación adaptaremos una notación donde las esperanzas (descritas por el operador E[...]) están implícitas, con lo cual Q(k, t)] = Q(-k, t+k). De manera similar, puede valer la relación Q(-k, t)] = Q(k, tk).

Aplicando la suposición de variación de envolvente temporal localmente constante, tenemos

¿?[#(£)] = ehtE[x{^)\

y de manera similar

Q(k , t )=e2MQ{k, 0).

La derivada temporal de Q(k, t) es, por lo tanto,

dQ(k,t)

= 2hQ(k, t).

dt ⁽ 10 ⁾

Usando estas relaciones ahora podemos formar una estimación de Taylor de primer orden para Q (k, t) centrada en t

Q(k, t) = Q(-k, t k) = Q{—k, t) j fc 22 L M = ( i 2hk)Q(—k, t).

Por ejemplo, el cambio de tiempo puede medirse en las mismas unidades que el retardo de autocorrelación, tal que puede valer lo siguiente:

Ahora todos los términos aparecen en el mismo punto en el tiempo t (o para el mismo intervalo de tiempo), entonces podemos definir qk =Q(k,t) y qk = Q(k,t).

Recuerde que nuestro propósito era estimar la variación de envolvente h. Como la relación anterior se mantiene para todo k, podemos, por ejemplo, minimizar el error cuadrático de modelación

N

min V [qk - c/fc]2

h L— ■

k = ~ N (H )

El mínimo puede encontrarse fácilmente como

h ..s £ L -

Aquí hemos elegido usar error cuadrático medio mínimo (MMSE) como nuestro criterio de optimización pero igualmente puede aplicarse cualquier otro criterio conocido en la técnica aquí y también en las otras realizaciones. De manera similar, hemos elegido tomar la estimación sobre todos los retardos entre k=-N y k = N, pero puede usarse una selección de índices para beneficio de la eficiencia y la exactitud computacional si se desea aquí y también en las otras realizaciones.

Obsérvese que en comparación con la autocorrelación, con la autocovarianza no necesitamos usar ventanas de análisis sucesivas, sino que podemos estimar la variación de envolvente temporal a partir de una ventana individual. Un enfoque similar puede desarrollarse fácilmente para la estimación de variación de tono a partir de una ventana de autocovarianza individual.

Asimismo, obsérvese que en comparación con la estimación de variación de tono, para estimación de envolvente no necesitamos pre-filtrar la señal con un filtro de paso bajo, ya que no se necesitan derivadas de la autocovarianza con respecto a k.

Modelación en el dominio de la autocovarianza - Aplicación

Como otro ejemplo de aplicación concreta del concepto de la presente invención, demostraremos el método de estimar variación de envolvente temporal a partir de una señal en el dominio de la autocovarianza. El método comprende (o consiste en) las siguientes etapas:

1. Estimar la autocovarianza qk de señal Xn para una ventana de longitud Atven

para ke (-N,N).

2. Encontrar la variación de envolvente temporal h calculando

Si se desea un contorno de envolvente normalizado en lugar de solo la medida de variación de envolvente h, opcionalmente debe añadirse una etapa adicional:

3. El contorno de envolvente es

Q>(t) — C h Q para ^ ^ (0? ^¿ven )

donde a0 se adquiere del cuadro previo o una estimación real de la magnitud de envolvente. Si no hay mediciones de la magnitud de envolvente disponibles, podemos fijar a0 =1 y calcular el contorno de envolvente iterativamente para todas las ventanas consecutivas.

Si hay disponible información adicional con relación a las propiedades de la señal de entrada, opcionalmente pueden usarse umbrales para quitar estimaciones de variación no factibles. Por ejemplo, el error de modelado mínimo de la ec. 11 puede usarse opcionalmente como indicador de la calidad de la estimación. Particularmente, es posible fijar un umbral para el error de modelación tal que una estimación basada en un modelo con error de modelación grande puede ignorarse, ya que el cambio exhibido en el modelo no se describe bien mediante el modelo y la propia estimación no es confiable.

Para mejorar adicionalmente la exactitud, opcionalmente es posible cancelar primera la estructura de formante de la señal de entrada (tal como se explica en la sección titulada “Estimación de variación en el dominio de la autocorrelación - Modelación de estructura de formante”). Sin embargo, obsérvese que, en términos de señales de voz, entonces obtenemos una estimación de la forma de onda de presión glotal en lugar de la señal de voz (forma de onda de presión de voz) y la envolvente temporal modela así la envolvente de la presión glotal, que puede o no ser una consecuencia deseada, dependiendo de la aplicación.

Modelación en el dominio de la autocovarianza - Estimación conjunta de variación de tono y de envolvente

De manera similar a como se estimó la variación de envolvente en la sección previa, también puede estimarse la variación de tono directamente de una ventana de autocovarianza individual. Sin embargo, en esta sección, demostraremos el problema más general de cómo estimar conjuntamente variación de tono y de envolvente a partir de una ventana de autocovarianza individual. Luego será directo para cualquiera con conocimientos de la técnica modificar el método para la estimación de variación de tono solo. Debe observarse aquí que no es necesario usar ventaneo alguno en el dominio de la autocovarianza. Por ejemplo, es suficiente computar los parámetros de autocovarianza como se detalla en la sección titulada “Modelación en el dominio de la autocovarianza - Visión general”. No obstante, la expresión “ventana de autocovarianza individual” expresa que la estimación de autocovarianza de una sola porción fija de la señal de audio puede usarse para estimar variación, en contraste con la autocorrelación, donde tienen que usarse estimaciones de autocorrelación de al menos dos porciones fijas de la señal de audio para estimar variación. El uso de una ventana de autocovarianza individual es posible ya que la autocovarianza en retardo k y -k expresa, respectivamente las etapas de autocovarianza k hacia delante y hacia atrás desde una muestra dada. En otras palabras, como las características de señal evolucionan con el tiempo, la autocovarianza hacia delante y hacia atrás de una muestra será diferente y esta diferencia en autocovarianza hacia delante y hacia atrás expresa la magnitud del cambio en las características de señal. Tal estimación no es posible en el dominio de la autocorrelación, ya que el dominio de la autocorrelación es simétrico, es decir, autocorrelaciones hacia delante y hacia atrás son idénticas. Considere una señal x(t) = a(t)f(b(t)) donde se modelan variación de amplitud y tono mediante modelos de primer orden, con lo cual a(t) = a0e^ht y b(t) = b0te^ct. La autocovarianza Q^x (k) de x(t) entonces es

Qx{k-t) = E[x{t)x{t 4^- k)) ⁼ a{t)a{t 4^- k)E[f(b{t)),f(b{t k))}\

⁼ a(t)a(t k)Qf{k,t)

donde Qf(k,t) es la autocovarianza de f(b(t)).

Usando las ecuaciones 6, 10 y 13, obtenemos la derivada temporal de Q^x(k,t) como

a & ( * , 0 (2 ₊

dt ck)hQx ₍ k, t _{) -} ck ^dQx(k,t)

dk

Sin embargo, la ecuación anterior contiene un producto ch y por ende no es una función lineal de c y h. Para facilitar una solución eficiente de parámetros, podemos suponer que |ch| es pequeño, con lo cual podemos aproximar

Como antes, podemos definir q^k= Q^x(k,t) y formar la estimación de Taylor de primer orden

El cuadrado de la diferencia entre el verdadero valor qk y la estimación de Taylor qk servirá de nuevo como nuestra función objetiva cuando se encuentran óptimos (o al menos aproximadamente óptimos) c y h. Obtenemos el problema de minimización

cuya solución puede obtenerse fácilmente como

donde

A pesar de que las fórmulas parecen ser complejas, la construcción de A y u puede realizarse usando solo operaciones para vectores de longitud 2N (retardo cero puede omitirse) y la solución de c y h puede realizarse usando la inversión de la matriz de 2 x 2 A . La complejidad computacional por ende es solo una modesta O(N) (es decir, del orden de N).

La aplicación de la estimación conjunta de la variación de tono y envolvente sigue el mismo enfoque que el presentado en la sección titulada “Modelación en el dominio de la autocovarianza - Aplicación”, pero usando la ec. 14 en la etapa 2.

Modelación en el dominio de la autocovarianza - Conceptos adicionales

A continuación, se discutirán brevemente diferentes enfoques de modelación del dominio de la autocovarianza haciendo referencia a la figura 5. La figura 5 muestra un diagrama de bloques esquemático de un método 500 para obtener un parámetro que describe una variación temporal de característica de señal de una señal de audio, según una realización de la invención. El método 500 comprende, como una etapa opcional 510, un pre-procesamiento de señal de audio. El pre-procesamiento de señal de audio en la etapa 510 puede comprender, por ejemplo, un filtrado de la señal de audio (por ejemplo, un filtrado de paso bajo) y/o una reducción/eliminación de estructura de formante, tal como se describe anteriormente. El método 500 puede comprender, además, una etapa 520 de obtener primera información de autocovarianza que describe una autocovarianza de la señal de audio para un primer intervalo de tiempo y para una pluralidad de diferentes valores de retardo de autocovarianza k. El método 500 también puede comprender una etapa 522 de obtener segunda información de autocovarianza que describe un autocovarianza de la señal de audio para un segundo intervalo de tiempo y para los diferentes valores de retardo de autocovarianza k. Además, el método 500 puede comprender una etapa 530 de evaluar, para la pluralidad de diferentes valores de retardo de autocovarianza k, una diferencia entre la primera información de autocovarianza y la segunda información de autocovarianza, para obtener una información de variación temporal.

Además, el método 500 puede comprender una etapa 540 de estimar una variación “local” (es decir, en un entorno de un respectivo valor de retardo) de la información de autocovarianza sobre el retardo para una pluralidad de diferentes valores de retardo, para obtener una “información de variación de retardo local”.

También, el método 500 puede comprender generalmente una etapa 550 de combinar la información de variación temporal y la información acerca de la variación local q ’ de la información de autocovarianza sobre el retardo (también designada “información de variación de retardo local”), para obtener el parámetro de modelo.

Cuando se combina la información de variación temporal y la información acerca de la variación local q ’ de la información de autocovarianza sobre el retardo, la información de variación temporal y/o la información acerca de la variación local q ’ de la información de autocovarianza sobre retardo pueden ajustarse según el correspondiente retardo de autocovarianza k, por ejemplo, proporcional al retardo de autocovarianza k o a una potencia del mismo.

Alternativamente, las etapas 520, 522 y 530 pueden reemplazarse por las etapas 570, 580, tal como se explicará a continuación. En la etapa 570 puede obtenerse una información de autocovarianza que describe una autocovarianza de la señal de audio para una ventana de autocovarianza individual pero para diferentes valores de retardo de autocovarianza k. Por ejemplo, puede obtenerse un valor de autocovarianza Q(k,t)=q^ky una información de autocovarianza q-^k=Q(-k,t).

Subsiguientemente, diferencias ponderadas, por ejemplo, 2k(q^k-q^-k) y/o k2(q^k-q-^k), entre valores de autocovarianza asociados con diferentes valores de retardo (por ejemplo, -k, k) pueden evaluare para una pluralidad de diferentes valores de retardo de autocovarianza k en la etapa 580. Pueden elegirse las ponderaciones (por ejemplo, 2k, k²) en dependencia de una diferencia de los valores de retardo de los respectivos valores de autocovarianza restados (por ejemplo, la diferencia en retardo entre los valores de autocovarianza q^*,q-^k:k-(-k)=2k).

Para resumir lo anterior, hay muchas maneras diferentes de obtener el uno o más parámetros de modelo deseados en el dominio de la autocovarianza. En las realizaciones preferidas, una ventana de autocovarianza individual puede ser suficiente para estimar uno o más parámetros de modelo de variación temporal. En este caso, diferencias entre valores de autocovarianza que están asociadas con diferentes valores de retardo de autocovarianza, pueden compararse (por ejemplo, restarse). Alternativamente, pueden compararse (por ejemplo, restarse) valores de autocovarianza para diferentes intervalos de tiempo pero el mismo valor de retardo de tiempo para obtener información de variación temporal. En ambos casos, puede introducirse la ponderación que tiene en cuenta la diferencia de autocovarianza o el retardo de autocovarianza, cuando se deriva el parámetro de modelo.

Modelación en otros dominios

Además de la autocorrelación y la autocovarianza, el concepto dado a conocer en el presente documento puede formularse también en otros dominios, tales como el espectro de Fourier. Cuando se aplica el método en el dominio V, puede comprender las siguientes etapas:

1. Transformar la señal de tiempo al dominio V.

2. Calcular la(s) derivada(s) temporal(es) en el dominio V, en una forma donde los parámetros de modelo de variación están presentes en forma explícita.

3. Formar la aproximación en serie de Taylor de la señal en el dominio V y minimizar su ajuste a la verdadera evolución de tiempo, para obtener los parámetros de modelo de variación.

4. (Opcional) Calcular el contorno de tiempo de variación de señal.

En una aplicación práctica, la aplicación del concepto de la invención puede comprender, por ejemplo, transformar la señal al dominio deseado y determinar los parámetros de una aproximación en serie de Taylor, tal que el modelo representado por la aproximación en serie de Taylor se ajuste para adaptarse a la evolución temporal real de la representación de señal en el dominio de la transformada.

En algunas realizaciones, el dominio de la transformada también puede ser trivial, es decir, es posible aplicar el modelo directamente en el dominio del tiempo.

Tal como se presentó en secciones previas, el/los modelo(s) de variación puede(n) ser, por ejemplo, localmente constante(s), polinomial(es) o tener otra(s) forma(s) funcional(es).

Tal como se demostró en secciones previas, la aproximación en serie de Taylor puede aplicarse a través de ventanas consecutivas, dentro de una ventana, o en combinación de dentro ventanas y a través de ventanas consecutivas. La aproximación en serie de Taylor puede ser de cualquier orden, aunque los modelos de primer orden generalmente son atractivos ya que entonces los parámetros pueden obtenerse como soluciones a ecuaciones lineales. Asimismo, también pueden usarse otros métodos de aproximación conocidos en la técnica.

Generalmente, la minimización del error cuadrático medio (MMSE) es un criterio de minimización útil, ya que entonces pueden obtenerse parámetros como soluciones a ecuaciones lineales. Pueden usarse otros criterios de minimización para mejor robustez o cuando los parámetros se interpretan mejor en otro dominio de minimización.

Aparato para codificar una señal de audio

Tal como ya se mencionó anteriormente, el concepto de la invención puede aplicarse en un aparato para codificar una señal de audio. Por ejemplo, el concepto de la invención es particularmente útil siempre que se requiere una información acerca de una variación temporal de una señal de audio en un codificador de audio (o un decodificador de audio, o cualquier otro aparato de procesamiento de audio).

La figura 6 muestra un diagrama de bloques esquemático de un codificador de audio, según la realización de la invención. El codificador de audio mostrado en la figura 6 está designado en general con 600. El codificador de audio 600 está configurado para recibir una representación 606 de una señal de audio de entrada (por ejemplo, una representación en el dominio del tiempo de una señal de audio), y para proporcionar, sobre la base de ello, una representación codificada 630 de la señal de audio de entrada. El codificador de audio 600 comprende, opcionalmente, un primer pre-procesador de audio 610 y, también opcionalmente, un segundo pre-procesador de señal de audio 612. También el codificador de audio 600 puede comprender un núcleo codificador de señal de audio 620, que puede configurarse para recibir la representación 606 de la señal de audio de entrada, o una versión pre-procesada de la misma, por ejemplo, mediante el primer pre-procesador de señal de audio 610. El núcleo codificador de señal de audio 620 se configura, además, para recibir un parámetro 622 que describe una variación temporal de una característica de señal de la señal de audio 606. También el núcleo codificador de señal de audio 620 puede configurarse para codificar la señal de audio 606 o la respectiva versión pre-procesada de la misma, según un algoritmo de codificación de señal de audio, teniendo en cuenta el parámetro 622. Por ejemplo, un algoritmo de codificación del núcleo codificador de señal de audio 620 puede ajustarse para seguir una característica que varía (descrita por el parámetro 622) de la señal de audio de entrada, o para compensar la característica que varía de la señal de audio de entrada.

Así, la codificación de señal de audio de entrada se realiza de una manera adaptativa de señal, teniendo en cuenta una variación temporal de las características de señal.

El núcleo codificador de señal de audio 620 puede optimizarse, por ejemplo, para codificar señales de audio de música (por ejemplo, usando un algoritmo de codificación en el dominio de la frecuencia). Alternativamente, el codificador de señal de audio puede optimizarse para codificación de voz y, por lo tanto, también puede considerarse como un núcleo codificador de voz. Sin embargo, el núcleo codificador de señal de audio o codificador de voz, naturalmente también puede configurarse para seguir un enfoque denominado "híbrido", exhibiendo buen rendimiento tanto para codificar señales de música como para señales de voz.

Por ejemplo, el núcleo codificador de señal de audio o núcleo codificador de voz 620 puede constituir (o comprender) un núcleo codificador de deformación en el tiempo, usando así el parámetro 622 que describe una variación temporal de una característica de señal (por ejemplo, tono) como un parámetro de deformación.

El decodificador de audio 600 puede comprender, por lo tanto, un aparato 100, como el descrito con referencia a la figura 1, cuyo aparato 100 está configurado para recibir la señal de audio de entrada 606, o un versión pre-procesada de la misma (provista por el pre-procesador de señal de audio opcional 612) y para proporcionar, sobre la base de la misma, la información de parámetro 622 que describe una variación temporal de una característica de señal (por ejemplo, tono) de la señal de audio 606.

Así, el codificador de audio 606 puede configurarse para hacer uso de cualquiera de los conceptos de la invención descritos en el presente documento para obtener el parámetro 622 sobre la base de la señal de audio de entrada 606.

Implementación informática

Dependiendo de ciertos requisitos de implementación, pueden implementarse realizaciones de la invención en hardware o en software. La implementación puede realizarse usando un medio de almacenamiento digital, por ejemplo, disco flexible, un DVD, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, teniendo señales de control electrónicamente legibles almacenadas en los mismos, que actúan conjuntamente (o son capaces de actuar conjuntamente) con un sistema informático programable de manera que se realiza el respectivo método.

Algunas realizaciones según la invención comprenden un soporte de datos que tiene señales de control electrónicamente legibles, que son capaces de actuar conjuntamente con un sistema informático programable, tal que se ejecuta uno de los métodos descritos en el presente documento.

Generalmente, pueden implementarse realizaciones de la presente invención como un producto de programa informático con un código de programa, siendo el código de programa operativo para realizar uno de los métodos cuando el producto de programa informático se ejecuta en un ordenador. El código de programa puede almacenarse, por ejemplo, en un soporte legible por máquina.

Otras realizaciones comprenden el programa informático para realizar uno de los métodos descritos en el presente documento, almacenado en un soporte legible por máquina.

En otras palabras, una realización del método de la invención es, por lo tanto, un programa informático que tiene un código de programa para realizar uno de los métodos descritos en el presente documento, cuando el programa informático se ejecuta en un ordenador.

Una realización adicional de los métodos de la invención es, por lo tanto, un soporte de datos (o medio de almacenamiento digital, o medio legible por ordenador) que comprende, grabado en el mismo, el programa informático para realizar uno de los métodos descritos en el presente documento.

Una realización adicional del método de la invención es, por lo tanto, un flujo de datos o una secuencia de señales que representan el programa informático para realizar uno de los métodos descritos en el presente documento. El flujo de datos o la secuencia de señales pueden configurarse, por ejemplo, para transferirse mediante una conexión de comunicación de datos, por ejemplo, mediante Internet.

Una realización adicional comprende un medio de procesamiento, por ejemplo, un ordenador, o un dispositivo lógico programable, configurado o adaptado para realizar uno de los métodos descritos en el presente documento.

Una realización adicional comprende un ordenador que tiene instalado en el mismo el programa informático para realizar uno de los métodos descritos en el presente documento.

En algunas realizaciones, puede usarse un dispositivo de lógica programable (por ejemplo, una matriz de puertas de campo programable) para realizar algunas o todas de las funcionalidades de los métodos descritos en el presente documento. En algunas realizaciones, una matriz de puertas de campo programable puede actuar conjuntamente con un microprocesador para realizar uno de los métodos descritos en el presente documento.

Conclusión

A continuación, se resumirá brevemente el concepto de la invención haciendo referencia a la figura 7, que muestra un diagrama de flujo de un método 700 según una realización de la invención. El método 700 comprende una etapa 710 de calcular una representación en el dominio de la transformada de una señal de entrada, por ejemplo, una señal de audio de entrada. El método 700 comprende, además, una etapa 730 de minimizar el error de modelación de un modelo que describe un efecto de la variación en el dominio. Modelar 720 el efecto de variación en el dominio de la transformada puede realizarse como parte del método 700, pero también puede realizarse como una etapa preparatoria.

Sin embargo, cuando se minimiza el error de modelación en la etapa 730, tanto la representación en el dominio de la transformada de la señal de audio de entrada como el modelo que describe el efecto de variación pueden tenerse en cuenta. El modelo que describe el efecto de variación puede usarse en una forma que describe estimaciones de una subsiguiente representación en el dominio de la transformada como una función explícita de parámetros del dominio de la transformada real previos (o posteriores, u otros), o en una forma que describe parámetros de modelo de variación óptimos (o al menos suficientemente buenos) como una función explícita de una pluralidad de parámetros del dominio de la transformada real (de una representación en el dominio de la transformada de la señal de audio de entrada).

La etapa 730 de minimizar el error de modelación da como resultado uno o más parámetros de modelo que describen una magnitud de variación.

La etapa opcional 740 de generar un contorno da como resultado una descripción de un contorno de la característica de señal de la señal (de audio) de entrada.

Para resumir, esta divulgación se refiere a una de las cuestiones más fundamentales en procesamiento de señal, a saber, ¿cuánto cambia una señal?

Según la presente divulgación, los ejemplos proporcionan un método (y un aparato) para una estimación de variación en características de señal, tal como un cambio en frecuencia fundamental o envolvente temporal. Para cambios en frecuencia, es ajeno para saltos de octava, robusto para errores en la autocorrelación (o autocovarianza) simple, pero efectivo y no sesgado.

Específicamente, los ejemplos según la presente divulgación comprenden las siguientes características:

• La variación en características de señal (por ejemplo, de la señal de audio de entrada) se modela. En términos de variación de tono o envolvente temporal, el modelo especifica cómo cambia con el tiempo la autocorrelación o la autocovarianza (u otra representación en el dominio de la transformada).

• Mientras no puede suponerse que las características de señal son localmente constantes, puede suponerse que la variación (que puede normalizarse en algunas realizaciones) en características de señal es constante o que sigue una forma funcional.

• Modelando el cambio de señal, puede modelarse su variación (= la evolución temporal de las características de señal).

• El modelo de variación de señal (por ejemplo, en representación funcional implícita o explícita) se ajusta a observaciones (por ejemplo, parámetros del dominio de la transformada real obtenidos transformando la señal de audio de entrada) minimizando el error de modelación, con lo cual los parámetros de modelo cuantifican la magnitud de variación.

• En términos de estimación de variación de tono, la variación se estima directamente de la señal, sin una etapa intermedia de estimación de tono (por ejemplo, una estimación de un valor absoluto del tono).

• Modelando la variación de tono, el efecto de la variación puede medirse a partir de cualquier retardo de la autocorrelación y no solo en múltiplos de la longitud de período, permitiendo así el uso de todos los datos disponibles y obteniendo de ese modo un alto nivel de robustez y estabilidad.

• Aunque estimar la autocorrelación o autocovarianza a partir de una señal no estacionaria introduce sesgo a las estimaciones de autocorrelación y autocovarianza, la estimación de variación en el presente trabajo permanecerá no sesgada en algunas realizaciones.

• Cuando se buscan las características reales de la señal y no solo la variación en características, el método opcionalmente proporciona un contorno exacto y continuo que puede ajustarse a estimaciones de características de señal a lo largo del contorno.

• En codificación de voz y audio, el presente método puede usarse como entrada para la MDCT deformada en el tiempo, tal que cuando se conocen cambios en el tono, su efecto puede cancelarse mediante deformación en el tiempo, antes de aplicar la MDCT. Esto reducirá la dispersión horizontal de componentes de frecuencia y mejorará por ende la compactación de energía.

• Cuando se estima a partir de la autocorrelación, pueden usarse ventanas de análisis consecutivas para obtener el cambio temporal. Cuando se estima a partir de la autocovarianza, solo se necesita una ventana individual para medir el cambio temporal, pero pueden usarse ventanas consecutivas cuando se desea.

• Estimar cambios conjuntamente tanto en tono como en envolvente temporal corresponde a análisis AM-FM de la señal.

La presente descripción da a conocer un estimador de variación de tono, en el que el modelo de variación comprende:

• Un modelo para cambio en retardo de autocorrelación.

dR

• Una estimación de derivada de retardo de autocorrelación dk

• Un modelo para relacionar (i.) la derivada temporal del retardo de autocorrelación, (ii.) la derivada temporal de la autocorrelación y (iii.) la derivada de retardo de autocorrelación.

• Una estimación en serie de Taylor de la autocorrelación.

• Una estimación de MMSE del ajuste de modelo, que produce el/los parámetro(s) de variación de tono.

Según un aspecto de esta divulgación, el estimador de variación de tono puede usarse, en combinación con transformada de coseno discreta modificada deformada en el tiempo (TW-MDCT, véase la referencia [3]) en codificación de voz y audio como entrada (o para proporcionar entrada) a la transformada de coseno discreta modificada deformada en el tiempo (TW-MDCT).

Según un aspecto de esta divulgación, el estimador de variación de señal estima variación en el dominio de la autocovarianza.

Según un aspecto, el estimador de variación de señal estima una variación en la envolvente temporal.

Según un aspecto, el estimador de variación de envolvente temporal comprende un modelo de variación, comprendiendo el modelo de variación:

• Un modelo para el efecto de variación de envolvente temporal en autocovarianza como función del retardo k. • Una estimación en serie de Taylor de autocovarianza.

• Una estimación de MMSE de ajuste de modelo, que produce el/los parámetro(s) de variación de envolvente.

Según un aspecto, el efecto de estructura de formante se cancela en el estimador de variación de señal.

Según otro aspecto, la presente descripción da a conocer el uso de estimaciones de variación de señal de algunas características de una señal como información adicional para encontrar estimaciones exactas y robustas de esa característica.

Para resumir, los aspectos de la presente divulgación usan modelos de variación para el análisis de una señal. En contraste, los métodos convencionales requieren una estimación de variación de tono como entrada para sus algoritmos, pero no proporcionan un método para estimar la variación.

Referencias

[1] Y. Bistritz y S. Peller. Immittance spectral pairs (ISP) for speech encoding. En Proc. Acou Speech Signal Processing, ICASSP-93, Mineápolis, MN, EE.UU., 27 al 30 de abril de 1993.

[2] A. de Cheveigné y H. Kawahara. YIN, a fundamental frequency estimator for speech and music. J Acoust Soc Am, 111 (4): 1917-1930, abril de 2002.

[3] B. Edler, S. Disch, R. Geiger, S. Bayer, U. Kramer, G. Fuchs, M. Neundorf, M. Multrus, G. Schuller y H. Popp. Audio processing using high-quality pitch correction. Solicitud de patente estadounidense 61/042.314, 2008.

[4] J. Herre y J.D. Johnston. Enhancing the performance of perceptual audio coders by using temporal noise shaping (TNS). En Proc AES Convention 101, Los Ángeles, CA, EE.UU., 8 al 11 de noviembre de 1996.

[5] A. Harma. Linear predictive coding with modified filter structures. IEEE Trans. Speech Audio Process., 9(8):769-777, noviembre de 2001.

[6] J. Makhoul. Linear prediction: A tutorial review. Proc. IEEE, 63(4): 561-580, abril de 1975

[7] K.K. Paliwal. Interpolation properties of linear prediction parametric representations. En Proc Eurospeech '95, Madrid, España, 18 al 21 de septiembre de 1995.

[8] L. Villemoes. Time warped modified transform coding of audio signals. Patente internacional PCT/EP2006/010246, publicada el 10 de mayo de 2007.

[9] M. Wolfel and J. McDonough. Minimum variance distortionless response spectral estimation. IEEE Signal Process Mag., 22(5) : 117-126, septiembre de 2005.

Claims

REIVINDICACIONES

Método para la codificación deformada en el tiempo de una señal de audio de entrada, comprendiendo el método:

obtener un parámetro que describe una variación temporal de una característica de señal de una señal de audio sobre la base de parámetros del dominio de la transformada real de una representación en el dominio de la transformada de la señal de audio que describe la señal de audio en un dominio de la transformada, que comprende:

determinar uno o más parámetros de modelo (140) de un modelo de variación de dominio de la transformada, describiendo el modelo de variación una evolución de parámetros del dominio de la transformada en dependencia del uno o más parámetros de modelo, de manera que un error de modelo, que representa una desviación entre una evolución temporal modelada de los parámetros del dominio de la transformada y una evolución de los parámetros del dominio de la transformada real, se lleva por debajo de un valor umbral predeterminado o se minimiza;

en el que se obtienen primera información del dominio de la transformada que comprende un primer conjunto de parámetros del dominio de la transformada y que describe la señal de audio para un primer intervalo de tiempo para una pluralidad de valores diferentes de una variable de la transformada, y segunda información del dominio de la transformada que comprende un segundo conjunto de parámetros del dominio de la transformada y que describe la señal de audio para un segundo intervalo de tiempo para los diferentes valores de la variable de la transformada como los parámetros del dominio de la transformada real;

en el que se evalúa una variación temporal entre la primera información del dominio de la transformada y la segunda información del dominio de la transformada para una pluralidad de valores diferentes de la variable de la transformada (k), para obtener información de variación temporal,

en el que se estima una variación local de la información del dominio de la transformada con respecto a la variable de la transformada para una pluralidad de valores diferentes de la variable de la transformada, para obtener una información de la variación local;

en el que la información de variación temporal y la información de la variación local se combinan, para obtener un parámetro de modelo de variación de tono;

en el que el parámetro de modelo de variación de tono se obtiene usando un modelo de variación de dominio de la transformada que comprende el parámetro de modelo de variación de tono y que representa un compresión o expansión de la representación en el dominio de la transformada de la señal de audio con respecto a la variable de la transformada (k) suponiendo una variación de tono uniforme de la señal de audio; y

en el que el parámetro de modelo de variación de tono se determina de manera que el modelo de variación de dominio de la transformada parametrizado se adapta al primer conjunto de parámetros del dominio de la transformada y el segundo conjunto de parámetros del dominio de la transformada;

en el que el parámetro de modelo de variación de tono describe una variación temporal de un tono de la señal de audio de entrada; y

realizar un muestreo de señal deformada en el tiempo de la señal de audio de entrada usando el parámetro de variación de tono para un ajuste de la deformación en el tiempo.

Método para la codificación deformada en el tiempo de una señal de audio de entrada, comprendiendo el método:

obtener un parámetro que describe una variación temporal de una característica de señal de una señal de audio sobre la base de parámetros del dominio de la transformada real de una representación en el dominio de la transformada de la señal de audio que describe la señal de audio en un dominio de la transformada, que comprende:

determinar uno o más parámetros de modelo de un modelo de variación de dominio de la transformada, describiendo el modelo de variación de dominio de la transformada una evolución de parámetros del dominio de la transformada en dependencia del uno o más parámetros de modelo (140), de manera que un error de modelo, que representa una desviación entre una evolución temporal modelada de los parámetros del dominio de la transformada y una evolución de los parámetros del dominio de la transformada real, se lleva por debajo de un valor umbral predeterminado o se minimiza;

en el que se obtiene una información de autocovarianza usada como parámetros del dominio de la transformada que describe una autocovarianza de la señal de audio para una ventana de autocovarianza individual pero para diferentes valores de retardo de autocovarianza;

en el que se evalúan diferencias ponderadas entre pares de valores de autocovarianza para una pluralidad de diferentes pares de valores de retardo de autocovarianza (-k, k),

en el que la ponderación se elige en dependencia de una diferencia (2k) de los valores de retardo de los respectivos pares de valores de retardo, y en dependencia de una variación (q'.^k) de los valores de autocovarianza con respecto a retardo,

en el que diferentes valores de diferencia ponderados se suman-combinan, para obtener un valor de combinación; y

en el que el uno o más parámetros de modelo (140), incluyendo un parámetro de modelo de variación de tono que describe una variación de tono temporal de la señal de audio de entrada, se obtienen sobre la base del valor de combinación; y

realizar un muestreo de señal deformada en el tiempo de la señal de audio de entrada usando el parámetro de variación de tono para un ajuste de la deformación en el tiempo.

Programa informático para realizar el método según la reivindicación 1 o la reivindicación 2, cuando el programa informático se ejecuta en un ordenador.

Codificador de audio deformado en el tiempo para la codificación deformada en el tiempo de una señal de audio de entrada, comprendiendo el codificador de audio deformado en el tiempo:

un aparato (100) para obtener un parámetro que describe una variación temporal de una característica de señal de una señal de audio, sobre la base de parámetros del dominio de la transformada real (120) de una representación en el dominio de la transformada de la señal de audio que describe la señal de audio en un dominio de la transformada, comprendiendo el aparato:

un determinador de parámetro (130) configurado para determinar uno o más parámetros de modelo (140) de un modelo de variación de dominio de la transformada (130a; 130c), describiendo el modelo de variación una evolución de parámetros del dominio de la transformada en dependencia del uno o más parámetros de modelo (140), de manera que un error de modelo, que representa una desviación entre una evolución modelada de los parámetros del dominio de la transformada y una evolución de los parámetros del dominio de la transformada real, se lleva por debajo de un valor umbral predeterminado o se minimiza;

en el que el aparato (100) está configurado para obtener, como los parámetros del dominio de la transformada real, primera información del dominio de la transformada (R(k,h)) que comprende un primer conjunto de parámetros del dominio de la transformada y describe la señal de audio para un primer intervalo de tiempo para una pluralidad de valores diferentes de la variable de la transformada (k), y segunda información del dominio de la transformada (R(k,h+1)) que comprende un segundo conjunto de parámetros del dominio de la transformada y describe la señal de audio para un segundo intervalo de tiempo para los diferentes valores de la variable de la transformada (k);

en el que el determinador de parámetro (130) está configurado para evaluar, para una pluralidad de valores diferentes de la variable de la transformada (k), una variación temporal entre la primera información del dominio de la transformada y la segunda información del dominio de la transformada, para obtener información de variación temporal,

para estimar una variación local de la información del dominio de la transformada con respecto a la variable de la transformada para una pluralidad de valores diferentes de la variable de la transformada, para obtener una información de la variación local, y

para combinar la información de variación temporal y la información de la variación local, para obtener un parámetro de modelo de variación de tono (140);

en el que el determinador de parámetro (130) está configurado para obtener el parámetro de modelo de variación de tono usando un modelo de variación de dominio de la transformada que comprende el parámetro de modelo de variación de tono y que representa un compresión o expansión de la representación en el dominio de la transformada de la señal de audio con respecto a la variable de la transformada (k) suponiendo una variación de tono uniforme de la señal de audio;

en el que el determinador de parámetro está configurado para determinar el parámetro de modelo de variación de tono de manera que el modelo de variación de dominio de la transformada parametrizado se adapta al primer conjunto de parámetros del dominio de la transformada y el segundo conjunto de parámetros del dominio de la transformada;

en el que el parámetro de modelo de variación de tono describe una variación temporal de un tono de la señal de audio de entrada; y

un procesador de señal deformada en el tiempo configurado para realizar un muestreo de señal deformada en el tiempo de la señal de audio de entrada usando el parámetro de variación de tono para un ajuste de la deformación en el tiempo.

Codificador de audio deformado en el tiempo para la codificación deformada en el tiempo de una señal de audio de entrada, comprendiendo el codificador de audio deformado en el tiempo:

un aparato (100) para obtener un parámetro que describe una variación temporal de una característica de señal de una señal de audio, sobre la base de parámetros del dominio de la transformada real (120) de una representación en el dominio de la transformada de la señal de audio que describe la señal de audio en un dominio de la transformada, comprendiendo el aparato:

un determinador de parámetro (130) configurado para determinar uno o más parámetros de un modelo de variación de dominio de la transformada (130a; 130c), describiendo el modelo de variación una evolución de parámetros del dominio de la transformada en dependencia del uno o más parámetros de modelo (140), de manera que un error de modelo, que representa una desviación entre una evolución modelada de los parámetros del dominio de la transformada y una evolución de los parámetros del dominio de la transformada real, se lleva por debajo de un valor umbral predeterminado o se minimiza;

en el que el aparato (100) está configurado para obtener información de autocovarianza como parámetros del dominio de la transformada (Q(k,t)=q^k, Q(-k,t)=q^-k) que describen una autocovarianza de la señal de audio para una ventana de autocovarianza individual pero para diferentes valores de retardo de autocovarianza.

para evaluar, para una pluralidad de diferentes pares de valores de retardo de autocovarianza (-k,k), diferencias ponderadas (k²(q^k -q^-k)) entre los pares de valores de autocovarianza,

en el que la ponderación se elige en dependencia de una diferencia (2k) de los valores de retardo de los respectivos pares de valores de retardo, y en dependencia de una variación (q'^-k) de los valores de autocovarianza con respecto a retardo,

para sumar-combinar diferentes valores de diferencia ponderados, para obtener un valor de combinación, y

para obtener el uno o más parámetros de modelo (140), incluyendo un parámetro de modelo de variación de tono que describe una variación de tono temporal de la señal de audio de entrada, sobre la base del valor de combinación; y

un procesador de señal deformada en el tiempo configurado para realizar un muestreo de señal deformada en el tiempo de la señal de audio de entrada usando el parámetro de variación de tono para un ajuste de la deformación en el tiempo.