ES2254155T3 - Procedimiento y aparato para realizar el seguimiento de la fase de una señal casi periodica. - Google Patents
Procedimiento y aparato para realizar el seguimiento de la fase de una señal casi periodica.Info
- Publication number
- ES2254155T3 ES2254155T3 ES00912054T ES00912054T ES2254155T3 ES 2254155 T3 ES2254155 T3 ES 2254155T3 ES 00912054 T ES00912054 T ES 00912054T ES 00912054 T ES00912054 T ES 00912054T ES 2254155 T3 ES2254155 T3 ES 2254155T3
- Authority
- ES
- Spain
- Prior art keywords
- phase
- voice
- periodic
- signal
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/223—Analysis of motion using block-matching
- G06T7/231—Analysis of motion using block-matching using full search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Closed-Circuit Television Systems (AREA)
- Picture Signal Circuits (AREA)
- Television Systems (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Image Analysis (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Procedimiento para realizar el seguimiento de la fase de una señal que es periódica durante algunas tramas y no periódica durante otras tramas, que comprende las etapas siguientes: estimar la fase de la señal en las tramas durante las cuales la señal es periódica; supervisar el rendimiento de la fase estimada con una medida de rendimiento de bucle cerrado; medir la fase de la señal en las tramas durante las cuales la señal es periódica; proporcionar una fase de salida que es la fase estimada cuando el rendimiento de la fase estimada se encuentra por debajo de un nivel umbral predefinido; y proporcionar la fase de salida que es la fase medida cuando el rendimiento de la fase estimada se encuentra por encima del nivel umbral predefinido.
Description
Procedimiento y aparato para realizar el
seguimiento de la fase de una señal casi periódica.
La presente invención se refiere en general al
campo del procesamiento de voz y, más particularmente, a un
procedimiento y un aparato para realizar el seguimiento de la fase
de una señal casi periódica.
La transmisión de voz mediante técnicas digitales
ha experimentado una amplia difusión, particularmente, en las
aplicaciones de radioteléfonos de larga distancia y digitales. Esto,
a su vez, ha generado un interés por la determinación de la cantidad
mínima de información que puede enviarse a través de un canal,
mientras se mantiene la calidad percibida de la voz reconstruida. Si
la transmisión de la voz se realiza mediante muestreo y
digitalización simplemente, se necesita una velocidad de transmisión
de datos del orden de sesenta y cuatro kilobits por segundo (kbit/s)
para obtener la calidad de voz de un teléfono analógico
convencional. No obstante, mediante la utilización del análisis de
voz, seguida de una codificación, una transmisión y una resíntesis
adecuada en el receptor, puede conseguirse una reducción
significativa de la velocidad de transmisión de datos.
Los dispositivos que emplean técnicas para
comprimir voz extrayendo parámetros que se refieren a un modelo de
generación de voz humana se denominan codificadores de voz. Un
codificador de voz divide la señal de voz de entrada en bloques de
tiempo o tramas de análisis. Los codificadores de voz suelen
comprender un codificador y un decodificador. El codificador analiza
la trama de voz de entrada para extraer ciertos parámetros
relevantes y, a continuación, cuantifica los parámetros para obtener
una representación binaria (un conjunto de bits o un paquete de
datos binarios). Los paquetes de datos se transmiten a través del
canal de comunicación hasta un receptor y un decodificador. El
decodificador procesa los paquetes de datos, los decuantifica para
obtener los parámetros y resintetiza las tramas de voz mediante los
parámetros decuantificados.
La función del codificador de voz consiste en
comprimir la señal de voz digitalizada en una señal de baja
velocidad binaria, eliminando todas las redundancias naturales
inherentes al habla. La compresión digital se realiza representando
la trama de voz de entrada con un conjunto de parámetros y empleando
la cuantificación para representar los parámetros con un conjunto de
bits. Si la trama de voz de entrada presenta un número de bits
N_{i} y el paquete de datos obtenido por el codificador de voz
presenta un número de bits N_{o}, el factor de compresión
conseguido por el codificador de voz es C_{r} = N_{i}/N_{o}.
El objetivo pretendido es mantener una alta calidad de la voz
decodificada y alcanzar, al mismo tiempo, el factor de compresión
deseado. El rendimiento de un codificador de voz depende de (1) qué
grado de corrección alcanza el modelo de voz, o la combinación del
procedimiento de análisis y síntesis descritos anteriormente y (2)
qué grado de corrección alcanza el procedimiento de cuantificación
de parámetros a la velocidad binaria pretendida de N_{o} bits por
trama. El objetivo del modelo de voz es, pues, captar la esencia de
la señal de voz, o la calidad de voz pretendida, con un pequeño
conjunto de parámetros para cada trama.
Los codificadores de voz pueden implementarse
como codificadores del dominio del tiempo, que tratan de captar la
forma de onda de voz en el dominio del tiempo empleando un
procesamiento de alta resolución temporal para codificar algunos
pequeños segmentos de voz (habitualmente, subtramas de 5
milisegundos (ms)) cada vez. Para cada subtrama, se halla un
representante de alta precisión de un espacio de libro de código,
por medio de diversos algoritmos de búsqueda conocidos en la
técnica. Como alternativa, los codificadores de voz pueden
implementarse como codificadores del dominio de la frecuencia, que
tratan de captar el espectro de voz a corto plazo de la trama de
voz de entrada con un conjunto de parámetros (análisis), y que
emplean un correspondiente procedimiento de síntesis para recrear la
forma de onda de la voz a partir de los parámetros espectrales. El
cuantificador de parámetros conserva los parámetros representándolos
con representaciones almacenadas de vectores de código, según
técnicas de cuantificación conocidas descritas en el documento de A.
Gersho y R.M. Gray Vector Quantization and Signal Compressión
(1992).
Un codificador de voz del dominio del tiempo muy
conocido es el codificador de predicción lineal con excitación por
código (CELP) descrito en el documento de L.B. Rabiner y R.W.
Schafer Digital Processing of Speech Signals,
396-453 (1978), que se incluye por completo en la
presente memoria a título de referencia. En un codificador CELP, las
correlaciones o redundancias a corto plazo de la señal de voz son
eliminadas mediante un análisis de predicción lineal (LP) que halla
los coeficientes de un filtro de formantes a corto plazo. Cuando se
aplica el filtro de predicción a corto plazo a la trama de voz de
entrada, se genera una señal de residuo LP, que se modeliza y
cuantifica además con parámetros de filtro de predicción a largo
plazo y un subsiguiente libro de código estocástico. Por lo tanto,
la codificación CELP divide la tarea de codificar la forma de onda
de voz en el dominio del tiempo en las tareas separadas de codificar
los coeficientes de filtro LP a corto plazo y codificar el residuo
LP. La codificación en el dominio del tiempo puede realizarse a una
velocidad fija (es decir, utilizando el mismo número de bits,
N_{0,} para cada trama) o a una velocidad variable (utilizando
diferentes velocidades binarias para diferentes tipos de contenido
de trama). Los codificadores de velocidad variable tratan de
utilizar sólo la cantidad de bits necesaria para codificar los
parámetros del códec hasta el nivel adecuado para obtener la calidad
pretendida. Se describe un ejemplo de codificador CELP de velocidad
variable en la patente US nº 5.414.796, cedida al cesionario de la
presente
invención.
invención.
Los codificadores del dominio del tiempo, tales
como el codificador CELP, suelen basarse en un gran número de bits,
N_{0}, por trama para mantener la precisión de la forma de onda de
voz en el dominio del tiempo. Dichos codificadores suelen
proporcionar una calidad de voz excelente, siempre y cuando el
número de bits, N_{0}, por trama sea relativamente grande (por
ejemplo, 8 kbit/s o más). No obstante, a velocidades binarias bajas
(4 kbit/s o menos), los codificadores del dominio del tiempo no
consiguen mantener ni una alta calidad ni un funcionamiento estable
debido al número limitado de bits disponibles. A bajas velocidades
binarias, el limitado espacio de libro de código recorta la
capacidad de concordancia de formas de onda de los codificadores
del dominio del tiempo convencionales, que se utilizan de forma muy
satisfactoria en las aplicaciones comerciales de velocidades más
altas.
Actualmente, se ha producido un repentino aumento
del interés por la investigación y de las necesidades comerciales
para diseñar un codificador de voz de alta calidad que funcione a
velocidades binarias del rango intermedio-bajo (es
decir, de 2,4 a 4 kbit/s e inferiores). Las áreas de aplicación
incluyen la telefonía inalámbrica, las comunicaciones por satélite,
la telefonía por Internet, aplicaciones multimedia y de reproducción
de voz en tiempo real diversas, correo de voz y otros sistemas de
almacenamiento de voz. Este impulso proviene de la necesidad de
disponer de una alta capacidad y de disponer de un funcionamiento
estable en situaciones de pérdida de paquetes. Los recientes
esfuerzos diversos de normalización de la codificación de la voz
constituyen otra fuerza impulsora para la investigación y el diseño
de algoritmos de codificación de voz a baja velocidad. Los
codificadores de voz de baja velocidad crean más canales, o
usuarios, por ancho de banda de aplicación admisible, y los
codificadores de voz de baja velocidad acoplados a una capa
adicional de codificación de canal adecuada pueden adaptarse al
cálculo de bits global de las especificaciones del codificador y
proporcionar un funcionamiento estable en condiciones de error del
canal.
Para la codificación a velocidades binarias
inferiores, se han diseñado diversos procedimientos de codificación
de voz espectral, o en el dominio de la frecuencia, en los que la
señal de voz se analiza como una evolución de variación temporal de
los espectros (véase, por ejemplo, el documento Sinusoidal
Coding de R.J. McAulay y T.F. Quatieri, en Speech Coding and
Synthesis, cap. 4 (W.B. Kleijn y K.K. Paliwal eds., 1995). En
los codificadores espectrales, el objetivo es modelizar, o
predecir, el espectro de voz a corto plazo de cada trama de voz de
entrada con un conjunto de parámetros espectrales, en lugar de
imitar con precisión la forma de onda de voz variable con el tiempo.
A continuación, los parámetros espectrales se codifican, y se crea
una trama de voz de salida con los parámetros decodificados. La voz
sintetizada resultante no concuerda con la forma de onda de la voz
de entrada original, pero su calidad percibida es similar. Los
ejemplos de codificadores del dominio de la frecuencia que son muy
conocidos en la técnica incluyen los codificadores con excitación
multibanda (MBE), los codificadores de transformación sinusoidal
(STC) y los codificadores de armónicos (HC). Dichos codificadores
del dominio de la frecuencia ofrecen un modelo paramétrico de alta
calidad que presenta un conjunto de parámetros compacto que puede
ser cuantificado con precisión con el reducido número de bits
disponibles a bajas velocidades binarias.
A pesar de todo, la codificación a baja velocidad
binaria impone la restricción crucial de una limitada resolución de
codificación, o un limitado espacio de libro de código, hecho que
limita la eficacia de los mecanismos de codificación individuales,
incapacitando al codificador para representar con la misma precisión
diversos tipos de segmentos de voz en diversas condiciones
ambientales. Por ejemplo, los codificadores del dominio de la
frecuencia de baja velocidad binaria convencionales no transmiten
información de fase para las tramas de voz. En su lugar, la
información de fase se reconstruye utilizando un valor de fase
inicial aleatorio generado artificialmente y técnicas de
interpolación lineal (véase, por ejemplo, el documento de H.Yang
et al., Quadratic Phase Interpolation for Voiced Speech
Synthesis in the MBE Model, en 29 Electronic Letters,
856-57 (mayo de 1993). Debido a que la información
de fase se genera artificialmente, aunque las amplitudes de las
sinusoides se conserven perfectamente mediante el procedimiento de
cuantificación-decuantificación, la voz de salida
generada por el codificador del dominio de la frecuencia no se
alineará con la voz de entrada original (es decir, los impulsos
principales no estarán sincronizados). Por consiguiente, la adopción
de alguna medida de rendimiento de bucle cerrado, tal como la
relación señal-ruido (SNR) o la SNR perceptiva,
resulta difícil en los codificadores del dominio de la
frecuencia.
Se han empleado técnicas de codificación
multimodo para realizar la codificación de voz a baja velocidad en
conjunción con un procedimiento de decisión de modo de bucle
abierto. Una de dichas técnicas de codificación multimodo se
describe en el documento Multimode and
Variable-Rate Coding of Speech, de Amitava Das
et al., en Speech Coding and Synthesis, cap. 7 (W.B.
Kleijn y K.K. Paliwal eds., 1995). Los codificadores multimodo
convencionales aplican diferentes modos, o algoritmos de
codificación-decodificación, a diferentes tipos de
tramas de voz de entrada. Cada modo, o procedimiento de
codificación-decodificación, se personaliza para que
represente un determinado tipo de segmento de voz, tal como voz
sonora, voz sorda o ruido de fondo (no voz) de la manera más eficaz.
Un mecanismo de decisión de modo de bucle abierto externo examina la
trama de voz de entrada y decide qué modo debe aplicar a la trama.
La decisión de modo de bucle abierto se suele tomar extrayendo un
número de parámetros de la trama de entrada, evaluando los
parámetros relativos a ciertas características temporales y
espectrales y basando la decisión de modo en la evaluación. Por lo
tanto, la decisión de modo se toma sin conocer de antemano la
condición exacta de la voz de salida, es decir, qué grado de
concordancia tendrá la voz de salida con la voz de entrada en
términos de calidad de voz u otras medidas de rendimiento.
De acuerdo con lo indicado, será deseable
proporcionar un codificador del dominio de la frecuencia de baja
velocidad binaria que calcule con más precisión la información de
fase. También será ventajoso proporcionar un codificador multimodo
de dominio mixto para codificar en el dominio del tiempo ciertas
tramas de voz, y codificar en el dominio de la frecuencia otras
tramas de voz, basándose en el contenido de voz de las tramas.
También será deseable proporcionar un codificador de dominio mixto
que pueda codificar ciertas tramas de voz en el dominio del tiempo,
y codificar otras tramas en el dominio de la frecuencia según un
mecanismo de decisión de modo de codificación de bucle cerrado.
Finalmente, también sería ventajoso proporcionar un codificador de
voz multimodo de dominio mixto y bucle cerrado que asegure la
sincronización de tiempos entre la voz de salida generada por el
codificador y la voz original introducida en el codificador. Dicho
codificador de voz se describe en una solicitud de patente US
relacionada, nº 09/259.151, presentada el 26 de febrero de 1999,
titulada "CLOSED-LOOP MULTIMODE
MIXED-DOMAIN LINEAR PREDITCION (MDLP) SPEECH
CODER" y cedida al cesionario de la presente invención.
También sería deseable proporcionar un
procedimiento para asegurar la sincronización de tiempos entre la
voz de salida generada por un codificador y la voz original
introducida en el codificador. Por lo tanto, se plantea la necesidad
de disponer de un procedimiento para realizar el seguimiento preciso
de la fase de una señal casi periódica.
La presente invención, definida por las
reivindicaciones independientes adjuntas, se refiere a un
procedimiento para realizar un seguimiento preciso de la fase de una
señal casi periódica. En consecuencia, según un aspecto de la
presente invención, un procedimiento para realizar el seguimiento de
la fase de una señal que es periódica durante algunas tramas y no
periódica durante otras tramas comprende ventajosamente las etapas
de estimación la fase de la señal en las tramas durante las cuales
la señal es periódica; supervisar el rendimiento de la fase
estimada con una medida de rendimiento de bucle cerrado, y medir la
fase de la señal en las tramas durante las cuales la señal es
periódica y el rendimiento de la fase estimada se encuentra por
debajo de un nivel umbral predefinido.
Según otro aspecto de la presente invención, un
dispositivo para realizar el seguimiento de la fase de una señal que
es periódica durante algunas tramas y no periódica durante otras
tramas comprende ventajosamente unos medios para estimar la fase de
la señal en las tramas durante las cuales la señal es periódica;
unos medios para supervisar el rendimiento de la fase estimada con
una medida de rendimiento de bucle cerrado y unos medios para medir
la fase de la señal en las tramas durante las cuales la señal es
periódica y el rendimiento de la fase estimada se encuentra por
debajo de un nivel umbral predefinido.
La Figura 1 es un diagrama de bloques de un canal
de comunicación, cada extremo del cual termina con un codificador de
voz.
La Figura 2 es un diagrama de bloques de un
codificador que puede utilizarse en un codificador de voz multimodo
de predicción lineal y dominio mixto (MDLP).
La Figura 3 es un diagrama de bloques de un
decodificador que puede utilizarse en un codificador de voz
multimodo MDLP.
La Figura 4 es un diagrama de flujo que ilustra
las etapas de codificación MDLP realizadas por un codificador MDLP
que puede utilizarse en el codificador de la Figura 2.
La Figura 5 es un diagrama de flujo que ilustra
un procedimiento de decisión de codificación de voz.
La Figura 6 es un diagrama de bloques de un
codificador de voz multimodo MDLP de bucle cerrado.
La Figura 7 es un diagrama de bloques de un
codificador espectral que puede utilizarse en el codificador de la
Figura 6 o el codificador de la Figura 2.
La Figura 8 es un gráfico
amplitud-frecuencia, que ilustra las amplitudes de
las sinusoides en un codificador de armónicos.
La Figura 9 es un diagrama de flujo que ilustra
un procedimiento de decisión de modo en un codificador de voz
multimodo MDLP.
La Figura 10A es un gráfico amplitud de
señal-tiempo, y la Figura 10B es un gráfico amplitud
de residuo de predicción lineal (LP)-tiempo.
La Figura 11A es un gráfico velocidad/modo-índice
de trama según una decisión de codificación de bucle cerrado, la
Figura 11B es un gráfico relación señal/ruido perceptiva
(PSNR)-índice de trama según una condición de bucle cerrado y la
Figura 11C es un gráfico velocidad/modo y PSNR-índice de trama en
ausencia de una decisión de codificación de bucle cerrado.
La Figura 12 es un diagrama de bloques de un
dispositivo para realizar el seguimiento de la fase de una señal
casi periódica.
En la Figura 1, un primer codificador 10 recibe
muestras de voz digitalizadas s(n) y codifica las muestras
s(n) para transmitirlas en un medio de transmisión 12, o
canal de comunicación 12, a un primer decodificador 14. El
decodificador 14 decodifica las muestras de voz codificadas y
sintetiza una señal de voz de salida s_{SYNTH}(n). Para la
transmisión en la dirección opuesta, un segundo codificador 16
codifica las muestras de voz digitalizadas s(n), que se
transmiten en un canal de comunicación 18. Un segundo codificador 20
recibe y decodifica las tramas de voz codificadas, generando una
señal de voz sintetizada de salida s_{SYNTH}(n).
Las muestras de voz s(n) representan
señales de voz que han sido digitalizadas y cuantificadas según
cualquiera de los diversos procedimientos conocidos en la técnica,
incluidas, por ejemplo, la modulación por impulsos codificados
(PCM), la ley \mu compandida o la ley A. Como se sabe en la
técnica, las muestras de voz s(n) se organizan en tramas de
datos de entrada, comprendiendo cada trama un número predeterminado
de muestras de voz digitalizadas s(n). En un ejemplo de forma
de realización, se emplea una frecuencia de muestreo de 8 kHz y cada
trama de 20 ms comprende 160 muestras. En las formas de realización
descritas más adelante, es posible variar ventajosamente la
velocidad de transmisión de datos de trama en trama, desde la
velocidad de 8 kbit/s (o velocidad completa) hasta la de 4 kbit/s (o
media velocidad), la de 2 kbit/s (o cuarto de velocidad) y la de 1
kbit/s (u octavo de velocidad). Como alternativa, también pueden
utilizarse otras velocidades de transmisión de datos. En la presente
memoria, se utilizan los términos "velocidad completa" o
"alta velocidad" para referirse en general a las velocidades de
transmisión de datos que son mayores o iguales a 8 kbit/s, y los
términos "media velocidad" o "baja velocidad" para
referirse en general a velocidades de transmisión de datos que son
menores o iguales a 4 kbit/s. La posibilidad de variar la velocidad
de transmisión de datos resulta ventajosa, ya que de esta forma
pueden emplearse velocidades binarias inferiores de forma selectiva
para las tramas que contienen una cantidad de información de voz
relativamente inferior. Como apreciarán los expertos en la materia,
se pueden utilizar otras frecuencias de muestreo, tamaños de trama y
velocidades de transmisión de datos.
El primer codificador 10 y el segundo
decodificador 20 comprenden conjuntamente un primer codificador de
voz o códec de voz. Análogamente, el segundo codificador 16 y el
primer decodificador 14 comprenden conjuntamente un secundo
codificador de voz. Los expertos en la materia sobrentenderán que
los codificadores de voz pueden implementarse con un procesador de
señales digitales (DSP), un circuito integrado de aplicaciones
específicas (ASIC), lógica de compuerta discreta, firmware o
cualquier módulo de software programable convencional y un
microprocesador. El módulo de software puede residir en memoria RAM,
memoria flash, registros o en cualquier otra forma de medios de
almacenamiento grabables conocidos en la técnica. Como alternativa,
el microprocesador puede ser sustituido por cualquier procesador,
controlador o máquina de estados convencional. Se describen ejemplos
de ASIC diseñados específicamente para la codificación de voz en la
patente US nº 5.727.123, cedida al cesionario de la presente
invención e incluida por completo en la presente memoria a título de
referencia, y la solicitud de patente US de nº de serie 08/197.417,
titulada "APPLICATION SPECIFIC INTEGRATED CIRCUIT (ASIC) FOR
PERFORMING RAPID SPEECH COMPRESSION IN A MOBILE TELEPHONE
SYSTEM", presentada el 16 de febrero de 1994, convertida ahora
en la patente US nº 5.784.532, publicada el 21 de julio de 1998 y
cedida al cesionario de la presente invención.
Según una forma de realización representada en la
Figura 2, un codificador multimodo de predicción lineal y dominio
mixto (MDLP) 100 que puede utilizarse en un codificador de voz
comprende un módulo de decisión de modo 102, un módulo de estimación
de altura tonal 104, un módulo de análisis de predicción lineal (LP)
106, un filtro de análisis LP 108, un módulo de cuantificación LP
110 y un codificador de residuo MDLP 112. Las tramas de voz de
entrada
s(n) se proporcionan al módulo de decisión de modo 102, el módulo de estimación de altura tonal 104, el módulo de análisis LP 106 y el filtro de análisis LP 108. El módulo de decisión de modo 102 genera un índice de modo I_{M} y un modo M basándose en la periodicidad y otros parámetros extraídos, tales como la energía, la inclinación espectral, la frecuencia de cruce por cero, etc., de cada trama de voz de entrada s(n). Se describen diversos procedimientos para clasificar tramas de voz según la periodicidad en la solicitud de patente US de nº de serie 08/815.354, titulada "METHOD AND APPARATUS FOR PERFORMING SPEECH FRAME ENCODING MODE SELECTION IN A VARIABLE RATE ENCODING SYSTEM", presentada el 11 de marzo de 1997, convertida ahora en la patente US nº 5.911.128, publicada el 8 de junio de 1999 y cedida al cesionario de la presente invención. Dichos procedimientos se incluyen también en las normas provisionales TIA/EIA IS-127 y TIA/EIA IS-733 de Telecommunication Industry Association Industry.
s(n) se proporcionan al módulo de decisión de modo 102, el módulo de estimación de altura tonal 104, el módulo de análisis LP 106 y el filtro de análisis LP 108. El módulo de decisión de modo 102 genera un índice de modo I_{M} y un modo M basándose en la periodicidad y otros parámetros extraídos, tales como la energía, la inclinación espectral, la frecuencia de cruce por cero, etc., de cada trama de voz de entrada s(n). Se describen diversos procedimientos para clasificar tramas de voz según la periodicidad en la solicitud de patente US de nº de serie 08/815.354, titulada "METHOD AND APPARATUS FOR PERFORMING SPEECH FRAME ENCODING MODE SELECTION IN A VARIABLE RATE ENCODING SYSTEM", presentada el 11 de marzo de 1997, convertida ahora en la patente US nº 5.911.128, publicada el 8 de junio de 1999 y cedida al cesionario de la presente invención. Dichos procedimientos se incluyen también en las normas provisionales TIA/EIA IS-127 y TIA/EIA IS-733 de Telecommunication Industry Association Industry.
El módulo de estimación de altura tonal 104
genera un índice de altura I_{P} y un valor de retardo P_{0}
basándose en cada trama de voz de entrada s(n). El módulo de
análisis LP 106 realiza el análisis de predicción lineal en cada
trama de voz de entrada s(n) para generar un parámetro LP
a. El parámetro LP a se proporciona al módulo de
cuantificación LP 110. El módulo de cuantificación LP 110 recibe
también el modo M y, en consecuencia, realiza el procedimiento de
cuantificación según dicho modo. El módulo de cuantificación LP 110
genera un índice LP I_{LP} y un parámetro LP cuantificado â. El
filtro de análisis LP 108 recibe el parámetro LP cuantificado â
además de la trama de voz de entrada s(n). El filtro de
análisis LP 108 genera una señal de residuo LP R[n], que
representa el error entre las tramas de voz de entrada s(n) y
la voz reconstruida, basándose en los parámetros de predicción
lineal cuantificados â. El residuo
LP R[n], el modo M y el parámetro LP cuantificado â se proporcionan al codificador de residuo MDLP 112. Basándose en estos valores, el codificador de residuo MDLP 112 genera un índice de residuo I_{R} y una señal de residuo cuantificado \hat{R}[n], según las etapas descritas más adelante con referencia al diagrama de flujo de la figura 4.
LP R[n], el modo M y el parámetro LP cuantificado â se proporcionan al codificador de residuo MDLP 112. Basándose en estos valores, el codificador de residuo MDLP 112 genera un índice de residuo I_{R} y una señal de residuo cuantificado \hat{R}[n], según las etapas descritas más adelante con referencia al diagrama de flujo de la figura 4.
En la Figura 3, un decodificador 200 que puede
utilizarse en un codificador de voz incluye un módulo de
decodificación de parámetro LP 202, un módulo de decodificación de
residuo 204, un módulo de decodificación de modo 206 y un filtro de
síntesis LP 208. El módulo de decodificación de modo 206 recibe y
decodifica un índice de modo I_{M}, obteniendo a partir de éste un
modo M. El módulo de decodificación de parámetro LP 202 recibe el
modo M y un índice LP I_{LP}. El módulo de decodificación de
parámetro LP 202 decodifica los valores recibidos para obtener un
parámetro LP cuantificado â. El módulo de decodificación de residuo
204 recibe un índice de residuo I_{R}, un índice de altura tonal
I_{P} y el índice de modo I_{M}. El módulo de decodificación de
residuo 204 decodifica los valores recibidos para generar una señal
de residuo cuantificado \hat{R}[n]. La señal de residuo
cuantificado \hat{R}[n] y el parámetro LP cuantificado â se
proporcionan al filtro de síntesis LP 208, que sintetiza una señal
de voz de salida decodificada \hat{s}[n] a partir de
éstos.
A excepción del codificador de residuo MDLP 112,
el funcionamiento y la implementación de los diversos módulos del
codificador 100 de la Figura 2 y el decodificador 200 de la Figura 3
son conocidos en la técnica y se describen en la patente US nº
5.414.796 mencionada anteriormente y en el documento de L.B. Rabiner
y R.W. Schafer Digital Processing of Speech Signals,
396-453 (1978).
Según una forma de realización, un codificador
MDLP (no representado) realiza las etapas representadas en el
diagrama de flujo de la Figura 4. El codificador MDLP podría ser el
codificador de residuo MDLP 112 de la Figura 2. En la etapa 300, el
codificador MDLP comprueba si el modo M es de velocidad completa
(FR), cuarto de velocidad (QR) u octavo de velocidad (ER). Si el
modo M es FR, QR o ER, el codificador MDLP continúa por la etapa
302. En la etapa 302, el codificador MDLP aplica la correspondiente
velocidad (FR, QR o ER, dependiendo del valor de M) al índice de
residuo I_{R}. La codificación en el dominio del tiempo, que para
el modo FR es una codificación de alta velocidad y alta precisión
que puede ser ventajosamente la codificación CELP, se aplica a una
trama de residuo LP o, como alternativa, a una trama de voz. A
continuación, la trama se transmite (después de un procesamiento de
señal adicional, que incluye la conversión
digital-analógica y la modulación). En una forma de
realización, la trama es una trama de residuo LP que representa el
error de predicción. En una forma de realización alternativa, la
trama es una trama de voz que representa muestras de voz.
Por otra parte, si en la etapa 300 el modo M no
es ni FR ni QR ni ER (es decir, el modo M es de media velocidad
(HR)), el codificador MDLP continúa por la etapa 304. En la etapa
304, se aplica codificación espectral, que ventajosamente es
codificación de armónicos, a media velocidad al residuo LP o, como
alternativa, a la señal de voz. A continuación, el codificador MDLP
continúa por la etapa 306. En la etapa 306, se obtiene una medida de
distorsión D decodificando la voz codificada y comparándola con la
trama de entrada original. Entonces, el codificador MDLP continúa
por la etapa 308. En la etapa 308, la medida de distorsión D se
compara con un valor umbral predefinido T. Si la medida de
distorsión D es superior al umbral T, los correspondientes
parámetros cuantificados para la trama codificada espectralmente a
media velocidad se modulan y transmiten. Por otra parte, si la
medida de distorsión D no es superior al umbral T, el codificador
MDLP continúa por la etapa 310. En la etapa 310, la trama
decodificada se vuelve a codificar en el dominio del tiempo a
velocidad completa. Puede utilizarse cualquier algoritmo de
codificación de alta velocidad y alta precisión convencional (puede
ser ventajosamente un algoritmo de codificación CELP). Entonces, los
parámetros cuantificados de modo FR asociados a la trama se
demodulan y transmiten.
Como se ilustra en el diagrama de flujo de la
Figura 5, un codificador de voz multimodo MDLP de bucle cerrado
según una forma de realización sigue un conjunto de etapas para
procesar las muestras de voz que se van a transmitir. En la etapa
400, el codificador de voz recibe muestras digitales de una señal de
voz en tramas consecutivas. Tras recibir una trama dada, el
codificador de voz continúa por la etapa 402. En la etapa 402, el
codificador de voz detecta la energía de la trama. La energía es una
medida de la actividad vocal de la trama. La detección de voz se
realiza sumando los cuadrados de las amplitudes de las muestras de
voz digitalizadas y comparando la energía resultante con un valor
umbral. En una forma de realización, el valor umbral se adapta de
acuerdo con el nivel cambiante del ruido de fondo. Se describe un
ejemplo de detector de actividad vocal de umbral variable en la
patente US nº 5.414.796 mencionada anteriormente. Algunos sonidos de
voz sorda pueden ser muestras de energía sumamente baja que pueden
codificarse erróneamente como ruido de fondo. Para impedir que esto
suceda, puede utilizarse la inclinación espectral de las muestras de
baja energía para diferenciar la voz sorda del ruido de fondo, como
se describe en la patente US nº 5.414.796 mencionada
anteriormente.
Una vez detectada la energía de la trama, el
codificador de voz continúa por la etapa 404. En la etapa 404, el
codificador de voz determina si la energía de la trama detectada es
suficiente para clasificar la trama como una trama que contiene
información de voz. Si la energía de la trama detectada está por
debajo de un nivel umbral predefinido, el codificador de voz
continúa por la etapa 406. En la etapa 406, el codificador de voz
codifica la trama como ruido de fondo (es decir, como no voz o
silencio). En una forma de realización, la trama de ruido de fondo
se codifica en el dominio del tiempo a 1/8 de velocidad o 1 kbit/s.
Si en la etapa 404 la energía de la trama detectada alcanza o
sobrepasa el nivel umbral predefinido, la trama se clasifica como
trama de voz y el codificador de voz continúa por la etapa 408.
En la etapa 408, el codificador de voz determina
si la trama es periódica. Varios de los procedimientos conocidos
para determinar la periodicidad incluyen, por ejemplo, la
utilización de los cruces por cero y la utilización de funciones de
autocorrelación normalizada (NACF). En particular, la utilización de
cruces por cero y NACF para detectar la periodicidad se describe en
la solicitud de patente US de nº de serie 08/815.354, titulada
"METHOD AND APPARATUS FOR PERFORMING SPEECH FRAME ENCODING MODE
SELECTION IN A VARIABLE RATE ENCODING SYSTEM", presentada el 11
de marzo de 1997, convertida ahora en la patente US nº 5.911.128,
publicada el 8 de junio de 1999, cedida al cesionario de la presente
invención e incorporada por completo en la presente memoria a título
de referencia. Además, los procedimientos anteriores utilizados para
diferenciar la voz sonora de la voz sorda se incluyen en las normas
provisionales TIA/EIA IS-127 y TIA/EIA
IS-733 de Telecommunication Industry Association
Industry. Si se determina que la trama no es periódica en la etapa
408, el codificador de voz continúa por la etapa 410. En la etapa
410, el codificador de voz codifica la trama como una trama de voz
sorda. En una forma de realización, las tramas de voz sorda se
codifican en el dominio del tiempo a 1/4 de velocidad o 2 kbit/s. Si
en la etapa 408 se determina que la trama es periódica, el
codificador de voz continúa por la etapa 412.
En la etapa 412, el codificador de voz determina
si la trama es suficientemente periódica, mediante procedimientos de
detección de periodicidad conocidos en la técnica, tales como los
descritos, por ejemplo, en la patente US nº 5.911.128 mencionada
anteriormente. Si se determina que la trama no es suficientemente
periódica, el codificador de voz continúa por la etapa 414. En la
etapa 414, la trama se codifica en el dominio del tiempo como una
trama de voz de transición (es decir, de transición de voz sorda a
voz sonora). En una forma de realización, la trama de voz de
transición se codifica en el dominio del tiempo a velocidad completa
u 8 kbit/s.
Si en la etapa 412, el codificador de voz
determina que la trama es suficientemente periódica, el codificador
de voz continúa por la etapa 416. En la etapa 416, el codificador de
voz codifica la trama como una trama de voz sonora. En una forma de
realización, las tramas de voz sonora se codifican espectralmente a
media velocidad o 4 kbit/s. De forma ventajosa, las tramas de voz
sonora se codifican espectralmente con un codificador de armónicos,
como se describe más adelante con referencia a la Figura 7. Por otra
parte, pueden utilizarse otros codificadores espectrales, tales como
los codificadores de transformación sinusoidal o los codificadores
con excitación multibanda conocidos en la técnica. A continuación,
el codificador de voz continúa por la etapa 418. En la etapa 418,
el codificador de voz decodifica la trama de voz sonora codificada.
Entonces, el codificador de voz continúa por la etapa 420. En la
etapa 420, la trama de voz sonora decodificada se compara con las
correspondientes muestras de voz de entrada para esa trama para
obtener una medida de la distorsión de la voz sintetizada y para
determinar si el modelo de codificación espectral de voz sonora de
me-
dia velocidad está funcionando dentro de límites aceptables. El codificador de voz continúa entonces por la etapa 422.
dia velocidad está funcionando dentro de límites aceptables. El codificador de voz continúa entonces por la etapa 422.
En la etapa 422, el codificador de voz determina
si el error entre la trama de voz sonora decodificada y las muestras
de voz de entrada correspondientes a esa trama está por debajo de un
valor umbral predefinido. Según una forma de realización, esta
determinación se realiza de la manera descrita más adelante con
referencia a la Figura 6. Si la distorsión de codificación se
encuentra por debajo del valor umbral predefinido, el codificador de
voz continúa por la etapa 426. En la etapa 426, el codificador de
voz transmite la trama como una trama de voz sonora, mediante los
parámetros de la etapa 416. Si en la etapa 422 la distorsión de
codificación alcanza o supera el valor umbral predefinido, el
codificador de voz continúa por la etapa 414, codificando en el
dominio del tiempo la trama de muestras de voz digitalizadas
recibida en la etapa 400 como voz de transición, a velocidad
completa.
Debe destacarse que las etapas 400 a 410
comprenden un modo de decisión de codificación de bucle abierto. Las
etapas 412 a 426, por otro lado, comprenden un modo de decisión de
codificación de bucle cerrado.
En una forma de realización, representada en la
Figura 6, un codificador de voz multimodo MDLP de bucle cerrado
incluye un convertidor analógico-digital (A/D) 500
acoplado a una memoria tampón de tramas 502 que, a su vez, está
acoplada a un procesador de control 504. Acoplados al procesador de
control 504, están un calculador de energía 506, un detector de voz
sonora 508, un codificador de ruido de fondo 510, un codificador del
dominio del tiempo de alta velocidad 512 y un codificador espectral
de baja velocidad 514. Un decodificador espectral 516 está acoplado
al codificador espectral 514, y un calculador de error 518 está
acoplado al decodificador espectral 516 y al procesador de control
504. Un comparador de umbral 520 está acoplado al calculador de
error 518 y al procesador de control 504. Una memoria tampón 522
está acoplada al codificador espectral 514, al decodificador
espectral 516 y al comparador de umbral 520.
En la forma de realización de la Figura 6, los
componentes del codificador de voz se implementan ventajosamente
como firmware u otro tipo de módulos basados en software en el
codificador de voz, que a su vez reside ventajosamente en un DSP o
un ASIC. Los expertos en la materia sobrentenderán que los
componentes del codificador de voz pueden implementarse igualmente
en otras diversas maneras conocidas. El procesador de control 504
puede ser ventajosamente un microprocesador, o puede implementarse
con un controlador, una máquina de estados o lógica discreta.
En el codificador multimodo de la Figura 6, las
señales de voz se proporcionan al A/D 500. El A/D 500 convierte las
señales analógicas en tramas de muestras de voz digitalizadas,
S(n). Las muestras de voz digitalizadas se proporcionan a la
memoria tampón de tramas 502. El procesador de control 504 obtiene
las muestras de voz digitalizadas de la memoria de tramas 502 y las
proporciona al calculador de energía 506. El calculador de energía
506 calcula la energía, E, de las muestras de voz según la ecuación
siguiente:
E = \sum
\limits^{159}_{n=0}
S^{2}(n)
en la que las tramas son de 20 ms
de longitud y la frecuencia de muestreo es de 8 kHz. La energía
calculada, E, se envía al procesador de control
504.
El procesador de control 504 compara la energía
de voz calculada con un umbral de actividad vocal. Si la energía
calculada está por debajo del umbral de actividad vocal, el
procesador de control 504 dirige las muestras de voz digitalizadas
desde la memoria tampón de tramas 502 hasta el codificador de ruido
de fondo 510. El codificador de ruido de fondo 510 codifica la trama
utilizando el número mínimo de bits necesarios para mantener una
estimación del ruido de fondo.
Si la energía calculada es mayor o igual al
umbral de actividad vocal, el procesador de control 504 dirige las
muestras de voz digitalizadas desde la memoria tampón de tramas 502
hasta el detector de voz sonora 508. El detector de voz sonora 508
determina si la periodicidad de la trama de voz permitirá una
codificación eficaz mediante codificación espectral a baja velocidad
binaria. Los procedimientos para determinar el nivel de periodicidad
en una trama de voz son muy conocidos en la técnica e incluyen, por
ejemplo, la utilización de funciones de autocorrelación normalizada
(NACF) y de los cruces por cero. Éstos y otros procedimientos se
describen en la patente US nº 5.911.128 mencionada
anteriormente.
El detector de voz sonora 508 proporciona una
señal al procesador de control 504, en la que indica si la trama de
voz contiene voz con una periodicidad suficiente como para ser
codificada eficazmente por el codificador espectral 514. Si el
detector de voz sonora 508 determina que la trama de voz carece de
suficiente periodicidad, el procesador de control 504 dirige las
muestras de voz digitalizadas al codificador de alta velocidad 512,
que codifica la voz en el dominio del tiempo a una velocidad de
transmisión de datos máxima predeterminada. En una forma de
realización, la velocidad de transmisión de datos máxima
predeterminada es de 8 kbit/s y el codificador de alta velocidad
512 es un codificador CELP.
Si el detector de voz sonora 508 determina
inicialmente que la señal de voz presenta una periodicidad
suficiente como para ser codificada con eficacia por el codificador
espectral 514, el procesador de control 504 dirige las muestras de
voz digitalizadas desde la memoria tampón de tramas 502 hasta el
codificador espectral 514. Más adelante, se describe en detalle un
ejemplo de codificador espectral con referencia a la Figura 7.
El codificador espectral 514 extrae la frecuencia
de altura tonal estimada, F_{0}, las amplitudes, A_{I}, de los
armónicos de la frecuencia de altura tonal y la información sonora
V_{c}. El codificador espectral 514 proporciona estos parámetros a
la memoria tampón 522 y al decodificador espectral 516. El
decodificador espectral 516 puede ser ventajosamente análogo al
decodificador de los codificadores CELP tradicionales. El
decodificador espectral 516 genera muestras de voz sintetizadas,
\hat{S}(n)
según un formato de decodificación
espectral (descrito más adelante con referencia a la Figura 7) y
proporciona las muestras de voz sintetizadas al calculador de error
518. El procesador de control 504 envía las muestras de voz,
S(n), al calculador de error
518.
El calculador de error 518 calcula el error
mínimo cuadrático (MSE) entre cada muestra de voz, S(n), y
cada correspondiente muestra de voz sintetizada,
\hat{S}(n)
según la ecuación
siguiente:
MSE = \sum
\limits^{159}_{n=0}(S(n)-
\hat{S}(n))^{2}
El MSE calculado se proporciona al comparador de
umbral 520, que determina si el nivel de distorsión se halla dentro
de límites aceptables, es decir, si el nivel de distorsión está por
debajo de un valor umbral predefinido.
Si el MSE calculado se halla dentro de límites
aceptables, el comparador de umbral 520 proporciona la señal a la
memoria tampón de tramas 502 y los datos codificados espectralmente
se proporcionan desde el codificador de voz. En cambio, si el MSE no
se halla dentro de límites aceptables, el comparador de umbral 520
proporciona una señal al procesador de control 504, que, a su vez,
dirige las muestras digitalizadas desde la memoria tampón de tramas
502 hasta el codificador del dominio del tiempo de alta velocidad
512. El codificador del dominio del tiempo 512 codifica las tramas a
una velocidad máxima predeterminada, y el contenido de la memoria
tampón 522 se re-
chaza.
chaza.
En la forma de realización de la Figura 6, el
tipo de codificación espectral empleado es la codificación de
armónicos, descrita más adelante con referencia a la Figura 7, pero,
como alternativa, puede ser cualquier tipo de codificación
espectral, tal como la codificación de transformación sinusoidal o
la codificación con excitación multibanda. La utilización de
codificación con excitación multibanda se describe, por ejemplo, en
la patente US nº 5.195.166, y la utilización de codificación de
transformación sinusoidal se describe, por ejemplo, en la patente US
nº 4.865.068.
Para las tramas de transición y para las tramas
sonoras cuyo valor de umbral de distorsión de fase es igual o
inferior al parámetro de periodicidad, el codificador multimodo de
la Figura 6 emplea ventajosamente la codificación CELP a velocidad
completa u 8 kbit/s, por medio del codificador del dominio del
tiempo de alta velocidad 512. Como alternativa, puede utilizarse
cualquier otra forma conocida de codificación en el dominio del
tiempo a alta velocidad para dichas tramas. Por lo tanto, las tramas
de transición (y las tramas sonoras que no son suficientemente
periódicas) se codifican con una precisión alta, de tal forma que
las formas de onda en la entrada y la salida concuerdan bien y la
información de fase se conserva en buen estado. En una forma de
realización, el codificador multimodo cambia de la codificación
espectral a media velocidad a la codificación CELP a velocidad
completa para una trama, sin tener en cuenta la determinación del
comparador de umbral 520, una vez que se ha procesado un número
predefinido de tramas sonoras consecutivas para las cuales el valor
umbral sobrepasa la medida de periodicidad.
Debe destacarse que, en conjunción con el
procesador de control 504, el calculador de energía 506 y el
detector de voz sonora 508 comprenden decisiones de codificación de
bucle abierto. Por el contrario, en conjunción con el procesador de
control 504, el codificador espectral 514, el decodificador
espectral 516, el calculador de error 518, el comparador de umbral
520 y la memoria tampón 522 comprenden una decisión de codificación
de bucle cerrado.
En una forma de realización, descrita con
referencia a la Figura 7, se utiliza codificación espectral, y
ventajosamente codificación de armónicos, para codificar tramas
sonoras suficientemente periódicas a una velocidad binaria baja. Los
codificadores espectrales se definen generalmente como algoritmos
que tratan de conservar la evolución temporal de las características
espectrales de la voz de una manera perceptivamente significativa,
modelizando y codificando cada trama de voz en el dominio de la
frecuencia. Las partes esenciales de dichos algoritmos son: (1) el
análisis espectral o la estimación de parámetros; (2) la
cuantificación de parámetros y (3) la síntesis de la forma de onda
de la voz de salida con los parámetros decodificados. Por lo tanto,
el objetivo es conservar las características importantes del
espectro de voz a corto plazo con un conjunto de parámetros
espectrales, codificar los parámetros y finalmente sintetizar la voz
de salida mediante los parámetros espectrales decodificados.
Habitualmente, la voz de salida se sintetiza como una suma ponderada
de sinusoides. Las amplitudes, frecuencias y fases de las sinusoides
son los parámetros espectrales estimados durante el análisis.
Aunque el "análisis por síntesis" es una
técnica muy conocida de la codificación CELP, esta técnica no es
explotada en la codificación espectral. La razón principal por la
que el análisis por síntesis no se aplica a los codificadores
espectrales es que, debido a la pérdida de la información de fase
inicial, la energía mínima cuadrática (MSE) de la voz sintetizada
puede ser alta aun cuando el modelo de voz se comporte correctamente
desde un punto de vista perceptivo. Por lo tanto, otra ventaja de
generar con precisión la fase inicial es la capacidad resultante
para comparar directamente las muestras de voz y la voz
reconstruida, que permite determinar si el modelo de voz está
codificando las tramas de voz con precisión.
En la codificación espectral, la trama de voz de
salida se sintetiza según la ecuación siguiente:
S[n] =
S_{v}[n] + S_{uv}[n],
\hskip2cmn = 1, 2..., N
en la que N es el número de
muestras por trama y S_{V} y S_{UV} son los componentes sonoros
y sordos, respectivamente. Un procedimiento síntesis de suma de
sinusoides crea el componente sonoro según la ecuación
siguiente:
S[n] =
\sum\limits^{L}_{k=1} A(k,n)\cdot cos(2 \pi nf_{k} +
\theta(k,n))
en la que L es el número total de
sinusoides, f_{K} son las frecuencias que interesan del espectro a
corto plazo, A(k,n) son las amplitudes de las sinusoides y
\theta(k,n) son las fases de las sinusoides. La amplitud,
la frecuencia y los parámetros de fase se estiman a partir del
espectro a corto plazo de la trama de entrada, mediante un
procedimiento de análisis espectral. El componente sordo puede
crearse junto con la parte sonora en una única síntesis de suma de
sinusoides, o puede calcularse por separado utilizando un
procedimiento de síntesis de voz sorda dedicado y, a continuación,
sumándolo a
S_{v}.
En la forma de realización de la Figura 7, se
utiliza un tipo particular de codificador espectral denominado
codificador de armónicos para codificar espectralmente tramas
sonoras suficientemente periódicas a una velocidad binaria baja. Los
codificadores de armónicos caracterizan la trama como una suma de
sinusoides, analizando segmentos pequeños de la trama. Cada
sinusoide de la suma de sinusoides presenta una frecuencia que es un
múltiplo entero de la altura tonal, F_{0}, de la trama. En una
forma de realización alternativa, en la que el tipo particular de
codificador espectral utilizado es distinto a un codificador de
armónicos, las frecuencias de las sinusoides de cada trama se
obtienen a partir de un conjunto de números reales entre 0 y 2
\pi. En la forma de realización de la Figura 7, las amplitudes y
fases de cada sinusoide de la suma se seleccionan ventajosamente, de
tal forma que la suma presente la mayor concordancia con la señal
durante un período, como se ilustra mediante el gráfico de la Figura
8. Los codificadores de armónicos suelen emplear una clasificación
externa, que marca cada trama de voz de entrada como trama de voz
sonora o sorda. Para una trama sonora, las frecuencias de las
sinusoides se restringen a los armónicos de la altura tonal estimada
(F_{0}), es decir, f_{k} = kF_{0}. Para la voz sorda, los
picos del espectro a corto plazo se utilizan para determinar las
sinusoides. Las amplitudes y las fases se interpolan para imitar su
evolución a través de la trama, según las ecuaciones siguientes:
A(k,n)
= C_{1}(k) \text{*} n +
C_{2}(k)
\theta (k,n) =
B_{1}(k) \text{*} n^{2} + B_{2}(k) \text{*} n +
B_{3}(k)
en las que los coeficientes
[Ci(k), Bi(k)] se estiman a partir de los valores
instantáneos de las amplitudes, las frecuencias y las fases en las
ubicaciones de frecuencia especificadas f_{k}(=kf_{0}),
obtenidos de la transformada de Fourier de corto plazo (STFT) de una
trama de voz de entrada enventanada. Los parámetros que se van a
transmitir por sinusoide son la amplitud y la frecuencia. La fase no
se transmite, sino que se modeliza según cualquiera de las diversas
técnicas conocidas, incluidas, por ejemplo, el modelo de fase
cuadrática o cualquier representación polinómica convencional de la
fase.
Como se ilustra en la Figura 7, un codificador de
armónicos incluye un extractor de altura tonal 600 acoplado a la
lógica de enventanado 602 y la lógica de transformada discreta de
Fourier (DTF) y análisis de armónicos 604. El extractor de altura
tonal 600, que recibe muestras de voz, S(n), como entrada,
está acoplado también a la lógica de DFT y análisis de armónicos
604. La lógica de DFT y análisis de armónicos 604 está acoplada a un
codificador de residuo 606. El extractor de altura tonal 600, la
lógica de DFT y análisis de armónicos 604 y el codificador de
residuo 606 están acoplados a un cuantificador de parámetros 608
cada uno. El cuantificador de parámetros 608 está acoplado a un
codificador de canal 610, que, a su vez, está acoplado a un
transmisor 612. El transmisor 612 está acoplado por medio de una
interfaz de radiofrecuencia estándar (RF), tal como una interfaz
aérea de acceso múltiple por división del código (CDMA), a un
receptor 614. El receptor 614 está acoplado a un decodificador de
canal 616, que, a su vez, está acoplado a un decuantificador 618. El
decuantificador 68 está acoplado a un sintetizador de voz de suma de
sinusoides 620. También acoplado al sintetizador de voz de suma de
sinusoides 620, está un estimador de fase 622, que recibe
información de la trama previa como entrada. El sintetizador de voz
de suma de sinusoides 620 está configurado para generar una salida
de voz sintetizada, S_{SYNTH}(n).
El extractor de altura tonal 600, la lógica de
enventanado 602, la lógica de DFT y análisis de armónicos 604, el
codificador de residuo 606, el cuantificador de parámetros 608, el
codificador de canal 610, el decodificador de canal 616, el
decuantificador 618, el sintetizador de voz de suma de sinusoides
620 y el estimador de fase 622 pueden implementarse en una
diversidad de formas diferentes conocidas por los expertos en la
materia, incluido el firmware o los módulos de software. El
transmisor 612 y el receptor 614 pueden implementarse con cualquier
componente RF estándar equivalente conocido por los expertos en la
materia.
En el codificador de armónicos de la Figura 7, el
extractor de altura tonal 600 recibe muestras de entrada S(n)
y extrae información de frecuencia de altura tonal F_{0}. A
continuación, la lógica de enventanado 602 multiplica las muestras
por una función de enventanado adecuada para permitir el análisis de
segmentos pequeños de una trama de voz. Mediante la información de
altura tonal aportada por el extractor de altura tonal 600, la
lógica de DFT y análisis de armónicos 604 calcula la DFT de las
muestras para generar puntos espectrales complejos a partir de los
cuales se obtienen las amplitudes de los armónicos, A_{1}, como se
ilustra mediante el gráfico de la Figura 8, en el cual L denota el
número total de armónicos. La DFT se proporciona al codificador de
residuo 606, que extrae información de voz sonora, V_{c}.
Debe destacarse que el parámetro V_{c} denota
un punto del eje de las frecuencias, representado en la Figura 8,
por encima del cual el espectro es característico de una señal de
voz sorda y deja de ser armónico. En cambio, por debajo del punto
V_{c}, el espectro es armónico y característico de la voz
sonora.
Los componentes A_{I,} F_{0} y V_{c} se
proporcionan al cuantificador de parámetros 608, que cuantifica la
información. La información cuantificada se proporciona en forma de
paquetes al codificador de canal 610, que cuantifica los paquetes a
baja velocidad binaria (por ejemplo, a media velocidad o 4 kbit/s).
Los paquetes se proporcionan al transmisor 612, que modula los
paquetes y transmite la señal resultante por aire hasta el receptor
614. El receptor 614 recibe y demodula la señal, pasando los
paquetes codificados al decodificador de canal 616. El decodificador
de canal 616 decodifica los paquetes y proporciona los paquetes
decodificados al decuantificador 618. El decuantificador 618
decuantifica la información. La información se proporciona al
sintetizador de voz de suma de sinusoides 620.
El sintetizador de voz de suma de sinusoides 620
está configurado para sintetizar una pluralidad de sinusoides
modelizando el espectro de voz a corto plazo según la ecuación
anterior para S[n]. Las frecuencias de las sinusoides,
f_{k}, son múltiplos o armónicos de la frecuencia fundamental,
F_{0}, que es la frecuencia de la periodicidad de altura tonal
para segmentos de voz sonora casi periódicos (es decir, de
transición).
El sintetizador de voz de suma de sinusoides 620
recibe también información de fase desde el estimador de fase 622.
El estimador de fase 622 recibe información de la trama anterior, es
decir, los parámetros A_{I}, F_{0} y V_{c} para la trama
inmediatamente precedente. El estimador de fase 622 recibe también
las N muestras reconstruidas de la trama anterior, siendo N la
longitud de la trama (es decir, N es el número de muestras por
trama). El estimador de fase 622 determina la fase inicial para la
trama, basándose en la información de la trama anterior. La
determinación de fase inicial se proporciona al sintetizador de voz
de suma de sinusoides 620. Basándose en la información de la trama
actual y el cálculo de fase inicial realizado por el estimador de
fase 622 basándose en la información de la trama anterior, el
sintetizador de voz de suma de sinusoides 620 genera tramas de voz
sintéticas, como se describe anteriormente.
Tal como se ha descrito, los codificadores de
armónicos sintetizan, o reconstruyen, tramas de voz mediante la
información de la trama anterior y la predicción de que la fase
varía linealmente de trama en trama. En el modelo de síntesis
descrito anteriormente, que por lo general se denomina modelo de
fase cuadrática, el coeficiente B_{3}(k) representa la fase
inicial para la trama sonora actual que se está sintetizando. Cuando
se determina la fase, los codificadores de armónicos convencionales
establecen la fase inicial en cero o generan un valor de fase
inicial de forma aleatoria o con algún procedimiento de generación
pseudoaleatorio. Para predecir la fase con más precisión, el
estimador de fase 622 utiliza uno de los dos procedimientos posibles
para la determinación de la fase inicial, dependiendo de si se ha
determinado que la trama inmediatamente precedente era una trama de
voz sonora (es decir, una trama suficientemente periódica) o una
trama de voz de transición. Si la trama anterior era una trama de
voz sonora, el valor de fase final estimado de dicha trama se
utiliza como valor de fase inicial para la trama actual. Por otro
lado, si la trama anterior se ha clasificado como una trama de
transición, el valor de fase inicial para la trama actual se obtiene
del espectro de la trama anterior, que se obtiene realizando una DFT
de la salida del decodificador para la trama anterior. Por lo tanto,
el estimador de fase 622 utiliza la información de fase precisa que
ya está disponible (debido a que la trama anterior, que era una
trama de transición, ha sido procesada a velocidad
completa).
completa).
En una forma de realización, un codificador de
voz multimodo MDLP de bucle cerrado sigue las etapas de
procesamiento de voz ilustradas en el diagrama de flujo de la Figura
9. El codificador de voz codifica el residuo LP de cada trama de voz
de entrada, eligiendo el modo de codificación más adecuado. Ciertos
modos codifican el residuo LP, o el residuo de voz, en el dominio
del tiempo, mientras que otros modos representan el residuo LP, o el
residuo de voz, en el dominio de la frecuencia. El conjunto de modos
es: velocidad completa en el dominio del tiempo para las tramas de
transición (modo T); media velocidad en el dominio de la frecuencia
para las tramas sonoras (modo V); cuarto de velocidad en el dominio
del tiempo para las tramas sordas (modo U) y octavo de velocidad en
el dominio del tiempo para las tramas de ruido (modo N).
Los expertos en la materia observarán que la
señal de voz o el correspondiente residuo LP pueden codificarse
siguiendo las etapas representadas en la Figura 9. Las
características de forma de onda del ruido, la voz sorda, la voz de
transición y la voz sonora pueden observarse como una función del
tiempo en el gráfico de la Figura 10A. Las características de la
forma de onda del residuo LP del ruido, la voz sorda, la voz de
transición y la voz sonora pueden observarse como una función del
tiempo en el gráfico de la Figura 10B.
En la etapa 700, se toma una decisión de modo de
bucle abierto para decidir cuál de los cuatro modos (T, V, U o N)
debe aplicarse al residuo de voz de entrada, S(n). Si va a
aplicarse el modo T, el residuo de voz se procesa según el modo T,
es decir a velocidad completa y en el dominio del tiempo, en la
etapa 702. Si va a aplicarse el modo U, el residuo de voz se procesa
según el modo U, es decir, a cuarto de velocidad y en el dominio del
tiempo, en la etapa 704. Si va a aplicarse el modo N, el residuo de
voz se procesa según el modo N, es decir, a octavo de velocidad y en
el dominio del tiempo, en la etapa 706. Si va a aplicarse el modo V,
el residuo de voz se procesa según el modo V, es decir, a media
velocidad y en el dominio de la frecuencia, en la etapa 708.
En la etapa 710, la voz codificada en la etapa
708 se decodifica y compara con el residuo de voz de entrada,
S(n), y se calcula una medida del rendimiento, D. En la etapa
712, la medida de rendimiento, D, se compara con un valor umbral
predefinido, T. Si la medida de rendimiento, D, es mayor o igual al
umbral, T, se determina que el residuo de voz codificado
espectralmente de la etapa 708 es adecuado para la transmisión, en
la etapa 714. Por otro lado, si la medida de rendimiento, D, es
inferior al umbral, T, el residuo de la voz de entrada, S(n),
se procesa según el modo T, en la etapa 716. En una forma de
realización alternativa, no se calcula ninguna medida de rendimiento
y no se define ningún valor umbral. En su lugar, una vez que se ha
procesado un número predefinido de tramas de residuo de voz según
el modo V, la trama siguiente se procesa según el modo T.
Ventajosamente, las etapas de decisión
representadas en la Figura 9 permiten utilizar el modo T de alta
velocidad binaria sólo cuando es necesario, explotando la
periodicidad de los segmentos de voz sonora con el modo V de
velocidad binaria inferior, e impidiendo al mismo tiempo ningún
decaimiento de la calidad debido al cambio a velocidad completa
cuando el modo V no funciona correctamente. En consecuencia, es
posible generar una voz de calidad sumamente alta cercana a la
calidad de la voz de velocidad completa, a una velocidad media que
es significativamente inferior a la velocidad completa. Por otra
parte, la calidad de voz pretendida puede controlarse mediante la
medida de rendimiento seleccionada y el umbral elegido.
Las "actualizaciones" al modo T mejoran
también el rendimiento de las aplicaciones subsiguientes del modo V,
manteniendo la trayectoria de la fase modelizada cerca de la
trayectoria de la fase de la voz de entrada. Cuando el rendimiento
del modo V es inadecuado, la comprobación de rendimiento de bucle
cerrado de las etapas 710 y 712 cambia al modo T y, por lo tanto, el
rendimiento del subsiguiente procesamiento en modo V mejora mediante
la "renovación" del valor de fase inicial, hecho que permite
que la trayectoria de la fase modelizada se acerque de nuevo a la
trayectoria de la fase de voz de entrada original. A título de
ejemplo, como se representa mediante los gráficos de las Figuras
11A a C, la quinta trama desde el principio no presenta un
comportamiento adecuado en el modo V, como se pone de manifiesto
mediante la medida de la distorsión PSNR utilizada. Por
consiguiente, sin una decisión y una actualización de bucle cerrado,
la trayectoria de fase modelizada se desvía significativamente de la
trayectoria de la fase de la voz de entrada original, provocando una
grave degradación de la PSNR, como se observa en la Figura 11C. Por
otra parte, el comportamiento de las subsiguientes tramas procesadas
según el modo V se degrada. Según una decisión de bucle cerrado, no
obstante, la quinta trama cambia al procesamiento en modo T, como se
representa en la Figura 11A. El comportamiento de la quinta trama
mejora significativamente gracias a la actualización, como pone de
manifiesto la mejora de la PSNR, representada en la Figura 11B.
Además, el comportamiento de las subsiguientes tramas procesadas en
el modo V también mejora.
Las etapas de decisión representadas en la Figura
9 mejoran la calidad de la representación del modo V, proporcionando
un valor de estimación de fase inicial sumamente preciso y
asegurando, así, que la señal de residuo de voz sintetizada en modo
V resultante esté alineada temporalmente de forma precisa con el
residuo de voz de entrada original, S(n). La fase inicial
para el primer segmento de residuo de voz procesado en modo V se
obtiene de la trama decodificada inmediatamente precedente de la
manera descrita a continuación. Para cada armónico, la fase inicial
se iguala a la fase final estimada de la trama precedente si la
trama precedente se ha procesado en el modo V. Para cada armónico,
la fase inicial se iguala a la fase real del armónico de la trama
precedente si la trama precedente se ha procesado en el modo T. La
fase real del armónico de la trama precedente puede calcularse
obteniendo una DFT del pasado residuo decodificado mediante toda la
trama precedente. Como alternativa, la fase real del armónico de la
trama precedente puede calcularse obteniendo una DFT de la pasada
trama decodificada en sincronía de altura tonal, procesando diversos
períodos de altura tonal de la trama prece-
dente.
dente.
En una forma de realización, descrita con
referencia a la Figura 12, se introducen tramas consecutivas de una
señal casi periódica, S, en la lógica de análisis 800. La señal casi
periódica, S, puede ser, por ejemplo, una señal de voz. Algunas
tramas de la señal son periódicas, mientras que otras tramas de la
señal son no periódicas o aperiódicas. La lógica de análisis 800
mide la amplitud de la señal y proporciona la amplitud medida, A. La
lógica de análisis 800 mide también la fase de la señal y
proporciona la fase medida, P. La amplitud, A, se proporciona a la
lógica de síntesis 802. También se pasa un valor de fase, P_{OUT},
a la lógica de síntesis 802. El valor de fase, P_{OUT}, puede ser
el valor de fase medida, P, o puede ser un valor de fase estimada,
P_{EST}, como se describe más abajo. La lógica de síntesis 802
sintetiza una señal y proporciona la señal sintetizada,
S_{SYNTH}.
La señal casi periódica, S, se proporciona
también a la lógica de clasificación 804, que clasifica la señal
como una señal aperiódica o periódica. Para las tramas aperiódicas
de la señal, la fase, P_{OUT}, que se proporciona a la lógica de
síntesis 802 se iguala a la fase medida, P. Las tramas periódicas de
la señal se proporcionan a la lógica de estimación de fase de bucle
cerrado 806. La señal casi periódica, S, se proporciona también a la
lógica de estimación de fase de bucle cerrado 806. La lógica de
estimación de fase de bucle cerrado 806 estima la fase y proporciona
la fase estimada, P_{EST}. La fase estimada se basa en un valor de
fase inicial, P_{INIT}, que se introduce en la lógica de
estimación de fase de bucle cerrado 806. El valor de fase inicial es
el valor de fase final estimado de la trama previa de la señal,
siempre que la trama previa haya sido clasificada como una trama
periódica por la lógica de clasificación 804. Si la trama anterior
ha sido clasificada como una trama aperiódica por la lógica de
clasificación 804, el valor de fase inicial es el valor de fase
medida, P, de la trama anterior.
La fase estimada, P_{EST}, se proporciona a la
lógica de cálculo de error 808. La señal casi periódica, S, se
proporciona también a la lógica de cálculo de error 808. La fase
medida, P, se proporciona también a la lógica de cálculo de error
808. Además, la lógica de cálculo de error 808 recibe una señal
sintetizada, S_{SYNTH}', que ha sido sintetizada por la lógica de
síntesis 802. La señal sintetizada, S_{SYNTH}', es una señal
sintetizada, S_{SYNTH}, que ha sido sintetizada por la lógica de
síntesis 802 cuando la fase introducida en la lógica de síntesis
802, P_{OUT}, es igual a la fase estimada, P_{EST}. La lógica de
cálculo de error 808 calcula una medida de la distorsión, o medida
del error, E, comparando el valor de la fase medida con el valor de
la fase estimada. En una forma de realización alternativa, la lógica
de cálculo de error 808 calcula una medida de la distorsión, o
medida del error, E, comparando la trama de entrada de la señal casi
periódica con la trama sintetizada de la señal casi periódica.
La medida de la distorsión, E, se proporciona a
la lógica de comparación 810. La lógica de comparación 810 compara
la medida de distorsión, E, con un valor umbral predefinido, T. Si
la medida de distorsión, E, es superior al valor umbral predefinido,
T, la fase medida, P, se iguala a P_{OUT}, el valor de fase que se
proporciona a la lógica de síntesis 802. Por otra parte, si la
medida de distorsión, E, no es mayor que el valor umbral
predefinido, T, la fase estimada, P_{EST}, se iguala a P_{OUT},
el valor de fase que se proporciona a la lógica de síntesis 802.
Hasta aquí la descripción de un procedimiento y
un aparato nuevo para realizar el seguimiento de la fase de una
señal casi periódica. Los expertos en la materia sobrentenderán que
los diversos bloques lógicos ilustrativos y las etapas de algoritmo
descritas con referencia a las formas de realización dadas a conocer
en la presente memoria pueden implementarse o realizarse con un
procesador de señales digitales (DSP), un circuito integrado de
aplicaciones específicas (ASIC), una lógica de compuerta o
transistor discreto, componentes de hardware discretos, tales como
registros y un FIFO, un procesador que ejecuta un conjunto de
instrucciones de firmware o cualquier módulo de software
programable convencional y un procesador. El procesador puede ser
ventajosamente un microprocesador, pero como alternativa puede ser
cualquier procesador, controlador, microcontrolador o máquina de
estados convencional. El módulo de software puede residir en memoria
RAM, memoria flash, registros o cualquier otra forma de medios de
almacenamiento grabables conocidos en la técnica. Los expertos
sobrentenderán además que los datos, las instrucciones, los
mandatos, la información, las señales, los bits, los símbolos y los
segmentos a los cuales puede haberse hecho referencia en la
descripción anterior son representados ventajosamente mediante
tensiones, corrientes, ondas electromagnéticas, campos o partículas
magnéticas, campos o partículas ópticas o cualquier
combinación
de éstos.
de éstos.
Por consiguiente, se han representado y descrito
las formas de realización preferidas de la presente invención.
Resultará evidente para los expertos en la materia, sin embargo, que
es posible realizar numerosas modificaciones a las formas de
realización dadas a conocer en la presente memoria sin apartarse por
ello del alcance de la presente invención. Por consiguiente, los
únicos límites a la presente invención son los impuestos por las
reivindicaciones adjuntas.
Claims (19)
1. Procedimiento para realizar el seguimiento de
la fase de una señal que es periódica durante algunas tramas y no
periódica durante otras tramas, que comprende las etapas
siguientes:
estimar la fase de la señal en las tramas durante
las cuales la señal es periódica;
supervisar el rendimiento de la fase estimada con
una medida de rendimiento de bucle cerrado;
medir la fase de la señal en las tramas durante
las cuales la señal es periódica;
proporcionar una fase de salida que es la fase
estimada cuando el rendimiento de la fase estimada se encuentra por
debajo de un nivel umbral predefinido; y
proporcionar la fase de salida que es la fase
medida cuando el rendimiento de la fase estimada se encuentra por
encima del nivel umbral predefinido.
2. Procedimiento según la reivindicación 1, que
comprende además la etapa de medir la fase de la señal en las tramas
durante las cuales la señal es no periódica.
3. Procedimiento según la reivindicación 1, que
comprende además la etapa de determinar si la señal es periódica o
no periódica en una trama determinada con una decisión de
periodicidad de bucle abierto.
4. Procedimiento según la reivindicación 1, en el
que la etapa de estimación comprende la etapa de construir una
representación polinómica de la fase según un modelo de
armónicos.
5. Procedimiento según la reivindicación 1, en el
que la etapa de estimación comprende la etapa de establecer un valor
de fase inicial igual a un valor de fase final estimado de una trama
previa si la trama previa era periódica.
6. Procedimiento según la reivindicación 1, en el
que la etapa de estimación comprende la etapa de establecer un valor
de fase inicial igual a un valor de fase medido de una trama previa
si la trama previa era no periódica.
7. Procedimiento según la reivindicación 6, en el
que el valor de fase medida se obtiene a partir de la transformada
discreta de Fourier (DFT) de la trama anterior.
8. Procedimiento según la reivindicación 1, en el
que la etapa de estimación comprende la etapa de establecer un valor
de fase inicial igual a un valor de fase medida de una trama
anterior si la trama anterior era periódica y el rendimiento de la
fase estimada para la trama anterior se encontraba por debajo del
nivel umbral predefinido.
9. Procedimiento según la reivindicación 8, en el
que el valor de fase medida se obtiene a partir de la transformada
discreta de Fourier (DFT) de la trama anterior.
10. Dispositivo para realizar el seguimiento de
la fase de una señal que es periódica durante algunas tramas y no
periódica durante otras tramas, que comprende:
unos medios (806) para estimar la fase de la
señal en las tramas durante las cuales la señal es periódica;
unos medios (808) para supervisar el rendimiento
de la fase estimada con una medida de rendimiento de bucle
cerrado;
unos medios (800) para medir la fase de la señal
en las tramas durante las cuales la señal es periódica;
unos medios (810) para proporcionar una fase de
salida que es la fase estimada cuando el rendimiento de la fase
estimada se encuentra por debajo de un nivel umbral predefinido;
y
unos medios (810) para proporcionar la fase de
salida que es la fase medida cuando el rendimiento de la fase
estimada se encuentra por encima del nivel umbral predefinido.
11. Dispositivo según la reivindicación 10, que
comprende además unos medios para medir la fase de la señal en las
tramas durante las cuales la señal es no periódica.
12. Dispositivo según la reivindicación 10, que
comprende además unos medios para determinar si la señal es
periódica o no periódica en una trama determinada, con una decisión
de periodicidad de bucle abierto.
13. Dispositivo según la reivindicación 10, en el
que los medios de estimación comprenden unos medios para construir
una representación polinómica de la fase según un modelo de
armónicos.
14. Dispositivo según la reivindicación 10, en el
que los medios de estimación comprenden unos medios para establecer
un valor de fase inicial igual a un valor de fase final estimada de
una trama anterior si la trama anterior era periódica.
15. Dispositivo según la reivindicación 10, en el
que los medios de estimación comprenden unos medios para establecer
un valor de fase inicial igual a un valor de fase medida de una
trama anterior si la trama anterior era no periódica.
16. Dispositivo según la reivindicación 15, en el
que el valor de fase medida se obtiene a partir de la transformada
discreta de Fourier (DFT) de la trama anterior.
17. Dispositivo según la reivindicación 10, en el
que los medios de estimación comprenden unos medios para establecer
un valor de fase inicial igual a un valor de fase medida de una
trama anterior si la trama anterior era periódica y el rendimiento
de la fase estimada para la trama anterior se encontraba por debajo
del nivel umbral predefinido.
18. Dispositivo según la reivindicación 17, en el
que el valor de fase medida se obtiene a partir de la transformada
discreta de Fourier (DFT) de la trama anterior.
19. Dispositivo según cualquiera de las
reivindicaciones 10 a 18, en el que cada uno de dichos medios
comprende una lógica configurada respectivamente.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP99200849 | 1999-03-18 | ||
PCT/EP2000/001556 WO2000057360A1 (en) | 1999-03-18 | 2000-02-25 | Video signal processing |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2254155T3 true ES2254155T3 (es) | 2006-06-16 |
Family
ID=8240004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES00912054T Expired - Lifetime ES2254155T3 (es) | 1999-03-18 | 2000-02-29 | Procedimiento y aparato para realizar el seguimiento de la fase de una señal casi periodica. |
Country Status (8)
Country | Link |
---|---|
US (1) | US6563873B1 (es) |
EP (1) | EP1078332B9 (es) |
JP (1) | JP2002540516A (es) |
KR (1) | KR20010025045A (es) |
AT (1) | ATE315821T1 (es) |
DE (1) | DE60028884T2 (es) |
ES (1) | ES2254155T3 (es) |
WO (1) | WO2000057360A1 (es) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7447337B2 (en) * | 2004-10-25 | 2008-11-04 | Hewlett-Packard Development Company, L.P. | Video content understanding through real time video motion analysis |
WO2009004527A2 (en) * | 2007-07-03 | 2009-01-08 | Koninklijke Philips Electronics N.V. | Computing a depth map |
KR101682137B1 (ko) | 2010-10-25 | 2016-12-05 | 삼성전자주식회사 | 텍스처 및 움직임 감지를 사용한 시간적으로-일관된 변이 추정을 위한 방법 및 장치 |
CN105306077B (zh) * | 2014-06-12 | 2017-12-01 | 中国石油天然气集团公司 | 信号解码方法及装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0397206B1 (en) | 1989-05-12 | 1997-07-30 | Nec Corporation | Adaptive interframe prediction coded video communications system |
SG50718A1 (en) * | 1993-10-11 | 1998-07-20 | Thomson Multimedia Sa | Method and apparatus for correcting motion vectors |
KR0178231B1 (ko) | 1995-08-10 | 1999-05-01 | 배순훈 | 계층적인 움직임 추정 기법을 이용하는 움직임 벡터 검출 방법 및 장치 |
US5526295A (en) * | 1994-12-30 | 1996-06-11 | Intel Corporation | Efficient block comparisons for motion estimation |
EP0720382B1 (en) | 1994-12-30 | 2000-04-12 | Daewoo Electronics Co., Ltd | Variable size block matching motion estimation apparatus |
WO1997009828A1 (en) * | 1995-09-06 | 1997-03-13 | Philips Electronics N.V. | Method and system for coding a sequence of segmented images, corresponding coded signal and storage medium, and method and system for decoding such a coded signal |
US5929940A (en) * | 1995-10-25 | 1999-07-27 | U.S. Philips Corporation | Method and device for estimating motion between images, system for encoding segmented images |
WO1997016030A1 (en) * | 1995-10-25 | 1997-05-01 | Philips Electronics N.V. | Segmented picture coding method and system, and corresponding decoding method and system |
GB9623573D0 (en) * | 1996-11-13 | 1997-01-08 | Philips Electronics Nv | Image segmentation |
BR9805971A (pt) * | 1997-02-06 | 1999-08-31 | Koninkl Philips Electronics Nv | Processo e sistema para segmentação e rastreamento de objetos |
KR100301113B1 (ko) * | 1998-08-05 | 2001-09-06 | 오길록 | 윤곽선 추적에 의한 동영상 객체 분할 방법 |
-
2000
- 2000-02-25 DE DE60028884T patent/DE60028884T2/de not_active Expired - Lifetime
- 2000-02-25 KR KR1020007012979A patent/KR20010025045A/ko active IP Right Grant
- 2000-02-25 JP JP2000607162A patent/JP2002540516A/ja not_active Withdrawn
- 2000-02-25 EP EP00912504A patent/EP1078332B9/en not_active Expired - Lifetime
- 2000-02-25 WO PCT/EP2000/001556 patent/WO2000057360A1/en not_active Application Discontinuation
- 2000-02-29 ES ES00912054T patent/ES2254155T3/es not_active Expired - Lifetime
- 2000-02-29 AT AT00912054T patent/ATE315821T1/de not_active IP Right Cessation
- 2000-03-14 US US09/525,693 patent/US6563873B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US6563873B1 (en) | 2003-05-13 |
WO2000057360A1 (en) | 2000-09-28 |
EP1078332B9 (en) | 2006-08-30 |
KR20010025045A (ko) | 2001-03-26 |
DE60028884D1 (de) | 2006-08-03 |
EP1078332A1 (en) | 2001-02-28 |
JP2002540516A (ja) | 2002-11-26 |
EP1078332B1 (en) | 2006-06-21 |
ATE315821T1 (de) | 2006-02-15 |
DE60028884T2 (de) | 2007-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2269112T3 (es) | Codificador de voz multimodal en bucle cerrado de dominio mixto. | |
US6640209B1 (en) | Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder | |
EP1141947B1 (en) | Variable rate speech coding | |
KR100805983B1 (ko) | 가변율 음성 코더에서 프레임 소거를 보상하는 방법 | |
US7426466B2 (en) | Method and apparatus for quantizing pitch, amplitude, phase and linear spectrum of voiced speech | |
US8244525B2 (en) | Signal encoding a frame in a communication system | |
ES2302754T3 (es) | Procedimiento y aparato para codificacion de habla sorda. | |
ES2274812T3 (es) | Codificador predictivo de voz usando pautas de seleccion de esquemas de codificacion para reducir la sensilibidad de errores de trama. | |
ES2253226T3 (es) | Codigo interpolativo multipulso de tramas de voz. | |
ES2297578T3 (es) | Procedimiento y aparato para submuestrear informacion del espectro de fase. | |
ES2276690T3 (es) | Particion de espectro de frecuencia de una forma de onda prototipo. | |
US6449592B1 (en) | Method and apparatus for tracking the phase of a quasi-periodic signal | |
ES2254155T3 (es) | Procedimiento y aparato para realizar el seguimiento de la fase de una señal casi periodica. | |
EP1259955B1 (en) | Method and apparatus for tracking the phase of a quasi-periodic signal | |
JP2011090311A (ja) | 閉ループのマルチモードの混合領域の線形予測音声コーダ |